Segunda parte

Ensamblaje de secuencias

Guillermo Choque Aspiazu

En palabras de Villanueva, en la tesis de máster escrita el año 2011 titulada “Diagen: Modelado e Implementación de un Framework para el Análisis Personalizado del ADN”, debido a que no es posible secuenciar todo el genoma simultáneamente y obtener un único electroferograma, éste se secuencia por trozos, denominados contigs o segmentos, y posteriormente se realiza un ensamblado de todos ellos. El proceso de secuenciación de un segmento es un proceso costoso que se realiza manualmente. Obtener una secuencia textual completa implica secuenciar, limpiar y corregir una gran cantidad de segmentos. Este es un proceso muy costoso que no aporta la suficiente información como para compensar el esfuerzo y tiempo empleado. Por esa razón, normalmente se selecciona la región del genoma de interés y se secuencia lo necesario. En aquellos casos en los que el objetivo de la secuenciación es realizar un pequeño análisis del acido desoxirribonucleico, únicamente se secuencia lo imprescindible. Los laboratorios no necesitan conocer el genoma completo, así que, las regiones que se suelen seleccionar para secuenciación son unidades más pequeñas del genoma: Los genes o, incluso, los exones de un gen. Para llevar a cabo los análisis de búsqueda de variaciones se secuencian los exones y se prescinde de los intrones. La razón por la que se prescinde de estas regiones es porque las variaciones que ocurren en los intrones no afectan, aunque existen excepciones en la creación de proteínas, y por lo tanto, en la aparición de enfermedades.

En resumen, se secuencian los exones, y aquellos que son más grandes y no se pueden secuenciar de una vez, se secuencian por segmentos y posteriormente se realiza el ensamblado. Se debe tener en cuenta que si se ha secuenciado más de un exón, los segmentos una vez ensamblados se agrupan en regiones disjuntas, es decir, una por exón. A la hora de secuenciar un exón, si este es muy largo, aproximadamente más de seiscientos nucleótidos, se divide en segmentos. Cada uno de estos segmentos se secuencia, como mínimo, dos veces. Así se obtienen dos secuenciaciones diferentes de la secuencia que se quiere obtener. Esto permite tener redundancia para la detección de fallos puntuales de secuenciación. En el marco de un análisis de variaciones para el soporte al diagnóstico, se selecciona un gen y los exones a secuenciar. Para la localización de los exones se utiliza una unidad de transcripción, que es una lista de posiciones que indican que regiones del gen son exones. Una vez secuenciados todos los segmentos necesarios se procede a reconstruir la secuencia, que consiste en ensamblar los segmentos y obtener la secuencia resumen, o representativa, de todos ellos. A la secuencia resumen obtenida se la denomina consenso.

El investigador Hormigo, en el libro mencionado anteriormente, señala que para realizar el proceso de ensamblaje, las denominadas lecturas se agrupan en contigs y estos contigs a su vez se ensamblan llenando los huecos que pueda haber entre ellos, debido a la existencia de secuencias de nucleótidos que se repiten muchas veces en el ácido desoxirribonucleico, mediante análisis de la coincidencia de los extremos de dos contigs con los de algún inserto que tengan en común, método de los “extremos apareados”, produciendo esqueletos, también llamados supercontigs o metacontigs. El alineamiento múltiple de secuencias en un contig produce la secuencia consenso. Los supercontigs definen el orden de los contigs, su orientación y el tamaño de los huecos entre los contigs. La topología del supercontig puede ser, a su vez, una secuencia simple o una red. El resultado de los ensambladores se puede medir por el tamaño y la precisión de sus contigs y supercontigs. La calidad del ensamblaje viene dada normalmente por datos estadísticos donde se incluye la longitud máxima, la longitud media, la longitud combinada total y el contig promedio. El contig promedio es una medida de la longitud media de un conjunto de secuencias y se define como el valor equis tal que al menos la mitad del genoma está contenido en contigs de tamaño mayor o igual que equis. Los estadísticos promedio no son comparables entre ensamblajes a menos que se calculen usando el mismo valor de sumatorio de longitudes.

Las tecnologías de secuenciación comparten una limitación fundamental: Las lecturas son mucho más cortas que el genoma del que proceden. Actualmente, las tecnologías de “secuenciamiento del genoma completo”, intentan superar esta limitación con la realización de un sobre muestreo o cobertura del genoma, la generación de lecturas cortas de posiciones aleatorias y, posteriormente, con la reconstrucción de la secuencia original mediante el programa de ensamblaje, pero este enfoque no asegura que los datos secuenciados sean completos por lo que es necesario tener en cuenta que pueden existir huecos no secuenciados. Igualmente los sistemas de secuenciación pueden generar errores de transcripción que se intentan resolver mediante la cobertura.