lunes, 2 de abril de 2012

Teoría Matemática de la Comunicación de Shannon aplicada a la secuenciación de ADN

Versión en Español por Ciencia en Canoa

Si nadie ha sabido cual tecnología de secuenciación es más rápida es porque nunca ha habido una manera equitativa de comparar la velocidad a la que se extrae la información del ADN. Hasta ahora
Uno de los grandes héroes anónimos de la ciencia del siglo 20 es Claude Shannon, ingeniero de los Laboratorios Bell famosos durante su apogeo en el siglo 20 a mediados. La contribución más duradera de Shannon a la ciencia es la teoría de la información: la idea que sostiene toda la comunicación digital.

En un famoso artículo que data de la década de 1940, Shannon se establece el problema fundamental de la comunicación:  reproducir en un punto en el espacio, un mensaje que se ha creado en otro. El mensaje se codifica primera de alguna manera,  es transmitido y decodificado a continuación.

Shannon demostró que un mensaje siempre puede ser reproducido en otro punto en el espacio con precisión arbitraria de ruido siempre está por debajo de cierto nivel umbral. Trabajó sobre la cantidad de información puede ser enviada de este modo, una propiedad conocida como la capacidad de este canal de información.

Las ideas de Shannon se han aplicado ampliamente a todas las formas de transmisión de información con mucho éxito. Una forma particularmente interesante ha sido la aplicación de la teoría de la información a la biología - la idea de que la vida misma es la transmisión de información de una generación a la siguiente.

Ese tipo de pensamiento es de avanzada, revolucionario y está aún en sus primeras etapas. Aun hay mucho por venir.


Hoy en día, nos fijamos en un interesante corolario en el área de transmisión de la información biológica. Abolfazl Motahari y sus colegas de la Universidad de California, Berkeley, utilizan el enfoque de Shannon para examinar la rapidez con que la información se puede extraer de ADN utilizando el proceso de secuenciación "shotgun" (de escopeta)

El problema aquí es determinar la secuencia de nucleótidos (A, G, C y T) en un genoma. Eso toma mucho tiempo porque los genomas tienden a ser largos - por ejemplo, el genoma humano consta de unos 3 mil millones de nucleótidos o pares de bases. Esto tardaría una eternidad en secuencia en la serie.

El enfoque "shotgun" consiste en cortar el genoma en trozos al azar, que constan de entre 100 y 1000 pares de bases y secuenciarlos en paralelo. La información es entonces ser pegada en silico mediante un algoritmo denominado de reensamblaje.

Por supuesto, no hay manera de saber cómo volver a reensamblar la información en una sola 'lectura' del genoma. Así, en el enfoque "shotgun", este proceso se repite muchas veces. Debido a que cada lectura divide el genoma de una manera diferente, hay piezas que inevitablemente se superponen con los segmentos de una ejecución anterior. Estas áreas de superposición permitirá volver a montar todo el genoma, como un rompecabezas.

Eso huele a un problema clásico de la teoría de la información y, de hecho varias personas han pensado de esta manera. Sin embargo, Motahari y su equipo fueron un paso más allá mediante su reformulación más o menos exactamente como un análogo del famosa método de Shannon.

Dicen que el problema de la secuenciación del genoma es esencialmente de reproducir un mensaje escrito en el ADN, en un formato electrónico digital. En este enfoque, el mensaje original está en el ADN, que está codificado para su transmisión por el proceso de lectura y luego decodificada por un algoritmo de reensamblaje para producir una versión electrónica.

Lo que demuestran es que hay una capacidad de canal que define una tasa máxima de flujo de información durante el proceso de secuenciación. "La da el número máximo de pares de bases de ADN que pueden ser resueltos por lectura, por cualquier algoritmo de montaje, sin tener en cuenta las limitaciones computacionales", dicen.

Eso es un resultado significativo para cualquier persona interesada en secuenciación de genomas. Una cuestión importante es la rapidez con la que la tecnología de secuenciación, cualquiera en particular, puede hacer su trabajo y si es rápido o más lento que otros enfoques.

Esto no es posible resolverlo en el momento debido a que muchos de los algoritmos utilizados para el montaje están diseñados para tecnologías específicas y enfoques de la lectura. Motohari,  por ejemplo, dice que hay al menos 20 algoritmos de reensamblaje diferentes. "Esto hace que sea difícil comparar diferentes algoritmos", dicen.

En consecuencia, nadie sabe realmente cual es más rápida, o incluso cual tiene el potencial de ser más rápida.

El nuevo trabajo cambia esto. Por primera vez, debería ser posible trabajar cómo cerrar una tecnología de secuenciación dado que ha llegado al límite teórico.

Eso podría obligar a una madera clara a los muertos de esta área y estimular un período de rápida innovación en la tecnología de secuenciación.

Ref: arxiv.org/abs/1203.6233: Teoría de la Información de la secuenciación de ADN


No hay comentarios:

Publicar un comentario

Nota: solo los miembros de este blog pueden publicar comentarios.