Alineamiento de secuencias
De Wikipedia, la enciclopedia libre
Un alineamiento de secuencias en bioinformática es una forma de mostrar DNA, RNA, o estructuras primarias proteicas para resaltar las zonas de similitud, que podrían indicar relaciones funcionales o evolutivas entre los genes o proteínas consultados. Las secuencias alineadas se escriben con las letras (representando aminoácidos o nucleótidos) en columnas en las que se insertan espacios para que las zonas con idéntica o similar estructura se alineen.
Si dos secuencias en un alineamiento comparten un ancestro común, las no coincidencias pueden interpretarse como puntos de mutación, y los huecos como indels (mutaciones de inserción o deleción) introducidas en uno o ambos linajes en el tiempo que pasa desde que divergieron. En el alinamiento de secuencias proteicas, el grado de simitiud entre los aminoácidos que ocupan una posición concreta en la secuencia puede interpretarse como una medida aproximada de conservación en una región particular o motivos de secuencia entre linajes. La ausencia de sustituciones, o la presencia de sustituciones muy conservadas (la sustitución de aminoácidos cuya cadena lateral tiene propiedades químicas similares) en una secuencia de una región concreta indica que la zona tiene importancia estructural o funcional. Aunque las bases nucleotídicas del DNA y RNA son más similares entre sí que con los aminoácidos, la conservación del emparejado de bases podría indicar papeles funcionales o estructurales similares. El alineamiento de secuencias puede utilizarse con secuencias no biológicas, como en la identificación de similitudes en series de letras y palabras del lenguaje humano.
Secuencias muy cortas o muy similares pueden alinearse manualmente. Aún así, los problemas más interesantes necesitan alinear secuencias largas, muy variables y extremadamente numerosas que no pueden ser alineadas por humanos. El conocimiento humano se aplica principalmente en la construcción de algoritmos que produzcan alineamientos de alta calidad, y excepcionalmente ajustando el resultado final para representar patrones que son difíciles de introducir en algoritmos (especialmente en el caso de secuencias de nucleótidos). Las aproximaciones computacionales al alineamiento de secuencias se diviven en dos categorías: alineamiento global y alineamiento local. Calcular un alineamiento global es una forma de optimización global que obliga al alineamiento a ocupar la longitud total de todas las secuencias introducidas. Comparativamente, los alineamientos locales identifican regiones de similaridad dentro de largas secuencas que normalmente son muy divergentes entre sí. A menudo se prefieren los alineamientos locales, pero pueden ser más difíciles de calcular porque se añade el desafío de identificar las regiones se similaridad. Se aplican gran variedad de algoritmos computacionales al problema de alineamiento de secuencias, como métodos lentos y optimizadores de programación dinámica y métodos eficientes de heurística o probabilística diseñados para búsqueda a gran escala en bases de datos.
[editar] Representaciones
Los alineamientos se representan normalmente con un formato gráfico y de texto. En casi todas las representaciones de alineamientos, las secuencias se escriben en filas de forma que los residuos alineados aparecen en columnas sucesivas. En los formatos de texto, las columnas alineadas contienen caracteres idénticos o similares, estos últimos indicados con sistema de símbolos de conservados. En la imagen superior se utiliza el asterisco para mostrar identidad entre dos columnas. Otros símbolos menos comunes son la coma para sustituciones conservativas y el punto para sustituciones semiconservativas. Muchos programas de visualización de secuencias utilizan también esquemas coloreados para mostrar información de las propiedades de los elementos secuencia individuales; en secuencias de DNA y RNA significa asignar a cada base su propio color. En alineamientos de proteínas, como el de la imagen superior, los colores se utilizan para indicar propiedades de los aminoácidos para ayudar en la caracterización de conservación o en una sustitución aminoacídica dada. Cuando se introducen múltiples secuencias la última fila de cada columna suele representar la secuencia consenso determinada por el alineamiento.
Los alineamientos de secuencias pueden almacenarse en una amplia variedad de formatos de archivo de texto, muchos de los cuales han sido desarrollados a la vez que un programa o implementación de alineamiento. La mayoría de las herramientas web permiten varios formatos de entrada y salida, como el formato FASTA y GenBank. La utilización de herramientas específicas en cada laboratorio de investigación puede complicarse por la baja compatibilidad. Existe un programa de conversión genérica en SEQRET (EMBOSS).
[editar] Alineamientos locales y globales
Los alinamientos globales, que intentan alinear cada residuo en cada secuencia, son más útiles cuando las secuencias inicicales son similares y aproximadamente del mismo tamaño (no quiere decir que los alineamientos globales no puedan terminar en huecos). Una estrategia general de alineamiento global es el algoritmo de Needleman-Wunsch basado en programación dinámica. Los alineamientos locales son más útiles para secuencias diferenciadas en las que se sospecha que existen regiones de similaridad o motivos de secuencias similares dentro de un contexto mayor. El algoritmo Smith-Waterman es un método general de alineamiento local basado en programación dinámica. Con las suficientes secuencias similares, no existe diferencia entre alineamientos globales y locales.
Los métodos híbridos, conocidos como semiglobales o métodos "glocales" intentan encontrar el mejor alineamiento posible que incluya el inicio de una u otra secuencia, y el final de una o de la otra. Puede ser especialmente útil cuando la parte final de una secuencia se solapa con la parte inicial de la otra. En este caso, ni el alineamiento global ni el local son completamente adecuados: un alineamiento global intentará forzar a la alineación a extenderse más allá de la región de solapamiento, mientras que el alineamiento local no cubrirá totalmente la región solapada.[1]
[editar] Alineamiento de pares
Los métodos de alineamiento de pares se utilizan para encontrar la mejor coincidencia en bloque (local) o alineamiento global de dos secuencias. Los alineamientos de pares sólo pueden utilizarse con dos secuencias a la vez, pero son eficientes para calcular, y son utilizados a menudo en métodos que no requieren precisión extrema, como la búsqueda en bases de datos de secuencias con alta homología con una petición. Los tres métodos principales de generar alineamientos de pares son métodos de matriz de puntos, programación dinámica y búsqueda de palabra, aunque la mayoría de métodos de alineación de secuencias pueden funcionar con sólo dos secuencias. Aunque cada método tiene sus propios puntos fuertes y débiles, todos ellos tienen problemas para alinear secuencias repetitivas con contenido de poca información, especialmente cuando el número de repeticiones puede ser diferente en las dos secuencias que se alinean.