¿Biología de la información?

Bioinformática (BT)

Nombre chino: bioinformática Nombre en inglés: bioinformática

Definición 1: La teoría de la informática, la tecnología de la información y las matemáticas integradas y los métodos para Estudiar el campo interdisciplinario de la bioinformática. Incluyendo la investigación, archivo, visualización, procesamiento y simulación de datos biológicos, procesamiento de mapas genéticos y físicos de genes, análisis de secuencias de nucleótidos y aminoácidos, descubrimiento de nuevos genes y predicción de la estructura de proteínas, etc.

Disciplinas relacionadas: Bioquímica y Biología Molecular (disciplina de primer nivel); Introducción General (disciplina de segundo nivel)

Definición 2: Utilizar tecnología informática y tecnología de la información para desarrollar nuevos algoritmos y Los métodos estadísticos son una disciplina que analiza datos experimentales biológicos, determina el significado biológico contenido en los datos y desarrolla nuevas herramientas de análisis de datos para lograr la adquisición y gestión de información diversa.

Disciplinas relacionadas: Biología Celular (asignatura de primer nivel); Introducción General (asignatura de segundo nivel)

Definición 3: Utilizar la tecnología informática y la tecnología de la información para desarrollar nuevos algoritmos y métodos estadísticos. , Una disciplina que analiza datos experimentales biológicos, determina el significado biológico contenido en los datos y desarrolla nuevas herramientas de análisis de datos para lograr la adquisición y gestión de información diversa.

Disciplinas afines: Genética (asignatura de primer nivel); Introducción General (asignatura de segundo nivel) Este contenido está aprobado y publicado por el Comité Nacional de Aprobación de Términos Científicos y Técnicos

Bioinformática ( Bioinformática) es una disciplina que estudia la recopilación, procesamiento, almacenamiento, difusión, análisis e interpretación de información biológica. Revela los misterios biológicos de datos biológicos grandes y complejos mediante el uso integral de la biología, la informática y la tecnología de la información.

Principales direcciones de investigación

La bioinformática ha formado múltiples direcciones de investigación en sólo una docena de años. A continuación se presenta una breve introducción a algunos de los principales enfoques de investigación.

1. Alineación de secuencias

El problema básico de la alineación de secuencias es comparar la similitud o disimilitud de dos o más secuencias de símbolos. Desde la intención original de la biología, este problema incluye los siguientes significados: reconstruir la secuencia completa de ADN. a partir de fragmentos de secuencia superpuestos Determinar el almacenamiento de mapas físicos y genéticos a partir de datos de sonda en diversas condiciones experimentales, atravesar y comparar secuencias de ADN Comparar dos o más secuencias en busca de similitudes Buscar en bases de datos secuencias y subsecuencias relacionadas Buscar patrones secuenciales de nucleótidos Encontrar componentes de información en. Secuencias de proteínas y ADN. El alineamiento de secuencias tiene en cuenta la naturaleza de las secuencias de ADN. Características biológicas, como inserciones, eliminaciones (las dos primeras se denominan indeles) y sustituciones que ocurren localmente en la secuencia, la función objetivo de la secuencia obtiene la ponderación. suma de la distancia mínima o la similitud máxima del conjunto de mutaciones entre secuencias, el método de alineación incluye alineación global, alineación local, penalización por brecha generacional, etc. El algoritmo de programación dinámica se usa a menudo para comparar dos secuencias. La longitud es pequeña, pero este método no es adecuado para secuencias de genes masivas (como secuencias de ADN humano de hasta 109 pb). Incluso si la complejidad del algoritmo es lineal, es difícil de trabajar, por lo que la introducción de métodos heurísticos. Los famosos algoritmos BALST y FASTA y los métodos de mejora correspondientes se basan en esta propuesta anterior.

2, Comparación y predicción de la estructura de proteínas

El problema básico es comparar la similitud o disimilitud. de la estructura espacial de dos o más moléculas de proteínas La estructura y función de las proteínas están estrechamente relacionadas. Generalmente se cree que tienen estructuras similares. Las proteínas son cadenas largas compuestas de aminoácidos, que varían en longitud. 50 a 1000~3000 AA (Aminoácidos). Las proteínas tienen múltiples funciones, como enzimas, almacenamiento y transporte de sustancias, transmisión de señales, anticuerpos, etc., etc. La secuencia de aminoácidos determina inherentemente la estructura tridimensional de la proteína. En general, se cree que las proteínas tienen cuatro estructuras diferentes. Las razones para estudiar la estructura y la predicción de las proteínas son: en medicina, puede comprender las funciones de los organismos, encontrar objetivos para acoplar medicamentos y en agricultura, obtener una mejor ingeniería genética de los cultivos. Se utiliza la síntesis industrial de enzimas. La razón para la comparación directa de las estructuras de las proteínas es que la estructura tridimensional de una proteína se conserva de manera más estable en la evolución que su estructura primaria, y también contiene más información que la secuencia AA. La investigación de la estructura 3D de las proteínas es que la secuencia interna de aminoácidos corresponde a la estructura 3D uno a uno (no necesariamente cierta) y puede explicarse físicamente mediante la observación y el resumen de estructuras conocidas. Predecir la estructura de proteínas desconocidas. Basado en las reglas de la estructura de las proteínas, los métodos de modelado de homología y subprocesos pertenecen a esta categoría. El modelado de homología se utiliza para encontrar estructuras de proteínas con alta similitud (más de 30 aminoácidos son iguales), y este último se utiliza para comparar diferentes estructuras de proteínas. familias evolutivas Sin embargo, el estado actual de la investigación sobre la predicción de la estructura de las proteínas está lejos de satisfacer las necesidades reales.

3. Análisis de la región no codificante de la identificación de genes

El problema básico de los genes. La identificación consiste en identificar correctamente el rango del gen y su posición precisa en la secuencia del genoma, dada la secuencia del genoma. La región no codificante consta de intrones, que generalmente se descartan después de que se forma la proteína. -Se elimina la región codificante, la replicación del gen no se puede completar. Obviamente, la secuencia de ADN, como lenguaje genético, está incluida en la región codificante e implícita en las secuencias no codificantes. No hay un método de guía general. En el genoma humano, no todas las secuencias están codificadas, es decir, son plantillas para una determinada proteína. Las partes codificadas solo representan de 3 a 5 del total de secuencias de genes humanos. La secuencia del gen es inimaginable. Los métodos para detectar regiones codificantes incluyen medir la frecuencia de codones (codones) en las regiones codificantes de Markov de primer orden y de segundo orden.

Cadena, ORF (Open Reading Frames), identificación de promotores (promotor), HMM (Hidden Markov Model) y GENSCAN, Splice Alignment, etc.

Evolución molecular y genómica comparada

La evolución molecular consiste en utilizar las similitudes y diferencias de la misma secuencia genética en diferentes especies para estudiar la evolución de los organismos y construir un árbol evolutivo. Se puede realizar utilizando secuencias de ADN o sus secuencias de aminoácidos codificadas, o incluso mediante comparación estructural. proteínas relacionadas Para estudiar la evolución molecular, la premisa es que razas similares son genéticamente similares. A través de la comparación, podemos descubrir a nivel del genoma cuáles son iguales y cuáles son diferentes entre diferentes razas. Los primeros métodos de investigación a menudo usaban factores externos. como el tamaño, el color de la piel, el número de extremidades, etc. se utilizan como base para la evolución. En los últimos años, con la finalización de muchas tareas de secuenciación del genoma de organismos modelo, las personas pueden estudiar la evolución molecular desde la perspectiva del genoma completo. emparejamiento de genes de diferentes razas, generalmente se deben abordar tres situaciones: Ortólogos: genes de diferentes razas con la misma función; Parálogos: genes de la misma raza con diferentes funciones Xenólogos: genes transmitidos por otros medios entre organismos, como genes inyectados; Por virus comúnmente utilizado en este campo El método consiste en construir un árbol evolutivo, que se logra mediante métodos basados ​​en características (es decir, posiciones específicas de las bases de los aminoácidos en secuencias de ADN o proteínas) y basados ​​en la distancia (puntuaciones alineadas). y algunos métodos de agrupación tradicionales (como UPGMA).

5. Ensamblaje de contiges de secuencia (Contigs)

De acuerdo con la tecnología de secuenciación actual, cada reacción solo puede detectar secuencias de 500 o más bases. pares, como los genes humanos, la medición utiliza el método shortgun, que requiere una gran cantidad de secuencias más cortas para formar contigs. El proceso de empalmarlos gradualmente para formar contigs más largos hasta obtener una secuencia completa se llama ensamblaje de contig. A nivel de algoritmo, el contig de secuencias es un problema NP-completo.

6. El origen del código genético

Generalmente los estudios sobre códigos genéticos creen que el código La relación entre aminoácidos y los aminoácidos fue causado por un evento accidental en la historia de la evolución biológica, y se fijó en el ancestro común de los organismos modernos y continúa hasta el día de hoy. A diferencia de esta teoría "congelada", algunas personas han propuesto por separado tres teorías. explicar el código genético: optimización de la selección, química e historia Con la finalización de diversas tareas de secuenciación del genoma biológico, se han proporcionado nuevos materiales para estudiar el origen del código genético y probar la autenticidad de las teorías anteriores.

7. Diseño de fármacos basado en la estructura

Uno de los propósitos de la ingeniería genética humana es comprender la estructura, función, interacción y relación entre unas 100.000 proteínas del cuerpo humano y diversas enfermedades humanas, buscando diversas relaciones. Los métodos de tratamiento y prevención, incluido el tratamiento farmacológico, el diseño de fármacos basado en la estructura de macromoléculas biológicas y estructuras de moléculas pequeñas es un campo de investigación extremadamente importante en bioinformática para inhibir la actividad de determinadas enzimas o proteínas, sobre la base del conocimiento de las mismas. estructura de tercer nivel de la proteína, el algoritmo de alineación molecular se puede utilizar para diseñar moléculas inhibidoras en la computadora como fármacos candidatos. El propósito de este campo es descubrir nuevos fármacos genéticos, lo que tiene enormes beneficios económicos.

8. Modelado y simulación de sistemas biológicos

Con el desarrollo de tecnología experimental a gran escala y la acumulación de datos, se ha convertido en una tendencia posterior estudiar y analizar sistemas biológicos desde el nivel global y sistémico. revelar sus reglas de desarrollo Otro punto de investigación en la era genómica es la biología de sistemas. En la actualidad, su contenido de investigación incluye simulación de sistemas biológicos (Curr Opin Rheumatol, 2007, 463-70), análisis de estabilidad del sistema (Nonlinear Dynamics Psychol Life Sci, 2007, 413-33) y análisis de robustez del sistema (Ernst Schering Res Found Workshop). , 2007, 69-88) y otros aspectos.

Los lenguajes de modelado representados por SBML (Bioinformatics, 2007, 1297-8) se están desarrollando rápidamente, con redes booleanas (PLoS Comput Biol, 2007, e163), ecuaciones diferenciales (Mol Biol Cell, 2004, 3841-62), métodos como En el análisis de sistemas se han aplicado procesos estocásticos (Neural Comput, 2007, 3262-92) y sistemas de eventos dinámicos discretos (Bioinformatics, 2007, 336-43). El establecimiento de muchos modelos se basa en métodos de modelado de circuitos y otros sistemas físicos, y muchos estudios intentan resolver la complejidad del sistema a partir de ideas de análisis macro como el flujo de información, la entropía y el flujo de energía (Anal Quant Cytol Histol, 2007, 296-308 ). Por supuesto, llevará mucho tiempo establecer un modelo teórico de sistemas biológicos. Aunque los datos de observación experimental están aumentando enormemente, los datos necesarios para la identificación de modelos de sistemas biológicos superan con creces la capacidad actual de producción de datos. Por ejemplo, para los datos de chips de series temporales, la cantidad de puntos de muestreo no es suficiente para utilizar los métodos tradicionales de modelado de series temporales, y el enorme costo experimental es la principal dificultad en el modelado del sistema actual. También se requieren avances innovadores en la descripción de sistemas y en los métodos de modelado.

9. Investigación sobre métodos técnicos bioinformáticos

La bioinformática no es sólo una simple disposición del conocimiento biológico y una simple aplicación del conocimiento en matemáticas, física, ciencias de la información y otras disciplinas. Los datos masivos y los entornos complejos conducen al rápido desarrollo de métodos como el aprendizaje automático, el análisis de datos estadísticos y la descripción de sistemas en el contexto que enfrenta la bioinformática. La enorme cantidad de cálculos, los patrones de ruido complejos y los datos masivos que varían en el tiempo han traído grandes dificultades al análisis estadístico tradicional, que requiere métodos como la estadística no paramétrica (BMC Bioinformatics, 2007, 339) y el análisis de conglomerados (Qual Life Res, 2007). , 1655-63) y otras técnicas de análisis de datos más flexibles. El análisis de datos de alta dimensión requiere técnicas de compresión del espacio de características, como los mínimos cuadrados parciales (PLS). En el desarrollo de algoritmos informáticos, es necesario considerar plenamente la complejidad temporal y espacial del algoritmo y utilizar tecnologías como la computación paralela y la computación en red para ampliar la realizabilidad del algoritmo.

10. Imágenes biológicas

¿Por qué las personas que no están emparentadas por sangre se parecen tanto? Las apariencias se componen de puntos similares. Cuanto más se superponen los puntos similares, más similares se ven las dos personas. ¿Por qué se superponen los puntos similares de dos personas que no están relacionadas por sangre? ¿Cuál es la base biológica? ¿Son los genes similares? No lo sé, espero que los expertos puedan responder.

11. Otros

Como el análisis del perfil de expresión genética, el análisis de redes metabólicas, el diseño de chips genéticos y el análisis de datos proteómicos, etc., se han convertido gradualmente en importantes áreas de investigación emergentes en bioinformática; En términos de disciplinas, las disciplinas derivadas de la bioinformática incluyen genómica estructural, genómica funcional, genómica comparada, proteómica, farmacogenómica, genómica de la medicina tradicional china, genómica de tumores, epidemiología molecular y genómica ambiental, convirtiéndose en un método de investigación sistemático importante en biología. No es difícil ver en el desarrollo actual que la ingeniería genética ha entrado en la era posgenómica. También tenemos una comprensión clara de los posibles malentendidos en el aprendizaje automático y las matemáticas que están estrechamente relacionados con la bioinformática. este párrafo Bioinformática y aprendizaje automático

La información biológica a gran escala ha planteado nuevos temas y desafíos para la minería de datos, lo que requiere la adición de nuevas ideas. Algoritmos informáticos convencionales que aún se pueden aplicar al análisis de datos biológicos. pero es cada vez más inadecuado para problemas de análisis de secuencias. La razón se debe a la complejidad inherente de los modelos de los sistemas biológicos y a la falta de una teoría completa de la organización de la vida establecida a nivel molecular. Simon dio una vez una definición de aprendizaje: El aprendizaje son cambios en un. sistema que lo haga más efectivo al realizar el mismo trabajo.

El propósito del aprendizaje automático es obtener automáticamente las teorías correspondientes a partir de datos, mediante métodos como la inferencia, el ajuste de modelos y el aprendizaje a partir de muestras. Es especialmente adecuado para teorías que carecen de generalidad, patrones de "ruido" y conjuntos de datos a gran escala. Por lo tanto, el aprendizaje automático ha formado un método factible que es complementario a los métodos convencionales. El aprendizaje automático permite utilizar computadoras para extraer conocimiento útil de información biológica masiva y descubrir que los métodos de aprendizaje automático se utilizan en muestras grandes y multivectoriales. Trabajo de análisis de datos Desempeñando un papel cada vez más importante, el procesamiento actual de una gran cantidad de bases de datos genéticas requiere que las computadoras identifiquen y etiqueten automáticamente, para evitar métodos de procesamiento manual costosos y que consumen mucho tiempo. Los primeros métodos científicos: observación e hipótesis. El alto volumen de datos, la rápida tasa de adquisición de datos y los requisitos para el análisis objetivo ya no pueden depender únicamente de la percepción humana. Por lo tanto, la combinación de bioinformática y aprendizaje automático se ha vuelto inevitable. El marco teórico se basa en la probabilidad. En cierto sentido, es una continuación del ajuste del modelo estadístico. Su propósito es extraer información útil. El aprendizaje automático está estrechamente relacionado con el reconocimiento de patrones y el razonamiento estadístico incluye clases de agregación de datos. clasificadores y regresión no lineal, etc. Los modelos ocultos de Markov también se utilizan ampliamente para predecir la estructura genética del ADN. Los enfoques de investigación actuales incluyen: 1) Observar y explorar fenómenos interesantes. El enfoque actual de la investigación de ML es cómo visualizar y explorar alta dimensión. El método general es reducirlos a un espacio de baja dimensión, como el análisis de componentes principales convencional (PCA), el análisis de componentes principales del núcleo (KPCA), el análisis de componentes independientes (análisis de componentes independientes) y el conjunto de incrustación lineal local (LocallyLinear). incrustación). 2) Generar hipótesis y modelos formales para explicar fenómenos [6]. La mayoría de los métodos de agrupamiento pueden considerarse como una mezcla de ajuste de datos vectoriales a algunos métodos de agrupamiento simples en bioinformática. Se ha utilizado en el análisis de datos de microarrays, tipo cáncer. La clasificación y otras direcciones también se utilizan para obtener explicaciones de fenómenos correspondientes a partir de bases de datos genéticas. El aprendizaje automático acelera el progreso de la bioinformática y también genera los problemas correspondientes. La mayoría de los métodos suponen que los datos se ajustan a un modelo relativamente fijo. La estructura de datos suele ser variable, especialmente en bioinformática. Por lo tanto, es necesario establecer un conjunto de métodos generales para encontrar datos que no se basen en estructuras de datos asumidas. En segundo lugar, las operaciones de "caja negra". Se utiliza en métodos de aprendizaje automático, como redes neuronales y modelos ocultos de Markov, y el mecanismo intrínseco para obtener una solución específica aún no está claro.