Red de conocimientos turísticos - Información de alquiler - Varios métodos para inferir proteínas codificadas por ADNc

Varios métodos para inferir proteínas codificadas por ADNc

Uso de Internet para predecir la estructura y función de productos proteicos de ADNc 3

Revisado por Wang Diping y revisado por Tong Tanjun

(Departamento de Bioquímica y Molecular Biología, Facultad de Medicina de la Universidad de Pekín Beijing 100083)

Resumen Se espera que el Proyecto Genoma Humano esté completo en los próximos dos o tres años. Obtendremos muchos ADNc con secuencias conocidas pero funciones desconocidas. Este artículo presenta brevemente los métodos y herramientas comunes para utilizar recursos de información en Internet para analizar secuencias de ADNc y predecir la estructura y función de las proteínas que codifica.

Palabras clave Internet, ADNc, proteína, predicción de estructura y función

El producto proteico del ADNc: predicción de su estructura y función utilizando Internet

W ANG Di2Ping, T ONG T an2Jun

(Centro de Ciencias de la Salud, Universidad de Pekín, Beijing100083, República Popular China)

Resumen El Proyecto Gen Humano se completará en dos o tres años, el biólogo obtendrá muchos Se desconocen las secuencias de ADNc cuyas funciones. Este artículo presenta algunos métodos y herramientas en Internet mediante los cuales podemos analizar secuencias de ADNc y predecir la estructura y función de las proteínas que codifican.

Clave ords internet, ADNc, proteínas, predicción estructural y funcional

El Proyecto Genoma Humano (Human G ene Project, H P) está avanzando muy rápidamente. En noviembre de 1999 se completó la secuenciación del cromosoma humano número 22, que fue el primer cromosoma secuenciado completamente [1]. En mayo de 2000, también se anunció que se había completado la secuenciación del cromosoma 21 humano [2]. A finales de 1999, se había secuenciado aproximadamente la secuencia del genoma de 1P3. Actualmente se estima de forma conservadora que estará completa a más tardar a finales de 2003. La humanidad está a punto de entrar en la era posgenómica. (Nota del editor: HG P estaba completamente completado cuando se publicó este artículo). Sin embargo, HG P es sólo una investigación de genómica estructural basada en la secuenciación. Una vez finalizado el proyecto, la tarea será más difícil. Esclarecer las funciones de los genes del genoma completo puede ser la tarea central de toda la comunidad biológica en el siglo XXI. . Para dilucidar las funciones de nuevos genes, los científicos han propuesto los conceptos de genómica funcional, transcriptómica y proteómica. Sin embargo, debido a diversas limitaciones técnicas, su velocidad es incapaz de seguir el ritmo de la marea de nuevos genes que están surgiendo. En los últimos años también la clonación y secuenciación de ADNc han progresado rápidamente. Por un lado, han aparecido en las bases de datos un gran número de fragmentos de secuencia corta (EST). Por otro lado, se han clonado y secuenciado cada vez más ADNc de longitud completa. y también se han construido en grandes cantidades muchas bibliotecas de ADNc nuevas, lo que ha ampliado enormemente la aplicación de las bibliotecas de ADNc. De este modo, los biólogos moleculares suelen encontrarse con un problema: tras obtener una secuencia de ADNc parcial o completa, cómo determinar si pertenece a un gen conocido o desconocido, y cómo conocer la estructura y función de la proteína que codifica. Con el rápido desarrollo de la tecnología de redes informáticas y la bioinformática, se ha convertido en un método rápido, simple y factible utilizar recursos de información biológica en Internet para analizar y predecir la estructura y función de las secuencias de ADNc y sus productos proteicos.

1. Bases de datos de secuencias de uso común

G enBank fue creado y administrado por NC BI (Centro de Biotecnología de los Institutos Nacionales de Salud). Es la más importante de las muchas bases de datos de NC BI y puede proporcionar todos los datos de más de. 55.000 organismos diferentes. Secuencias de proteínas y ácidos nucleicos conocidas y literatura relacionada y anotaciones biológicas [3]. Se trata de las tres bases de datos de secuencias de proteínas y ADN más importantes junto con la base de datos EMBL del Laboratorio Europeo de Biología Molecular y el Instituto Europeo de Bioinformática y la base de datos DDBJ del Instituto Nacional de Genética de Japón. Recopilan por separado información de secuencias en sus respectivas regiones, intercambian registros recién creados en sus respectivas bases de datos todos los días y actualizan completamente la información de la base de datos cada dos o tres meses, asegurando así que incluyan casi todas las secuencias conocidas de ácidos nucleicos y proteínas. La base de datos dbEST es parte de G enBank y contiene datos de secuencia y otra información relacionada de fragmentos de ADNc o EST. Para gestionar datos EST duplicados y facilitar la extracción de información, NC BI creó el sistema Unigene, que puede analizar automáticamente secuencias de ADN, incluidas secuencias EST en GenBank para formar grupos de secuencias del mismo origen genético sin duplicación (grupos orientados a gene2), cada grupo representa un gen. NC BI tiene actualmente tres bibliotecas Unigene para humanos, ratas y ratones. A finales de 1999, la biblioteca humana Unigene contenía aproximadamente 83.000 grupos de secuencias formados por más de 1,5 millones de tecnologías ecológicamente racionales [4]. G S DB (G enome Sequence Database) es una base de datos genómica creada y administrada por NCG R (Centro Nacional de Recursos Genómicos). A partir del otoño de 1999, G S DB dejó de aceptar datos presentados por laboratorios individuales y la propiedad de la base de datos pasó a G enBank. En la actualidad, G S DB todavía puede proporcionar

3 proyectos clave de la Fundación Nacional de Ciencias Naturales (Proyecto No. 39930170) y temas financiados por el Plan Nacional Clave de Desarrollo de Investigación Básica (Proyecto No. G2000057001)

7

4

1

Comunicación Biotecnológica

LETRAS DE NO LOGÍA BIOTECNOLÓGICA V ol.12 N o.2 Mayo2001 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. Todos los derechos reservados.

Servicios de consulta y análisis de secuencias. G DB (G enome Database) es la base de datos del genoma humano de la Facultad de Medicina de la Universidad Johns Hopkins. Incluye información sobre todos los aspectos del genoma humano, como genes, clones, puntos de interrupción, marcadores citogenéticos y sitios vulnerables, EST y repeticiones. y contigs, además de información sobre el mapa del genoma humano, polimorfismo de mutación genómica y datos de frecuencia del panel de alelos.

PIR (Protein In Formation Resource) y SWISS 2PROT se han convertido en los más utilizados debido a su cobertura integral, anotaciones detalladas, baja tasa de duplicación y amplias conexiones a bases de datos relevantes con información completa sobre secuencias de proteínas. SWISS 2PROT se fundó en 1987 y ahora está gestionado conjuntamente por EMBL y SI B (Instituto Suizo de Bioinformática). En noviembre de 1999, SWISS 2PROT tenía aproximadamente 81.000 secuencias. Debajo de cada entrada de secuencia en SWISS 2PROT, hay referencias, datos de clasificación e información de anotaciones relacionadas. Esta información incluye principalmente la función de la proteína, modificaciones postraduccionales, dominios y sitios estructurales, estructuras secundarias y cuaternarias e interacciones con otras proteínas. , enfermedades relacionadas, variaciones de secuencia, etc.

Debido al explosivo aumento de las secuencias de ácidos nucleicos y a la limitada velocidad de anotación de la base de datos, EM BL y

SI B lanzaron en 1996 la base de datos complementaria T rE BM L de SWISS 2PROT. EM BL generado por computadora Todas las secuencias de codificación (C DS) en la base de datos, excepto las secuencias existentes que codifican SWISS 2PROT

están traducidas y anotadas, por lo que la precisión de su anotación es menor que la de SWISS 2PROT

[5]

En la actualidad existen muchos tipos de bases de datos de información biológica en Internet, que pueden describirse como diversas. Además de las grandes bases de datos completas mencionadas anteriormente, también hay muchas profesionales. -Bases de datos específicas como ARN, enzimas, vectores, factores de transcripción, señales de traducción y bases de datos de diversas especies, etc. Debido al rápido aumento de las bases de datos bioinformáticas, también han surgido bases de datos que recopilan específicamente catálogos de bases de datos bioinformáticas.

Dbcat (bina algo 2

ritmo para la predicción de la función de las proteínas en todo el genoma 2. Nature, 1999,402:83

13 Enright A J, Illopoulos I, K yrpides NC et al. Proteína mapas de interacción

para genomas completos basados ​​en eventos de fusión genética.Nature,1999,402:86

14 Attwo ood TK,Croning M DR,Flower DR et al.PRINTS 2S: la base de datos

anteriormente conocida como PRINTS.Nucleic Acids Res ,2000,28:22515Conte LC ,Ailey B ,Hubbard T JP et al .SCOP:una clasificación estructural 2

ción de proteínas base de datos.Nucleic Acids Res, 2000,28:257

16 Henrick K Thornton JM.PQS: un servidor de archivos de estructura cuaternaria de proteínas.

T rends Biochem, Sci, 1998, 23: 358

17 G uex N ,Diemand A ,Peitsch MC.Modelado de proteínas para todos.Tendencias

Biochem Sci ,1999,24:364

18 Bouck J ,W ei Y u ,G ibbs R et al .C om paración de bases de datos de indexación de genes 2

es.T rends Genetic ,1999,15:159

(Recibido en 2000209225)

051?Biotecnología Comunicación LETRAS EN BIOTECNOLOGÍA NO LOGYV ol.12 N o.2 Mayo 2001

5.9

La oferta VIP por tiempo limitado de Baidu Library ya está abierta, disfrute de más de 600 millones de contenido VIP

Consígalo ahora

Utilice Internet para predecir la estructura y función de los productos de proteína de ADNc

Predecir la estructura y función de los productos proteicos de ADNc utilizando Internet 3

Revisado por Wang Diping y revisado por Tong Tanjun

(Departamento de Bioquímica y Biología Molecular, Universidad de Pekín School of Medicine, Beijing 100083)

Resumen Se espera que el Proyecto Genoma Humano esté completo en los próximos dos o tres años y obtendremos muchos ADNc con secuencias conocidas pero funciones desconocidas. Este artículo presenta brevemente los métodos y herramientas comunes para utilizar recursos de información en Internet para analizar secuencias de ADNc y predecir la estructura y función de las proteínas que codifica.

Palabras clave Internet, ADNc, proteína, predicción de estructura y función

Página 1

El producto proteico del ADNc: predicción de su estructura y función utilizando Internet

W ANG Di2Ping, T ONG T an2Jun

(Centro de Ciencias de la Salud, Universidad de Pekín, Beijing 100083, República Popular China)

Resumen El Proyecto del Gen Humano se completará en En dos o tres años, el biólogo obtendrá muchas secuencias de ADNc cuyas funciones se desconocen. Este artículo presenta algunos métodos y herramientas en Internet mediante los cuales se pueden analizar secuencias de ADNc y predecir la estructura y función de las proteínas que codifican. p>

Ampliar texto completo