Red de conocimientos turísticos - Conocimiento turístico - Consejos para lidiar con big data

Consejos para lidiar con big data

Consejos para lidiar con big data

Big data es un tema candente en este momento. Personas de todos los ámbitos de la vida hablan de big data en todas partes. En lo que respecta a los genes humanos, el "libro celestial" del big data tiene un total de 3 mil millones de palabras. Durante el proceso de inspección, para garantizar la exactitud y confiabilidad de las conclusiones sin mirar grandes datos, la práctica habitual es inspeccionar cada palabra más de 30 veces. Debido a que la cantidad de datos de 3 mil millones es demasiado grande, se necesitan cálculos repetidos para eliminar errores. Para leer los genes de una persona, habría que leer 100 mil millones de palabras. Esto es realmente una gran cantidad de datos.

No hablemos de cómo analizar e interpretar este libro, sino también de cómo entender el significado de todo el libro o de algunos capítulos y párrafos. Explotar los tesoros contenidos en big data es un problema difícil. La bioinformática es una especialidad popular ahora y es muy popular. Veamos sólo el primer paso: qué ideas y métodos deben utilizar los biólogos para obtener este conjunto de datos.

La tecnología genética se ha mejorado tres veces, pero está lejos del final.

La tecnología original sólo podía leer 100 palabras a la vez. 10 mil millones a 10 mil millones, ese es Yu Gong Yishan. Entonces la gente comenzó a mejorar la tecnología y aumentar la longitud. No se puede decir que no haya logros. Finalmente, se puede leer de 1000 a 100 y la operación manual se cambia a automatización de máquina. En los últimos diez años, se ha multiplicado por diez. Pero 1000 es el límite de esta tecnología y es difícil expandirse más.

En esta época alguien pensó en agrupar genes. Los macrodatos son difíciles de procesar y la agrupación puede reducir la carga. Primero corte el gen en fragmentos grandes y luego intente copiar decenas de miles de fragmentos tan grandes para satisfacer las necesidades de operaciones posteriores y luego detecte cada fragmento por separado; Después de obtener los datos, los fragmentos grandes se ensamblan primero como un esqueleto y luego este esqueleto se utiliza para construir el genoma completo;

Cada paso aquí se puede realizar, y la dirección de los esfuerzos de las personas naturalmente cambiará de aumentar la longitud de la lectura a aumentar la longitud del fragmento del gen. Es fácil aumentar la longitud, pero copiar fragmentos largos es un problema, la operación es engorrosa y la velocidad es simplemente la de una tortuga arrastrándose.

Ante este dilema, Venter pensó en cazar aves. Los pájaros son realmente pequeños en la naturaleza. Vuelan por el aire y, aunque los veas, no es fácil derribarlos. Una escopeta es un arma eficaz contra los pájaros. Por más de una docena de yuanes, hay más posibilidades de encontrar pájaros. Los genes están dispersos en el vasto océano de datos y no son fáciles de detectar. ¿Quizás las escopetas también sean una forma de lidiar con los genes? La idea de Venter era saltarse la difícil copia de fragmentos largos, dividir los genes en fragmentos más cortos y secuenciarlos directamente. Copiar clips cortos es más fácil, como una escopeta; deletrear los genomas en clips cortos es como armar un rompecabezas.

De repente, a alguien se le ocurrió este tipo de paranoia, con la esperanza de disparar un arma al cielo y encontrar un puñado de genes. No era nada optimista. El rodaje encontró oposición. Al no poder solicitar financiación, Venter simplemente inició su propio negocio y creó una empresa para competir con las instituciones de investigación oficiales. Identificaron genes humanos y de mosca de la fruta más rápido que los conejos. El Proyecto Genoma Humano, que se dice que es comparable a los alunizajes del Apolo, se completó rápidamente después de que la escopeta entrara en la competencia. Cuando el presidente de los Estados Unidos anunció que el plan estaba completado, junto a Clinton estaban personas que no habían solicitado los fondos.

A partir de entonces, todo el mundo se volcó en el tiro con escopeta.

Cuando solo se graba una secuencia a la vez, la velocidad sigue siendo un problema. El Proyecto Genoma Humano duró 65.438.000 años, y sólo la empresa privada de Venter gastó 65.438.000 millones de dólares sólo para probar los genes de una persona. ¿Quién más puede permitirse ese precio? Por lo tanto, la ampliación se ha convertido en una máxima prioridad. Si se pudieran obtener millones de secuencias en una sola prueba, ¿leer genes no sería como leer una novela? Este sueño aparentemente imposible se hace realidad mediante una secuenciación paralela. Pero todo tiene dos caras. Para lograr una súper escala, tuvimos que sacrificar la longitud y retroceder de 1000 a 100. Nueva tecnología comienza aún más breve, solo 35 palabras, lo cual es simplemente escalofriante. Aunque el artículo es breve, la cantidad total de datos es bastante grande, 6 millones de veces la original. Es sorprendente que un fragmento de longitud 35 pueda reconstruir el genoma. La tecnología genética finalmente ha dado un gran paso adelante y se considera la segunda generación.

Tanto la segunda generación de funcionarios como la segunda generación de ricos no son tan buenas como la segunda generación de tecnología genética.

Este salto dejó una profunda impresión en la gente, hasta el punto de que hoy en día, aunque la duración de la tecnología de segunda generación puede llegar fácilmente a doscientos o trescientos, la gente suele preguntar: ¿Todavía estás en 35?

La fragmentación puede parecer torpe, desordenada e ineficiente, pero es la única forma de resolver problemas complejos y procesar rápidamente big data. Cuando hagamos la deliciosa cabeza de león, debemos picar la panceta de cerdo con un cuchillo. Los genomas picados también son deliciosos.

La innovación nunca termina. Aunque la nueva tecnología es un gran éxito, la longitud de lectura es un poco corta, lo siento, y el ensamblaje de datos también es bastante difícil. Ese era el trabajo de deletrear la línea Beijing-Guangzhou con palillos. Todas las computadoras están ubicadas en una habitación, lo cual es muy impresionante e impresionante. ¿Cómo mejorar la eficiencia? Con reminiscencias del antiguo almanaque de agrupación genética. Después de cortar los genes en fragmentos grandes, se etiquetan por separado, se procesan hasta alcanzar la longitud necesaria para la secuenciación de próxima generación y luego se mezclan para la secuenciación. Al ensamblar datos, primero ensamblelos por separado de acuerdo con las marcas para formar un esqueleto y luego use el esqueleto para el segundo ensamblaje. La tarea que originalmente se completaba en un solo paso ahora se divide en dos pasos, lo que reduce en gran medida la carga de la computadora. La persona a la que se le ocurrió esta idea de oro también fundó una empresa con sólo 6 empleados. Las pequeñas empresas fueron adquiridas por grandes empresas a un costo de 65.438 millones de dólares.

Después de observar el desarrollo de la tecnología genética en los últimos 30 años, es posible que no esté convencido: esto es solo un gran error, simplemente salte, levante y corte, solo hay tres formas de lidiar con el genoma; : extensión, agrupación y rompecabezas, y lanzamiento de tres hachas de Cheng. Sí, si diriges un país grande, debes manejar big data en pequeñas porciones.