Un récord de seis cambios tecnológicos importantes en big data en China
Los seis principales cambios tecnológicos del examen de analistas de Big Data_Data de China
Una recopilación de la esencia de la “Conferencia de computación en la nube de Hadoop China” y la “Conferencia de tecnología de Big Data de CSDN”, todas anteriores en China La Conferencia de Tecnología Big Data (BDTC) se ha convertido de facto en el principal evento tecnológico de la industria en China. Desde el salón Hadoop de 60 personas en 2008 hasta la fiesta tecnológica actual para miles de personas, como plataforma de intercambio profesional con gran valor práctico en la industria, cada Conferencia de Tecnología Big Data de China representa fielmente los puntos técnicos calientes en el campo de Big Data. Ha acumulado experiencia práctica en la industria y ha sido testigo del desarrollo y evolución de toda la tecnología del ecosistema de big data.
Del 12 al 14 de diciembre de 2014, la Conferencia de Tecnología Big Data de China 2014 (Big Data Technology Conference 2014, BDTC 2014) comenzará en el Crowne Plaza Beijing New Yunnan Hotel. La conferencia tendrá una duración de tres días y tiene como objetivo promover el desarrollo de la tecnología de big data en aplicaciones industriales, y se prevé establecer "infraestructura de big data", "ecosistema de big data", "tecnología de big data" y "aplicación de big data". " e "Internet de big data". Tecnología financiera", "Procesamiento inteligente de información" y otros foros temáticos y cumbres de la industria. Al mismo tiempo también se llevará a cabo la "Segunda Conferencia Académica de Big Data de la CCF de 2014", organizada por la Federación de Computación de China, organizada por el Comité de Expertos en Big Data de la CCF y coorganizada por la Universidad de Nanjing y la Universidad de Fudan, y se presentará el informe principal. ser compartido con la conferencia de tecnología.
Esta conferencia invitará a casi 100 destacados expertos extranjeros y profesionales de primera línea en el campo de la tecnología de big data para discutir en profundidad los últimos avances del software de código abierto como Hadoop, YARN, Spark, Tez, HBase. , Kafka, OceanBase y NoSQL /La tendencia de desarrollo de NewSQL, computación en memoria, computación de flujo y tecnología de computación gráfica, el pensamiento del ecosistema OpenStack sobre las necesidades de computación de big data y las últimas aplicaciones industriales de visualización, aprendizaje automático/aprendizaje profundo. inteligencia empresarial, análisis de datos, etc. bajo big data, compartiendo características técnicas y experiencia práctica en sistemas de producción reales.
En la etapa inicial de la conferencia, seleccionamos especialmente los aspectos más destacados de conferencias anteriores para registrar el proceso de desarrollo del campo de tecnología de big data de China, y esperamos con ansias la próxima BDTC 2014 en función del estado actual de el ecosistema:
Sigue en este rastro, conoce los seis grandes cambios tecnológicos del big data
Con el desarrollo de la conferencia de tecnología big data, hemos vivido la llegada del era de la tecnología y la aplicación de big data en China, y también fue testigo del desarrollo de toda la tecnología y la evolución del ecosistema de big data:
1. Distribución de recursos informáticos, desde la computación en red hasta la computación en la nube. Mirando hacia atrás en conferencias BDTC anteriores, no es difícil encontrar que desde 2009, la organización y programación de recursos se ha transformado gradualmente de la computación grid distribuida entre dominios a la computación en la nube distribuida localmente. Hoy en día, la computación en la nube se ha convertido en la única plataforma para la protección de recursos de big data.
2. Cambios en el almacenamiento de datos: HDFS y NoSQL surgieron según lo exigieron los tiempos. A medida que los formatos de datos se vuelven cada vez más diversos, el almacenamiento relacional tradicional ya no puede satisfacer las necesidades de las aplicaciones de la nueva era. Han surgido nuevas tecnologías como HDFS y NoSQL que se han convertido en una parte indispensable de muchas arquitecturas de aplicaciones a gran escala. Computadoras/servidores personalizados, también se ha convertido en una de las tecnologías más populares en el ecosistema de big data.
3. El modelo informático cambia: la caja informática Hadoop se vuelve popular. Para soportar mejor y más económicamente su servicio de búsqueda, Google creó Map/Reduce y GFS. Inspirado por el artículo de Google, el ex ingeniero de Yahoo Doug Cutting creó un ecosistema de software Hadoop que era completamente diferente del modelo informático de alto rendimiento y acercó la informática a los datos.
Hadoop es inherentemente noble y se ha convertido en el proyecto de código abierto más "caliente" de la Fundación Apache. También es reconocido como el estándar de facto para el procesamiento de big data. Hadoop proporciona capacidades masivas de procesamiento de datos en un entorno distribuido a bajo costo. Por lo tanto, la discusión sobre la tecnología Hadoop y el intercambio de prácticas siempre han sido una de las características más llamativas de todas las conferencias anteriores sobre tecnología de Big Data de China.
4. Introducción de la tecnología de computación en flujo, para satisfacer las necesidades de procesamiento de datos de baja latencia de las aplicaciones. A medida que las necesidades comerciales se expanden, los big data salen gradualmente de la categoría de procesamiento por lotes fuera de línea. Los marcos de procesamiento de flujo como Storm y Kafka, que demuestran plenamente el tiempo real, la escalabilidad, la tolerancia a fallas y la flexibilidad, han resucitado las antiguas tecnologías de middleware de mensajes. Se ha convertido en un hermoso paisaje en BDTC anteriores.
5. La informática en memoria está tomando forma: el advenedizo Spark se atreve a desafiar al veterano. Spark se originó a partir de la plataforma informática de clúster de AMPLab de la Universidad de California, Berkeley. Se basa en la informática en memoria, a partir del procesamiento por lotes de iteraciones múltiples y es compatible con múltiples paradigmas informáticos, como almacenes de datos, procesamiento de flujo y. Computación gráfica. Es un raro todoterreno. En solo 4 años, Spark se ha convertido en un proyecto de alto nivel de la Apache Software Foundation, con 30 Committers. Entre sus usuarios se incluyen IBM, Amazon, Yahoo!, Sohu, Baidu, Alibaba, Tencent y muchas otras empresas conocidas, incluidas. Spark SQL, Spark Streaming, MLlib, GraphX y muchos otros proyectos relacionados. No hay duda de que Spark ha encontrado su lugar.
6. Evolución de la tecnología de bases de datos relacionales: NewSQL reescribe el historial de la base de datos. La investigación y el desarrollo de sistemas de bases de datos relacionales no se han detenido y también avanzan continuamente en expansión horizontal, alta disponibilidad y alto rendimiento. Las aplicaciones prácticas tienen la demanda más urgente de bases de datos MPP (procesamiento masivo en paralelo) para el procesamiento analítico en línea (OLAP), incluido el aprendizaje de bases de datos MPP y la adopción de nuevas tecnologías en el campo de big data, como la tecnología de copia múltiple y la tecnología de almacenamiento en columnas. , etc. Las bases de datos orientadas al procesamiento de transacciones en línea (OLTP) están evolucionando hacia un alto rendimiento, con el objetivo de lograr un alto rendimiento y una baja latencia. Las tendencias de desarrollo tecnológico incluyen memoria llena, sin bloqueos, etc.
Basado en la navegación, observe el desarrollo del ecosistema de big data en 2014
El tiempo vuela y, en un abrir y cerrar de ojos, se llevará a cabo la Conferencia de Tecnología de Big Data de China 2014. según lo programado. Dado que la tecnología cambia cada día que pasa, ¿qué conocimientos se pueden obtener del BDTC en 2014? Aquí también podríamos centrarnos en las tendencias actuales de desarrollo tecnológico:
1. MapReduce está en declive, ¿puede YARN/Tez lograr un mayor éxito? Para Hadoop, 2014 es un año emocionante: EMC, Microsoft, Intel, Teradata, Cisco y muchos otros gigantes han aumentado su inversión en Hadoop. Sin embargo, este año no ha sido fácil para muchas organizaciones: debido a las deficiencias en tiempo real de MapReduce y las necesidades de las organizaciones de una plataforma de procesamiento de big data más general, la transformación a Hadoop 2.0 se ha vuelto imperativa. Entonces, ¿qué tipo de desafíos encontrarán las organizaciones durante la transformación? ¿Cómo pueden las organizaciones aprovechar mejor las nuevas funciones que ofrece YARN? ¿Qué cambios importantes habrá en el desarrollo futuro de Hadoop? Con este fin, BDTC 2014 invitó especialmente a los principales expertos internacionales de Hadoop, como el responsable de Apache Hadoop, el miembro del Comité de Gestión de Proyectos (PMC) de Apache Hadoop Uma Maheswara Rao G, el responsable de Apache Hadoop Yi Liu, Bikas Saha (miembro del PMC de Apache Hadoop y Tez) , etc. También podríamos discutirlo cara a cara.
2. Los tiempos han cambiado y el futuro de los marcos de computación de flujo como Storm y Kafka es incierto. Si la lentitud de MapReduce ha brindado oportunidades a muchos marcos de computación de flujo, entonces, a medida que los componentes del ecosistema Hadoop se vuelvan más maduros y Spark se vuelva más fácil de usar, ¿qué recibirán estos marcos de computación de flujo? Aquí también podríamos tener un entendimiento paralelo basado en el intercambio de prácticas de casi cien sesiones en BDTC 2014, o comunicarnos cara a cara con expertos.
3. Spark, ¿es una subversión o un complemento? La compatibilidad con el ecosistema Hadoop permite que Spark se desarrolle rápidamente. Sin embargo, de acuerdo con los resultados de clasificación anunciados recientemente por Sort Benchmark, en términos de clasificación de datos fuera de línea masivos (100 TB), en comparación con el campeón anterior Hadoop, Spark completó los mismos datos en menos de una décima parte de la máquina y solo usó una. tercera parte del tiempo. No hay duda de que Spark ya no se limita a la computación en tiempo real, y su objetivo está directamente dirigido a una plataforma general de procesamiento de big data. Es posible terminar Shark y abrir Spark SQL. Entonces, a medida que Spark madure y admita la computación fuera de línea de forma más nativa, ¿quién recibirá el honor de ser la plataforma de procesamiento estándar de big data de código abierto? Aquí lo esperamos juntos.
4. Capa de infraestructura, ¿qué podemos utilizar para mejorar nuestra red? Hoy en día, la red se ha convertido en el objetivo de muchas plataformas de procesamiento de big data. Por ejemplo, para superar los cuellos de botella de la red, Spark reemplazó el módulo de red NIO original con un nuevo módulo de red basado en Netty, mejorando así la utilización del ancho de banda de la red. Entonces, ¿cómo podemos superar el cuello de botella de la red en la capa de infraestructura? ¿Cuánta mejora de rendimiento puede aportar el uso directo de equipos de red más eficientes, como Infiniband? La construcción de una red más inteligente que ajuste de forma adaptativa los requisitos de transferencia de datos en la fase de división/fusión a través de cada etapa de cálculo, no solo mejora la velocidad sino que también mejora la utilización. En BDTC 2014, podemos aprender valiosa experiencia de la tecnología Infiniband/RDMA y discursos de aplicaciones, así como varios combates reales de SDN.
5. El alma de la minería de datos: el aprendizaje automático. En los últimos años, la competencia por talentos en el campo del aprendizaje automático se ha vuelto feroz. Google, IBM, Microsoft, Baidu, Alibaba y Tencent también han invertido cada vez más en el campo del aprendizaje automático, incluido el diseño de chips y la estructura del sistema (. Computación heterogénea), Todos los aspectos de los sistemas de software, algoritmos modelo y aplicaciones en profundidad. Big data marca la llegada de una nueva era. Los datos PB permiten a las personas sentarse en la montaña dorada. Sin embargo, sin algoritmos inteligentes y el alma del aprendizaje automático, la extracción de valor sin duda se convertirá en un reflejo. En esta conferencia, también hemos preparado para usted varias sesiones para compartir relacionadas con el aprendizaje automático, esperando su participación.
Además del intercambio de tecnología, la segunda Conferencia Académica de Big Data de CCF en 2014 también se llevará a cabo al mismo tiempo, y el informe principal se compartirá con la conferencia de tecnología. Para entonces, también podremos obtener muchos de los últimos resultados de investigaciones científicas del campo académico.
Lo anterior es el contenido relevante compartido por el editor sobre los seis cambios tecnológicos más importantes en el big data de China. Para obtener más información, puede seguir a Global Ivy para compartir más información seca.