Red de conocimientos turísticos - Conocimientos sobre calendario chino - Por qué Spark no está tan desarrollado como Hadoop

Por qué Spark no está tan desarrollado como Hadoop

Spark es un sistema informático ComputerCluster de código abierto basado en computación RAM, cuyo objetivo es realizar análisis de datos más rápidamente. El código central inicial de Spark solo tenía 30.000 líneas de código. Spark proporciona un marco informático distribuido similar a HadoopMap/Reduce, pero se basa en RAM y un diseño optimizado, por lo que funciona bien en cargas de trabajo de minería de datos y análisis de datos intercambiables.

Después de entrar en 2014, el ecosistema de código fuente abierto de Spark ha crecido significativamente y se ha convertido en uno de los proyectos de código fuente abierto más activos en el campo de big data. La razón por la que Spark ha atraído tanta atención es principalmente por sus tres características: alto rendimiento, alta flexibilidad y perfecta integración con el ecosistema Hadoop.

En primer lugar, Spark toma muestras de conjuntos de datos dispersos y propone de manera innovadora el concepto de RDD (conjunto de datos distribuido resistente). Todas las tareas de análisis estadístico se traducen en gráficos acíclicos dirigidos (DAG) compuestos de operaciones básicas en RDD. . RDD puede residir en la RAM y las tareas futuras pueden leer directamente los datos en la RAM al mismo tiempo. El análisis de las dependencias entre tareas en DAG puede fusionar tareas adyacentes, lo que reduce una gran cantidad de resultados de E/S inexactos. se reduce considerablemente, lo que hace que las tareas complejas de análisis de datos sean más eficientes. A partir de esta extrapolación, si la tarea es lo suficientemente compleja, Spark es una o dos veces más rápido que Map/Reduce.

En segundo lugar, Spark es un marco informático flexible que es adecuado para diferentes tipos de aplicaciones, como procesamiento por lotes, flujo de trabajo, análisis interactivo y procesamiento de tráfico. Por lo tanto, Spark también puede convertirse en un motor informático ampliamente utilizado. reemplazará a Map/Reduce en el futuro.

Finalmente, Spark puede interoperar con muchos componentes del ecosistema Hadoop. Spark puede ejecutarse en el marco de gestión de recursos de nueva generación YARN y también puede leer datos existentes almacenados en Hadoop, lo cual es una gran ventaja.

Aunque Spark tiene las tres ventajas principales anteriores, a juzgar por el desarrollo actual y el estado de la aplicación de Spark, Spark en sí también tiene muchas deficiencias, entre las que se incluyen principalmente los siguientes aspectos:

–Estable en En términos de rendimiento, debido a problemas de calidad del código, Spark a menudo comete errores cuando se ejecuta durante mucho tiempo. En términos de arquitectura, debido a que una gran cantidad de datos se almacena en caché en la RAM, la recolección de basura de Java es lenta y grave, lo que resulta en un rendimiento inestable de Spark. y rendimiento deficiente de SQL en escenarios complejos. Ni siquiera tan bueno como el Map/Reduce existente.

–Cuando no se pueden procesar big data, los datos procesados ​​por una sola máquina son demasiado grandes o el resultado intermedio excede el tamaño de la RAM debido a problemas de datos, a menudo no hay suficiente espacio en la RAM o el resultado no puede ser obtenido. Sin embargo, el marco informático Map/Reduce puede manejar big data. En este sentido, Spark no es tan eficaz como el marco informático Map/Reduce.

–No se pueden admitir estadísticas SQL complejas; la integridad actual de la sintaxis SQL admitida por Spark no se puede aplicar en análisis de datos complejos. En términos de manejabilidad, la integración de SparkYARN es imperfecta, lo que crea preocupaciones ocultas durante el uso y es propensa a varios problemas.

Aunque Spark está activo en muchas empresas de big data conocidas como Cloudera, MapR, Hortonworks, etc., si las fallas de Spark no se solucionan a tiempo, la popularidad y el desarrollo de Spark disminuirán. verse gravemente afectado.