La descripción correcta de hadoop es
La descripción correcta de hadoop se refiere a:
Una infraestructura de sistema distribuido desarrollada por la Fundación Apache. Es un marco de software para sistemas de almacenamiento y marcos informáticos. Resuelve principalmente los problemas de almacenamiento y cálculo masivo de datos y es la piedra angular de la tecnología de big data.
Hadoop es una infraestructura de sistema distribuido desarrollada por la Fundación Apache. Es un marco de software para sistemas de almacenamiento y marcos informáticos. Resuelve principalmente los problemas de almacenamiento y cálculo masivo de datos y es la piedra angular de la tecnología de big data.
El núcleo de Hadoop es HDFS (HadoopDistributedFileSystem) y MapReduce. HDFS es un sistema de archivos distribuido que puede distribuir grandes cantidades de datos en varias computadoras para su almacenamiento.
Este método de almacenamiento distribuido puede garantizar la confiabilidad y alta disponibilidad de los datos, y la capacidad de almacenamiento se puede ampliar agregando nodos. HDFS también tiene mecanismos de copia de seguridad de datos y recuperación de fallas para garantizar la seguridad de los datos.
MapReduce es un modelo informático distribuido que puede descomponer conjuntos de datos a gran escala en múltiples tareas pequeñas y ejecutarlas en paralelo en varias computadoras. Hay dos componentes principales en el modelo MapReduce: Mapper y Reducer. Mapper es responsable de dividir los datos de entrada en múltiples pares clave-valor pequeños, procesar cada par clave-valor y generar resultados intermedios.
Reducer es responsable de fusionar los resultados intermedios generados por Mapper de acuerdo con las claves y finalmente generar los resultados. A través del modelo MapReduce, las tareas informáticas complejas se pueden descomponer en múltiples subtareas simples, mejorando así la eficiencia y la escalabilidad informática.
Además de HDFS y MapReduce, Hadoop también incluye muchos otros componentes y herramientas, como YARN (Yet Another Resource Negotiator), Hive, Pig, HBase, etc. YARN es un administrador de recursos que coordina y administra los recursos informáticos y la programación de tareas en un clúster.
Hive es una herramienta de almacenamiento de datos basada en HQL (HadoopQueryLanguage), que puede utilizar un lenguaje similar a SQL para consultar y analizar datos. Pig es una herramienta de procesamiento de flujo de datos basada en el lenguaje de escritura latina, que puede ayudar a los usuarios a escribir y realizar tareas complejas de procesamiento de datos. HBase es una base de datos de columnas distribuidas que puede almacenar datos estructurados masivos en un clúster de Hadoop