Red de conocimientos turísticos - Información de alquiler - El estado actual de las aplicaciones de Hadoop en el país y en el extranjero

El estado actual de las aplicaciones de Hadoop en el país y en el extranjero

Texto | Zhai Zhouwei

Este artículo está extraído del libro "Hadoop Core Technology".

Hadoop es una plataforma de infraestructura de computación en la nube eficiente y de código abierto. No solo se usa ampliamente en el campo de la computación en la nube, sino que también puede admitir servicios de motores de búsqueda como sistema de infraestructura subyacente de los motores de búsqueda. También puede procesar datos masivos, la minería de datos, el aprendizaje automático, la informática científica y otros campos se están volviendo cada vez más populares. Este artículo describirá el estado actual de las aplicaciones de hadoop en el país y en el extranjero.

El estado actual de la aplicación de Hadoop en el extranjero

1.Yahoo

Yahoo es el mayor partidario de Hadoop A partir de 2012, el número total de nodos de Yahoo. Las máquinas Hadoop superan las 42.000, hay más de 100.000 CPU centrales ejecutando Hadoop. El clúster de nodo maestro único más grande tiene 4500 nodos (cada nodo tiene cajas de CPU de 4 núcleos de doble canal, 4 discos de 1 TB y 16 GB de RAM). La capacidad total de almacenamiento del clúster es superior a 350 PB y la cantidad de trabajos enviados cada mes supera los 10 millones. Más del 60% de los trabajos de Hadoop en Pig se escriben y envían utilizando Pig.

La aplicación Hadoop de Yahoo incluye principalmente los siguientes aspectos:

Soporte para sistema de publicidad

Análisis del comportamiento del usuario

Soporte para búsqueda web

p>

Sistema antispam

Antiabuso de miembros

Contenido ágil

Recomendaciones personalizadas

Al mismo tiempo, Pig investiga y prueba el sistema Hadoop que admite grupos de nodos de escala ultragrande.

2. Facebook

Facebook utiliza Hadoop para almacenar registros internos y datos multidimensionales y utilizarlos como fuente de datos para informes, análisis y aprendizaje automático. Actualmente, el clúster de Hadoop tiene más de 1400 nodos de máquina, con un total de 11 a 200 CPU centrales y más de 15 PB de capacidad de almacenamiento sin procesar. Cada nodo de máquina comercial está configurado con una CPU de 8 núcleos y 12 TB de almacenamiento de datos. e interfaces de programación JavaAPI. Facebook también ha establecido un marco de almacenamiento de datos avanzado llamado Hive basado en Hadoop. Hive se ha convertido oficialmente en un proyecto de primer nivel de Apache basado en Hadoop. Además, se ha desarrollado una implementación de FUSE en HDFS.

3.A9.com

A9.com utilizó Hadoop para crear un índice de búsqueda de productos para Amazon. Utilizó principalmente herramientas StreamingAPI y C++, Perl y Python, y también utilizó Java y. StreamingAPI para análisis y procesamiento Millones de conversaciones diarias. El servicio de indexación creado por A9.com para Amazon se ejecuta en un clúster Hadoop de aproximadamente 100 nodos.

4.Adobe

Adobe utiliza principalmente Hadoop y HBase para respaldar la informática de servicios sociales y el almacenamiento y procesamiento de datos estructurados. Existe aproximadamente un clúster de producción Hadoop-HBase con más de 30 nodos. Adobe almacena datos directa y continuamente en HBase, utiliza HBase como fuente de datos para ejecutar el procesamiento de trabajos de MapReduce y luego almacena los resultados directamente en HBase o en un sistema externo. Adobe aplicó Hadoop y HBase a los clústeres de producción en octubre de 2008.

5.CbIR

Desde abril de 2008, la empresa japonesa CbIR (Recuperación de información basada en contenido) ha utilizado Hadoop en Amazon EC2 para crear un entorno de procesamiento de imágenes para sistemas de recomendación de productos de imágenes. Utilice el entorno Hadoop para generar la base de datos de origen para facilitar el acceso rápido a ella por parte de las aplicaciones web, y utilice Hadoop para analizar la similitud del comportamiento del usuario.

6.Datagraph

Datagraph utiliza principalmente Hadoop para procesar por lotes grandes cantidades de conjuntos de datos RDF, especialmente usando Hadoop para indexar datos RDF.

Datagraph también utiliza Hadoop para realizar consultas SPARQL fuera de línea y de larga duración para los clientes. Datagraph utiliza Amazon S3 y Cassandra para almacenar archivos de entrada y salida de datos RDF, y ha desarrollado un marco Ruby basado en MapReduce para procesar datos RDF: RDFgrid.

Datagraph utiliza principalmente Ruby, RDF.rb y su propio marco RDFgrid desarrollado para procesar datos RDF, principalmente utilizando la interfaz HadoopStreaming.

7.EBay

Un solo clúster tiene más de 532 nodos, un solo nodo tiene CPU de 8 núcleos y la capacidad de almacenamiento supera los 5,3 PB. Uso extensivo de la interfaz Java de MapReduce, Pig y Hive para procesar datos a gran escala y HBase para optimización de búsqueda e investigación.

8. IBM

IBM Blue Cloud también utiliza Hadoop para construir infraestructura en la nube. Las tecnologías utilizadas por IBM Blue Cloud incluyen: imágenes virtualizadas del sistema operativo Linux Xen y PowerVM y programación de cargas de trabajo paralelas Hadoop, y ha lanzado su propia distribución Hadoop y soluciones de big data.

9.Last.Fm

Last.Fm se utiliza principalmente para cálculos de gráficos, solicitudes de patentes, análisis de registros, pruebas A/B, fusión de conjuntos de datos, etc. También utiliza Hadoop. para más de cien Realice análisis de funciones de audio a gran escala en millones de pistas.

Hay más de 100 nodos y los nodos del clúster están configurados con XeonL5520@2.27GHzL5630@2.13GHz de cuatro núcleos duales, 24 GB de memoria y 8 TB (4×2 TB) de almacenamiento.

10. LinkedIn

LinkedIn tiene clústeres de Hadoop con varias configuraciones de hardware. Las configuraciones principales del clúster son las siguientes:

Clúster de 800 nodos, basado en Westmere HP. SL170X y 2×4 núcleos, 24GB de memoria, 6×2TBSATA.

Clúster de 1900 nodos, basado en Westmere Supermicro-HX8DTT, con 2×6 núcleos, 24GB de memoria, 6×2TBSATA.

Clúster de 1400 nodos, basado en SandyBridge super micro y 2×6 núcleos, 32GB de memoria, 6×2TBSATA.

El software utilizado es el siguiente:

El sistema operativo utiliza RHEL6.3.

JDK utiliza SUNJDK1.6.0_32.

Parche Apache Hadoop 0.20.2 y parche Apache Hadoop 1.0.4.

Azkaban y Azkaban se utilizan para la programación de trabajos.

Hive, Avro, Kafka, etc.

11.MobileAnalytic.TV

Hadoop se utiliza principalmente en el campo de los algoritmos de paralelización. Los algoritmos de aplicación MapReduce involucrados son los siguientes.

Recuperación y análisis de información.

Contenido generado por máquina: documentos, texto, audio, vídeo.

Procesamiento del lenguaje natural.

Porfolio de proyectos incluye:

Redes sociales móviles.

Rastreador web.

Conversión de texto a voz.

El audio y el vídeo se generan automáticamente.

12.Openstat

Utiliza principalmente Hadoop para personalizar un análisis de registros de red y generar informes. En su entorno de producción, hay más de 50 clústeres de nodos (Xeon de cuatro núcleos y doble canal). procesador, 16 GB de RAM, de 4 a 6 discos duros) y dos grupos relativamente pequeños para análisis personalizados, que procesan aproximadamente 5 millones de eventos por día, 1.500 millones de dólares en datos de transacciones por mes, y los grupos generan aproximadamente 25 GB de informes por día.

Las tecnologías utilizadas principalmente incluyen: CDH, Cascading y Janino.

13.Quantcast

3000 núcleos de CPU, 3500 TB de almacenamiento, procesa más de 1 PB de datos cada día, utiliza un programador Hadoop totalmente personalizado para rutas y clasificadores de datos, para el sistema de archivos KFS. hicieron contribuciones destacadas.

14.Rapleaf

Un clúster con más de 80 nodos (cada nodo tiene 2 CPU de doble núcleo, 2 TB × 8 de almacenamiento, 16 GB de memoria RAM utiliza principalmente Hadoop y Hive para procesar); la Web Vincula datos a individuos e introduce Cascading para simplificar el flujo de datos a través de varias etapas de procesamiento.

15.WorldLingo

Más de 44 servidores en el hardware (cada uno tiene 2 CPU de doble núcleo, 2 TB de almacenamiento, 8 GB de memoria), cada servidor ejecuta Xen e inicia una máquina virtual. La instancia ejecuta Hadoop/HBase y luego inicia una instancia de máquina virtual para ejecutar el servidor web o de aplicaciones, es decir, hay 88 máquinas virtuales disponibles que se ejecutan en dos conjuntos independientes de clústeres de Hadoop/HBase, cada uno con 22 nodos; Hadoop se utiliza principalmente para ejecutar trabajos de HBase y MapReduce, escanear tablas de datos de HBase y realizar tareas específicas. HBase sirve como un backend de almacenamiento rápido y escalable para almacenar millones de documentos. Actualmente se almacenan 12 millones de documentos y el objetivo a corto plazo es almacenar 450 millones de documentos.

16. TerrierTeam de la Universidad de Glasgow

Clúster experimental con más de 30 nodos (cada nodo está configurado con XeonQuadCore2.4GHz, 4GB de memoria y 1TB de almacenamiento). Facilitar la investigación y experimentación de recuperación de información utilizando Hadoop, específicamente para TREC, para la plataforma TerrierIR. La distribución de código abierto de Terrier incluye un índice distribuido a gran escala basado en HadoopMapReduce.

17. Holland Computing Center de la Universidad de Nebraska

Ejecutando un clúster Hadoop de tamaño moderado (***1,6 PB de almacenamiento) para almacenar y proporcionar datos físicos para respaldar los cálculos del Experimento de solenoide de muón compacto (CMS). Esto requiere el soporte de una clase de sistemas de archivos que puedan descargar datos a velocidades de varios Gbps y procesar datos a velocidades aún mayores.

18.VisibleMeasures

Utilice Hadoop como un componente del canal de datos escalable, que finalmente se utiliza en productos como VisibleSuite. Utilice Hadoop para agregar, almacenar y analizar flujos de datos relacionados con el comportamiento de visualización de los espectadores de vídeos en línea. La red actual incluye más de 128 núcleos de CPU, más de 100 TB de almacenamiento y planes para una expansión significativa.

El estado actual de las aplicaciones de Hadoop en China

Las aplicaciones de Hadoop en China están dominadas principalmente por empresas de Internet. A continuación se presentan principalmente empresas que utilizan Hadoop a gran escala o investigan Hadoop.

1. Baidu

Baidu comenzó a prestar atención a Hadoop en 2006 y comenzó a investigarlo y utilizarlo. En 2012, el tamaño total de su clúster llegó a casi diez, y un solo clúster lo superó. 2800 máquinas Hay decenas de miles de nodos y máquinas Hadoop. La capacidad de almacenamiento total supera los 100 PB y se utilizan más de 74 PB cada día. El volumen de datos de entrada diario supera los 7500 TB.

El clúster Hadoop de Baidu proporciona servicios informáticos y de almacenamiento unificados para todo el equipo de datos de la empresa, el gran equipo de búsqueda, el equipo de productos de la comunidad, el equipo de publicidad y el grupo LBS. Las principales aplicaciones incluyen:

. Minería y análisis de datos.

Plataforma de análisis de logs.

Sistema de almacenamiento de datos.

Recomendación del sistema del motor.

Sistema de análisis del comportamiento del usuario.

Al mismo tiempo, Baidu también desarrolló su propia plataforma de análisis de registros, un sistema de almacenamiento de datos y una interfaz de programación unificada de C++ basada en Hadoop. También llevó a cabo una transformación profunda de Hadoop y desarrolló el HCE extendido de Hadoop C++. sistema.

2. Alibaba

El clúster Hadoop de Alibaba tiene aproximadamente 3200 servidores en 2012, aproximadamente 30 000 núcleos de CPU físicos, una memoria total de 100 TB y una capacidad de almacenamiento total de más de 60 PB. la cantidad de trabajos por día supera los 150.000, las consultas de Hivequery superan las 6.000 por día, la cantidad de datos escaneados cada día es de aproximadamente 7,5 PB, la cantidad de archivos escaneados cada día es de aproximadamente 400 millones, la utilización del almacenamiento es de aproximadamente el 80% y la La utilización promedio de la CPU es del 65 %, el valor máximo puede alcanzar el 80 %. El clúster Hadoop de Alibaba tiene 150 grupos de usuarios y 4500 usuarios de clúster, y proporciona servicios básicos de computación y almacenamiento subyacentes para Taobao, Tmall, Yitao, Juhuasuan, CBU y Alipay. Las principales aplicaciones incluyen:

Sistema de plataforma de datos.

Soporte de búsqueda.

Sistema publicitario.

Cubo de Datos.

Estadísticas cuánticas.

Hablamos de datos.

Recomendación del sistema del motor.

Ranking de búsqueda.

Para facilitar el desarrollo, también ha desarrollado un entorno de desarrollo de herencia WebIDE. Los sistemas relacionados utilizados incluyen: Hive, Pig, Mahout, Hbase, etc.

3. Tencent

Tencent es también una de las primeras empresas chinas de Internet en utilizar Hadoop. A finales de 2012, las máquinas de clúster Hadoop de Tencent suman más de 5.000 y son las más grandes. Un solo clúster tiene aproximadamente 2000 nodos y utilizó Hadoop-Hive para construir su propio sistema de almacenamiento de datos TDW, y también desarrolló su propio entorno de desarrollo básico TDW-IDE. Hadoop de Tencent proporciona servicios básicos de computación y almacenamiento en la nube para cada una de las líneas de productos de Tencent y admite los siguientes productos:

Plataforma de publicidad social de Tencent.

SOSO.

Paipai.com.

Tencent Weibo.

Brújula Tencent.

Miembro de QQ.

Soporte para juegos Tencent.

Espacio QQ.

Red de Amigos.

Plataforma abierta Tencent.

Diez pagos.

QQ móvil.

QQ Música.

4. Qihoo 360

Qihoo 360 utiliza principalmente Hadoop-HBase como sistema de arquitectura de almacenamiento de páginas web subyacente de su motor de búsqueda so.com. Las páginas web buscadas por 360 pueden llegar a cientos. de miles de millones de registros, el volumen de datos está en el nivel PB. A finales de 2012, el tamaño de su clúster HBase superó los 300 nodos y el número de regiones superó las 100.000. Las versiones de plataforma utilizadas son las siguientes.

Versión HBase: facebook0.89-fb.

Versión HDFS: facebookHadoop-20.

El trabajo de Qihoo 360 en Hadoop-HBase es principalmente optimizar y reducir el tiempo de inicio y parada del clúster HBase, y optimizar y reducir el tiempo de recuperación después de que RS sale anormalmente.

5. Huawei

Huawei también es una de las empresas que ha hecho mayores contribuciones a Hadoop, ubicándose por delante de Google y Cisco. Huawei tiene un conocimiento profundo de la solución HA de Hadoop. y el campo HBase Research y ha lanzado sus propias soluciones de big data basadas en Hadoop para la industria.

6. China Mobile

China Mobile lanzó oficialmente BigCloud 1.0 en mayo de 2010, y el número de nodos del clúster llegó a 1024. Dayun de China Mobile implementa computación distribuida basada en MapReduce de Hadoop y utiliza HDFS para implementar almacenamiento distribuido. También desarrolla el sistema de almacenamiento de datos basado en Hadoop HugeTable, el conjunto de herramientas de minería de datos paralelos BC-PDM y la extracción y transformación de datos paralelos. , sistema de almacenamiento de objetos BC-ONestd y otros sistemas, y su propia versión de código abierto de BC-Hadoop.

China Mobile aplica Hadoop principalmente en el campo de las telecomunicaciones, y sus áreas de aplicación planificadas incluyen:

Cálculo centralizado de KPI divididos.

ETL/DM del sistema ETL/DM.

Sistema de liquidación.

Sistema de señalización.

Sistema de pool de recursos de computación en la nube.

Sistema de aplicaciones de Internet de las Cosas.

Correo electrónico.

Servicios IDC, etc.

7. Pangu Search

Pangu Search (actualmente fusionado con Instant Search para formar China Search) utiliza principalmente clústeres de Hadoop como sistema de soporte de infraestructura para motores de búsqueda. , el clúster El número total de máquinas es más de 380 y la capacidad de almacenamiento total es 3,66 PB. Las principales aplicaciones incluidas son las siguientes.

Almacenamiento de páginas web.

Análisis de páginas web.

Construir un índice.

Cálculo del PageRank.

Registrar análisis estadístico.

Motores de recomendación, etc.

Búsqueda instantánea (Búsqueda de personas)

La búsqueda instantánea (actualmente fusionada con Pangu Search para convertirse en China Search) también utiliza Hadoop como sistema de soporte de su motor de búsqueda. Hadoop El tamaño total del clúster supera los 500 nodos, configurado con CPU de 6 núcleos de doble canal, memoria de 48G y almacenamiento de 11 × 2T. La capacidad total del clúster supera los 10 PB y la tasa de utilización es de aproximadamente el 78%. leer todos los días es de aproximadamente 500 TB, con un valor máximo superior a 1P, un promedio de aproximadamente 300 TB.

Instant Search utiliza el formato sstable para almacenar páginas web en motores de búsqueda y almacena directamente archivos sstable en HDFS. Utiliza principalmente la interfaz de programación HadoopPipes para el procesamiento posterior y también utiliza la interfaz Streaming para procesar datos. incluyen:

Almacenamiento de páginas web.

Análisis.

Construir un índice.

Motor de recomendaciones.

fin