Red de conocimientos turísticos - Conocimiento turístico - Cursos de formación de introducción a big data, ¿qué aprender en los cursos de aprendizaje de big data?

Cursos de formación de introducción a big data, ¿qué aprender en los cursos de aprendizaje de big data?

Los siguientes cursos están dirigidos principalmente a introducciones simples y fáciles de entender para los ingenieros de big data de base cero en cada etapa, para que todos puedan comprender mejor los cursos de aprendizaje de big data. El marco del curso es un curso de ingeniería de big data de base cero, incluido big data.

1. La primera etapa: conceptos básicos de páginas web estáticas (HTML+CSS)

1. Dificultad: una estrella.

2. + etapas Tareas del proyecto + capacidades integrales)

3. Las tecnologías principales incluyen: etiquetas HTML comunes, diseños CSS comunes, estilos, posicionamiento, diseño de páginas estáticas y métodos de producción, etc.

4. La descripción es la siguiente:

Técnicamente hablando, el código técnico utilizado en esta etapa es simple, fácil de aprender y fácil de entender. Desde el nivel posterior del curso, debido a que se centra en big data, es necesario practicar las habilidades y el pensamiento de programación en la etapa inicial. Según el análisis de nuestro director de proyectos, que ha desarrollado y enseñado durante muchos años, para cumplir con estos dos puntos, J2EE es la tecnología mejor comprendida y dominada del mercado, y J2EE es inseparable de la tecnología de páginas. Entonces, en la primera fase, nuestro enfoque está en la tecnología de páginas. Adopte la corriente principal del mercado HTMl+CSS.

2. La segunda etapa: JavaSE+JavaWeb

1. Dificultad: dos estrellas

2. Horas de clase (puntos de conocimiento técnico + tareas del proyecto de etapa + integral). Capacidades)

3. Las tecnologías principales incluyen: sintaxis básica de Java, orientada a objetos de Java (clase, objeto, encapsulación, herencia, polimorfismo, clase abstracta, interfaz, clase pública, clase interna, modificador público, etc. ), excepciones, colecciones, archivos, IO, MYSQL (operaciones básicas de declaraciones SQL, consultas de múltiples tablas, subconsultas, procedimientos almacenados, transacciones, transacciones distribuidas) JDBC, etc.

4. La descripción es la siguiente:

Se llama conceptos básicos de Java, con puntos técnicos de superficial a profundo, análisis de módulos de proyectos comerciales reales y diseño de varios métodos de almacenamiento. .

E implementación. Esta etapa es la más importante entre las primeras cuatro etapas, porque todas las etapas posteriores se basan en esta etapa y también es la etapa con el mayor grado de aprendizaje de big data. En esta etapa, contactarás por primera vez con el equipo para desarrollar y producir un proyecto real, con front y backends (tecnología de primera fase + aplicación integral de tecnología de segunda fase).

3. La tercera etapa: marco frontal

1. Procedimiento simple: dos estrellas.

2. Horas de clase (puntos de conocimientos técnicos + tareas de proyectos escénicos + habilidades integrales): 64 horas de clase.

3. Las tecnologías principales incluyen: Java, Jquery y reflexión de anotaciones utilizadas juntas, análisis XML y XML, análisis dom4j, nuevas funciones de jxab y jdk8.0, SVN, Maven y easyui.

4. La descripción es la siguiente:

Basándonos en las dos primeras etapas, convertir lo estático en dinámico puede enriquecer el contenido de nuestras páginas web. Por supuesto, si lo miramos desde la perspectiva de los especialistas en marketing y contamos con diseñadores front-end profesionales, nuestro objetivo de diseño actual es que la tecnología front-end pueda ejercitar de manera más intuitiva las capacidades de pensamiento y diseño de las personas. Al mismo tiempo, también integramos las funciones avanzadas de la segunda etapa en esta etapa. Haga que los alumnos suban un tramo de escaleras.

La cuarta etapa: marco de desarrollo a nivel empresarial

1. Procedimiento simple: tres estrellas

2. Horas de clase (puntos de conocimiento técnico + tareas del proyecto de etapa + Capacidades integrales)

3. Las principales tecnologías son: Hibernate, Spring, SpringMVC, integración log4j slf4j, myBatis, struts2, Shiro, redis, actividad del motor de procesos, tecnología de rastreo nutch, lucene, webServiceCXF, clúster Tomcat y espera en caliente, separación de lectura y escritura de MySQL.

4. La descripción es la siguiente:

Si se compara todo el curso de JAVA con una pastelería, puedes hacer un Wudalang Shaobing en las primeras tres etapas (porque es puramente manual, demasiado problemático), y el marco de aprendizaje puede abrir un Starbucks (equipo de alta tecnología, que ahorra tiempo y esfuerzo). En cuanto a los requisitos para el puesto de ingeniero de desarrollo J2EE, se deben dominar las tecnologías utilizadas en esta etapa. Los cursos que impartimos son superiores a los del mercado (hay tres frameworks convencionales en el mercado y enseñamos siete). tecnologías de marco), y son impartidos por proyectos empresariales impulsados ​​por reales.

Documentación de requisitos, diseño general, diseño detallado, prueba de código fuente, implementación, manual de instalación, etc. será explicado.

5. La quinta etapa: entender el big data.

1. Dificultad: tres estrellas

2. Horas de clase (puntos de conocimiento técnico + tareas del proyecto escénico + habilidades integrales)

3. primera parte de datos (qué es big data, escenarios de aplicación, cómo aprender grandes bases de datos, conceptos e instalación de máquinas virtuales, etc.), comandos comunes de Linux (administración de archivos, administración de sistemas, administración de discos), programación SHELL de Linux (variables SHELL, control de bucle, aplicación), introducción a hadoop (composición de Hadoop, entorno independiente, estructura de directorios, interfaz HDFS, interfaz MR, Shell simple, acceso a Java Hadoop), HDFS (introducción, Shell, uso de herramientas de desarrollo IDEA, creación de un sistema totalmente distribuido clúster), aplicación MapReduce (proceso de cálculo intermedio, operación Java MapReduce, ejecución de programas, monitoreo de registros), aplicación avanzada Hadoop (introducción al marco YARN, elementos de configuración y optimización, introducción a CDH, construcción del entorno), expansión (ver optimización del lado de la imagen,

4. La descripción es la siguiente:

Esta etapa es para que los recién llegados tengan un concepto relativamente amplio de big data. ¿Cómo comparar? Después de aprender JAVA preparatorio, podrán comprender cómo funciona el programa. Se ejecuta en una sola computadora. Entonces, ¿qué pasa con Big Data? Big Data significa ejecutar programas en grupos de máquinas a gran escala para su procesamiento. Por supuesto, Big Data necesita procesar datos, por lo que el almacenamiento de datos también ha cambiado desde el almacenamiento en una sola máquina. al almacenamiento en clúster a gran escala en varias máquinas

(¿Me preguntas qué es un clúster? Está bien, tengo una olla grande de arroz. Puedo terminarla yo solo, pero llevará mucho tiempo. Ahora invito a todos a comer juntos y llamo a otros cuando estoy solo. ¿Qué pasa si hay demasiada gente?

Entonces, los grandes datos se pueden dividir en: grandes. almacenamiento de datos y procesamiento de big data Entonces, en esta etapa, nuestros cursos ya han diseñado los estándares para big data: HADOOP big data no se ejecuta en WINDOWS 7 o W10, que usamos con frecuencia, sino en el sistema más utilizado: LINUX <. /p>

Etapa 6: Base de datos Big Data

1. Dificultad: Cuatro estrellas

2. Horas de clase (puntos de conocimiento técnico + tareas del proyecto de etapa + habilidades integrales)

3 Las tecnologías principales incluyen introducción a Hive (introducción a Hive, escenarios de uso de Hive, construcción del entorno, descripción de la arquitectura y mecanismo de trabajo), programación de Hive Shell (creación de tablas, declaraciones de consulta, particiones y depósitos, gestión de índices y). vistas), aplicaciones avanzadas de Hive (implementación DISTINCT, groupby, unión, principio de conversión de SQL, programación, configuración y optimización de Java) e Introducción a la programación de Hbase SHELL (DDL, DML, construcción de tablas de operaciones de Java, consulta, compresión, filtrado). descripción detallada del módulo Hbase (introducción a la región, configuración de HREGION SERVER, HMASTER, Zookeeper, ZOOKEEPER, integración de Hbase y ZOOKEEPER), funciones avanzadas de HBASE (procesos de lectura y escritura, modelos de datos, puntos de acceso de lectura y escritura de diseño de esquema, optimización, configuración) .

4. La descripción es la siguiente:

Esta etapa está diseñada para que todos comprendan cómo big data maneja datos a gran escala. Simplifique el tiempo de programación y aumente la velocidad de lectura.

¿Cómo simplificarlo? En la primera etapa, si se requieren correlaciones comerciales complejas y extracción de datos, es muy complicado escribir programas de MR usted mismo. Entonces, en esta etapa, presentamos HIVE, un almacén de datos en big data. Aquí hay una palabra clave: almacén de datos. Sé que me vas a preguntar, así que primero déjame decirte que un almacén de datos suele ser un enorme centro de datos que se utiliza para el análisis de minería de datos. Almacena estos datos, normalmente una base de datos grande como ORACLE, DB2, etc. Estas bases de datos se utilizan a menudo para negocios en línea en tiempo real.

En resumen, el análisis de datos basado en el almacén de datos es relativamente lento. Pero lo conveniente es que siempre que esté familiarizado con SQL, es relativamente fácil de aprender, y HIVE es una herramienta de este tipo, una herramienta de consulta SQL basada en big data. Esta etapa también incluye HBASE, que es una base de datos en big data. datos.

Me pregunto: ¿nunca has oído hablar de un “almacén” de datos llamado HIVE? HIVE se basa en MR, por lo que las consultas son bastante lentas. HBASE puede consultar datos en tiempo real basándose en big data. Un análisis principal y otra consulta principal.

La séptima etapa: recopilación de datos en tiempo real

1. Procedimiento simple: cuatro estrellas

2. Horas de clase (puntos de conocimiento técnico + tareas del proyecto de etapa + capacidad integral)

3. Las tecnologías principales incluyen: adquisición de registros de Flume, introducción de KAFKA (cola de mensajes, escenarios de aplicación, construcción de clústeres), explicación detallada de KAFKA (partición, tema, receptor, remitente, integración con ZOOKEEPER, Shell). desarrollo, depuración de Shell), uso avanzado de KAFKA (desarrollo java, configuración principal, proyectos de optimización), visualización de datos (introducción a gráficos y tablas, clasificación de herramientas de gráficos, histogramas y gráficos circulares, gráficos y mapas 3D). Introducción a Storm (ideas de diseño, escenarios de aplicación, procedimientos de procesamiento, instalación de clústeres), desarrollo de STORM (desarrollo de Stromvn, escritura de programas locales de STORM), STORM avanzado (desarrollo de Java, configuración principal, proyectos de optimización), envío asincrónico de KAFKA y puntualidad del envío por lotes, KAFKA Los mensajes globales están optimizados en secuencia y STORM en multiconcurrencia.

4. La descripción es la siguiente:

La fuente de datos en la etapa anterior se basa en el conjunto de datos a gran escala existente. Los resultados después del procesamiento y análisis de datos tienen una cierta. retraso Generalmente los datos procesados. Estos son los datos del día anterior.

Escenarios de ejemplo: anti-hotlinking de sitios web, anomalías en cuentas de clientes, informes crediticios en tiempo real. ¿Qué pasaría si estos escenarios se analizaran en base a los datos del día anterior? ¿Es demasiado tarde? Entonces, en esta etapa, presentamos la recopilación y el análisis de datos en tiempo real. Incluye principalmente: recopilación de datos en tiempo real FLUME, envío y recepción de datos KAFKA, procesamiento de datos en tiempo real STORM y procesamiento de datos en segundos respaldados por una amplia gama de fuentes.

Ocho. Etapa 8: Análisis de datos Spark

1. Procedimiento simple: cinco estrellas

2 Horas de clase (puntos de conocimiento técnico + tareas del proyecto de etapa + habilidades integrales)

3. Las principales tecnologías incluyen: introducción a SCALA (tipos de datos, operadores, declaraciones de control, funciones básicas), uso avanzado de SCALA (estructuras de datos, clases, objetos, características, coincidencia de patrones, expresiones regulares), uso avanzado de SCALA (alta funciones de orden, función de Cory, función parcial, iteración de cola, función autónoma de orden superior, etc.). ) y una introducción a SPARK (construcción del entorno, infraestructura, modelo operativo, etc.) SPARK SQL, SPARK Advanced (marco de datos, conjunto de datos, principio de flujo SPARK, fuente de soporte de flujo SPARK, integración de KAFKA y SOCKET, modelo de programación). Programación avanzada SPARK (Spark-GraphX, aprendizaje automático Spark-Mllib), aplicaciones avanzadas SPARK (arquitectura del sistema, configuración principal y optimización del rendimiento, recuperación de fallas y etapas), algoritmo SPARK ML KMEANS, funciones avanzadas de conversión implícita SCALA.

4. La descripción es la siguiente:

Hablemos primero de la etapa anterior, principalmente de la primera etapa. HADOOP se basa en MR para analizar conjuntos de datos a gran escala, incluido el aprendizaje automático y la inteligencia artificial, y es relativamente lento. Y no apto para cálculos iterativos. SPARK es una alternativa a MR para análisis. ¿Cómo reemplazarlo? Hablemos primero de sus mecanismos operativos. HADOOP se basa en el análisis de almacenamiento en disco y SPARK se basa en el análisis de memoria. Puede que no entiendas lo que estoy diciendo, pero para decirlo más claramente, es como tomar un tren de Beijing a Shanghai. MR es un tren ecológico y SPARK es un tren de alta velocidad o maglev. SPARK está desarrollado en base al lenguaje SCALA. Por supuesto, tiene el mejor soporte para SCALA, así que aprenda el lenguaje de desarrollo SCALA primero en el curso.

En el diseño de los cursos de datos de HKUST, se cubren básicamente los requisitos técnicos para las posiciones en el mercado. Y no se trata solo de cubrir los requisitos laborales. El curso en sí es un proceso completo de proyecto de big data desde el principio hasta el final.

Por ejemplo, desde el almacenamiento y análisis de datos históricos (HADOOP, HIVE, HBASE) hasta el almacenamiento y análisis de datos en tiempo real (FLUME, KAFKA) (STORM, SPARK), todos estos son interdependientes en proyectos reales.