¿Cuáles son los pasos para el análisis de datos?
1. Definición del problema
Un escenario típico es que necesitamos analizar datos empresariales. Por ejemplo, las empresas suelen tener datos de ventas, datos de usuarios, datos operativos, datos de producción de productos. … ¿Qué información útil necesita obtener de estos datos para guiar la formulación de estrategias? Por poner otro ejemplo, si necesita realizar una investigación de mercado o un análisis de la industria, entonces necesita saber qué información necesita obtener sobre esta industria.
En primer lugar, ¿qué problema necesitas analizar? ¿Qué conclusiones quieres sacar?
Por ejemplo, ¿cuál es la tendencia de los cambios en la calidad del aire en una zona determinada?
¿Cómo son los retratos de los usuarios de los jugadores de Honor of Kings? ¿Qué tipo de personas suelen consumir?
¿Cuáles son los factores clave que afectan el crecimiento de las ventas de la empresa?
¿Cuáles son los indicadores centrales que afectan la capacidad de producción y la calidad en el proceso de producción?
¿Cómo analizar los retratos de los usuarios y realizar un marketing preciso?
¿Cómo predecir el comportamiento del usuario en una determinada etapa del futuro basándose en datos históricos?
Estas preguntas pueden surgir de su experiencia y conocimientos existentes. Por ejemplo, si ya sabes que los usuarios compran diferentes cantidades en diferentes momentos de la semana, puedes analizar la relación precisa entre las ventas y el tiempo para preparar con precisión tu inventario. Para poner otro ejemplo, usted sabe que la calidad del aire en Beijing se ha ido deteriorando en los últimos años. Los posibles factores son las emisiones de las fábricas, las tormentas de arena, las emisiones de los residentes, los factores climáticos, etc. Luego, al definir el problema, debe pensar claramente qué factores se necesitan. centrarse en el análisis.
Algunas preguntas no están claras, por ejemplo, en el proceso de producción, ¿cuáles son los indicadores centrales que afectan la calidad de las materias primas? ¿Nivel de equipamiento? ¿Nivel de trabajador? ¿Condiciones climáticas? ¿Qué tan complejo es el proceso de un determinado vínculo? ¿Cuántas veces se debe repetir una operación? ...Estos pueden no ser obvios, o estás ingresando a un nuevo campo y no tienes conocimientos muy profesionales, por lo que el problema que necesites definir debe ser más amplio y cubrir más posibilidades.
La definición del problema puede requerir que usted comprenda los conocimientos básicos del negocio y adquiera cierta experiencia que pueda ayudarle a realizar el análisis. Hasta cierto punto, este es también el pensamiento de datos al que a menudo nos referimos. El análisis de datos a menudo puede ayudar a descubrir correlaciones que nos resultan difíciles de encontrar, pero una definición precisa del problema puede mejorar en gran medida la eficiencia del análisis de datos.
¿Cómo definir mejor el problema?
Esto requiere que encuentres una idea de los datos durante el entrenamiento a largo plazo. Al principio, si obtienes una gran cantidad de datos con muchos campos, es posible que te sientas confundido en cuanto a dónde. debería empezar. ¿Por dónde empezar?
Pero sería mucho mejor si tuvieras algo de experiencia. Por ejemplo, si desea estudiar los factores físicos que afectan la velocidad de los corredores, entonces podemos estudiar la altura, la longitud de las piernas, el peso o incluso la frecuencia cardíaca, la presión arterial y la longitud de los brazos del atleta, pero no la longitud del vello de las axilas del atleta. Esto se basa en el conocimiento que ya tenemos. Para poner otro ejemplo, si queremos analizar los factores que afectan los precios de la vivienda en un lugar, es posible que tengamos algún conocimiento común, como la población urbana, la ubicación geográfica, el PIB, los precios de la tierra, los niveles de precios, y una información más detallada puede incluir Estructura industrial, estatus cultural y condiciones climáticas. Espera, pero generalmente no estudiamos la apariencia de las niñas en las ciudades y la proporción de bellezas.
Entonces, cuando analices más problemas, tendrás cierta sensibilidad a los datos y, por lo tanto, desarrollarás el hábito de utilizarlos para analizar y hablar con ellos. En este momento, incluso puede hacer juicios y predicciones preliminares basados en algunos datos y su propia experiencia (por supuesto, no puede reemplazar la predicción precisa de una muestra completa). En este momento, básicamente tiene pensamiento de datos.
2. Adquisición de datos
Con preguntas específicas, es necesario obtener datos relevantes. Por ejemplo, si desea explorar la tendencia de los cambios en la calidad del aire de Beijing, es posible que deba recopilar datos sobre la calidad del aire de Beijing, datos meteorológicos o incluso datos de fábricas, datos de emisiones de gases, datos de horarios importantes, etc. de los últimos años. Si desea analizar los factores clave que afectan las ventas de la empresa, debe llamar a los datos históricos de ventas de la empresa, los datos de retratos de usuarios, los datos publicitarios, etc.
Existen muchas formas de obtener datos.
En primer lugar, los datos de ventas y usuarios de la empresa se pueden recuperar directamente de la base de datos empresarial, por lo que necesita conocimientos de SQL para completar el trabajo de gestión de la base de datos, como la extracción de datos. Por ejemplo, puedes extraer todos los datos de ventas en 2017 según tus necesidades, extraer los datos de los 50 productos más vendidos este año, extraer los datos de consumo de los usuarios en Shanghai y Guangdong... SQL puede ayudarte a completar estas tareas a través comandos simples.
El segundo es obtener conjuntos de datos públicos externos. Algunas instituciones de investigación científica, empresas y gobiernos abrirán algunos datos. Debe ir a sitios web específicos para descargar estos datos. Estos conjuntos de datos suelen ser relativamente completos y de calidad relativamente alta. Por supuesto, este método también tiene algunas desventajas. Por lo general, los datos se publican con retraso, pero aún así tiene un gran valor debido a su objetividad y autoridad.
El tercer método consiste en escribir un rastreador web para recopilar datos en Internet. Por ejemplo, puede utilizar un rastreador para obtener la información de contratación para un determinado puesto en el sitio web de contratación, rastrear la información de alquiler de una determinada ciudad en el sitio web de alquiler, rastrear la lista de películas con las calificaciones más altas en Douban y obtener la A Zhihu le gusta la clasificación y la lista de clasificación de reseñas de música de NetEase Cloud. Con base en los datos extraídos de Internet, puede analizar una determinada industria y un determinado grupo de personas. Este es un método muy confiable de investigación de mercado y análisis de productos competitivos.
Por supuesto, el error es que normalmente no puedes obtener todos los datos que necesitas, lo que tendrá un cierto impacto en los resultados de tu análisis, pero no afecta los datos que se pueden obtener para extraer información más útil.
3. Preprocesamiento de datos
Los datos en el mundo real generalmente son datos incompletos, inconsistentes y sucios, lo que hace imposible analizarlos directamente o los resultados del análisis no son satisfactorios. Existen muchos métodos de preprocesamiento de datos: limpieza de datos, integración de datos, transformación de datos, reducción de datos, etc. Solo procesando los datos que afectan el análisis podemos obtener resultados de análisis más precisos.
Por ejemplo, en los datos de calidad del aire, hay muchos días de datos que no se monitorean debido a problemas con el equipo, algunos datos se registran repetidamente y algunos datos no son válidos para el monitoreo debido a fallas del equipo.
Entonces debemos usar los métodos correspondientes para manejarlos, como los datos incompletos, ¿deberíamos eliminarlos directamente o usar valores cercanos para completarlos? .
Por supuesto, aquí también podemos tener agrupación de datos, cálculo de estadísticas descriptivas básicas, dibujo de gráficos estadísticos básicos, conversión de valores de datos, normalización de datos, etc., que pueden ayudarnos a dominar las características de distribución. de datos son la base para análisis y modelos más profundos.
4. Análisis y modelado de datos
En esta parte, debe comprender los métodos básicos de análisis de datos, los algoritmos de minería de datos y comprender los escenarios aplicables y los problemas adecuados de los diferentes métodos. Durante el análisis se debe evitar el abuso y el mal uso de los métodos de análisis estadístico. El abuso y mal uso de los métodos de análisis estadístico se debe principalmente a una comprensión poco clara de qué tipos de problemas puede resolver el método, los requisitos previos para la aplicabilidad del método y los requisitos de datos del método.
Además, también es extremadamente importante seleccionar varios métodos de análisis estadístico para realizar análisis exploratorios y repetidos de los datos. Cada método de análisis estadístico tiene sus propias características y limitaciones, por lo que generalmente es necesario seleccionar varios métodos para confirmar repetidamente el análisis. No es científico sacar conclusiones categóricas basadas en los resultados de un solo método de análisis.
Por ejemplo, si encuentra que bajo ciertas condiciones, el volumen de ventas y el precio son directamente proporcionales, entonces puede construir un modelo de regresión lineal basado en esto. Si encuentra que el precio y la publicidad no son lineales, Primero puede construir un modelo de regresión logística para realizar el análisis.
Generalmente, el método de análisis de regresión puede satisfacer una gran parte de las necesidades de análisis. Por supuesto, también puede aprender sobre algunos algoritmos de minería de datos y métodos de extracción de características para optimizar su propio modelo y obtener mejores resultados.
5. Visualización de datos y redacción de informes de datos.
El resultado más directo de los resultados del análisis es la descripción y visualización de estadísticas.
Por ejemplo, a través de la distribución de datos, encontramos las cinco ciudades con los salarios más altos a través del análisis de datos, las clasificaciones de popularidad actuales de varios idiomas, la tendencia cambiante de la calidad del aire en Beijing en los últimos años, la distribución regional del consumo de condones... …Estos son los resultados que podemos mostrar a través de un simple análisis y visualización de datos.
Otros requieren una exploración en profundidad de las relaciones internas, como los indicadores más críticos que afectan la calidad del producto. Es necesario realizar un análisis de correlación entre los diferentes indicadores y la calidad del producto antes de poder sacar la conclusión correcta. Por poner otro ejemplo, si necesita predecir las ventas de productos durante un determinado período de tiempo en el futuro, debe modelar y analizar datos históricos para hacer una predicción más precisa de la situación futura.
El informe de análisis de datos no es solo una presentación directa de los resultados del análisis, sino también una comprensión integral de la situación relevante. A menudo vemos algunos informes de análisis de la industria que analizan diversas relaciones desde diferentes ángulos y en profundidad. Por lo tanto, se necesita una lógica narrativa, cómo profundizar y detallar desde un problema macro a todos los aspectos del problema para llegar a resultados convincentes, lo que requiere capacitación continua en la práctica.
El proceso general de análisis de datos generalmente consta de estos pasos: definición del problema, adquisición de datos, preprocesamiento de datos, análisis y modelado de datos, visualización de datos y redacción de informes de datos.