Análisis de abandono de usuarios de hoteles online y alerta temprana
Ideas de contenido/análisis:
01: Introducción al proyecto
02: Análisis de problemas
03: Exploración de datos
04: Preprocesamiento de datos
05: Modelado y análisis
06: Análisis del retrato del usuario
1. Introducción al proyecto
? Este proyecto tiene como objetivo analizar los datos de información de reservas de clientes de una red de reservas de hoteles durante un período de tiempo, predecir los resultados de conversión de las visitas de los clientes a través de algoritmos, descubrir los factores clave que afectan la rotación de usuarios y obtener una comprensión profunda de las necesidades del usuario. retrato y preferencias de comportamiento, para comprender mejor el perfil del usuario y las preferencias de comportamiento. Mejorar el diseño del producto, llevar a cabo servicios de marketing personalizados, reducir la pérdida de usuarios y mejorar la experiencia del usuario.
2. Análisis de problemas
Este proyecto es del tipo diagnóstico de problemas y el problema a resolver es el problema de la pérdida de usuarios. Entre los campos y explicaciones proporcionados oficialmente, hay un campo de etiqueta, que es la variable objetivo, que es el valor que debemos predecir. La etiqueta = 1 representa la pérdida de clientes, la etiqueta = 0 representa la pérdida de clientes. Obviamente, este es un problema de predicción de clasificación.
Nuestro objetivo es maximizar la recuperación y al mismo tiempo lograr una alta precisión de predicción. Desde una perspectiva empresarial, se trata de predecir la mayor cantidad posible de clientes que se pueden perder, para retenerlos de manera específica. Porque, en términos generales, el coste de adquirir nuevos usuarios es mucho mayor que el coste de retener y perder usuarios antiguos.
En tercer lugar, exploración de datos
1. Situación general de los datos
Este conjunto de datos userlostprob_data.txt es una red de reservas de hoteles desde mayo de 2006 hasta mayo de 2016. Datos de visitas durante el periodo del 21 de marzo.
Los datos totales de este conjunto de datos * * * tienen 689,945 filas y 565,438+0 columnas, incluida la identificación de muestra, la etiqueta y 49 características variables.
Teniendo en cuenta la protección de la privacidad del usuario, los datos se han desensibilizado. Existen algunas discrepancias con los pedidos reales, las visitas a la página y las tasas de conversión, pero esto no afecta la resolución del problema.
2. Organiza los indicadores de datos
Observa el conjunto de datos, que contiene muchas variables. Por lo tanto, primero reemplace las explicaciones chinas en el diccionario de datos con los nombres de las variables correspondientes para mejorar la legibilidad, y luego es mejor ordenar los indicadores y analizarlos uno por uno.
A través de la investigación, se descubre que los indicadores se pueden dividir aproximadamente en tres categorías: una son los indicadores relacionados con los pedidos, como la fecha de entrada, la cantidad del pedido, la tasa de cancelación, etc. Un tipo son los indicadores relacionados con el comportamiento del cliente, como la preferencia de celebridades, el precio de preferencia del usuario, etc. También hay una categoría de indicadores relacionados con el hotel, como la calificación promedio del hotel, el número de calificaciones del hotel, el precio promedio, etc.
3. Análisis descriptivo de características relevantes.
3.1? Fecha de visita y hora de check-in
Tanto el número de invitados como el número de visitantes alcanzaron su punto máximo el 20 de mayo, lo que probablemente sea el motivo del "520". Día de San Valentín. Después del 21 de mayo, el número de ocupación disminuyó significativamente y los dos pequeños picos siguientes indican que habrá más gente los fines de semana que entre semana.
3.2? Horario de visita
Se puede observar que las 3-5 am es el horario con menor cantidad de visitantes, debido a que la mayoría de las personas duermen a esta hora; pm Más visitados.
3.3?Valor para el cliente
Las dos características "valor para el cliente en el último año" y "valor para el cliente" están muy relacionadas y ambas se pueden utilizar para expresar el valor para el cliente; ver Resulta que el valor de la mayoría de los clientes está en el rango de 0 a 100; algunos clientes valen hasta 600. Más adelante, es necesario centrarse en analizar clientes de tan alto valor.
3.4? Índice de poder de consumo
Básicamente presenta una distribución normal, y el poder adquisitivo de la mayoría de las personas ronda los 30. También hay muchas personas con un poder adquisitivo cercano a 100, lo que demuestra que hay muchos grupos de alto gasto entre los clientes que visitan y se alojan en nuestro hotel.
3.5? Índice de sensibilidad al precio
Excluyendo los valores extremos, los datos se distribuyen a la derecha. La mayoría de los clientes no son muy sensibles al precio y no necesitan preocuparse demasiado por el precio. para aquellos con un índice de sensibilidad al precio de 100, los clientes pueden ser atraídos con descuentos.
3,6? Precio medio de hotel
La mayoría de la gente elige hoteles con precios inferiores a 1.000, y poca gente elige hoteles con precios superiores a 2.000.
Excluyendo a los "ricos", podemos ver que la elección de los precios de los hoteles por parte de los consumidores es básicamente una distribución sesgada positivamente, y el precio promedio que la mayoría de la gente elegirá es de alrededor de 300 yuanes (probablemente un hotel exprés).
3.7? Pedidos anuales de los usuarios
Los pedidos anuales de la mayoría de los usuarios son inferiores a 40. Al mismo tiempo, todavía hay algunos usuarios que suelen alojarse en hoteles y necesitan mantenimiento.
3.8? Tasa de cancelación de pedidos
Las tasas de cancelación de usuarios más altas en un año son 100% y 0 respectivamente. Para los clientes que cancelan el 100% de sus pedidos, el motivo se puede averiguar en función de la cantidad del pedido.
3.9? Tiempo desde el último pedido en un año
Se puede observar que cuanto mayor es el intervalo de reserva, menor es el número de personas, lo que indica que a menudo hay un número considerable de personas. reservar hoteles; reflexiones laterales Los "clientes habituales" suelen optar por reservar un hotel, lo que genera más clientes habituales.
3.10? ID de sesión
Un ID asignado por el servidor al visitante, 1 es un visitante nuevo.
Los clientes antiguos representan la mayoría de los clientes visitantes; la probabilidad de reserva de los clientes antiguos es ligeramente mayor que la de los clientes nuevos.
Cuarto, preprocesamiento de datos
4.1 Procesamiento de valores duplicados
La dimensión de los datos no ha cambiado, lo que indica que el conjunto de datos no tiene valores duplicados.
4.2? Generar campos derivados
Con base en el conocimiento del negocio y considerando que puede ser más importante para los usuarios reservar hoteles con anticipación, las dos funciones de fecha se transforman en una Nueva característica para mejorar la precisión y la interpretabilidad del modelo.
4.3 Procesamiento de valores faltantes
Ver valores faltantes
***51 campos, campos faltantes: 44.
La idea y el proceso de procesamiento de valores faltantes
Ver la distribución de características:
Observar la distribución de todas las características numéricas y elegir un método de procesamiento razonable basado sobre la distribución de datos, incluido el manejo de valores atípicos y faltantes, ayuda a comprender en profundidad el comportamiento del usuario.
***51 campos, campos faltantes: 44. Elija un método apropiado para manejar los valores faltantes:
La proporción faltante es superior al 80%: 1, "Número de pedidos históricos de usuarios en los últimos 7 días" falta el 88%, elimine este campo directamente.
Los campos que tienden a tener una distribución normal se rellenan con la media; los campos que tienen una distribución sesgada a la derecha se rellenan con la mediana.
Comprueba si falta el llenado de valores.
Como puedes ver, los datos del valor que faltan han sido completados.
4.4? Procesamiento de valores atípicos
Procesamiento de valor extremo:
(Según el pensamiento empresarial real, algunos métodos de protección no son razonables y pueden filtrar a los usuarios de alto valor. Es necesario Ajuste.
Procesamiento de valores negativos:
4.5? Tratamiento estandarizado
Los modelos de tipo de distancia necesitan estandarizar los datos por adelantado.
Modelado y análisis de verbos (abreviaturas de verbos)
Primero, divida el conjunto de entrenamiento y el conjunto de prueba.
5.1?Regresión logística
[0.7366529216096935, 0.7016048745527705]
5.2?Gráfico de decisiones
[0.8728884186420657, 0.8448881691422343]
5.3?Bosque aleatorio
[0.8936581901455913, 0.9399374165108152]
5.4?Naive Bayes
[0.6224554131126394, 0.6610756921767458]
5.5 ?Sí tiene el peor rendimiento y el rendimiento de la regresión logística no es muy bueno, lo que indica que los datos no son separables linealmente. Los modelos de bosque aleatorio y xgboost funcionan de manera similar, con valores de AUC superiores a 0,9 y el efecto de clasificación es muy bueno. . El valor AUC del bosque aleatorio es ligeramente superior a 0,94, por lo que se utiliza el bosque aleatorio para predecir la pérdida de usuarios.
5.7? Optimización del modelo de bosque aleatorio
Análisis de validez de interacción
Curva de aprendizaje: establezca el clasificador en 80.
[0.9333570067179268, 0.97816699979759]
Según este modelo de bosque aleatorio, la tasa de recuperación puede alcanzar el 97,8 % y la precisión de la predicción de clientes perdidos puede alcanzar el 93,3 %.
Este modelo se puede utilizar directamente para predecir la pérdida de usuarios.
5.8 Factores clave que afectan la pérdida de clientes
Utilice un bosque aleatorio para analizar los factores que afectan la pérdida de clientes: utilice el método feature_importance para obtener la clasificación de importancia de las características.
Las 10 características más importantes:?
El número de visitas por año, la duración de la última visita dentro de un año, la cantidad de visitas a la aplicación uv en la ciudad actual en la misma fecha de registro ayer, la duración de el último pedido dentro de un año, la misma fecha de check-in en la ciudad actual ayer El número de pedidos de aplicaciones, el precio promedio de los hoteles visitados dentro de las 24 horas, el índice de atributos comerciales promedio de los hoteles visitados dentro de las 24 horas, el precio más bajo de los hoteles más visitados en 24 horas, el número de valoraciones de los hoteles más visitados en 24 horas, valor para el cliente.
6. Análisis del retrato del usuario
A continuación, utilice el método de agrupación K-Means para dividir a los usuarios en tres categorías y observar las características de diferentes categorías de clientes.
k-significa agrupación
?
Se puede observar que los tres tipos de usuarios reunidos tienen sus propias características muy obvias. Las sugerencias de marketing personalizadas para diferentes tipos de usuarios son las siguientes:
El tipo 0 es un medio. grupo: nivel de consumo El valor para el cliente es bajo, la frecuencia de visitas y reservas es alta y el tiempo de reserva anticipada es el más largo entre las tres categorías. Se necesita mucho tiempo para navegar antes de tomar una decisión, por lo que soy más cauteloso; y especular que pueden ser usuarios que viajan al extranjero.
Recomendaciones: trate de impulsar tanto como sea posible, porque este tipo de clientes generalmente prefieren navegar; recomendar hoteles con precios relativamente asequibles; impulsar información de viajes locales, porque es más probable que este tipo de clientes viajen.
1 es un cliente de bajo valor: el nivel de consumo y el valor del cliente son extremadamente bajos, el precio preferido es bajo y la frecuencia de visitas y reservas es muy baja, lo que indica que el valor Sid es muy bajo; que hay muchos clientes nuevos.
Recomendaciones: para lidiar con los clientes perdidos, no gaste demasiado en costos de marketing, no realice operaciones de canales específicos; recomiende promociones y hoteles de bajo precio con grandes descuentos; Es relativamente grande y hay muchos clientes potenciales, por lo que se puede mantener el impulso del servicio.
La segunda categoría son los clientes de alto valor: alto nivel de consumo, alto valor para el cliente, búsqueda de alta calidad, alta sensibilidad al precio, largo tiempo de llegada, alto número de visitas, poco tiempo de reserva anticipada, pero alto número; de devoluciones.
Sugerencia: Proporcionar a los clientes más información del hotel. ? Recomendar cadenas de hoteles comerciales con buena reputación y alto rendimiento de costos para atraer usuarios durante las horas pico de tráfico, como las 11 y las 17 en días no laborables.
Algunos comentarios:
1. El análisis de correlación se puede realizar al filtrar características de datos, porque puede haber una alta correlación entre algunas características. Las variables con una correlación inferior a 0,01 con la variable objetivo se pueden eliminar mediante el análisis de correlación, y las variables con una correlación superior a 0,9 con otras variables se pueden eliminar. El método de análisis de componentes principales se puede utilizar para reducir la dimensionalidad de los indicadores e integrarlos, lo que puede lograr el mejor efecto del modelo.
2. Si desea clasificar a los usuarios con mayor precisión, puede utilizar el modelo RFM para realizar un análisis del valor del usuario. Sin embargo, las características de este proyecto contienen una gran cantidad de información que puede perderse por RFM.