130 Práctica de minería de datos UGC en casas de familia en línea: aplicación del modelo integrado en el análisis de sentimientos
Este experimento cargará dos datos, uno son los datos de revisión del usuario ya marcados, el otro es la oración temática de evaluación del usuario, y el modelo de polaridad emocional basado en el modelo integrado se llevará a cabo a través del usuario marcado. revisar los datos, luego usar el modelo para realizar inferencias de polaridad emocional en oraciones temáticas y, finalmente, obtener la polaridad emocional del tema mediante la agregación y visualización de datos.
Utilice Pandas para cargar la tabla de datos en línea y ver las dimensiones de los datos y las primeras 5 filas de datos.
Los atributos de los datos se muestran en la siguiente tabla.
Cargue la oración principal que extrajimos antes a través del diccionario de temas.
Los atributos de los datos se muestran en la siguiente tabla
Segmentación de comentarios de usuarios
La segmentación de Jieba está precalentada La primera vez que la usa, debe cargar el archivo. diccionario y caché. Puede ver en los resultados que lo que se devuelve es una lista de segmentos de palabras.
Se necesita algo de tiempo para segmentar las reseñas de los usuarios en lotes e imprimir la primera fila de resultados de segmentación del conjunto de entrenamiento de polaridad emocional.
Realice la segmentación de palabras en oraciones temáticas de evaluación del usuario en lotes e imprima el resultado de la segmentación de palabras de la primera oración temática del usuario.
De acuerdo con el supuesto del modelo estadístico, suponiendo que las palabras en las reseñas de los usuarios son independientes entre sí y que cada palabra en las reseñas de los usuarios es una característica, utilizamos TF-IDF directamente para extraer características de las reseñas de los usuarios. y La evaluación del usuario después de la extracción de características se ingresa en el modelo de clasificación para la clasificación, y la probabilidad de que la salida de la categoría sea positiva se utiliza como mapeo de polaridad del usuario.
Vectorización de comentarios de usuarios
TF-IDF es una tecnología de ponderación comúnmente utilizada para la recuperación de información y extracción de datos. Cuando el TF-IDF de una palabra en un artículo es más grande, en términos generales. cuanto mayor sea la importancia de esta palabra en este artículo, más adecuado será para cuantificar las palabras clave en los comentarios de los usuarios.
División del conjunto de datos
Divida el conjunto de datos en una proporción de 80% del conjunto de entrenamiento y 20% del conjunto de prueba, y verifique el número de conjuntos de datos después de la división.
Utilizamos el modelo Naive Bayes para entrenar el modelo de análisis de sentimiento al comienzo de la serie de experimentos. A continuación agregamos un nuevo modelo de regresión logística como modelo de comparación. La regresión logística es un método de aprendizaje automático que se utiliza para resolver problemas de clasificación binaria. Basado en la regresión lineal, se aplica una función sigmod. Esta función asigna el resultado lineal a un intervalo de probabilidad y generalmente se divide por 0,5, lo que genera los resultados de clasificación. los datos tienden a estar en ambos extremos de 0 y 1. Este método también se puede utilizar para predecir las emociones del usuario después de vectorizar los comentarios del usuario. Este experimento entrena directamente los datos de emociones del usuario anotados y verifica la diferencia en el rendimiento del análisis de emociones entre un modelo único y un modelo integrado.
Carga del modelo
Al pasar las etiquetas originales y las etiquetas predichas, el rendimiento del clasificador se puede medir directamente y el modelo entrenado se puede evaluar utilizando indicadores de evaluación de modelos de clasificación de uso común. , precision_score evalúa la proporción de muestras predichas correctamente con respecto al total de muestras. La precisión es un indicador de la precisión del modelo. Se refiere a la relación entre la cantidad de documentos reconocidos por el modelo y la cantidad total de documentos reconocidos. la precisión del modelo. La recuperación también se denomina sensibilidad. Se refiere a la relación entre la cantidad de documentos relevantes identificados por el modelo y la cantidad de todos los documentos relevantes en la biblioteca de documentos. Mide la tasa de recuperación del sistema de recuperación, lo que indica que las muestras positivas son correctas. dividido en muestras. El valor f1_score es el promedio armónico de precisión y recuperación, y es un índice completo.
Usamos el mismo conjunto de datos para entrenar y probar diferentes modelos para comparar las diferencias entre modelos individuales e imprimir el tiempo de ejecución del modelo para su referencia. Procesar por lotes diferentes modelos lleva algún tiempo. y espera pacientemente.
Al evaluar el modelo a través de los indicadores obtenidos, encontramos que usando los mismos datos para el entrenamiento del modelo, el rendimiento del modelo ingenuo de Bayes y el modelo de regresión logística es básicamente el mismo, con una diferencia muy débil. y la regresión logística tiene una ligera ventaja.
Entrenamiento de modelos de pila de apilamiento
El aprendizaje conjunto consiste en combinar las ventajas de dos o más algoritmos básicos de aprendizaje automático y aprender cómo combinar mejor las ventajas de múltiples algoritmos de aprendizaje automático de buen rendimiento. predicciones del modelo y hacer mejores predicciones que cualquier modelo del conjunto. Se divide principalmente en Bagging, Boosting y Stacking. El modelo de pila Stacking es un tipo de modelo de aprendizaje automático integrado. Específicamente, todos los modelos base entrenados se utilizan para predecir todo el conjunto de entrenamiento y luego se obtienen los resultados de predicción de cada modelo. fusionado en una nueva característica y entrenado. Puede reducir principalmente el riesgo de sobreajuste del modelo y mejorar la precisión del modelo.
Inicie el entrenamiento integrado de los dos modelos. El tiempo de entrenamiento es más largo que el de un solo modelo, así que espere pacientemente.
Recopilación de resultados de evaluación.
Análisis de resultados
Almacena los resultados en un Dataframe para el análisis de resultados. lr representa la regresión logística, nb representa Naive Bayes y model_stacking es un modelo que integra dos modelos únicos. A juzgar por los resultados, el modelo integrado tiene la mayor precisión y valor f1. Combinando las ventajas de los dos modelos, el rendimiento general de la predicción es mejor y la robustez es mejor.
Prueba de muestra
A través de la muestra de prueba, se descubrió que el clasificador es mejor para juzgar lo normal positivo y negativo. Pero cuando cambiamos la información semántica, el modelo emocional no puede reconocerse y el modelo es menos robusto. Como modelo de clasificación de texto temprano, el método de extracción de características que utilizamos TFIDF no puede resolver bien los problemas semánticos. El lenguaje natural está asociado con el orden de las palabras y la semántica, y la asociación entre palabras afectará la polaridad emocional de toda la oración. Continúe experimentando con modelos de análisis de sentimiento profundo para estudiar y resolver tales problemas.
Cargar datos del tema B&B.
Predicción del modelo
Escriba los resultados de la inferencia del modelo de análisis de sentimiento en DataFrame para su agregación.
Análisis de agregación de un solo tema
Seleccione un tema para el análisis de opinión sobre el tema.
Realice estadísticas descriptivas sobre las "instalaciones" del B&B. Esta vez utilizamos el diccionario temático para obtener 4.628 discusiones de usuarios sobre las "instalaciones" del B&B. La polaridad promedio del sentimiento del usuario fue de 0,40. En general, existe una situación de insatisfacción. Más de la mitad de las reseñas de B&B sobre las "instalaciones" indican que los usuarios están insatisfechos. Los B&B de Chongqing necesitan mejorar las "instalaciones" para mejorar la satisfacción del usuario.
Visualización de polaridad de emoción de un solo tema
Comenzamos a visualizar las emociones del tema del usuario en el tema "Configuración". Primero, cargue el módulo de dibujo.
Para visualizar la polaridad del sentimiento del usuario bajo el tema "instalaciones", utilizamos el modelo de conjunto para predecir la polaridad del sentimiento de la oración principal, como se muestra a continuación.