¿Qué incluye el análisis de texto? ¿Alguien puede decirme lo que sabe?
1. ¿Qué es el análisis de texto?
Como método de análisis cuantitativo emergente basado en la investigación cualitativa, el análisis de textos puede revelar los cambios y características de los textos, aportando nuevas ideas para el estudio de cuestiones clásicas.
El análisis de texto se utiliza en muchos campos, por ejemplo, en la industria del turismo, el análisis de texto se puede utilizar para estudiar la percepción de la imagen del turismo. Por ejemplo, en economía, el análisis de texto se puede utilizar para estudiar la actualidad. pólizas de seguros, etc. Y hay otras áreas donde se aplica el análisis de texto.
2. Pasos de investigación comunes para el análisis de texto
Hay cinco pasos comunes para el análisis de texto, que incluyen la recopilación de datos, la segmentación de palabras, la limpieza de datos, la extracción de características, el modelado y otros análisis. los detalles son los siguientes:
Recopilación de datos
El primer paso del análisis de texto requiere la recopilación de datos. Los métodos para obtener datos de texto generalmente incluyen plataformas de red, plataformas de medios, noticias, CNKI. foros, etc
Segmentación de palabras
El ordenador segmentará la cadena que importamos en palabras para su posterior análisis.
Limpieza de datos
En el proceso de análisis de texto, el texto debe preprocesarse primero. El preprocesamiento es un paso muy importante que afecta directamente la precisión y confiabilidad del análisis posterior. La eliminación de signos de puntuación y palabras vacías es una operación de preprocesamiento común que puede eliminar eficazmente información irrelevante en el texto y mejorar la eficiencia del análisis. Al mismo tiempo, segmentar el texto y eliminar las palabras vacías también puede ayudar a extraer palabras clave y temas más precisos. Además, el tema del texto se analizará a través de la frecuencia, distribución, etc. de las palabras clave, y algunos investigadores también analizarán palabras emocionales para comprender la tendencia emocional del texto.
Extracción de funciones
La extracción de funciones se realiza después de la limpieza de datos. Por ejemplo, puede usar tf-idf en la sección de visualización. Tiene en cuenta la ubicación de las palabras en el texto. Importancia y prevalencia en el corpus. Cuanto mayor sea el valor TF-IDF, mayor será la importancia de la palabra en el texto y existen otros métodos.
Análisis de seguimiento
Utilice datos de texto para análisis posteriores, como visualización gráfica visual, análisis de temas, agrupación, etc., que se explicarán en el siguiente módulo.
3. ¿Cómo operar SPSSAU?
Demostración de la operación de análisis de texto: haga clic en el 'Módulo de análisis de texto' en el panel izquierdo del sistema principal de SPSSAU para ingresar.
Después de ingresar al módulo de análisis de texto, los investigadores pueden optar por cargar datos ellos mismos, incluido pegar texto para cargar o cargar archivos txt/excel, etc. (el límite de tamaño es de 5 m). Como se muestra en la siguiente figura:
Luego puede elegir el método de análisis según sus propias necesidades y realizar el análisis:
4.
Existen muchas aplicaciones de análisis de texto. Tomando SPSSAU como ejemplo, puede realizar visualización de texto (análisis de nube de palabras), análisis de sentimiento de texto, análisis de grupos de texto, diagramas de redes sociales, análisis de temas LDA y análisis semántico. , etc. espera.
Visualización de texto
En el módulo de análisis de texto, lo más importante y básico es mostrar los resultados de la segmentación de palabras, que normalmente se muestra mediante nubes de palabras. En 'Análisis de nube de palabras, etc.', SPSSAU proporciona cuatro funciones, a saber, análisis de nube de palabras, nube de palabras personalizada, posicionamiento de palabras y tf-idf.
Análisis de nube de palabras
El diagrama de nube de palabras muestra intuitivamente la información de palabras clave de 41 contenidos de noticias sobre vivienda y construcción en diciembre de 2023, incluidos hogares, ciudades, desarrollo, construcción, etc. información. El valor predeterminado es mostrar las 100 palabras clave de alta frecuencia principales; puede configurar este número de forma independiente. También puedes modificar el estilo de la nube de palabras y descargar la imagen de la nube de palabras.
Nube de palabras personalizada
Si no está satisfecho con el análisis de la nube de palabras, también puede utilizar una nube de palabras personalizada. El investigador puede utilizar la información organizada, incluidas las palabras clave y sus palabras. frecuencias, Pégalo directamente (o edítalo tú mismo) en la tabla y aparecerá la nube de palabras correspondiente.
Posicionamiento de palabras
Puedes observar una determinada palabra a través del posicionamiento de palabras en qué líneas aparece específicamente, puedes verificarlo por el número de línea.
tf-idf
En el análisis de texto, tf-idf es un indicador importante, que refleja la importancia de una determinada palabra clave en todos los datos. Cuando tf-idf es mayor, el tiempo. , mayor es su importancia.
Tiene un significado diferente de la frecuencia de las palabras. La frecuencia de las palabras se refiere al número de apariciones, mientras que tf-idf se centra más en la importancia de las palabras clave. Entre ellos: tf-idf = tf * idf; donde tf: tf = n / N, donde n es la frecuencia de palabras de una determinada palabra clave, N es la frecuencia total de palabras de las palabras clave en todos los datos y N es un valor fijo. Cuando n, cuanto mayor es la frecuencia de palabras, cuanto mayor es tf, más importante es la palabra clave idf = log (D/(1+d)), log es el logaritmo y D es el número de filas de datos. y d es el número de filas en las que aparece una palabra en los datos. D es un valor fijo. Cuanto mayor es el valor d, menor es el idf cuando aparece en todas partes. Cuanto mayor es el valor d, mayor es el idf cuando no aparece en todas partes. importancia de una determinada palabra clave.
Análisis de sentimiento de texto
En la actualidad, los métodos principales de análisis de sentimiento de texto se pueden dividir en tres categorías: basado en diccionario emocional, aprendizaje automático y aprendizaje profundo. El método basado en el diccionario de sentimientos es un método tradicional de análisis de sentimientos, que utiliza la polaridad de sentimientos en el diccionario de sentimientos para calcular el valor de sentimiento de la oración objetivo. Aunque el método de análisis basado en diccionario es simple de implementar, también tiene desventajas. Su precisión depende en gran medida de la calidad del diccionario, y construir un diccionario emocional requiere mucha mano de obra y recursos materiales, así como la capacidad de adaptarse a nuevas palabras. también es pobre.
En el módulo de análisis de texto, SPSSAU*** proporciona dos métodos de análisis de sentimiento, a saber, análisis de sentimiento palabra por palabra y análisis de sentimiento línea por línea. El análisis de sentimiento por palabra se refiere al análisis de sentimiento de las palabras clave extraídas y la visualización visual por fila se refiere al análisis de sentimiento de los datos sin procesar analizados en unidades de "fila", y se pueden descargar valores de puntuación de sentimiento específicos, etc.
Agrupación de texto
Agrupación de texto significa agrupar las palabras clave que deben analizarse y mostrarlas visualmente. SPSSAU*** proporciona dos métodos de agrupación de texto: agrupación por palabra y agrupación por. línea.
Diagrama de relaciones de redes sociales
El diagrama de relaciones de redes sociales muestra la relación entre palabras clave. La relación aquí se refiere a la 'matriz de *** palabras', es decir, dos palabras clave La frecuencia. de ocurrencias simultáneas se visualiza utilizando la información '***matriz de palabras'.
***Matriz de palabras: se utiliza principalmente para representar la fuerza de asociación entre palabras clave. Es una matriz compuesta de filas y columnas, y los elementos de la matriz representan el grado de asociación entre palabras clave. En la matriz de palabras clave, cuanto mayor sea el valor del elemento, más fuerte será la correlación entre las dos palabras clave, es decir, mayor será la frecuencia de su aparición.
Diagrama de red social: la aplicación del diagrama de red social en el análisis de texto es principalmente para revelar la correlación entre varias entidades en el texto. Este tipo de diagrama de relaciones puede ayudarnos a comprender mejor el tema y el contenido del texto y a descubrir información y patrones ocultos en el texto.
Análisis de temas LDA
El modelo de temas se refiere a un modelo estadístico que se utiliza para contar la cantidad de temas que aparecen en una serie de documentos y que LDA puede descubrir contenido de texto a través de métodos de aprendizaje no supervisados. información. LDA trata los temas como una condensación del contenido del documento, por lo que podemos usar LDA para generar documentos a partir de información en un corpus a gran escala. Los documentos generados pueden verse como compuestos de muchos temas y cada palabra que constituye el tema está desordenada. logrando así el efecto de reducir la dimensionalidad del documento, reduciendo en gran medida la complejidad del problema y también teniendo características semánticas. Los resultados de SPSSAU son los siguientes (el tamaño de la burbuja indica la importancia del tema, y la longitud de la barra indica el peso de la palabra respecto al tema):
Nuevas palabras encontradas
no se puede descubrir Como reconoce el diccionario, dos indicadores clave están involucrados en el descubrimiento de nuevas palabras, a saber: entropía de información e información mutua. Cuanto mayor es la entropía de la información, más fácil es combinar una palabra con otras palabras para formar una palabra. Cuanto menor es la entropía de la información, es menos probable que una palabra se combine con otras palabras.
Palabras vacías/palabras de emoción
Palabras vacías: las palabras vacías se refieren a palabras que aparecen con más frecuencia en el texto pero que contribuyen menos al tema y al contenido del texto. Palabras vacías La eliminación. de palabras puede mejorar la eficiencia y precisión del análisis;
Palabras emocionales: las palabras emocionales se refieren a palabras que expresan emociones o tendencias emocionales. La identificación y el análisis de palabras emocionales pueden ayudarnos a comprender mejor la connotación emocional de las palabras. texto;