Red de conocimientos turísticos - Conocimientos sobre calendario chino - Principios básicos de la segmentación de palabras

Principios básicos de la segmentación de palabras

Este artículo es solo una recopilación de conocimientos de PNL para su consolidación e inspección oportunas.

?A la hora de procesar texto, lo primero que hay que hacer es la segmentación de palabras. Las palabras en inglés se pueden segmentar por espacios, pero a veces es necesario segmentar varias palabras. Por ejemplo, algunos sustantivos como "Nueva York" deben tratarse como una sola palabra. No hay espacios en chino, por lo que la segmentación de palabras es un problema que requiere especialización para resolverse. Ya sea en inglés o en chino, los principios de la segmentación de palabras son similares. Este artículo resume los principios de la segmentación de palabras en la minería de textos.

Tres métodos convencionales de segmentación de palabras:

? La segmentación de palabras moderna se basa casi en su totalidad en la segmentación estadística de palabras, y el contenido de la muestra estadística proviene de algunos corpus estándar.

?Si tenemos una oración "Xiao Ming viene al distrito de Liwan", esperamos que el resultado de la segmentación estadística de palabras del corpus sea "Xiao Ming/viene a/Liwan/distrito" en lugar de "Xiao Ming/ viene a/Li/"Área de la Bahía". Entonces, ¿cómo se hace esto?

Desde un punto de vista estadístico, esperamos que la probabilidad de que "Xiao Ming/Lai Lai/Liwan/District" aparezca en la oración después de este participio sea mayor que "Xiao Ming/Lai Lai/Liwan/ Distrito". La representación matemática es: si hay una oración S, entonces tiene m opciones de segmentación de palabras,

donde el subíndice representa el número de palabras en la primera segmentación de palabras. Si elegimos la primera cláusula óptima,

entonces el número de palabras en la primera cláusula es m.

Sin embargo, nuestra distribución de probabilidad no es fácil de encontrar porque implica la distribución conjunta de la primera cláusula. En PNL, para simplificar los cálculos, usualmente usamos la hipótesis de Markov, es decir, la probabilidad de cada segmentación de palabras solo está relacionada con la segmentación de palabras anterior, es decir:

Según la hipótesis de Markov, la distribución conjunta es:

A través de nuestro corpus estándar, podemos obtener aproximadamente la probabilidad condicional binaria entre todos los segmentos de palabras. Por ejemplo, para dos palabras cualesquiera, su distribución de probabilidad condicional se puede aproximar como:

. p>

Entre ellos (?1,?2) representa el número de veces que ?1 y ?2 aparecen adyacentes entre sí en el corpus, y (?1) y (?2) representan el número estadístico de ocurrencias. de ?1 y ?2 en el corpus respectivamente.

?Utilizando la probabilidad estadística establecida por el corpus, para una nueva oración, podemos encontrar la probabilidad máxima correspondiente al método de segmentación, es decir, la segmentación óptima, calculando las probabilidades de distribución conjunta correspondientes a varios métodos de segmentación.

2.1 Idea de coincidencia máxima directa MM

Ejemplo: queremos segmentar la oración Puente del río Nanjing Yangtze, según el principio de coincidencia máxima directa:

2.2 Algoritmo de coincidencia máxima inversa RMM

2.2 Algoritmo de coincidencia máxima inversa RMM

2.2 Algoritmo de coincidencia máxima inversa RMM

¿Este algoritmo es el algoritmo inverso de coincidencia máxima directa? Si la coincidencia no tiene éxito, se elimina la primera palabra del campo de coincidencia. Los experimentos muestran que el algoritmo de coincidencia máxima inversa es mejor que el algoritmo de coincidencia máxima directa.

Ejemplo: saque las últimas cuatro palabras "Puente del río Yangtze" del Puente del río Yangtze de Nanjing y descubra que hay una coincidencia en el diccionario, así que elimínelas y extraiga las palabras restantes "Nanjing"; El resultado general es: Puente del río Nanjing Yangtze.

2.3 BM de coincidencia máxima bidireccional

?BM compara el resultado de la coincidencia máxima directa con el resultado de la coincidencia máxima inversa para determinar el método correcto de segmentación de palabras.

Ejemplo: coincidencia máxima bidireccional, es decir, dividiendo el máximo de palabras posibles, la oración anterior se puede dividir en: Nanjing, alcalde de Nanjing, río Yangtze: Nanjing, alcalde de Nanjing, puente del río Yangtze , río, puente.

2.4 Establecer el método de segmentación

? Recopilar marcas de segmentación, procesar las marcas de segmentación antes de la suscripción automática y luego usar MM y RMM para el procesamiento fino.

?Con el establecimiento de corpus a gran escala y el desarrollo de métodos estadísticos de aprendizaje automático, los métodos de segmentación de palabras chinas basados ​​en estadísticas se han convertido gradualmente en métodos convencionales.

Punto principal: trate cada palabra como si estuviera formada por un solo carácter. Un solo carácter es la unidad más pequeña de una palabra. Si los caracteres conectados aparecen con más frecuencia en diferentes textos, está demostrado que lo más probable es que sean un. palabra. Por lo tanto, podemos usar la frecuencia de palabras adyacentes para reflejar la confiabilidad de las palabras y contar la frecuencia de combinación de palabras adyacentes en el corpus. Cuando la frecuencia de combinación es superior a un cierto umbral, se puede considerar que este grupo de palabras puede. constituyen una palabra.

Principales modelos estadísticos:

Modelo de N elementos

¿Es demasiado arbitrario confiar solo en la primera palabra? ¿Se puede basar en las dos primeras? ¿palabras?

?Esto es factible, pero aumentará considerablemente el monto de cálculo de la distribución conjunta. Generalmente nos referimos a los modelos que se basan únicamente en la primera palabra como modelos binarios y a los modelos que se basan en las dos primeras palabras como modelos ternarios. Por analogía, podemos establecer modelos de cuatro elementos, modelos de cinco elementos, etc. hasta el modelo generalizado de N-tuplas. Cuanto más retrocedas, mayor será la complejidad computacional de la distribución de probabilidad. Por supuesto, los principios del algoritmo son similares.

En la práctica, N es generalmente pequeño, generalmente menor que 4, principalmente porque la complejidad espacial de la distribución de probabilidad del modelo de N elementos es O (), donde |V es el tamaño del corpus. y N es el número de elementos del modelo. Cuando N aumenta, la complejidad aumenta exponencialmente.

Algoritmo de Viterbi y desambiguación

?Para simplificar la descripción del principio, nuestra discusión se basa en el modelo binario.

?Para una oración larga con muchas segmentaciones de palabras posibles, por supuesto, podemos usar un método de fuerza bruta para calcular las probabilidades de todas las segmentaciones de palabras posibles y luego encontrar el método de segmentación de palabras óptimo. Pero el uso del algoritmo de Viterbi puede simplificar enormemente el tiempo necesario para encontrar la segmentación de palabras óptima.

?Como todos sabemos, el algoritmo de Viterbi se utiliza en el algoritmo de decodificación HMM de modelos ocultos de Markov, pero es un método generalizado para encontrar la ruta más corta en una secuencia. HMM, pero también para otros algoritmos de secuencias de rutas más cortas, como la segmentación óptima de palabras.

El algoritmo de Viterbi utiliza programación dinámica para resolver este problema de segmentación óptima de palabras. La programación dinámica requiere que la ruta local también sea parte de la ruta óptima. Obviamente, nuestro problema está establecido. Primero, veamos un ejemplo de participio simple: "La vida es como un mundo de sueños". Sus posibles participios se pueden representar mediante el siguiente diagrama de probabilidad:

Referencia: blogs.com/pinard/p/6677078.html