¿Cómo construir un gráfico de conocimiento de la industria?
Los tres elementos básicos del gráfico de conocimiento: entidades, atributos y relaciones. triplete entidad-relación-entidad; triplete entidad-atributo-valor de atributo. Los gráficos de conocimiento actuales se dividen en dos categorías. Un tipo es un gráfico de conocimiento de dominio abierto y el otro es un gráfico de conocimiento de dominio vertical. Por ejemplo, el gráfico de conocimiento establecido por Google para los motores de búsqueda es de dominio abierto. Gráficos de conocimiento en campos verticales, como finanzas y comercio electrónico.
El primer paso es procesar los datos. Los datos en Internet son básicamente estructurados, no estructurados y semiestructurados. Los datos estructurales son generalmente los datos comerciales de la empresa. Estos datos se almacenan en la base de datos y se pueden utilizar después de extraerlos de la base de datos y realizar un preprocesamiento simple. Los datos semiestructurados y los datos no estructurados, como la descripción de un producto o un título, que puede ser un fragmento de texto o una imagen, son algunos datos no estructurados. Pero almacena cierta información y refleja algunos atributos en el gráfico de conocimiento. Por lo tanto, es necesario extraerlo, lo cual es una tarea laboriosa y que requiere relativamente mucho tiempo en la construcción de un gráfico de conocimiento.
Lo que hay que extraer de los datos son en realidad las entidades, atributos y relaciones mencionadas anteriormente. La extracción de entidades se denomina reconocimiento de entidades en PNL. Las tecnologías relevantes aquí son relativamente maduras, desde el método tradicional de reglas de diccionario manual hasta el método actual de aprendizaje automático, así como algunos usos del aprendizaje profundo. Por ejemplo, de un fragmento de texto, extraemos la entidad Bill Gates y la entidad Microsoft, y luego realizamos una extracción de relación. Bill Gates es el fundador de Microsoft, por lo que existe una relación correspondiente. También existe la extracción de atributos, como que la nacionalidad de Bill Gates es Estados Unidos. Una vez completadas estas extracciones, habrá información relativamente dispersa, y luego la información obtenida de la información estructurada y la información obtenida de la base de conocimientos de terceros se utilizarán para fusionarla antes de agregarla.
Lo que también hay que hacer es alinear y desambiguar las entidades.
Acerca de la alineación de entidades. Por ejemplo, los cuatro caracteres Bill Gates son su nombre chino y Bill Gates es su nombre inglés, pero en realidad se refieren a la misma persona. Debido a la diferencia de texto, al principio había dos entidades. Esto requiere que lo alineemos físicamente y unifiquemos.
La otra es la desambiguación de entidades. Por ejemplo, una manzana es una fruta, pero en algunos contextos puede referirse a la empresa Apple. Esta es una ambigüedad de entidad y debemos realizar una desambiguación de entidad según el contexto.
Después de completar los pasos anteriores, el siguiente paso es extraer la ontología. Por ejemplo, Microsoft y Apple mencionaron antes, sus entidades son empresas. Puede que no esté extraído directamente del texto, son empresas. Entonces se necesita algún método para extraerlos. Luego, cree una biblioteca de ontologías. Por ejemplo, si una empresa es una organización, tiene esta relación ascendente y descendente. También es necesario calcular el grado de conocimiento entre personas del mismo nivel. Por ejemplo, Bill Gates y Steve Jobs son relativamente similares a nivel físico. Todos ellos pertenecen a la entidad del hombre. Son bastante diferentes de la empresa, por lo que es necesario un cálculo de similitud.
Después de completar los pasos anteriores, es necesario realizar la evaluación de la calidad de la base de conocimientos. Este es un paso manual inevitable. Después de completar la evaluación de calidad, finalmente se forma un gráfico de conocimiento. Una vez formado el gráfico de conocimiento, es posible que algunas relaciones no se obtengan directamente y luego es necesario realizar un razonamiento de conocimiento para expandir el gráfico de conocimiento. Por ejemplo, los gatos son miembros de la familia felina. Los felinos son mamíferos. De esto se puede inferir que los gatos son mamíferos. Pero este razonamiento no puede derivarse de manera casual. Por ejemplo, Bill Gates es estadounidense. Bill Gates fundó una empresa, pero esta empresa no es necesariamente estadounidense.