Avances en la construcción y aplicación de las decenas de miles de millones de gráficos de conocimiento de Meituan Brain
Invitado compartido: Dr. Zhang Hongzhi, experto en algoritmos de Meituan
Edición y edición: Liao Yuanyuan Meituan Group
Plataforma de producción: DataFunTalk
Introducción: Meituan Como la plataforma de servicios de vida local en línea más grande de China, Tuan conecta a cientos de millones de usuarios y decenas de millones de comerciantes, y detrás de ella se esconde una gran cantidad de conocimientos relacionados con la vida diaria. El equipo de gráficos de conocimiento de Meituan se ha centrado en la construcción de gráficos y en su uso para potenciar las empresas y mejorar la experiencia del usuario desde 2018. Específicamente, "Meituan Brain" construye usuario. La asociación de conocimiento entre comerciantes, productos y escenas forma un cerebro de conocimiento en el campo de los servicios de vida. En la actualidad, "Meituan Brain" ha cubierto miles de millones de entidades y decenas de miles de millones de triples, y ha verificado la efectividad del gráfico de conocimiento en catering, comida para llevar, hoteles, servicios integrales y otros campos. Hoy presentamos la construcción y aplicación del gráfico de conocimiento del servicio de vida en Meituan Brain, centrándonos principalmente en los siguientes tres aspectos:
--
¿Qué es el "Meituan Brain"?
La siguiente es la hoja de ruta general construida por "Meituan Brain". Comenzó a construir el mapa de conocimiento de catering en 2018 y realizó una extracción preliminar de los ricos datos estructurados y de comportamiento del usuario de Meituan, así como de algunas conductas importantes. minería en profundidad en la dimensión de datos, como el análisis de sentimiento de las opiniones de los usuarios sobre las comidas. En 2019, nos centramos en la extracción en profundidad de comentarios de usuarios no estructurados, representados por gráficos de etiquetas. Después de 2020, comenzaremos a combinar las características de cada campo y llevaremos a cabo una extracción y construcción de datos en profundidad en cada campo, incluidos productos básicos, alimentos, vinos y viajes, mapas completos y cruzados, etc.
--
En la búsqueda, los usuarios normalmente necesitan abstraer sus intenciones en una serie de palabras clave de búsqueda refinadas que el motor de búsqueda pueda admitir. El gráfico de conocimiento de etiquetas utiliza "etiquetas" para satisfacer las necesidades del usuario, mejorando así la experiencia de búsqueda del usuario. Por ejemplo, a través del gráfico de conocimiento de etiquetas, los usuarios pueden buscar directamente "cuidar a niños" o "parejas saliendo" y se les devolverá los comerciantes/proveedores de contenido apropiados. Desde la perspectiva de la obtención de información, el texto no estructurado, como las reseñas de los usuarios, contiene una gran cantidad de conocimiento (como la escena, la multitud, el entorno, etc. adecuados para un determinado comerciante). La obtención de información se puede lograr mediante la extracción de datos no estructurados. El equipo utiliza datos de revisión masiva en el campo de los servicios de vida como principal fuente de conocimiento y utiliza tecnologías clave como la minería de etiquetas, la minería de relaciones entre etiquetas y la asociación de comerciantes de etiquetas para clasificar las necesidades, los escenarios y las principales preocupaciones de los usuarios. de abajo hacia arriba para completar la construcción del mapa.
La construcción del gráfico de conocimiento de etiquetas se divide en las siguientes cuatro partes: extracción de conocimiento, minería de relaciones, marcado de gráficos y aplicación de gráficos.
① Extracción de conocimiento
La minería de etiquetas adopta una arquitectura de etiquetado de secuencia simple, que incluye la minería de etiquetas de un solo intervalo y la minería de etiquetas de omisión de palabras. Además, también se combinará con discriminación semántica o contexto. Discriminación y uso de supervisión remota. Método de votación de resultados Learn + para obtener etiquetas más precisas.
②Minería de relaciones
Minería de sinónimos: la minería de sinónimos se define como un conjunto que contiene N palabras, M palabras de etiquetas comerciales y la búsqueda de la palabra en N para cada palabra en M. Sinónimos. Los métodos de extracción de sinónimos existentes incluyen la extracción de registros de búsqueda, la extracción de datos de enciclopedias, el cálculo de similitud basado en reglas, etc., que carecen de cierta versatilidad. Nuestro objetivo actual es encontrar un método de extracción de sinónimos de etiquetas que sea versátil y pueda aplicarse ampliamente a conjuntos de datos a gran escala.
La siguiente es la solución específica para la minería de sinónimos proporcionada por el autor. Primero, el grupo de etiquetas fuera de línea o las etiquetas de consulta en línea se representan como vectores para obtener el índice del vector, y luego se realiza la recuperación del hash del vector. Genere aún más el TopN de los candidatos de pares de sinónimos y, finalmente, utilice el modelo de discriminación de sinónimos. La ventaja de esta solución es que reduce la complejidad computacional y mejora la eficiencia de la operación en comparación con la generación de candidatos de índice invertido, puede recuperar sinónimos sin superposición, tiene alta precisión y control de parámetros simple.
Para datos etiquetados, los métodos principales de representación de incrustación de palabras de etiquetas incluyen word2vec, BERT, etc. El método word2vec es relativamente simple de implementar: toma el promedio de los vectores de palabras e ignora el orden de las palabras; BERT puede capturar representaciones semánticas más ricas a través del proceso de entrenamiento previo, pero toma directamente el vector de bandera [CLS] y su efecto es equivalente. a word2vec. Sentence-Bert ha realizado las mejoras correspondientes en el modelo Bert. Obtiene los vectores de representación tag tagA y tagB a través del modelo de preentrenamiento de las Torres Gemelas y luego mide la similitud de los dos vectores mediante la similitud del coseno, obteniendo así la semántica de los dos. etiquetas similitud.
Para datos sin etiquetar, la representación de oraciones se puede obtener mediante aprendizaje contrastivo. Como se muestra en la figura, la similitud vectorial del modelo original de Bert para oraciones con diferentes similitudes es muy alta después del ajuste mediante aprendizaje contrastivo, la similitud vectorial puede reflejar mejor la similitud del texto.
Diseño de modelo de aprendizaje comparativo: primero, dada una oración, perturbe esta muestra para generar un par de muestras. En términos generales, agregue Adversarial Attack a la capa de incrustación, realice una mezcla aleatoria en el nivel de vocabulario o elimine algunas palabras. etc. durante el proceso de capacitación, maximice la similitud de la misma muestra en el lote y minimice la similitud de otras muestras en el lote. Los resultados finales muestran que el aprendizaje no supervisado puede lograr el efecto del aprendizaje supervisado hasta cierto punto, y el efecto del aprendizaje no supervisado + aprendizaje supervisado mejora significativamente en comparación con el aprendizaje supervisado.
Diseño de modelo de discriminación de sinónimos: empalme dos palabras de etiqueta en el modelo Bert y obtenga etiquetas a través de interacción semántica de múltiples capas.
Minería de hipónimos de etiquetas: Las relaciones de inclusión léxica son la fuente más importante de minería de relaciones de hiponimia. Además, también se pueden utilizar métodos de minería que combinen semántica o estadística. Sin embargo, la dificultad actual es que es difícil unificar los estándares superior e inferior y, por lo general, es necesario modificar los resultados de la minería del algoritmo en función de las necesidades del campo.
③ Marcado en el mapa: ¿Cómo construir la relación entre las etiquetas y la oferta de los comerciantes?
Dado un conjunto de etiquetas, se establece un umbral basado en la frecuencia de la etiqueta y sus sinónimos que aparecen en los UGC/órdenes grupales del comerciante para obtener la etiqueta-POI candidata. Un problema que surge es que incluso si la frecuencia es alta, no necesariamente está relacionada, por lo que es necesario utilizar un módulo de identificación y marcado de comerciantes para filtrar los casos malos.
El marcado de comerciantes considera tres niveles de información: etiquetas y comerciantes, reseñas de usuarios y Taxonomía de comerciantes. Específicamente, en la granularidad de etiqueta-comerciante, la etiqueta y la información del comerciante (nombre del comerciante, categoría de tercer nivel del comerciante, etiqueta superior del comerciante) se unen y se ingresan en el modelo Bert para su juicio.
La microgranularidad de los comentarios de los usuarios determina si la relación entre cada etiqueta y los comentarios que mencionan la etiqueta (llamada evidencia) es positiva, negativa, irrelevante o incierta, por lo que puede considerarse como un modelo discriminante de cuatro categorías. Tenemos dos opciones para elegir. La primera es un método basado en el aprendizaje multitarea. La desventaja de este método es que el costo de agregar nuevas etiquetas es alto. Por ejemplo, para agregar una etiqueta, se deben agregar algunos datos de entrenamiento. para la etiqueta. El autor finalmente adoptó un modelo de discriminación basado en la interacción semántica, ingresando etiquetas como parámetros, de modo que el modelo pueda basarse en la discriminación semántica y admitir la adición dinámica de nuevas etiquetas.
El modelo discriminante basado en interacción semántica primero realiza una representación vectorial, luego interactúa y finalmente agrega los resultados de la comparación. Este método tiene una velocidad de cálculo más rápida, mientras que el método basado en BERT requiere una gran cantidad de cálculo, pero. tiene una mayor precisión. Logramos un equilibrio entre precisión y velocidad. Por ejemplo, cuando un PDI tiene más de 30 pruebas, tendemos a utilizar un método ligero, si un PDI tiene solo unas pocas pruebas, se puede utilizar un método con mayor precisión; utilizado para la identificación.
Desde una perspectiva macro, depende principalmente de si las etiquetas y las categorías coinciden. Hay tres relaciones principales: definitivamente no, probablemente sí y definitivamente sí. Generalmente, los resultados de la votación se determinan a través de los resultados de la asociación a nivel de comerciante y se agregarán algunas reglas cuando los requisitos de precisión sean altos, se puede realizar una revisión manual.
④ Aplicación de gráficos: aplicación directa de datos extraídos o aplicación de representación de vectores de conocimiento.
En escenarios relacionados con preguntas y respuestas sobre conocimiento del comerciante, respondemos a los usuarios en función de los resultados del marcado del comerciante y la evidencia correspondiente a las etiquetas. pregunta.
Primero, identifique las etiquetas en la consulta del usuario y asignelas a identificadores, y luego transmítalas de forma transparente a la capa de índice a través de la capa de clasificación o recuperación de búsqueda, para recordar a los comerciantes con resultados marcados y mostrar a los usuarios finales C. Los experimentos A/B muestran que la experiencia de búsqueda de demanda de cola larga de los usuarios mejora significativamente. Además, se han realizado algunos experimentos en línea en el campo de la búsqueda de hoteles mediante métodos de recuperación complementarios, como el mapeo de sinónimos, los resultados de la búsqueda han mejorado significativamente.
Se implementa principalmente utilizando el modelo GNN. Se construyen dos tipos de bordes en la composición, el comportamiento de clic de Query-POI y la información relacionada con Tag-POI; Graph Sage se utiliza para el aprendizaje de gráficos. para determinar si la etiqueta y el PDI existe una relación de asociación o si existe una relación de clic entre la consulta y el PDI, y se realiza un muestreo adicional según la fuerza de la asociación. Después de conectarse, los resultados mostraron que cuando solo se usaba información de Query-POI para componer imágenes, no hubo ningún beneficio en línea. Después de introducir la información relacionada con Tag-POI, el efecto en línea mejoró significativamente. Esto puede deberse a que el modelo de clasificación se basa en la información del comportamiento de clic de Query-POI para aprender. La introducción del aprendizaje de Graph Sage es equivalente a un método de aprendizaje diferente, con relativamente poca ganancia de información, la introducción de información de Tag-POI es equivalente a la introducción. de nueva información de conocimiento, por lo que traerá una mejora significativa.
Además, agregar solo la similitud del vector Consulta-POI no mejora bien el efecto en línea. Después de agregar los vectores Consulta y POI, el efecto mejora significativamente. Esto puede deberse a que la dimensión de la característica de la búsqueda es alta y la característica de similitud del vector se ignora fácilmente. Por lo tanto, la dimensión de la característica aumenta después de unir los vectores de consulta y PDI.
Esta tarea utiliza el elemento actualmente conocido para predecir el elemento enmascarado en el que hace clic el usuario. Por ejemplo, al obtener la representación de contexto de un Artículo, la información de Atributo relevante también se representa como un vector para determinar si el Artículo tiene información de Atributo.
Además, la predicción del atributo del elemento enmascarado también se puede realizar para integrar la información del gráfico de conocimiento de la etiqueta en la tarea de recomendación de secuencia. Los resultados experimentales muestran que la precisión después de introducir información de conocimiento ha mejorado en órdenes de magnitud en diferentes conjuntos de datos. Al mismo tiempo, también hicimos un trabajo de conversión en línea, utilizando la representación de elementos como recuperación de vectores, específicamente, recuperamos los N elementos similares principales en función de los elementos en los que el usuario hizo clic en el historial, complementando así los resultados de las recomendaciones en línea; Página de recomendación de lista de alimentos Hay una mejora significativa.
--
El objetivo de construir el mapa de conocimiento de los platos es, por un lado, construir una comprensión sistemática de los platos y, por otro lado, construir una comprensión más Mapa completo de conocimiento del plato. Aquí partimos de diferentes jerarquías para ilustrar la estrategia de construcción del gráfico de conocimiento del plato.
** * Comprensión de los nombres de los platos**
Los nombres de los platos contienen la información más precisa y de menor costo. Al mismo tiempo, la comprensión de los nombres de los platos también lo es. la base para el razonamiento de conocimiento explícito posterior, el requisito previo para las capacidades culturales. Primero, se extrae la palabra/tema plato esencial del nombre del plato y luego se utiliza la anotación de secuencia para identificar cada ingrediente en el nombre del plato. Se diseñan diferentes modelos para los dos escenarios. Para el caso con segmentación de palabras, el símbolo de segmentación de palabras se agrega al modelo como un símbolo especial. El primer modelo es para identificar el tipo correspondiente a cada token; Primero se debe realizar la tarea Span-Trans y luego reutilizar el módulo con la segmentación de palabras.
La comprensión de los nombres de los platos es una fuente importante de información, pero el conocimiento que contiene es relativamente limitado. Por lo tanto, se propone una inferencia preliminar de caracteres basada en un modelo de aprendizaje profundo, que puede lograr un procesamiento de generalización de diferentes. expresiones literales. Sin embargo, funciona mal en casos que requieren conocimientos profesionales y, ocasionalmente, aparecen casos en los que los literales coinciden extremadamente bien.
Extraer el conocimiento básico de ciertas recetas a partir de textos ricos en conocimiento para construir una base de conocimiento fuente y luego asignarlo a SKU específicos mediante un razonamiento generalizado. En el razonamiento de los ingredientes, por ejemplo, hay varios platos de cerdo estofados en el plato. Según las estadísticas, 4 de cada 10 platos de panceta de cerdo se refieren a panceta de cerdo y 6 se refieren a panceta de cerdo con piel, por lo que la carne se convierte en. panceta de cerdo con piel. En consecuencia, Buddha Jumps Over the Wall tiene múltiples recetas. Al contar primero la probabilidad de que aparezca cada ingrediente, se puede establecer un umbral y luego se indica la receta de la receta.
La minería de datos de múltiples fuentes genera un triple conocimiento sólido basado en los resultados de comprensión del nombre del plato y también se basa en las reglas de generalización de los resultados de comprensión del nombre del plato. Esta estrategia es principalmente adecuada para procesar etiquetas como ingredientes, eficacia y personas. La precisión de este método es buena y tiene cierta capacidad de generalización, pero la tasa de cobertura es baja.
Existen algunos datos de capacitación relativamente fáciles de usar en el negocio, como árboles de clasificación autoconsistentes en la tienda editados por 10 millones de comerciantes. Con base en estos datos, se pueden generar 500 millones de pares positivos y un corpus de 30G.
Durante el entrenamiento del modelo, la pestaña/tienda de la categoría de receta se reemplazará aleatoriamente y el modelo determinará si la pestaña/tienda ha sido reemplazada con una probabilidad del 50%, lo que hará que el modelo funcione de manera sólida cuando solo; se ingresa el nombre del plato. Al mismo tiempo, el modelo se mejoró sustancialmente y las etiquetas de clasificación se entrenaron como las palabras de Bert. Este método se aplicó al modelo posterior. Con 100.000 datos anotados, la precisión del modelo de hipónimo/sinónimo de receta aumentó en un 1,8%.
Primero, use ReseNet para compilar las imágenes de la receta, use el modelo Bert para codificar la información del texto de la receta y aprenda la información coincidente entre el texto y los platos de la tienda a través de la pérdida de aprendizaje comparativa. Aquí se utiliza el modelo de dos torres, por un lado, que es más conveniente para aplicaciones posteriores. El modelo de una sola torre se puede utilizar de forma independiente y, por otro lado, la representación de las imágenes del plato también se puede inferir y almacenar en caché. , el contenido de la imagen es simple y no hay necesidad de modelado interactivo. Los objetivos de la capacitación son hacer coincidir imágenes con platos de la tienda, alinear imágenes con nombres de platos y alinear imágenes con pestañas.
Puede predecir categorías de platos o información completa de recetas basándose en información multimodal. Por ejemplo, predecir "cerdo y repollo" con información de imágenes será más intuitivo y preciso. Extracción de atributos de recetas semisupervisadas de vista múltiple basada en texto y visualización de información modal. Tome la extracción del método de cocción como ejemplo, primero genere muestras de entrenamiento del método de cocción (cerdo estofado - cerdo estofado y luego use el modelo CNN para entrenar y predecir métodos de cocción de recetas); para guiar el modelo de Bert Ajustar el modelo de texto o el modelo multimodal predice los métodos de cocción de platos según el comerciante/pestaña/plato y revisa la información, finalmente, vota por los dos modelos o une las dos características para hacer predicciones;
En resumen, hacemos un resumen correspondiente de la construcción del gráfico de conocimiento del plato. La comprensión de platos es más adecuada para la inicialización de SKU; los modelos de inferencia de aprendizaje profundo y los modelos de inferencia explícita son más adecuados para sinónimos, hipónimos, cocinas, etc., en última instancia, queremos resolver el problema de la información unimodal incompleta a través de estructura multimodal +; preentrenamiento e inferencia, múltiples dimensiones de atributos y la necesidad de una gran cantidad de datos anotados, etc., por lo que este método se aplica a casi todos los escenarios.
Eso es todo por lo que compartimos hoy, gracias a todos.
Compartir invitados: