Caja de herramientas del sistema de recomendación de inferencia causal - DIB (I)
Aliviar el sesgo de confusión en la recomendación a través de cuellos de botella de información
Al igual que el método CVIB enseñado anteriormente, el autor comienza desde el proceso de generación de datos de sesgo en el sistema de recomendación y utiliza un método de causa y efecto. diagrama de efectos para describir el mecanismo de generación de sesgo. Utilizando métodos de teoría de la información, derivaron las condiciones (función objetivo) que deben cumplirse durante el proceso de generación y, además, encontraron el objetivo que se puede optimizar mediante la aproximación (potencia informática limitada). El modelo genera dos tipos de vectores a través del entrenamiento: vectores de incrustación sesgados y vectores de incrustación insesgados. Finalmente, solo los vectores de incrustación insesgados se utilizan para la predicción. Todo el método se denomina DIB.
Los datos de entrenamiento (datos de observación) del modelo recomendado se pueden expresar como , donde . Los modelos de recomendación se entrenan para modelar una función de puntuación (o función de decisión) con el objetivo de predecir con precisión el grado de coincidencia (la preferencia del usuario por un elemento) de tuplas de elementos de usuario (cada tupla). Los modelos de recomendación existentes basados en incrustaciones aprenden representaciones vectoriales latentes de tuplas y las transforman utilizando parte de la función de decisión anterior para lograr la predicción final. Esta cadena de aprendizaje se puede representar como una cadena de Markov como se muestra a continuación.
Además del grado de coincidencia que afecta los comentarios de los usuarios (calificaciones), las características de las tuplas de elementos de usuario también afectan indirectamente los comentarios de los usuarios al afectar la estrategia del modelo de recomendación, lo que puede tener varios sesgos de confusión, como artículos Sesgo de popularidad, sesgo de calificación de selección de usuarios, etc. Como se muestra en la figura siguiente, el autor utiliza un diagrama de causa y efecto comúnmente utilizado en artículos en el campo del razonamiento causal para descomponer el mecanismo por el cual ocurre el sesgo.
Existen tres tipos de variables aleatorias que se pueden descomponer. Una de ellas se denomina "variable instrumental" porque afecta la retroalimentación del usuario final solo al afectar la estrategia del modelo de recomendación. Se llama variable de ajuste porque solo afecta los comentarios de los usuarios. Los comentarios de los usuarios pueden verse afectados indirectamente al influir en la estrategia de modelado de recomendaciones o directamente (consulte el diagrama de escenario de inferencia causal en el artículo y la colección). Por lo tanto, para obtener efectos directos sobre los comentarios de los usuarios, debemos utilizar la inferencia causal para eliminar los efectos de las variables de confusión.
Aunque la regla de oro de la inferencia causal son los experimentos aleatorios. Sin embargo, los ensayos aleatorios son demasiado "caros" no sólo porque llevan mucho tiempo, sino también porque afectan la experiencia del usuario. Por lo tanto, los autores proponen un método basado en datos observacionales para eliminar el sesgo (de confusión).
A menudo resulta difícil dividir los datos en tres partes directamente (sin ninguna transformación). Por tanto, la idea habitual es aprender vectores ocultos. Sin embargo, el método original no puede separar las tres partes del vector oculto y cada dimensión del vector oculto se ve afectada por un sesgo. Por lo tanto, el autor diseñó el proceso de aprendizaje que se muestra en la siguiente figura, con el propósito de dividir el vector oculto en dos partes, una parte representa el efecto indirecto sobre el par y la otra parte representa el efecto directo sobre el par.
Además, también se puede inferir que las condiciones que deben cumplirse para satisfacer el proceso de aprendizaje anterior: 1) Para eliminar la influencia del sesgo, no se puede lograr el sobreajuste; influencia directa, también se requiere una buena capacidad de predicción; 3) Para dividirse, los dos deben ser lo más independientes posible 4) Debido a los efectos indirectos, también se requiere un cierto grado de capacidad de predicción; Usando estas condiciones, combinadas con la teoría de la información, se puede obtener la función objetivo que se muestra en la siguiente figura. Vale la pena señalar que los autores no limitaron la correlación entre los dos. La razón es que no se puede medir con precisión el grado en que los datos se ven afectados por el sesgo (al menos no utilizando únicamente datos de observación).
De la fórmula anterior, podemos ver que necesitamos minimizar la información mutua entre los dos, para comprimir tanta información como sea posible sin estar demasiado correlacionada (la compresión está determinada por la información mutua El segundo término se completa) y minimizar la información mutua entre ambos, haciéndolos lo más independientes posible. Maximizando la información mutua entre los dos, se pueden mejorar las capacidades predictivas de ambos.
El artículo expresa el proceso que afecta la retroalimentación final (es decir, los datos de entrenamiento utilizados para el entrenamiento del modelo de recomendación) como un diagrama causal, que es muy común en artículos en el campo del razonamiento causal que son populares recientemente. Este método de clasificación puede reflejar completamente Gran parte del proceso de generación de datos el problema del sesgo de confirmación, pero existen otras formas más completas de generar diagramas causales, como incluir variables posteriores, etc. La diferencia es que en lugar de utilizar el equilibrio para aprender la representación de dos partes o VAE para desacoplar los datos, los autores explotan la entropía de la información. Sin embargo, el límite final en realidad tiene mucho que ver con VAE. De hecho, la esencia tanto de VAE como de IB es utilizar métodos de teoría de la información para modelar y optimizar soluciones.
Los autores no tienen limitaciones y, sin datos aleatorios, es realmente difícil saber el alcance del sesgo. Por lo tanto, el autor equivale a inferir (o cortar) las condiciones básicas de otras condiciones para que satisfagan el diagrama causal que generó los datos.