Caja de herramientas del sistema de recomendación de inferencia causal - CVIB (I)
Aprendizaje contrafactual de la teoría de la información a partir de
falta de retroalimentación no aleatoria
Este artículo tiene como objetivo resolver el problema MNAR. La regla de oro para resolver este problema es. utilizar RCT, pero el costo de RCT es demasiado alto (en términos de tiempo y sacrificio de rendimiento). Los autores resuelven este problema utilizando la teoría de cuellos de botella de información contrafactual variacional basada en la teoría de la información (CVIB). Al separar la información mutua consciente de la tarea en el cuello de botella de información lagrangiano original en partes fácticas y contrafactuales, los autores derivaron una pérdida de información contrastiva y un término adicional de penalización de confianza de salida para equilibrar los dominios fácticos y contrafactuales.
Al igual que en varios artículos cuestionados anteriormente, como se muestra en la figura siguiente, estimar directamente sobre la muestra observada es realizar una minimización empírica del riesgo. Para eliminar el efecto de MNAR, necesitamos optimizar (aprender parámetros) en un conjunto de datos que consta de todas las primitivas del proyecto del usuario. Existe un sesgo entre los dos. Este sesgo se debe al hecho de que los usuarios solo elegirán proyectos que les gusten para recibir comentarios, o solo elegirán proyectos que hayan visto para recibir comentarios. Esto crea un sesgo de selección, y esta selectividad no es MAR. .
Aparte de los métodos de corrección de sesgos que se pueden utilizar (ya hemos hablado de IPS, DR y MRDR), lo más seguro y cercano a la verdad es construir un conjunto de datos MAR. Por lo tanto, muchos métodos utilizan experimentos aleatorios (RCT) para recopilar datos. Pero este método es demasiado costoso. [3] Utilice métodos de adaptación de dominio para la corrección de sesgos (ideas similares en el campo del razonamiento causal se describen en "Caja de herramientas de aprendizaje profundo para el razonamiento causal: aprendizaje de representación descompuesta para el razonamiento contrafactual" y otros artículos). Desde la perspectiva de la teoría de la información, el autor adopta otro método de modelado de aprendizaje basado en el cuello de botella de la información (IB).
Los métodos colaborativos basados en filtrado utilizan representaciones vectoriales de usuarios y elementos para estimar los comentarios de los usuarios sobre los elementos, es decir…. En los métodos de filtrado colaborativo profundo, las redes neuronales de avance multicapa generalmente se usan para procesar "...", y finalmente se usa la salida de la red multicapa (es decir, la representación vectorial del usuario y del elemento después de múltiples no lineales). transformaciones) para estimar los comentarios de los usuarios sobre el proyecto. El autor considera todo el proceso como una cadena de Markov y el proceso es el siguiente. Entre ellos, representan los comentarios reales del usuario y las características del usuario y del elemento respectivamente.
()
El estándar IB se muestra en la siguiente figura, que representa la información mutua de dos variables aleatorias. Minimizar la información mutua puede comprimir las características de manera más efectiva. La maximización mutua de la información puede predecir mejor los comentarios de los usuarios. La literatura [1] cree que este proceso de optimización consiste en agregar regularización mutua de información al aprendizaje de representación en el proceso de aprendizaje supervisado. Pero normalmente el cálculo de la regularización mutua de la información es muy complicado (la integral es mayor que la integral)
(LIB)
Además, en el escenario de aplicación de MNAR, hay otro variable aleatoria, que debería ser independiente de los comentarios de los usuarios (los comentarios aquí se refieren a puntuaciones o clics causados por preferencias, no están sujetos a sesgos y pueden interpretarse como comentarios potenciales a través del razonamiento causal comparativo :). Es decir, esperamos y también esperamos que elimine el sesgo político (MNAR). Aunque [2] propuso un método proxy para calcular el IB, no es aplicable al escenario MNAR porque la mayoría de los datos bajo MNAR son contrafactuales.
El autor primero estratifica las incrustaciones (incluidos usuarios y elementos) en dos casos: en los casos en los que se observa incrustación y cuando no se observa incrustación, las tuplas de elementos de usuario están representadas por y respectivamente, es decir, De acuerdo con la lógica de la cadena de Markov anterior, sí, se puede obtener más. Por tanto, podemos poner. Suponemos que y son independientes, entonces podemos obtener la siguiente fórmula.
Además, después de la modificación (el autor dijo que esto está relacionado con la falta de disponibilidad de contrafactuales, lo cual se siente un poco extraño, consulte la consulta), podemos obtener los siguientes resultados, donde se define como un término constante Fomentar que el modelo tenga suficiente capacidad para reflejar las preferencias reales del usuario al observar y ser observado para obtener retroalimentación, es decir, lograr un equilibrio entre el espacio de hechos y el espacio contrafactual. Esto a su vez produce la función de pérdida CVIB.
El diagrama esquemático del algoritmo CVIB se muestra en la siguiente figura. Como se puede ver en la figura, el autor utiliza el contraste de información mutua para obligar a ambos a predecir completamente las preferencias de retroalimentación del usuario.
Al mismo tiempo, los autores también muestran que este es el término mínimo que se puede optimizar mediante el aprendizaje de incrustaciones. Porque la distribución de observación afecta las características que podemos observar para una tupla de elemento de usuario determinada. Sin embargo, no queremos tener un impacto en las preferencias reales de comentarios de los usuarios. Por lo tanto, queremos reducir gradualmente los pares de información en la cadena de Markov anterior. Al utilizar la siguiente desigualdad (prueba en el Apéndice), podemos ver que la optimización garantiza que el par de características sea insensible al sesgo político.
La siguiente sección explica el marco de optimización de CVIB.
Los autores afirman que las desviaciones en MNAR se deben a desviaciones de políticas. De hecho, la política se refiere al modelo de recomendación que ahora se implementa en los entornos de producción, que crea una colección de elementos que los usuarios pueden ver o elegir, lo que afecta aún más el sesgo de selección del usuario. De hecho, cualquiera de los sesgos anteriores es el resultado de recibir otros factores que influyen tanto en los comentarios como en las elecciones de los usuarios. Por tanto, ambos pueden ajustarse utilizando un criterio de puerta trasera para obtener estimaciones insesgadas cumpliendo siempre con la estructura en forma de horquilla.
Quizás la confusión aquí es que para tuplas de usuarios y elementos, ¿las características observadas y no observadas deberían ser las mismas? Sí, de hecho, las características de la materia u objeto de estudio no cambian. Lo que queremos separar es el espacio contrafáctico o espacio potencial relativo a la hipótesis. Quizás se pueda explicar que representa los diferentes roles que desempeñan las características en diferentes espacios latentes (observados o no observados). y representan alguna cuantificación del papel. Aunque sigue teniendo el mismo valor, sólo que desempeña un papel diferente. Y es más importante. Entonces, ¿los efectos son independientes? Personalmente creo que esto es discutible.
Un párrafo cerca de la fórmula 6 en el artículo dice esto:
Pero parece que aquí no hay restricción sobre los contrafactuales, y parece que podemos continuar deduciendo directamente sin usar contrafactuales. ¿Esto se siente un poco extraño?
[1] Alessandro Achille y Stefano Soyato. Inmutabilidad emergente y desenredo en representaciones profundas. Journal of Machine Learning Research, 19(1):1947-1980, 2018.
[2] Alexander A. Alemi, Ian Fischer, Joshua V. Dillon y Kevin Murphy. Cuello de botella de información sobre mutaciones profundas. Preimpresión de ArXiv arXiv:1612.00410, 2016.
[3] Stephen Bonner y Flavian Vasile. Conferencia ACM sobre sistemas de recomendación, páginas 104-112, 2018.
[3] Stephen Bonner y Flavian Vasile.