¿Qué es la validación cruzada?

La validación cruzada es un método de análisis estadístico que se utiliza para verificar el rendimiento de un clasificador. La idea básica es agrupar los datos originales (conjunto de datos) en un cierto sentido, y una parte de ellos se utiliza como entrenamiento. set (conjunto de entrenamiento), y la otra parte se usa como conjunto de validación. Primero, el conjunto de entrenamiento se usa para entrenar al clasificador, y luego el conjunto de validación se usa para probar el modelo entrenado (modelo) para evaluar el rendimiento de. el clasificador. Los métodos de validación cruzada comunes son los siguientes: 1. Método de espera

Divida aleatoriamente los datos originales en dos grupos, uno como conjunto de entrenamiento y el otro como conjunto de verificación. Utilice el conjunto de entrenamiento para entrenar. clasificador, luego use el conjunto de validación para verificar el modelo y registre la precisión de la clasificación final como indicador de rendimiento del clasificador. La ventaja de este método es que es fácil de procesar. Solo necesita dividir aleatoriamente los datos originales en dos grupos. De hecho, estrictamente hablando, el método Hold-Out no puede considerarse como un CV porque este método no logra el objetivo. La idea es cruzada y aleatoria. Los datos originales están agrupados, por lo que la precisión de la clasificación final del conjunto de verificación tiene una gran relación con la agrupación de los datos originales, por lo que los resultados obtenidos por este método en realidad no son convincentes.

2. Validación cruzada doble (validación cruzada doble, registrada como 2-CV)

¿El método consiste en dividir el conjunto de datos en dos subconjuntos de igual tamaño y realizar dos? Entrenamiento del clasificador de rondas. En la primera ronda, un subconjunto se usa como conjunto de entrenamiento y el otro como conjunto de prueba; en la segunda ronda, el conjunto de entrenamiento y el conjunto de prueba se intercambian y el clasificador se entrena nuevamente, lo cual nos preocupa más; sobre los dos La tasa de reconocimiento de los conjuntos de prueba. Sin embargo, 2-CV no se usa comúnmente en la práctica. La razón principal es que el número de muestras del conjunto de entrenamiento es demasiado pequeño, lo que generalmente no es suficiente para representar la distribución de las muestras principales, lo que genera una brecha significativa en la tasa de reconocimiento durante. la etapa de prueba. Además, la variabilidad del conjunto molecular en 2-CV es grande, lo que a menudo no puede cumplir con el requisito de que "el proceso experimental debe ser replicable".

3. Validación cruzada de K-fold (validación cruzada de K-fold, registrada como K-CV)

¿Dividir los datos originales en K grupos (generalmente divididos en partes iguales) y dividirlos? cada uno Los datos del subconjunto se utilizan como conjuntos de validación respectivamente, y los datos restantes del subconjunto K-1 se utilizan como conjuntos de entrenamiento. Esto dará como resultado modelos K y se utiliza el promedio de la precisión de clasificación de los conjuntos de validación finales de estos modelos K. como el K-CV Indicadores de desempeño del clasificador inferior. K generalmente es mayor o igual a 2. En operaciones reales, generalmente se toma de 3. Solo cuando la cantidad del conjunto de datos original sea pequeña se intentará tomar 2. K-CV puede evitar eficazmente la aparición de estados de sobreaprendizaje y subaprendizaje, y los resultados finales obtenidos también son relativamente convincentes.

4. Validación cruzada Leave-One-Out (registrada como LOO-CV)

Si los datos originales tienen N muestras, entonces LOO-CV es N-CV, es decir, cada Las muestras se usan solo como conjunto de verificación, y las N-1 muestras restantes se usan como conjunto de entrenamiento, por lo que LOO-CV obtendrá N modelos y el promedio de la precisión de clasificación del conjunto de verificación final de estos N modelos. se utiliza como la siguiente métrica de rendimiento del clasificador LOO-CV. En comparación con el K-CV anterior, LOO-CV tiene dos ventajas obvias:

(1) Casi todas las muestras en cada ronda se utilizan para entrenar el modelo, por lo que se acerca más a la distribución de las muestras originales. , los resultados obtenidos por esta evaluación son más confiables.

(2) No existen factores aleatorios que afecten los datos experimentales durante el experimento, lo que garantiza que el proceso experimental pueda replicarse.

Sin embargo, la desventaja de LOO-CV es el alto costo computacional, porque la cantidad de modelos que deben construirse es la misma que la cantidad de muestras de datos originales. Es bastante grande, LOO-CV tiene dificultades de implementación. Casi no se muestra a menos que el modelo obtenido al entrenar el clasificador sea muy rápido cada vez, o se pueda usar computación paralela para reducir el tiempo requerido para el cálculo.