Cómo redactar un cuestionario para garantizar su fiabilidad y validez
La fiabilidad de una prueba suele expresarse mediante el coeficiente de correlación (es decir, la relación proporcional entre dos números). Cuanto mayor sea el coeficiente de correlación, mayor será la confiabilidad. Cuando el coeficiente es 1,00, significa que la confiabilidad de la prueba alcanza el nivel más alto; cuando el coeficiente es 0,00, la confiabilidad de la prueba es la más pequeña. Normalmente, el coeficiente no será ni tan alto como 1,00 ni tan bajo como 0,00, sino algo intermedio. Los requisitos para las métricas de confiabilidad varían según el tipo de prueba. La gente suele exigir que el coeficiente de confiabilidad de las pruebas estandarizadas sea superior a 0,90. Por ejemplo, la confiabilidad del TOEFL es aproximadamente de 0,95, mientras que el coeficiente de confiabilidad de las pruebas presenciales está entre 0,70 y 0,80. Hay muchas formas de calcular la confiabilidad de una prueba. A continuación se presentan sólo tres métodos fáciles de utilizar:
1) Método de nueva prueba. Utilice el mismo conjunto de pruebas para evaluar el mismo grupo de sujetos en dos momentos diferentes para obtener dos conjuntos de puntuaciones y luego calcule el coeficiente de correlación entre los dos conjuntos de puntuaciones. Por supuesto, de las dos pruebas, la puntuación del estudiante en la segunda prueba debe ser más alta que en la primera porque el estudiante avanzó en la segunda prueba y adquirió más experiencia de campo. Pero si las preguntas son confiables, el orden de clasificación de cada estudiante en las dos pruebas debería permanecer básicamente sin cambios.
2) Métodos alternativos. Se probaron dos conjuntos de exámenes equivalentes con el mismo tipo y dificultad pero con diferentes preguntas específicas, y luego se calculó el coeficiente de correlación de las dos puntuaciones.
3) Método mitad y mitad. La prueba solo se realiza una vez, pero las preguntas de todo el examen se dividen en dos grupos según números pares e impares, se calcula el coeficiente de correlación de los dos conjuntos de puntuaciones y se utiliza la fórmula de Spearman-Brown para calcular el coeficiente de confiabilidad de todo el examen. Los pasos de cálculo específicos son: multiplicar los coeficientes de correlación de los dos conjuntos de puntuaciones por 2, dividir por 1 y sumar los coeficientes de correlación de los dos conjuntos de puntuaciones.
/view/698674.htm
La validez de la prueba, también conocida como validez de la prueba, se refiere al grado en que un conjunto de pruebas mide el contenido que se debe probar. En otras palabras, ¿un conjunto de pruebas logra el propósito previsto y mide lo que pretende medir? Por ejemplo: "¿La fotografía es un arte o una ciencia? Discute..." Este tema se basa en el conocimiento de la fotografía y su contenido principal. Es ineficaz si se utiliza para evaluar la capacidad lingüística. Otro ejemplo es el dictado, que se utiliza para medir la capacidad auditiva de los estudiantes. Su validez no es ideal porque los registros escritos del lenguaje hablado no solo involucran la capacidad auditiva de los estudiantes, sino que también se relacionan con la velocidad de escritura, la capacidad de ortografía, el conocimiento gramatical y la memoria de los estudiantes. Capacidad y comprensión del texto completo.
La validez de la prueba generalmente se puede dividir en las siguientes categorías:
1) Período de validez del billete. Se refiere al estándar del examen que debe cumplirse, es decir, si un conjunto de preguntas del examen es superficialmente apropiado. Por ejemplo, si una prueba de comprensión lectora incluye muchas palabras dialectales que el sujeto no ha aprendido, se puede considerar que la prueba carece de validez aparente. La validez aparente es un factor de garantía para probar el nivel normal de los sujetos.
2) Validez del contenido. Se refiere a si un conjunto de preguntas de la prueba prueba el contenido que debe evaluarse o si el contenido de la prueba refleja los requisitos de la prueba, es decir, la representatividad y cobertura de la prueba. Por ejemplo, si un conjunto de preguntas de una prueba de habilidades de pronunciación solo evalúa ciertas habilidades necesarias para la pronunciación, como la pronunciación de un solo fonema, pero no evalúa el acento, la entonación o la pronunciación de los fonemas en las palabras, entonces la validez de contenido de la La prueba será muy baja.
3) Validez de constructo. Se refiere al grado en que los ítems de un conjunto de preguntas reflejan aspectos fundamentales de la teoría en la que se basa la prueba. Por ejemplo, basándose en la teoría estructuralista del lenguaje, se cree que los hábitos lingüísticos sistemáticos se adquieren a través de patrones de oraciones, por lo que las preguntas de prueba que enfatizan el vocabulario y el entorno gramatical pierden su validez.
4) Validez empírica. La validez empírica es una medida de la validez de una prueba que se obtiene comparando la prueba con una o más escalas estándar.
La validez empírica se puede dividir en dos tipos: una es la validez * * *, es decir, el coeficiente que se obtiene al comparar los resultados de una prueba con los resultados de otra prueba válida en un momento similar, o con la identificación del docente es el predictivo; validez, es decir, el coeficiente que se obtiene al comparar los resultados de una prueba con el dominio lingüístico posterior o la evaluación posterior del alumno por parte del profesor.
En términos generales, al probar la validez de un examen, no solo se debe examinar el contenido del examen de acuerdo con los requisitos del programa de estudios y la teoría de la validez conceptual, sino también el método cuantitativo de Se debe utilizar el cálculo del coeficiente de correlación, es decir, se calcula el coeficiente de correlación entre este examen y otro examen que se ha determinado que refleja correctamente el nivel del sujeto. Cuanto mayor sea el coeficiente, mayor será la efectividad. La validez de las pruebas en el aula debe estar entre 0,4 y 0,7, y la validez de las pruebas a gran escala debe estar por encima de 0,7.