Introducción
Con la pandemia causada por la covid-19, diversos procesos se modificaron en las universidades e Instituciones de Educación Superior. La docencia se constituyó en la función sustantiva que requirió especial atención, dado que se vivió una transición obligada a la educación no presencial, misma que una vez implementada ha requerido de seguimiento y de mejora continuas. El objetivo de este trabajo es presentar la validez y la confiabilidad de un instrumento para obtener la opinión del alumnado con respecto al desempeño docente, en la Universidad Autónoma Metropolitana (UAM) en México. Aunque en la universidad ya se aplicaba un cuestionario con la misma intencionalidad, éste fue modificado para atender las nuevas condiciones en que operan las actividades docentes. Así, se busca proponer políticas y estrategias institucionales para, con base en la opinión del alumnado como un elemento relevante, mejorar la evaluación y la calidad de la docencia.
La evaluación de la docencia es un proceso complejo. Las acciones para medir y valorar las competencias en el ámbito educativo superior requieren de repensar las medidas y los procedimientos vigentes. Hay algunos elementos clave que favorecerían el perfeccionamiento de prácticas de valoración del desempeño docente. Definir qué se evalúa en relación exclusivamente con la docencia otorga bases para planificar la evaluación de manera ordenada y establecer categorías de análisis, dado que en esta función universitaria interactúan diversos elementos como la infraestructura en la que se imparte la docencia, las especificaciones contractuales y laborales de los docentes, la organización y el código universitario, la interacción profesor-alumno, por mencionar algunos (Rueda y Sánchez, 2018).
La evaluación de la docencia en la UAM es una actividad regulada específicamente en el artículo 215 del Reglamento de Ingreso, Promoción y Permanencia del Personal Académico (RIPPPA), que establece las actividades para la función de docencia, y en el artículo 4 del Reglamento de Alumnos establece los derechos de los alumnos. El primero específica las tareas asociadas a la función docencia que consideran la planeación, organización preparación y conducción del proceso de enseñanza-aprendizaje, de acuerdo con los planes y programas de estudio aprobados por los órganos colegiados correspondientes. Se suman los artículos 218, 218 Bis, 219 al 220 Ter, éste último señala que los consejos divisionales definirán los criterios y procedimientos para la evaluación de las actividades de docencia, investigación y preservación y difusión de la cultura, en función de los objetivos de la propia división. En el caso de la docencia, la evaluación deberá considerar periodos trimestrales, los informes anuales de los profesores y la opinión de los alumnos mediante encuestas idóneas que contemplen los elementos del artículo 215 del RIPPPA (UAM, 2020). El artículo 4 del Reglamento de Alumnos establece los derechos de los alumnos en cuanto a las condiciones institucionales, académicas y materiales en que el alumnado recibe su formación. Entre ellas destaca el derecho a opinar en relación con el desarrollo y con los resultados de los programas de las UEA.
La evaluación del cumplimiento de las funciones sustantivas por los profesores en la UAM ha estado asociada, desde hace por lo menos 30 años, al sistema de estímulos y becas para el reconocimiento y deshomologación salarial que priva en la universidad: beca a la permanencia, beca a los grados académicos, beca a la docencia, estímulo a la investigación y estímulo a la trayectoria académica. Particularmente, el 10 de junio de 1992, fueron aprobadas las becas al reconocimiento de la carrera docente del personal académico (Arbesú, 2004).
Buendía et al. señalan que diversas reflexiones en la comunidad universitaria dan cuenta de las dificultades y retos que la evaluación de la docencia representa para la Universidad. Algunas son: a) asociada más a un proceso de control que de mejora de la función docente; b) es un proceso incompleto en cuanto a sus objetivos, fines y usos por los actores involucrados; y c) responde más al incentivo económico que representa la mejora de la práctica docente que a la colaboración entre los actores principales, el personal académico y los alumnos, para la retroalimentación. Particularmente, el instrumento de opinión estudiantil presenta diversas problemáticas:
Carece de una aproximación teórica sobre la enseñanza, pero se acerca más a la teoría conductual del aprendizaje y la transmisión del conocimiento inerte, lo que es contrario a la figura de profesor investigador que sustenta el modelo universitario de la UAM en general y de la diversidad de modelos académicos que promueven cada una de sus unidades académicas (Whitehead, 1929; Renkl, Mandl y Gruber, 1996);
Limita a un modelo único de ser docente y responde al “ideal” de tareas asignadas que establece la propia Universidad en el artículo 215 del RIPPPA;
Está realizado para efectos de un control académico-administrativo del docente que no se aplica en la gestión de la docencia;
Está organizado en tres niveles: autevaluación, organizativo y desempeño. De las 21 preguntas que integran las dos dimensiones a evaluar (organizativa y de desempeño), 16 se relacionan con el desempeño (asistencia y puntualidad; presentación del programa, objetivos y bibliografía; evaluación del mismo; duración de las sesiones; dominio del tema; horas impartidas; asesorías extra clase; cumplimiento del programa y bibliografía); cinco preguntas de “carácter informativo” valoran el entusiasmo del profesor al impartir la clase; el clima de respeto y cordialidad en el aula; los recursos didácticos y pedagógicos empleados por el maestro y la necesidad de formación didáctica, pedagogía y manejo de grupos (Arbesú, 2004);
No reconoce diferencias disciplinares y entre niveles educativos (licenciatura y posgrado);
Valora el desempeño del profesor desde una perspectiva proceso-producto (Arbesú, 2004); y no permite obtener información sobre la práctica pedagógica en el contexto del modelo universitario de la UAM y de los modelos académicos de sus cinco unidades;
No corresponde con las diferencias que existen en la práctica educativa para los distintos niveles educativos, licenciatura y posgrado; así como para las grandes áreas de conocimiento que se cultivan en la Universidad;
El tiempo y la forma de comunicar los resultados de la opinión estudiantil, así como del proceso general de evaluación; no contribuyen a establecer estrategias de mejora de la docencia.
En el contexto de la pandemia causada por el Sars-Cov-2, se implementó en la Universidad el Proyecto Emergente de Enseñanza Remota (PEER), el cual permitió continuar con las actividades docentes, pero, al mismo tiempo, visibilizó viejos problemas tales como: desigualdad de los estudiantes y profesores en el acceso a equipo y conexión, condiciones de aprendizaje de estudiantes y profesores, deficiente formación docente en tecnologías digitales, estrategias de enseñanza, aprendizaje y evaluación en educación no presencial, rezago educativo y logros de aprendizaje, establecimiento de comunicación efectiva y apoyo a la salud emocional de las comunidades educativas.
Con base en lo anterior una comisión especial propuso: a) fortalecer la formación docente en estrategias de enseñanza-aprendizaje y de evaluación de los aprendizajes para clases vía remota y presencial; b) fortalecer los conocimientos y habilidades tecnologías digitales; y c) mantener y mejorar los apoyos en todos los niveles de la gestión a la comunidad universitaria (coordinaciones, jefaturas, servicios, en el área técnica, a nivel institucional, apoyos psicológicos, becas, etc.).
Método
Objetivos
La elaboración del instrumento recayó en una comisión integrada por personal académico de la Universidad y ha sido aplicado en dos periodos lectivos en el 2020, trimestres de otoño y de primavera. El método para medir la validez y confiabilidad del instrumento considera calcular la confiabilidad del instrumento: los reactivos en lo individual y las dimensiones como agregados de reactivos. Enseguida se realiza el análisis de datos para obtener el análisis factorial exploratorio del instrumento y confirmatorio del instrumento.
Población y muestra
La población de alumnos activos de la UAM durante el trimestre de otoño, que corresponde a la población objeto de esta investigación fue de 47,371, incluyendo estudiantes de licenciatura y posgrado. La muestra de estudiantes que participó en el estudio fue de 18,992, la cual es adecuada al tamaño de la población, ya que supera el tamaño de muestra esperado de 12,316 con un nivel de confianza del 99% y un nivel de error del 1%. El hecho de que un mismo alumno o alumna, participó en la evaluación de más de una unidad de enseñanza aprendizaje (UEA)1 hizo que el total de registros de encuestas que fueron contabilizadas para efectos de los análisis reportados en este artículo, fuera de 53,192.
Una de las estrategias para avanzar en las propuestas fue la renovación del instrumento para obtener la opinión del alumnado con respecto a la docencia remota. El diseño y validación del mismo estuvo a cargo de un equipo de académicos de la UAM, con la asesoría de un experto en evaluación docente de la Universidad Nacional Autónoma de México2. La versión final del cuestionario quedó constituida por un reactivo dicotómico (ítem1), un reactivo de escala numérica 1-10 (ítem 25), un reactivo de respuesta abierta (ítem 26), y 23 reactivos de formato Likert (ítems 2 a 24, los cuales fueron clasificados en cuatro dimensiones (ver Tabla 1):
Organización de la UEA. Cinco ítems: Cuatro escala Likert y uno dicotómico.
Práctica docente: 13 ítems de formato Likert.
Autoevaluación: Cuatro ítems de formato Likert.
Evaluación global: Tres ítems: dos reactivos de formato Likert, uno de escala numérica (1-10) y un reactivo de opción múltiple.
REACTIVO/NIVEL | |||||||||
La o el profesor presentó y entrego el programa de la UEA en la primera semana de clase o antes | No | Sí | |||||||
Totalmente en desacuerdo | En desacuerdo | De acuerdo | Totalmente de acuerdo | No aplica | |||||
1. El programa incluyó: objeticos, contenidos temáticos, estrategias de enseñanza aprendizaje, bibliografía, otros apoyos didácticos, formas de evaluación y cronograma e actividades. | |||||||||
2. El programa incluyó actividades realizadas en modalidad sincrónica (tiempo real) y asincrónica (sin interacción simultánea). | |||||||||
3. Se acordaron normas, criterios de convivencia armónica y respetuosa, así como mecanismos de comunicación en el grupo. | |||||||||
4. En general, las actividades se han realizado conforme a lo programado. | |||||||||
Práctica docente | |||||||||
5. La o el profesor muestra conocimiento amplio sobre los temas del programa. | |||||||||
6. Se favorece la participación individual y colectiva para el desarrollo de los conocimientos. | |||||||||
7. Se favorece la participación individual y colectiva para el desarrollo de las habilidades (comunicación, uso de lenguaje, pensamiento crítico, resolución de problemas, trabajo en equipo) | |||||||||
8. Se promueve tu aprendizaje autónomo con base en la implementación de actividades, recursos y apoyos didácticos. | |||||||||
9. Las actividades prácticas se han realizado conforme a las necesidades de la UEA y contribuyen al logro de los aprendizajes y experiencias. | |||||||||
10. Se resuelven las dudas con base en explicaciones comprensibles y fortalecen los aprendizajes sobre los contenidos abordados. | |||||||||
11. Se incentiva el desarrollo de prácticas de investigación para el fortalecimiento de los aprendizajes. | |||||||||
12. Se impulsa la aplicación práctica y/o analítica de los conocimientos adquiridos. | |||||||||
13. Se promueve un ambiente de respeto, confianza y colaboración. | |||||||||
14. En general, todas las actividades se han realizado con el pleno respeto a todos los derechos universitarios, como son, entre otros, la igualdad, diversidad y pluralidad de la comunidad universitaria en general y del alumnado del grupo en particular. | |||||||||
15. La o el profesor imparte asesorías cuando le son solicitadas. | |||||||||
16. Los criterios y formas de evaluación establecidas en el programa se han respetado. | |||||||||
17. Recibes retroalimentación de las modalidades de evaluación implementadas durante el curso. | |||||||||
18. Autoevaluación. | |||||||||
19. Me he presentado puntualmente a clases y he permanecido la duración total de las sesiones. | |||||||||
20. He participado en clase expresando dudas, aportando ejemplos, respondiendo preguntas y trabajando en equipo. | |||||||||
21. He cumplido con los requisitos y actividades académicas en el programa. | |||||||||
22. Hasta el momento he logrado los aprendizajes esperados de acuerdo con los objetivos del programa. | |||||||||
Evaluación global | |||||||||
23. Tomaría otro de los cursos que imparte la o el profesor. | |||||||||
24. En las condiciones extraordinarias del PEER la o el profesor mostró especial interés en el desarrollo de la UEA. | |||||||||
25. Con base en lo anterior califica del 1 al 10 el desempeño del profesor el trimestre 20-P: (1 es nada satisfactorio y 10 es muy satisfactorio). | |||||||||
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
○ | ○ | ○ | ○ | ○ | ○ | ○ | ○ | ○ | ○ |
26. Comentarios y sugerencias a tu profesor |
En esencia, el nuevo instrumento de evaluación se basó en el modelo universitario de la UAM, y su validación permitiría asegurar que cumple con las características suficientes y necesarias para valorar las actividades que el profesor debe realizar en función de lo que este modelo plantea.
Procedimiento de recogida y análisis de datos
El instrumento se aplicó en línea a las y los estudiantes determinados en la muestra. Se realizó el análisis del comportamiento de las respuestas, con el fin de verificar la consistencia interna del mismo (confiabilidad) y estimar el grado en el que mide lo que pretende medir, es decir los rasgos latentes definidos en las cuatro dimensiones a las que se hizo referencia (validez de constructo). El proceso de validación se realizó mediante los siguientes análisis:
Validación cualitativa del instrumento por parte de jueces expertos
-
Consistencia interna del cuestionario
-
Análisis de ítems
Validación de constructo mediante análisis factorial exploratorio y factorial confirmatorio a partir de un análisis de ecuaciones estructurales.
Dado que la mayor parte de los análisis requieren datos en escalas ordinales o de intervalo, el ítem de respuesta abierta fue eliminado del análisis, y el ítem dicotómico fue analizado de manera separada. Asimismo, para los análisis factoriales se eliminaron los dos últimos reactivos, dado que optamos por analizar al menos tres reactivos de cada dimensión o factor.
Resultados
1. Validación por jueces expertos
En el diseño del instrumento participó un investigador experto en evaluación de la docencia y externo a la Universidad. Su apoyo consistió en revisar las modificaciones realizadas y en validar con un grupo de expertos su pertinencia.
2. Consistencia interna (prueba total)
Para realizar los análisis de consistencia interna, se trabajó con los 23 ítems de formato Likert y con el ítem de escala. De esta manera, a partir de las respuestas de los y las alumnas, se pudo estimar la consistencia interna a partir de los métodos de mitades equivalentes (Spearman Brown) y alfa de Chronbach.
Los resultados de este análisis para la prueba total se exhiben en la Tabla 2, los cuales muestran una consistencia muy buena (superior a 0.9) en los dos tipos de análisis, lo cual refleja que lo que mide el instrumento en su totalidad lo hace de manera consistente.
3. Consistencia interna (dimensiones)
Adicionalmente, se realizaron análisis mediante el método de a de Chronbach, para estimar la consistencia interna de cada una de las dimensiones del cuestionario. El análisis de todas las dimensiones se muestra en la Tabla 3.
Organización de la UEA | ||
N | N elementos | a de Chronbach |
53192 | 5 | 0.898 |
Práctica docente | ||
N | N elementos | a de Chronbach |
53192 | 13 | 0.954 |
Autoevaluación | ||
N | N elementos | a de Chronbach |
53192 | 4 | 0.821 |
Evaluación global | ||
N | N elementos | a de Chronbach |
53192 | 3 | 0.807 |
Como puede apreciarse en la tabla, todos los índices de consistencia fueron superiores a 0.8, indicando una buena consistencia interna.
4. Análisis de ítems
El análisis del poder discriminativo de los ítems, es decir de su capacidad para distinguir opiniones favorables de las desfavorables, se realizó mediante los métodos de distribución de frecuencias, correlaciones ítem-prueba total, correlaciones ítem-dimensión y diferencia de medias entre grupos extremos. Se reportarán los resultados referentes a los ítems 2 a 24, que son los que utilizan formato Likert. Los ítems 1 y 25, que utilizan otros tipos de formato, serán analizados por separado.
a) Distribución de frecuencias de las opciones por ítem
El primer método, de distribución de frecuencias, verifica el sesgo que pudiera tener un ítem, basado en la forma como se distribuyen sus respuestas en sus diferentes niveles. De esta manera, cuando uno de los niveles es elegido por el 80% o más de los respondientes, se considera que el ítem puede tener un sesgo importante y, en consecuencia, debe ser modificado o sustituido por uno nuevo.
Los resultados de este análisis se presentan en la Tabla 4, los cuales muestran que en ningún caso los ítems mostraron una concentración mayor al 80% en alguno de sus niveles. El ítem 6 y el ítem 15 fueron los únicos que superaron el 70%, lo cual está aún dentro de los límites aceptables.
Ítem | Tot. Desacuerdo | Desacuerdo | De acuerdo | Tot. Acuerdo | ||||
---|---|---|---|---|---|---|---|---|
f | % | f | % | f | % | f | % | |
2 | 2054 | 3.9 | 1814 | 3.4 | 12980 | 24.4 | 35376 | 66.5 |
3 | 2104 | 4.0 | 2536 | 4.8 | 14436 | 27.1 | 32881 | 61.8 |
4 | 2061 | 3.9 | 2047 | 3.8 | 14012 | 26.3 | 34072 | 64.1 |
5 | 1998 | 3.8 | 2339 | 4.4 | 14211 | 26.7 | 33931 | 63.8 |
6 | 1590 | 3.0 | 1667 | 3.1 | 11425 | 21.5 | 37897 | 71.2 |
7 | 1969 | 3.7 | 2801 | 5.3 | 14548 | 27.3 | 32973 | 62.0 |
8 | 2009 | 3.8 | 3019 | 5.7 | 15006 | 28.2 | 32141 | 60.4 |
9 | 1711 | 3.2 | 2424 | 4.6 | 15216 | 28.6 | 33347 | 62.7 |
10 | 2092 | 3.9 | 3023 | 5.7 | 15724 | 29.6 | 31006 | 58.3 |
11 | 2365 | 4.4 | 3342 | 6.3 | 13834 | 26.0 | 33033 | 62.1 |
12 | 1929 | 3.6 | 3246 | 6.1 | 16198 | 30.5 | 30201 | 56.8 |
13 | 1859 | 3.5 | 2960 | 5.6 | 16307 | 30.7 | 31104 | 58.5 |
14 | 1763 | 3.3 | 1686 | 3.2 | 12837 | 24.1 | 36146 | 68.0 |
15 | 1544 | 2.9 | 1218 | 2.3 | 12495 | 23.5 | 37324 | 70.2 |
16 | 2334 | 4.4 | 3127 | 5.9 | 14658 | 27.6 | 28367 | 53.3 |
17 | 1690 | 3.2 | 1671 | 3.1 | 14615 | 27.5 | 34136 | 64.2 |
18 | 2553 | 4.8 | 3932 | 7.4 | 15238 | 28.6 | 29995 | 56.4 |
19 | 1035 | 1.9 | 1471 | 2.8 | 13797 | 25.9 | 35463 | 66.7 |
20 | 1179 | 2.2 | 4266 | 8.0 | 22255 | 41.8 | 23599 | 44.4 |
21 | 955 | 1.8 | 1353 | 2.5 | 15752 | 29.6 | 34652 | 65.1 |
22 | 2049 | 3.9 | 4385 | 8.2 | 21033 | 39.5 | 25151 | 47.3 |
23 | 4904 | 9.2 | 4327 | 8.1 | 13602 | 25.6 | 29594 | 55.6 |
24 | 2666 | 5.0 | 3013 | 5.7 | 14007 | 26.3 | 32595 | 61.3 |
b) Correlaciones ítem-prueba total (o dimensiones)
El segundo método de análisis de reactivos consistió en correlacionar, mediante la prueba Rho de Spearman para variables ordinales el puntaje asignado a cada ítem con la calificación total obtenida en la combinación de todos los ítems de formato Likert, así como con la puntuación obtenida en cada dimensión.
Como puede advertirse en la Tabla 5, todas las correlaciones fueron significativas y a excepción de los ítems 19, 20 y 21, superiores a 0.7.
Ítem | Correlación | Significación |
---|---|---|
2 | 0.683 | < 0.001 |
3 | 0.711 | < 0.001 |
4 | 0.726 | < 0.001 |
5 | 0.729 | < 0.001 |
6 | 0.692 | < 0.001 |
7 | 0.770 | < 0.001 |
8 | 0.785 | < 0.001 |
9 | 0.756 | < 0.001 |
10 | 0.795 | < 0.001 |
11 | 0.791 | < 0.001 |
12 | 0.777 | < 0.001 |
13 | 0.793 | < 0.001 |
14 | 0.735 | < 0.001 |
15 | 0.717 | < 0.001 |
16 | 0.735 | < 0.001 |
17 | 0.760 | < 0.001 |
18 | 0.791 | < 0.001 |
19 | 0.472 | < 0.001 |
20 | 0.576 | < 0.001 |
21 | 0.507 | < 0.001 |
22 | 0.711 | < 0.001 |
23 | 0.764 | < 0.001 |
24 | 0.755 | < 0.001 |
En la Tabla 6 se aprecia un comportamiento similar en las correlaciones de la dimensión Organización de la UEA, con correlaciones significativas y superiores a 0.8.
Los resultados correspondientes a la dimensión Práctica Docente, presentados en la Tabla 7, nuevamente manifiestan valores de correlación y niveles de significación adecuados para todos los ítems.
Ítem | Correlación | Significación |
---|---|---|
6 | 0.712 | < 0.001 |
7 | 0.798 | < 0.001 |
8 | 0.814 | < 0.001 |
9 | 0.783 | < 0.001 |
10 | 0.823 | < 0.001 |
11 | 0.817 | < 0.001 |
12 | 0.818 | < 0.001 |
13 | 0.825 | < 0.001 |
14 | 0.756 | < 0.001 |
15 | 0.736 | < 0.001 |
16 | 0.787 | < 0.001 |
17 | 0.776 | < 0.001 |
18 | 0.823 | < 0.001 |
Algo similar ocurre en la dimensión Autoevaluación. Todos los ítems revelan valores aceptables como se puede observar en la Tabla 8. Este hecho es interesante, si se toma en consideración que los ítems 19, 20 y 21 habían mostrado correlaciones con el puntaje total inferiores a 0.7.
Finalmente, las correlaciones de los ítems pertenecientes a la dimensión Evaluación Global con el puntaje de esta dimensión, evidencian valores y niveles de significación adecuados, como puede apreciarse en la Tabla 9.
Dado que los reactivos 1 y 25 utilizaron una escala diferente a la escala Likert, su análisis se realizó por separado. En el caso del ítem 1, se empleó el coeficiente de correlación biserial puntual para correlacionar el puntaje nominal (si/no) del reactivo con el puntaje intervalar de la dimensión Evaluación Organización y del puntaje total del cuestionario. Como puede apreciarse en la Tabla 10, aunque en los dos casos las correlaciones fueron inferiores a 0.5, presentaron buenos niveles de significación.
Ítem | Dimensión | Correlación Biserial puntual |
Significación |
---|---|---|---|
1 | Total | 0.322 | < 0.001 |
1 | Organización | 0.415 | < 0.001 |
En el caso del ítem 25, dado que tanto la escala del ítem como de la dimensión global y del puntaje total son intervalares, se utilizó el Producto Momento de Pearson. Como se indica en la Tabla 11, el ítem 25 exhibe correlaciones significativas tanto con el puntaje total del instrumento, como con la dimensión global.
c) Contrastación de grupos alto y bajo (diferencias significativas)
Con el fin de analizar el poder discriminativo de los ítems se compararon los puntajes arrojados por cada ítem, en sujetos con una opinión general muy favorable y sujetos con una opinión muy desfavorable. Para este fin, Se conformaron dos grupos a partir de los puntajes totales en el cuestionario: Un grupo Alto, constituido por los sujetos cuyo puntaje se ubicó dentro del 30% de los puntajes más altos (opinión más favorable) y un grupo Bajo, constituido por los sujetos cuyo puntaje se ubicó dentro del 30% de los puntajes más bajos (opinión más desfavorable).
Una vez conformados estos dos grupos, se procedió a analizar las diferencias, entre los grupos alto y bajo, de los puntajes de cada reactivo. Dado que la escala Likert no es, en rigor, una escala de intervalo sino una escala ordinal, el análisis de comparación de medias se realizó con dos pruebas. La prueba no paramétrica U de Mann Whitney, para escalas ordinales, y la prueba t de Student para escalas de intervalo, que es la que con mayor frecuencia se usa, a pesar de las limitaciones mencionadas.
Los resultados de la comparación de medias para la prueba total, se despliegan en la Tabla 12,. Como puede apreciarse en la tabla, las diferencias de medias en todos los ítems fueron significativas en ambas pruebas y para todos los ítems del cuestionario.
Ítem | N | Media altos |
Media bajos |
t | gl | Sig. | U | Sig. |
---|---|---|---|---|---|---|---|---|
2 | 32,000 | 3.99 | 2.74 | 149.701 | 16438.600 | < 0.001 | 26950744.500 | < 0.001 |
3 | 32,000 | 3.98 | 2.60 | 163.390 | 16688.713 | < 0.001 | 20654961.000 | < 0.001 |
4 | 32,000 | 3.99 | 2.63 | 163.772 | 16283.484 | < 0.001 | 19852928.500 | < 0.001 |
5 | 32,000 | 3.99 | 2.66 | 168.803 | 16396.400 | < 0.001 | 19097933.000 | < 0.001 |
6 | 32,000 | 3.99 | 2.82 | 145.399 | 16191.615 | < 0.001 | 30328592.000 | < 0.001 |
7 | 32,000 | 3.99 | 2.54 | 183.543 | 16208.605 | < 0.001 | 13195123.000 | < 0.001 |
8 | 32,000 | 3.99 | 2.48 | 190.682 | 16217.517 | < 0.001 | 10488684.000 | < 0.001 |
9 | 32,000 | 3.99 | 2.68 | 180.578 | 16243.714 | < 0.001 | 15876984.500 | < 0.001 |
10 | 32,000 | 3.99 | 2.46 | 197.831 | 16230.535 | < 0.001 | 7731970.000 | < 0.001 |
11 | 32,000 | 4.00 | 2.48 | 199.100 | 16145.749 | < 0.001 | 10235796.000 | < 0.001 |
12 | 32,000 | 3.99 | 2.45 | 190.397 | 16469.983 | < 0.001 | 9928796.000 | < 0.001 |
13 | 32,000 | 3.99 | 2.52 | 196.827 | 16230.792 | < 0.001 | 8474044.000 | < 0.001 |
14 | 32,000 | 4.00 | 2.71 | 160.935 | 16084.711 | < 0.001 | 20967076.000 | < 0.001 |
15 | 32,000 | 4.00 | 2.82 | 152.968 | 16051.463 | < 0.001 | 24990812.500 | < 0.001 |
16 | 32,000 | 3.96 | 2.13 | 184.969 | 16795.687 | < 0.001 | 11569794.000 | < 0.001 |
17 | 32,000 | 4.00 | 2.63 | 170.950 | 16098.635 | < 0.001 | 14645895.000 | < 0.001 |
18 | 32,000 | 3.98 | 2.33 | 199.914 | 16531.921 | < 0.001 | 8406047.500 | < 0.001 |
19 | 32,000 | 3.94 | 3.00 | 98.597 | 17449.608 | < 0.001 | 57946352.500 | < 0.001 |
20 | 32,000 | 3.82 | 2.61 | 126.830 | 19845.667 | < 0.001 | 38065053.500 | < 0.001 |
21 | 32,000 | 3.96 | 3.11 | 111.982 | 17420.073 | < 0.001 | 50579002.500 | < 0.001 |
22 | 32,000 | 3.92 | 2.53 | 178.485 | 18520.585 | < 0.001 | 19190028.500 | < 0.001 |
23 | 32,000 | 3.95 | 2.16 | 210.345 | 17343.625 | < 0.001 | 12803099.500 | < 0.001 |
24 | 32,000 | 3.98 | 2.48 | 186.468 | 16628.962 | < 0.001 | 14438104.000 | < 0.001 |
25 | 32,000 | 9.79 | 6.72 | 153.488 | 17443.069 | < 0.001 | 18563636.500 | < 0.001 |
Los resultados de la comparación de medias de los reactivos pertenecientes a la dimensión de Organización de la uea se muestran en la Tabla 13. Nuevamente, puede apreciarse que la diferencia entre los grupos alto y bajo fue significativa tanto en la prueba t de Student como en la prueba U de Mann Whitney, evidenciando un adecuado poder discriminativo de estos reactivos en relación con la dimensión a la que pertenecen.
Ítem | N | Media altos |
Media bajos |
t | gl | Sig. | U | Sig. |
---|---|---|---|---|---|---|---|---|
2 | 32,000 | 4.00 | 2.57 | 174.404 | 15999.000 | < 0.001 | 14000000.000 | < 0.001 |
3 | 32,000 | 4.00 | 2.43 | 190.520 | 15999.000 | < 0.001 | 7984000.000 | < 0.001 |
4 | 32,000 | 4.00 | 2.53 | 179.227 | 15999.000 | < 0.001 | 12192000.000 | < 0.001 |
5 | 32,000 | 4.00 | 2.58 | 185.018 | 15999.000 | < 0.001 | 11960000.000 | < 0.001 |
Algo similar a lo anterior, ocurrió con respecto a los ítems de la dimensión Práctica docente, cuyos resultados se presentan en la Tabla 14. Nuevamente los ítems mostraron un buen poder discriminativo en relación con su dimensión, como lo atestigua el hecho de que todas las pruebas de diferencia de medias realizadas para todos los ítems arrojaron valores significativos.
Ítem | N | Media altos |
Media bajos |
t | gl | Sig | U | Sig |
---|---|---|---|---|---|---|---|---|
6 | 32,000 | 4.00 | 2.82 | 148.757 | 15999.000 | < 0.001 | 28496000.0 | < 0.001 |
7 | 32,000 | 4.00 | 2.53 | 189.067 | 15999.000 | < 0.001 | 10880000.0 | < 0.001 |
8 | 32,000 | 4.00 | 2.47 | 197.167 | 15999.000 | < 0.001 | 7968000.00 | < 0.001 |
9 | 32,000 | 4.00 | 2.66 | 186.823 | 15999.000 | < 0.001 | 13328000.0 | < 0.001 |
10 | 32,000 | 4.00 | 2.43 | 201.894 | 15999.000 | < 0.001 | 5880000.00 | < 0.001 |
11 | 32,000 | 4.00 | 2.47 | 205.214 | 15999.000 | < 0.001 | 8080000.00 | < 0.001 |
12 | 32,000 | 4.00 | 2.41 | 198.529 | 15999.000 | < 0.001 | 6416000.00 | < 0.001 |
13 | 32,000 | 4.00 | 2.49 | 202.656 | 15999.000 | < 0.001 | 6040000.00 | < 0.001 |
14 | 32,000 | 4.00 | 2.69 | 165.036 | 15999.000 | < 0.001 | 18888000.0 | < 0.001 |
15 | 32,000 | 4.00 | 2.80 | 156.721 | 15999.000 | < 0.001 | 23048000.0 | < 0.001 |
16 | 32,000 | 4.00 | 2.09 | 195.976 | 15999.000 | < 0.001 | 7072000.00 | < 0.001 |
17 | 32,000 | 4.00 | 2.63 | 172.667 | 15999.000 | < 0.001 | 13904000.0 | < 0.001 |
18 | 32,000 | 4.00 | 2.31 | 206.230 | 15999.000 | < 0.001 | 6032000.00 | < 0.001 |
La Tabla 15 permite apreciar los resultados de las comparaciones de medias de los reactivos de la dimensión Autoevaluación. Nuevamente las pruebas t de Student como U de Mann Whitney arrojaron diferencias significativas para cada uno de los ítems.
Ítem | N | Media altos |
Media bajos |
t | gl | Sig | U | Sig. |
---|---|---|---|---|---|---|---|---|
19 | 32,000 | 4.00 | 3.68 | 151.746 | 15999.000 | < 0.001 | 20944000.000 | < 0.001 |
20 | 32,000 | 4.00 | 2.43 | 198.307 | 15999.000 | < 0.001 | 3864000.000 | < 0.001 |
21 | 32,000 | 4.00 | 2.88 | 165.070 | 15999.000 | < 0.001 | 21352000.000 | < 0.001 |
22 | 32,000 | 4.00 | 2.49 | 212.389 | 15999.000 | < 0.001 | 6528000.000 | < 0.001 |
Finalmente, el análisis correspondiente a los ítems de la dimensión Evaluación global se ilustra en la Tabla 16. En este análisis, el ítem 25, que está expresado en una escala de intervalo, solamente se analizó con la prueba t de Student. Nuevamente, este análisis nos permite constatar el poder discriminativo de los tres ítems correspondientes a la dimensión de Evaluación global.
Ítem | N | Media altos | Media bajos | t | gl | Sig. | U | Sig. |
---|---|---|---|---|---|---|---|---|
23 | 32,000 | 4.00 | 2.01 | 256.296 | 15999.000 | < 0.001 | 3280000.000 | < 0.001 |
24 | 32,000 | 4.00 | 2.37 | 203.658 | 15999.000 | < 0.001 | 7576000.000 | < 0.001 |
25 | 32,000 | 10.00 | 6.46 | 193.296 | 15999.000 | < 0.001 |
d) Análisis Factorial Exploratorio
Se realizó un Análisis Factorial Exploratorio con el fin de reducir las dimensiones e identificar si las dimensiones se agrupan y conforman factores.
En primera instancia, se calculó la prueba de kmo y Bartlett, y se obtuvo el siguiente resultado:
Tenemos que el valor es de .971, lo cual habla de una alta correlación entre reactivos, y esto permitirá identificar los factores que se forman.
En la Tabla 18, que aparece a continuación, se presentan los resultados del análisis factorial exploratorio; se optó por los buscar la agrupación de los cuatro factores que se indican en la página 7 de este artículo.
Media Kaiser-Meyer Olkin de adecuación de muestreo | .971 | |
Prueba de esfericidad de Bartlett | Aprox. Chi-cuadrado | 912769.532 |
gl | 210 | |
Sig. | .000 |
Autovalores iniciales | Sumas de cargas al cuadrado de la extracción |
Sumas al cuadrado de la rotación |
|||||
---|---|---|---|---|---|---|---|
Componente | total | % de varianza |
% acumulado |
Total | % de varianza |
% acumulado |
Total |
1 | 12.193 | 58.063 | 58.063 | 12.193 | 58.063 | 58.063 | 11.453 |
2 | 1.352 | 6.437 | 64.500 | 1.352 | 6.437 | 64.500 | 6.175 |
3 | .963 | 4.585 | 69.085 | .963 | 4.585 | 69.085 | 8.297 |
De estos cuatro componentes se tiene el 69.085% de la varianza total explicada, como aparece en la Tabla 18, a continuación.
Este total de 69.085% acumulado supera lo que algunos autores han indicado como óptimo, que debería ser mayor a 50% en las ciencias sociales (Hair et al, 1998).
Por otro lado, tenemos los factores que pueden hacerse en la Tabla 19. En ella se observa que cada uno de los tres grupos que se generan como factores superan correlaciones de .460, lo cual es alto de acuerdo con la literatura especializada. El valor más alto que se encuentra es de 0.870, que refleja un acuerdo importante de los participantes por ubicar en este factor a este reactivo.
Pregunta 2 | 0.868 | ||
Pregunta 3 | 0.759 | ||
Pregunta 4 | 0.570 | ||
Pregunta 5 | 0.734 | ||
Pregunta 6 | 0.649 | ||
Pregunta 7 | 0.808 | ||
Pregunta 8 | 0.828 | ||
Pregunta 9 | 0.733 | ||
Pregunta 10 | 0.746 | ||
Pregunta 11 | 0.827 | ||
Pregunta 12 | 0.855 | ||
Pregunta 13 | 0.838 | ||
Pregunta 14 | 0.699 | ||
Pregunta 15 | 0.637 | ||
Pregunta 16 | 0.749 | ||
Pregunta 17 | 0.470 | ||
Pregunta 18 | 0.756 | ||
Pregunta 19 | 0.870 | ||
Pregunta 20 | 0.799 | ||
Pregunta 21 | 0.779 | ||
Pregunta 22 | 0.480 |
En esta tabla no se incluyen los reactivos que forman parte del factor de la autoevaluación global, ya que solamente cuenta con dos reactivos Likert, y en esa medida no cumple con criterios cuantitativos de número de reactivos.
El instrumento final queda conformado por 21 reactivos, prácticamente todos los que contienen escala Likert, y se muestran en la Tabla 2. La prueba de esfericidad de Bartlett fue significativa (912769, gl=210, sig > .001), y el indicador de adecuación del tamaño de la muestra Kaiser-Meyer-Olkin fue adecuado (0.971). La varianza explicada total ascendió a 69.085%.
e) Análisis Factorial Confirmatorio
La Figura 1 muestra la información y el gráfico resultante del Análisis Factorial Confirmatorio, que se calculó con ayuda del software para ecuaciones estructurales EQS. Este análisis permitió confirmar los factores que el Análisis Factorial Exploratorio propuso. Los mismos reactivos que en este análisis agrupan factores también lo hacen en el confirmatorio, con lo cual se valida el instrumento que se aplicó con el fin de evaluar a los profesores del trimestre 2020-O (Trimestre de Otoño del 2020) de la UAM.
En la Figura 1 se muestra, en la parte superior, que aun cuando la X2 es significativa, y no debería serlo, pues el modelo puesto a prueba no debería ser significativamente diferente del modelo de la realidad, es un hecho que cuando la muestra es amplia (que es el caso) los valores identificados pueden ser significativamente diferentes en este parámetro. Descartado esto, los valores que nos parecen importantes son: el CFI, que debe ser mayor o igual a 0.95, y el RMSEA, que debe ser menor o igual que 0.08 (Byrne, 2008). En este caso contamos con un valor de CFI de 0.95 y de RMSEA de 0.07, por lo que el modelo de tres factores se valida.
Discusión y conclusiones
El campo de la evaluación docente es un tema en permanente cambio y alrededor del cual se han desarrollado un conjunto de conceptos, métodos y alcances muy diversos. Si bien es cierto que desde sus inicios la evaluación docente ha sido considerada como un indicador (o conjunto de indicadores) al servicio de la medición de la calidad de la docencia y, en este contexto, muy vinculada a procesos laborales y de estímulos salariales, cada vez es mayor la insistencia en utilizar sus resultados con fines de retroalimentación y mejora, así como un ingrediente fundamental en la formación y desarrollo profesional docente. En cualquier caso, cada día es mayor el uso y desarrollo de diferentes herramientas evaluativas en las instituciones educativas y, en particular, de las instituciones de educación superior.
La evaluación docente, como todo proceso evaluativo, está estrechamente vinculada a la toma de decisiones. En consecuencia, la calidad de las decisiones está influida, al menos en parte, por la calidad de los instrumentos utilizados en su evaluación. Desafortunadamente, la tarea de valorar el desempeño docente no siempre recae en un equipo de especialistas en educación y/o en evaluación, como lo atestigua Rueda (2008). Por ello, aparentemente son pocas las instituciones educativas que se dan a la tarea de realizar procesos de análisis de validez y confiabilidad, que den razón de la calidad de sus instrumentos evaluativos. La Universidad Autónoma Metropolitana, consciente de esta carencia ha aprovechado la coyuntura de la actualización de su instrumento de evaluación docente para realizar esta tarea, la cual constituyó el propósito de esta investigación, la cual se abocó al análisis tanto de la validez como de la confiabilidad del cuestionario.
En el proceso de diseño del instrumento participó un equipo constituido por directivos, académicos y estudiantes de la Universidad con el objeto de contar con el punto de vista de los diferentes actores que participan en el proceso educativo. Esto garantizó que desde el proceso mismo de construcción del cuestionario se asegurara que el contenido evaluado correspondiera con las intenciones del mismo, en otras palabras, su validez del contenido.
Los resultados del análisis psicométrico realizado a partir de la aplicación del cuestionario muestran una consistencia interna adecuada, con un coeficiente Alfa de Chronbach de 0.96 para la prueba total y coeficientes Alfa parciales superiores a 0,8 en todas las dimensiones, lo cual pone de manifiesto que los constructos evaluados son consistentes con los ítems utilizados para evaluarlos. Por otra parte, el análisis de ítems, realizado mediante los métodos de distribución de frecuencias, correlaciones ítem-prueba total e ítem-dimensión y diferencias de medias entre grupos de puntajes en los dos extremos de la distribución muestra relaciones y diferencias estadísticamente significativas. De esta manera, no parece ser necesario remover o modificar ninguno de los ítems del cuestionario.
Por último, se emplearon dos pruebas multivariadas para realizar la validación de constructo del cuestionario, la cual se refiere al grado de confianza que podemos tener en la estructura del cuestionario. Este instrumento se diseñó para evaluar cuatro dimensiones (o rasgos latentes): Organización de la UEA, Práctica docente, autoevaluación y evaluación global. De esta manera, se esperaba que el comportamiento de los puntajes arrojados por los ítems fuera consistente con dicha estructura. La primera prueba consistió en un análisis factorial exploratorio, el cual arrojó tres factores con un 69.8% de varianza explicada, en el que 21 de los 25 ítems del cuestionario mostraron una distribución de las cargas factoriales acorde con la distribución de los ítems en tres de las cuatro dimensiones del cuestionario original. La cuarta dimensión no pudo ser analizada debido al número reducido de ítems. Las pruebas de esfericidad de Bartlett y el indicador de adecuación de muestreo de Kaiser-Meyer-Olkin mostraron también valores adecuados. La segunda prueba consistió en un análisis factorial confirmatorio, mediante análisis de ecuaciones estructurales realizado con el software EQS. Los resultados confirmaron la estructura de tres dimensiones exhibida en el análisis factorial exploratorio, con índices de bondad de ajuste CFI de 0.95 y RMSEA de 0.07, los cuales confirman que el modelo arrojado por los datos ajusta con el modelo teórico que sirvió de base para el diseño del instrumento. Dado el tamaño amplio de la muestra, los resultados de la prueba X2 cuadrada deben ser tomados con precaución pues pueden generar diferencias significativas erróneas, razón por la cual se recomienda eliminarlos del análisis.