Evidencias de prácticas de evaluación de un grupo de profesores de primarias de Nuevo León

Mercado Salas, Adriana; Martínez Rizo, Felipe

Servicios Personalizados

Revista

Articulo

Indicadores

Citado por SciELO
Accesos

Links relacionados

Similares en SciELO

Otros
Otros

Permalink

Revista mexicana de investigación educativa

versión impresa ISSN 1405-6666

RMIE vol.19 no.61 Ciudad de México abr./jun. 2014

Investigación

Evidencias de prácticas de evaluación de un grupo de profesores de primarias de Nuevo León

Evidence of the Evaluation Practices of a Group of Elementary School Teachers in Nuevo León

Adriana Mercado Salas* y Felipe Martínez Rizo**

* Investigadora asociada, Departamento de Educación de la Universidad Autónoma de Aguascalientes. Av. Universidad 940, Ciudad Universitaria, 20131, Aguascalientes, Ags., México. CE: amercado@correo.uaa.mx.

** Investigador, Departamento de Educación de la Universidad Autónoma de Aguascalientes. Av. Universidad 940, Ciudad Universitaria, 20131, Aguascalientes, Ags., México. CE: frnartin@correo.uaa.rnx.

Artículo recibido: 12 de junio de 2013
Dictaminado: 16 de octubre de 2013
Segunda versión: 2 de diciembre de 2013
Aceptado: 2 de diciembre de 2013

Resumen

Este artículo muestra los resultados del análisis de un conjunto de tareas asignadas y exámenes aplicados por una muestra no representativa de profesores de 2°, 5° y 6° grados de primarias del estado de Nuevo León. El trabajo partió de la revisión de investigaciones sobre las prácticas de evaluación de docentes a partir de la cual se elaboró un marco analítico con aspectos fundamentales de la evaluación formativa, como los referentes curriculares considerados, las instrucciones, la retroalimentación, los niveles de demanda cognitiva perseguidos y la forma de evaluación. El trabajo condujo a conclusiones tanto sustantivas como metodológicas. Se encontró que la práctica en el aula reflejada en las evidencias dista mucho de tener un enfoque formativo. Cabe señalar que la investigación se vio limitada al no tener información adicional sobre las tareas y exámenes recabados.

Palabras clave: evaluación educativa, evaluación del aprendizaje, evaluación formativa, métodos de evaluación, educación básica, México.

Abstract

This article shows the results of analyzing a set of tasks assigned and examinations given by an unrepresentative sample of second-, fifth- and sixth-grade teachers in the state of Nuevo León. The project started with a review of research on teachers' evaluation practices, followed by the preparation of an analytical framework with fundamental aspects of formative evaluation, such as the curriculum referents considered, instructions, feedback, levels of cognitive demand, and the form of evaluation. The study led to substantive as well as methodological conclusions. The classroom practices reflected in the evidence were found to lack a formative focus. It should be pointed out that the research was limited by the absence of additional information about the compiled tasks and examinations.

Keywords: educational evaluation, evaluation of learning, formative evaluation, evaluation methods, elementary education, Mexico.

Introducción

La importancia de la evaluación del aprendizaje de los alumnos ha llevado a desarrollar instrumentos que reflejen la situación en que se encuentra cada uno. Los más conocidos son las pruebas en gran escala —estandarizadas— cuyas consecuencias han sido, entre otras, el uso de los resultados para jerarquizar con fundamento poco sólido tanto a escuelas como a estudiantes y recompensar o castigar a los docentes. La conciencia de los límites de la información obtenida con las pruebas en gran escala para caracterizar las prácticas de los profesores ha hecho que se preste más atención a la evaluación realizada en aula por cada maestro, sea con exámenes parecidos a las pruebas de gran escala o mediante ejercicios, tareas, observaciones, trabajos grupales y otras actividades. Las evaluaciones a cargo del maestro son más frecuentes y tienen más impacto sobre el aprendizaje que las pruebas en gran escala, por lo que deberían recibir una atención al menos similar a la que se presta a estas últimas.

Este trabajo se deriva del estudio del diagnóstico de prácticas de evaluación de maestros que se hizo con una muestra representativa de primarias públicas del estado de Nuevo León (Ruiz Cuéllar, en prensa), en donde se aplicó un cuestionario estructurado a los docentes y se realizó una entrevista semiestructurada a un maestro por plantel; asimismo, se aplicó un cuestionario estructurado a los alumnos de sexto grado. Otro insumo obtenido en esta investigación fue un conjunto de fotografías de exámenes aplicados y tareas asignadas por una submuestra no representativa de maestros del estado de Nuevo León, sólo uno de cada tres profesores encuestados por escuela entregaba las evidencias fotográficas de manera libre.

Del análisis de las imágenes recabadas se esperaba captar aspectos de las prácticas de evaluación que ni los cuestionarios ni las entrevistas permitían detectar, y cuyos resultados mostramos en este texto.

Investigación sobre las prácticas de evaluación

Los estudios empíricos enfocados a explorar las prácticas de evaluación de los profesores son escasos, tal vez porque la complejidad de la docencia hace que en muchos casos no se incluyan entre los aspectos explorados. Esto llevó a realizar una revisión de literatura con resultados de trabajos empíricos sobre las prácticas de evaluación en aula de los maestros, los hallazgos fueron:

• Un libro de Stiggins y Conklin (1992) que recoge trabajos realizados en el sistema educativo de Estados Unidos entre 1980 y 1990.

• Tres textos derivados de un estudio de 2008 sobre las prácticas de evaluación en las primarias de ocho países de América Latina (Loureiro, 2009; Picaroni, 2009; Ravela, Picaroni y Loureiro 2009).

• Tres textos de investigaciones en México: Vidales y Elizondo (2005); García Medina et al. (2011); y Ruiz Cuéllar y Pérez Martínez (en prensa).

La obra In Teachers' Hands, de Stiggins y Conklin (1992), describe cómo evolucionaron los acercamientos metodológicos usados para analizar las prácticas de evaluación y los resultados obtenidos. El trabajo partió de una revisión de la literatura para dar paso a estudios empíricos que incluyeron una encuesta acompañada por un diario, observación participante, construcción de un marco analítico sobre el constructo, elaboración de perfiles detallados de prácticas de evaluación, análisis de evaluaciones aplicadas en el aula acompañadas de entrevistas con el objetivo de estudiar más a profundidad el nivel cognitivo de las habilidades fomentadas por los profesores y, finalmente, las prácticas de calificación de algunos maestros.

Por su parte, el proyecto latinoamericano fue realizado en ocho países e incluyó 80 escuelas y 160 maestros de sexto grado de primaria, a quienes se les aplicó un cuestionario y una entrevista. Además de lo anterior se tomaron registros fotográficos de propuestas de evaluación y se hizo un análisis de los currículos nacionales de los países participantes (Loureiro, 2009; Picaroni, 2009; Ravela, Picaroni y Loureiro 2009).

El trabajo de Vidales y Elizondo (2005) muestra los resultados de un proyecto elaborado en el estado de Nuevo León sobre prácticas de evaluación de docentes de primaria. En primer lugar se hizo un análisis documental seguido por entrevistas semiestructuradas con diferentes informantes (jefes de sector, directores, supervisores, etc.) y luego se trabajó con una muestra de docentes de primarias públicas.

Otro estudio mexicano fue el realizado entre 2009 y 2010 por el Instituto Nacional para la Evaluación de la Educación (García Medina et al., 2011) en donde se diseñaron y aplicaron cuestionarios sobre prácticas de evaluación a una muestra nacional de profesores, sus alumnos y los directores de los mismos planteles.

El último estudio revisado, del que se deriva el presente artículo, es el diagnóstico de prácticas de evaluación de maestros realizado con una muestra representativa de primarias públicas del estado de Nuevo León (Ruiz Cuéllar, en prensa). Como mencionamos, se aplicó un cuestionario estructurado a maestros y otro a alumnos de sexto grado y se realizó una entrevista semiestructurada a un profesor por plantel.

La revisión de los trabajos previos muestra que, por lo general, los maestros dicen estar de acuerdo con la evaluación formativa, pero varios elementos hacen temer que su práctica no sea congruente con sus concepciones y creencias. Por un lado, predomina una visión positiva sobre las competencias que se tienen para realizar evaluación formativa, pero la mayoría coincide en que es necesaria una capacitación o apoyo para desarrollar más esta competencia. Otro elemento que da cuenta de esta preocupación es que los maestros siguen dando gran importancia a la asignación de calificaciones a todos o casi todos los instrumentos (tareas y exámenes) de evaluación.

Otro hallazgo importante es que parecería haber una buena alineación entre enseñanza y evaluación, pero hay también bases para plantear una hipótesis en cuanto a la predominancia de propósitos educativos de baja demanda cognitiva como posible explicación. Un indicio es la masiva opinión de los alumnos de que los exámenes que responden son fáciles, lo que puede indicar que las preguntas tienen bajo nivel de demanda cognitiva.

La alineación entre enseñanza y evaluación puede ser real, con tareas de baja demanda cognitiva en una y otra. De ser así, muchos hallazgos cobrarían sentido y se confirmaría que cambiar las prácticas de evaluación supondrá esfuerzos prolongados y consistentes.

Para contribuir a ampliar la información acerca de las prácticas de evaluación de los profesores, enseguida se presentan los resultados del análisis de un conjunto de evidencias (tareas y exámenes), con una explicación de la metodología utilizada y una síntesis de los hallazgos del análisis.

Metodología

El corpus de imágenes

Las imágenes recopiladas fueron mil 229, número que se redujo posteriormente a 850 imágenes analizables: 240 evidencias de español (inicialmente 317) y 213 de matemáticas (inicialmente 248). El 67% de las evidencias incluía una sola imagen; 24.1% tenía de 2 a 4 y 8.3% contaba con 5 o más. La depuración de las imágenes pasó por varias etapas, algunas se descartaron porque no correspondían a tareas o exámenes o a las asignaturas de español o matemáticas, y otras por su baja calidad, demasiado borrosas para ser editadas. La última depuración se dio durante el análisis, al detectar evidencias que no contenían información para etiquetarlas como tareas o exámenes. Las imágenes analizadas fueron finalmente 850: 366 de matemáticas (213 evidencias de 74 escuelas) y 484 de español (240 evidencias de 73 escuelas).

El marco analítico

Para revisar las imágenes se preparó un marco de análisis que precisara las dimensiones de las prácticas evaluativas que idealmente se tratarían de detectar a partir tanto de la investigación sobre evaluación en aula en general y la formativa en particular como de la revisión de literatura adicional hecha para este proyecto y cuyos resultados se han reportado en el apartado anterior. Específicamente se consideraron el marco analítico desarrollado por Stiggins y Conklin (1992) y el utilizado en un estudio de validación de un instrumento complejo para medir las prácticas de evaluación en aula en el área de ciencias (Martínez et al., 2012). El primer marco comprende ocho dimensiones:

1) Propósitos de la evaluación

2) Métodos de evaluación: contenidos a evaluar y formas de hacerlo

3) Criterios para seleccionar el método de evaluación

4) Calidad de las evaluaciones

5) Retroalimentación

6) El maestro como evaluador

7) Percepción del estudiante acerca del maestro

8) Políticas de evaluación (Stiggins y Conklin, 1992:80).

El marco para validar el instrumento referido en el área de ciencias comprende nueve dimensiones que buscan captar el constructo práctica de evaluación:

1) Establecimiento de metas de aprendizaje claras

2) Frecuencia de las evaluaciones

3) Variedad de las evaluaciones

4) Alineación de las evaluaciones con las metas de aprendizaje

5) Complejidad cognitiva

6) Manejo de explicaciones y justificaciones científicas

7) Participación de los alumnos en actividades de auto-evaluación

8) Uso de la información para dar retroalimentación a los alumnos

9) Uso de la información para sustentar decisiones de instrucción (Martínez et al., 2012:109).

A partir de lo anterior se elaboró una ficha para analizar las evidencias de evaluación que dieron los profesores de Nuevo León, con los siguientes aspectos:

1) Identificación de la evidencia:

a) Número de la escuela en que se produjo

b) Número de imágenes que corresponden a la evidencia

c) Grado escolar al que corresponde

d) Género del alumno que respondió el examen o hizo la tarea

e) Nivel de rendimiento del alumno, según su maestro

f) Medio en que se ubica la escuela (urbano o rural)

g) Asignatura: español o matemáticas

h) Tipo de evidencia: examen o tarea

i) Origen de la evidencia: elaborada por el maestro, comprada...

j) Bloque del currículo al que corresponde

2) Referentes curriculares

a) Presencia del referente curricular

b) Referente enfatizado en español o matemáticas

c) Meta de aprendizaje del referente curricular

d) Meta de aprendizaje prevaleciente en la evidencia (inferida)

e) Tipo de preguntas usadas (prevaleciente): de respuesta estructurada, de respuesta abierta corta, de respuesta extendida

f) Método de evaluación prevaleciente

g) Coherencia entre meta del referente curricular y método prevaleciente

h) Coherencia entre meta inferida y método prevaleciente

3) Propósito de la evaluación

a) Propósito de uso de las evaluaciones de diagnóstico

b) Propósito de uso de evaluaciones bimestrales y tareas

c) Propósito de uso afectivo

4) Instrucciones/Consigna

a) Claridad de la instrucción

b) Finalidad o propósitos

c) Destinatarios

d) Incertidumbre

e) Restricciones

f) Repertorio de metas

g) Proceso de trabajo

5) Calificación

a) Existencia de la calificación

b) Claridad de los criterios de calificación

c) Ponderación de los criterios de calificación

6) Retroalimentación

a) Existencia de la retroalimentación

b) Tipo de retroalimentación general

c) Calidad de la retroalimentación

d) Tipo de retroalimentación específica: valorativa, descriptiva u orientadora, devolutiva

e) Retroalimentación usada para la modificación de la práctica docente

El análisis

Para cada aspecto se especificaron los valores que podrían estar presentes en las evidencias; la ficha incluyó códigos para facilitar la captura de los resultados.

Varias de las dimensiones anteriores se refieren a aspectos de las prácticas que no se pueden detectar mediante la sola revisión de las evidencias, y para hacer una mayor caracterización se necesitaría información adicional, como la relativa al propósito que perseguía el maestro con cierta evaluación o a forma de calificar. Por ello, para el análisis se elaboró una versión reducida de la ficha, con los aspectos que se podrían detectar con base en las evidencias. Los que se eliminaron fueron los que se destacan en cursivas en el listado anterior. De otras dimensiones, el análisis de las evidencias puede dar sólo información muy limitada, en particular todos los incisos del apartado 4 sobre instrucciones y consigna y los tres que no están en letra cursiva del numeral 6, sobre retroalimentación.

El trabajo fue hecho por cuatro analistas, previamente capacitados. Las evidencias a analizar se distribuyeron como se muestra en el cuadro 1.

El análisis se llevó a cabo por dos parejas: una se ocupó de español y la otra de matemáticas. El conjunto de evidencias se distribuyó entre los integrantes de cada pareja, de tal manera que para español, 81 de las evidencias (de las que finalmente se pudieron correlacionar 67) fueron revisadas por dos personas; lo mismo ocurrió para matemáticas con 82 de las evidencias (de las que finalmente se recuperaron 72 para el análisis de consistencia). El resto de exámenes y tareas de ambas asignaturas únicamente fueron analizados por uno de los calificadores.

Lo anterior se hizo para verificar la consistencia de la calificación de cada analista según los diferentes aspectos considerados en el marco analítico. Para ello se calcularon los coeficientes de correlación entre calificadores.

El cuadro 2 muestra los resultados de un análisis elemental de consistencia entre calificadores. Las cifras resaltadas en negritas se refieren a los aspectos en los que hubo mayor consistencia, con cifras que rondan 0.7, en tanto que las resaltadas en cursivas son las más bajas, con cifras de menos de 0.1 a 0.3.

En general, la consistencia entre los calificadores de las evidencias de español fue más alta que entre los de matemáticas. Lo anterior puede deberse a una menor claridad sobre los estándares usados en matemáticas, así como a que las evidencias en español, en general, muestran mayor información sobre la instrucción y la complejidad de las tareas.

Los aspectos que mostraron menor consistencia fueron los relacionados con la coherencia entre la meta y el método de evaluación inferido por los calificadores, el proceso de trabajo de las tareas y la existencia de la calificación, lo cual se debió, según los analistas a no tener más información acerca de las evidencias en estos aspectos.

Para rediseñar la ficha usada para el análisis de evidencias convendrá tomar como ejemplos las que ya se han utilizado para identificar palabras clave o elementos de los estándares de matemáticas que sean mejores indicadores de las dimensiones que se quiere estudiar.

Resultados

Los profesores que facilitaron las evidencias trabajaban mayoritariamente en escuelas urbanas (80.3%) y el resto en el medio rural. El 52.5% de las evidencias corresponde a español y 47.5% a matemáticas. Poco más de la mitad (51.2%) son tareas que los maestros asignan a los alumnos y 48.8% exámenes aplicados por los profesores. Del total, 173 corresponden a segundo grado, 113 a quinto y 167 a sexto de primaria. La proporción de trabajos de niños y niñas es cercana a la mitad, al igual que los alumnos que, a juicio de los profesores, tenían un nivel de rendimiento sobresaliente en el grupo.

La información obtenida con el análisis de las evidencias se muestra en tres apartados: sobre aspectos formativos de la práctica docente (el referente curricular, la instrucción, la calificación y la retroalimentación), sobre la autenticidad de las tareas, y sobre las metas de aprendizaje y los métodos de evaluación.

Aspectos formativos de la práctica docente

Este subapartado muestra los resultados del análisis de algunos aspectos del ejercicio docente relacionados con las prácticas formativas de evaluación. El análisis trató de recabar información de dicho proceso en las aulas, esto es, desde la elección de qué evaluar (referente curricular), cómo hacerlo (la instrucción dada y el tipo de preguntas usadas) y cómo comunicar los resultados a los alumnos (calificación y retroalimentación).

En el cuadro 3 se aprecia que ninguna evidencia de matemáticas tenía explícito el referente a evaluar. Algo similar se observó en español: muy pocas presentan el referente curricular, aunque un examen lo tenía, pero planteado confusamente. Algo mejor es la situación de las tareas: en 13 casos (11.4%) se encontró un referente, en 11 éste es confuso y en 2 explícito y claro. Lo anterior muestra que la mayoría de las evidencias (96.9%) no contienen los insumos para informar al alumno qué es lo que se pretende evaluar con las tareas y los exámenes aplicados y asignados en el salón de clase.

En lo que se refiere a cómo evaluaron los profesores de la muestra, se encontró que hay pocas evidencias con instrucciones comprensibles y específicas (cuadro 4); con mayor frecuencia se encontró que son comprensibles no específicas, mientras que en una proporción considerable éstas no existen o son incomprensibles. Esta situación es más marcada en las tareas, aunque no habría que perder de vista que el profesor puede dar instrucciones verbales o escribirlas en el pizarrón y por ello no aparecen en las evidencias. Por otro lado el maestro no necesita dar instrucciones para exámenes comprados pues éstos las incluyen.

Por otro lado, es evidente que la presencia de preguntas que requieran una respuesta extendida es muy reducida, en comparación con las que implican escoger entre opciones previamente estructuradas —mayoritarias en los exámenes— y las que suponen una respuesta corta, que prevalecen en las tareas (cuadro 5).

Los cuadros 6, 7 y 8 precisan el tipo de respuesta que suponen las preguntas de cada uno de los tipos anteriores. Por lo que se refiere a las estructuradas, el cuadro 6 muestra que en los exámenes predominan abrumadoramente las de opción múltiple, mientras que en las tareas la mayoría requieren respuestas de completar, aunque también es importante la proporción de aquellas donde se deben relacionar columnas y de opción múltiple.

En cuanto a las preguntas que implican respuestas abiertas cortas, el cuadro 7 evidencia que en matemáticas casi todas admiten una sola respuesta correcta, tanto en exámenes como en tareas; mientras que en las tareas de español algo más de la mitad de las preguntas admiten más de una respuesta, e incluso en los exámenes esta situación está presente en más de una tercera parte de los casos.

En cuanto a preguntas que requieren una respuesta extendida, en el cuadro 8 puede apreciarse que prácticamente siempre están ausentes los criterios de evaluación y que, incluso, se encuentra algún caso en el que en realidad lo que se requiere es una respuesta corta.

En cuanto a la comunicación de los resultados se encontró que una de las formas que típicamente se usa en las aulas es la calificación; sin embargo, el análisis de exámenes y tareas mostró que ésta no se encuentra en más de la mitad de los casos (55.4%), destacando el de las tareas de español (70%). De nuevo es posible que el profesor califique exámenes y/o tareas sin plasmar la calificación en las evidencias recopiladas, aunque parece menos probable que con las instrucciones. La misma observación se aplica a los criterios de calificación, ausentes en casi todos los casos (99.1%), lo que era esperable y muestra una limitación de la estrategia de obtención de información.

Con respecto a la retroalimentación que se ofrece a los alumnos, el cuadro 9 indica que no se encuentra en las evidencias revisadas en una proporción que va de 18 (en tareas de matemáticas) a 25% (en español) pero, nuevamente, es posible que los docentes retroalimenten sin que esto se plasme en evidencias textuales como las recogidas.

A pesar de que el porcentaje de evidencias sin retroalimentación es bajo (1 de cada 4), la que se encontró en su mayoría es de tipo valorativo en 98.6% (cuadro 10). Se observa una gran tendencia a señalar aciertos y errores, marcar con algún sello, dar una calificación sin significado y apuntar en las tareas frases de aliento o desaliento a los alumnos (bien hecho, sigue así, esfuérzate más, etc.) (cuadro 11). Del total de las evidencias únicamente se encontraron 5 con retroalimentación descriptiva, en donde se explicaba al alumno el porqué de los aciertos o errores y el progreso que habían logrado.

Autenticidad de las tareas y demanda cognitiva de las evaluaciones

El análisis de las evidencias disponibles comprendió un elemento más que amplía el anterior, aunque únicamente en relación con las tareas, tanto de español como de matemáticas. Si bien éstas se prestan, más que los exámenes, para pedir la realización de actividades de mayor complejidad, que supongan más tiempo y comprendan varios aspectos, esto no parece ser frecuente de acuerdo con el análisis, según se podrá ver más adelante. El currículo de la primaria mexicana considera este tipo de tareas complejas con el concepto de proyectos en el campo formativo de lengua y comunicación. Un concepto que apunta en la misma dirección es el de tareas auténticas.

Una tarea auténtica se asemeja a un problema real, en contraposición con una artificial, que sólo puede darse en un contexto escolar. De acuerdo con la conceptualización de Wiggins, los rasgos que distinguen las tareas auténticas incluyen un propósito claro, se ubican en un contexto real, con destinatarios más allá del maestro, presentan elementos de incertidumbre, tienen restricciones y más de una solución aceptable, implican un proceso de trabajo largo (con momentos de retroalimentación a productos parciales), y para su solución es necesario poner en juego habilidades de diversa complejidad, ya que incluyen un repertorio variado de metas de aprendizaje, también de diferente nivel (Wiggins, 1998:23-24).

El cuadro 12 presenta los resultados del análisis relativo a la presencia de rasgos de autenticidad en las tareas de español y matemáticas revisadas.

Salta a la vista que las tareas analizadas tienen muy pocos rasgos de autenticidad. En la mayoría de los casos el propósito no es explícito, y en casi todos los restantes simplemente se menciona, solamente se describe en 4 casos, 2 en cada asignatura analizada. El contexto casi nunca es real: es escolar una gran proporción en matemáticas, mientras en español lo es en dos terceras partes de los casos y semi-escolar en la restante. Las tareas presentan poca incertidumbre y, en mayor medida, únicamente admiten una solución. Coincidiendo con lo ya observado anteriormente, implican sobre todo mecanización en el caso de matemáticas, y mecanización o conocimiento en español. Metas de nivel alto son escasas en español y prácticamente inexistentes en matemáticas.

A partir de los cuadros anteriores es posible inferir, con fundamento razonable, que la mayoría de las preguntas de las evidencias revisadas, especialmente las de los exámenes, difícilmente podrán referirse a metas de aprendizaje que impliquen una demanda cognitiva alta, ya que se prestan más para evaluar habilidades de baja complejidad, como memorización y mecanización.

También parece razonable la presencia un poco menos marcada de preguntas de respuesta estructurada en las tareas para que los alumnos hagan en casa o en el aula misma, en particular aquellas de opción múltiple, falso/ verdadero, relacionar columnas y completar; especialmente si se considera la alta dificultad de diseñar tareas que incluyan preguntas cerradas de ese tipo.

El cuadro 13 aporta información que complementa lo anterior (tomando en cuenta tanto tareas como exámenes), al presentar la cantidad de evidencias cuya realización supone un proceso relativamente breve y, presumiblemente, simple, puesto que deben hacerse en una sola ocasión con un tiempo limitado. La presencia de evidencias que supongan un proceso más prolongado, con diversos momentos, es completamente marginal, incluso sin el requerimiento adicional de entregas parciales. En forma esperable, la situación es un poco menos marcada en español y en las tareas.

Llegamos así al punto más importante del análisis: la complejidad de la meta de aprendizaje a la que se refieren las evidencias, en términos de la demanda cognitiva que implica responder las preguntas correspondientes. Debe reiterarse que se trata de la complejidad de la meta de aprendizaje inferida a partir de la revisión de las evidencias, y no de la que pudo tener en mente el docente al diseñar o seleccionar la actividad de evaluación de que se trate. El cuadro 14 presenta las conclusiones del análisis de las evidencias revisadas en este sentido.

En una gran parte las evidencias tienen un nivel de complejidad bajo: las tareas y los exámenes a los alumnos demandan el ejercicio de actividades simples o repetitivas que, en el esquema utilizado, corresponden a las categorías "mecanización" y "conocimiento". Lo anterior se presenta tanto en español como en matemáticas. Sólo se pide a los alumnos acciones como nombrar, enlistar, elegir y seleccionar. En matemáticas la proporción de evidencias que plantean únicamente actividades de mecanización ronda los dos tercios, tanto en exámenes como en tareas; la parte restante consiste en actividades algo más complejas, de conocimiento. El caso de las tareas de español es el único en que cerca de 50% de las evidencias piden el nivel de conocimiento, donde se espera que los alumnos describan o expliquen algún tema.

De las 453 evidencias solamente se hallaron 18 (17 de español y 1 de matemáticas) donde los niveles de complejidad demandados llegaron a ser de razonamiento; 2 tareas más, una de cada asignatura, requerían habilidades de desempeño y 6 tareas de español, habilidades para crear productos. En síntesis, sólo 4% de las tareas y exámenes revisados piden a los alumnos realizar actividades en donde lleven a cabo análisis, síntesis, deducción o justificación.

Por lo que se refiere a exámenes, en el cuadro 15 se puede apreciar que, para el segundo grado, todas las preguntas para ambas asignaturas sólo implicaban mecanización o conocimiento. En quinto, la proporción siguió siendo de 100% en matemáticas y en español bajó a 93%; mientras en sexto fue de 97 y 96%, respectivamente; es decir, en los tres grados prácticamente la totalidad de los exámenes analizados correspondían a estos niveles. En cuanto a las tareas, en matemáticas la proporción de preguntas de baja demanda cognitiva fue de 100% tanto en segundo como en quinto grados y de 97% para sexto. Una situación mejor aparece en el caso de las tareas de español, campo formativo en el que en segundo grado las preguntas de baja demanda cognitiva representaron 97%, proporción que bajó a 80% en quinto y a 69% en sexto.

Si bien mecanización y conocimiento son actividades necesarias como base para el desarrollo de otras más complejas —y es normal que su presencia sea mayoritaria en los primeros grados del trayecto escolar— la permanencia casi exclusiva de preguntas que no pasan de esos niveles en los últimos grados de la primaria, en especial en matemáticas, parece preocupante.

Metas de aprendizaje y métodos de evaluación. Congruencia entre enseñanza y evaluación

Tras todo lo anterior es posible un último análisis de las evidencias disponibles, que se refiere directamente a la hipótesis a la que se llegó al final del diagnóstico de las prácticas de evaluación de maestros de primaria de Nuevo León. En tal sentido, parecería haber congruencia entre las prácticas de evaluación y las de enseñanza de los docentes, pero en tanto unas y otras se refieren a propósitos de aprendizaje de bajo nivel de complejidad o de demanda cognitiva.

De tal modo, se volvieron a caracterizar todas las evidencias, siguiendo ahora la tipología de métodos de evaluación de Stiggins et al. (2007:100), con categorías ligeramente diferentes a las utilizadas antes sobre el tipo de preguntas y respuestas que se mostraron en los cuadros 6 a 8. Allí se pudo ver que en poco más de la mitad de los casos se usan métodos de selección de respuestas (respuesta estructurada). La nueva caracterización confirmó que 8 de cada 10 exámenes utlizan esta modalidad, mientras el resto sólo permite al alumno dar una respuesta corta única. También se confirma que esta última es más usada en las tareas, en comparación con los exámenes (cuadro 16).

Finalmente se realizó un último análisis a partir de un complemento del marco utilizado, y que se puede ver en el anexo (cuadro A.2), basado en Stiggins et al. (2007); se trata de un cuadro de dos dimensiones: cada columna se refiere a uno de cuatro métodos de evaluación (preguntas de respuesta estructurada, preguntas de respuesta abierta, evaluaciones de desempeño o ejecución y preguntas formuladas oralmente, en una interacción del maestro con los alumnos), y cada fila a uno de cinco tipos de metas de aprendizaje (mecanización, conocimiento, razonamiento, habilidad de desempeño y habilidad de crear productos). En cada casilla del cuadro se señala qué tan adecuado es, en principio, el método de la columna con la meta del renglón correspondiente. Se precisa "en principio" porque teóricamente es posible pensar en buenas preguntas de cualquier tipo para evaluar metas de aprendizaje de cualquier nivel, pero en la práctica unos métodos son sin duda más apropiados para metas de cierto nivel. Los resultados de este último análisis se muestran en el cuadro 17.

En los exámenes el método de evaluación usado en la mayoría de las evidencias es una opción muy buena en relación con el nivel cognitivo de la meta de aprendizaje: en 87.2% de los exámenes de español y en 75.3% de los de matemáticas se da esa combinación. En español, el resto se divide por igual en opciones buenas y aceptables, y en matemáticas el segundo lugar lo ocupan las aceptables. En ninguna de las asignaturas hay casos de malas opciones, pero dado que se trata de metas de aprendizaje inferidas esto parece lógico. También puede explicarse porque en los hechos hay congruencia entre enseñanza y evaluación, con énfasis en metas de aprendizaje de bajo nivel cognitivo, según la hipótesis apuntada. En las tareas la situación es algo diferente, pero nuevamente en español las opciones muy buena y buena suman 82.5% y en matemáticas esas dos opciones acumulan 52.7% de los casos, con 46.5% más de opciones aceptables.

En síntesis, la congruencia entre métodos de evaluación y tipo de metas de aprendizaje en cuanto a nivel de demanda cognitiva es alta. Los elementos anteriores del análisis que se ha presentado permiten afirmar que la congruencia se da porque tanto las metas de aprendizaje como los métodos de evaluación se refieren a actividades que suponen bajos niveles de demanda cognitiva.

Conclusiones

En lo sustantivo, con las limitaciones a las que se hará referencia, podemos afirmar que las prácticas de evaluación de los profesores estudiados distan mucho de tener un componente formativo importante. Las opiniones más optimistas que los docentes mismos expresan en cuestionarios y entrevistas no deben entenderse, sin embargo, como intentos conscientes por dar información falsa, sino como un reflejo de comprensiones superficiales del sentido real de la evaluación formativa.

El hallazgo más importante al que llegamos al explorar las prácticas en una forma que ofrece una visión algo más amplia que los cuestionarios y las entrevistas aplicados a los maestros, encuentra en particular que los profesores estudiados utilizan en forma masiva exámenes integrados básicamente por preguntas de respuestas estructuradas, que implican operaciones de baja demanda cognitiva, y que asignan tareas que en general, aunque en un grado algo menor al de los exámenes, implican también solamente memorización o repeticiones mecánicas. Asimismo, encontramos un grado de congruencia bastante alto entre los métodos de evaluación utilizados y las metas de aprendizaje inferidas, que en ambos casos corresponden a niveles de demanda cognitiva bajos. Otros hallazgos particulares, que resultan lógicos a partir de lo anterior, son que:

• Las consignas se reducen por lo general a indicaciones elementales sobre la forma de responder, pero carecen por completo, en casi todos los casos, de rasgos de autenticidad.

• La calificación de exámenes y tareas privilegia el conteo de aciertos y errores, sin referencia a estándares de desempeño precisos.

• La retroalimentación se suele reducir a informar acerca del resultado de la calificación, en la forma de una nota a la que se llegó mediante un proceso que la hace carecer de significado pedagógico, que frecuentemente va acompañada de elogios o amonestaciones, así como de exhortaciones a mejorar sin orientación sobre cómo conseguirlo.

La afirmación de que estos hallazgos particulares resultan lógicos se fundamenta señalando que cuando la meta de aprendizaje consiste en que el alumno memorice una serie de datos o realice mecánicamente una serie de operaciones matemáticas, entonces es razonable que la consigna sea muy sencilla, sin rasgos de autenticidad, que la calificación se limite a contar aciertos y errores, y que la retroalimentación se reduzca a informar al estudiante de lo anterior, diciéndole que es necesario que avance más cuando el número de aciertos esté lejos del total posible.

Por otra parte, es obvio que el proyecto no permitió analizar la forma en que los docentes estudiados llevan a cabo actividades de evaluación cotidianamente, observando el desempeño de sus alumnos, interrogándolos o poniéndolos a hacer ejercicios cortos, en forma individual o grupal, ni tampoco sobre la manera de dar retroalimentación verbal o de promover la autoevaluación de cada alumno sobre su propio avance, o la co-evaluación entre unos y otros. El acercamiento utilizado no fue suficiente para ello, lo que nos lleva al segundo tipo de conclusiones.

Las limitaciones a las que alude el párrafo anterior se refieren a que la recolección de evidencias consistió únicamente, como se ha explicado ya, en pedir a maestros de Nuevo León que permitieran fotografiar algunos ejemplos de exámenes aplicados por ellos y de tareas asignadas a sus alumnos; sin embargo, no se les interrogó sobre la manera en que los elaboraron o seleccionaron, ni acerca de la consigna que presentaron a los alumnos o de la forma de calificar o retroalimentar a los estudiantes. Esta fue, obviamente, una deficiencia que deberá corregirse en trabajos posteriores, acompañando la recolección de evidencias de evaluación con instrumentos apropiados para explorar las dimensiones de las prácticas que no se pueden detectar simplemente con el análisis de los documentos, sino que requieren información adicional que es necesario solicitar expresamente al maestro.

Referencias

García Medina, Adán Moisés; Aguilera García, María Antonieta; Pérez Martínez, María Guadalupe y Muñoz Abundez, Gustavo (2011). Evaluación de los aprendizajes en el aula. Opiniones y prácticas de docentes de primaria en México, Ciudad de México: Instituto Nacional para la Evaluación de la Educación. [ Links ]

Loureiro Denis, Graciela (2009). Evaluación en el aula, currículo y evaluaciones externas, s.l.: Instituto de Evaluación Educativa/UCU/GTEE-PREAL. [ Links ]

Martínez Rizo, Felipe (2012). La evaluación en el aula: promesas y desafíos de la evaluación formativa, Aguascalientes: Universidad Autónoma de Aguascalientes. [ Links ]

Martínez, José Felipe; Borko, Hilda; Stecher, Brian; Luskin, Rebecca y Kloser, Matt (2012). "Measuring classroom assessment practice using instructional artifacts: A validation study of the QAS Notebook", Educational Assessment, vol. 17, núms. 2-3, pp. 107-131. [ Links ]

Picaroni, Beatriz (2009). La evaluación en las aulas de primaria: usos formativos, calificaciones y comunicación con los padres, s.l.: Instituto de Evaluación Educativa/UCU/GTEE-PREAL. [ Links ]

Ravela, Pedro; Picaroni. Beatriz y Loureiro, Graciela (2009). "La evaluación de aprendizajes en las aulas de 6° grado en América Latina", Boletín del Observatorio Regional de Políticas de Evaluación Educativa (GTEE-PREAL), núm. 12 (julio), pp. 1-12. [ Links ]

Ruiz Cuéllar, Guadalupe (ed.) (en prensa). La evaluación en el aula: diagnóstico, Aguascalientes: Universidad Autónoma de Aguascalientes. [ Links ]

Ruiz, Cuéllar Guadalupe y Pérez Martínez, Guadalupe (en prensa). "Creencias y prácticas de evaluación en aula de maestros de educación primaria de Nuevo León", en Ruiz Cuéllar, Guadalupe (ed.), La evaluación en el aula: diagnóstico, Aguascalientes: Universidad Autónoma de Aguascalientes. [ Links ]

Stiggins, Richard J. y Nancy F. Conklin (1992). In teacher's hands: Investigating the practices of classroom assessment, Albany: State University of New York Press. [ Links ]

Stiggins, R.; Arter, J.; Chappuis, J. y Chappuis, S. (2007). Classroom assessment for student learning. Doing It right-using It well, Portland: ETS. [ Links ]

Vidales D., Ismael y Elizondo G., María D. (2005). Prácticas de evaluación escolar en el nivel de educación primaria en el estado de Nuevo León, Ciudad de México: CAEIP/Santillana. [ Links ]

Wiggins, Grant (1998). "Ensuring authentic performance", en Educative assessment: Designing assessments to inform and improve student performance, San Francisco: Jossey-Bass, pp. 21-42. [ Links ]