<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>1607-4041</journal-id>
<journal-title><![CDATA[Revista electrónica de investigación educativa]]></journal-title>
<abbrev-journal-title><![CDATA[REDIE]]></abbrev-journal-title>
<issn>1607-4041</issn>
<publisher>
<publisher-name><![CDATA[Universidad Autónoma de Baja California, Instituto de Investigación y Desarrollo Educativo]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S1607-40412009000200002</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Evaluación formativa en aula y evaluación a gran escala: hacia un sistema más equilibrado]]></article-title>
<article-title xml:lang="en"><![CDATA[Classroom Evaluation for Training, and Large-Scale Evaluation: Toward a More Balanced System]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Martínez Rizo]]></surname>
<given-names><![CDATA[Felipe]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad Autónoma de Aguascalientes  ]]></institution>
<addr-line><![CDATA[Aguascalientes Aguascalientes]]></addr-line>
<country>México</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>11</month>
<year>2009</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>11</month>
<year>2009</year>
</pub-date>
<volume>11</volume>
<numero>2</numero>
<fpage>1</fpage>
<lpage>18</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://www.scielo.org.mx/scielo.php?script=sci_arttext&amp;pid=S1607-40412009000200002&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.mx/scielo.php?script=sci_abstract&amp;pid=S1607-40412009000200002&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.mx/scielo.php?script=sci_pdf&amp;pid=S1607-40412009000200002&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Ante la proliferación de pruebas estandarizadas a gran escala que ha tenido lugar en México en los últimos años, el artículo constituye una revisión de la literatura internacional, para reflexionar sobre las posibles consecuencias de ese fenómeno y explorar los avances de enfoques alternativos de evaluación. Se revisa también el desarrollo de las concepciones relativas a la evaluación en aula con propósitos formativos, y se sintetizan las ideas actuales al respecto. Se subrayan la importancia que tales acercamientos pueden tener, por lo que se refiere a la mejora de la calidad educativa. Para concluir, se sostiene que es necesario avanzar en dirección de sistemas de evaluación que combinen de manera más equilibrada la evaluación a gran escala y la evaluación en aula.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[Given the large-scale proliferation of standardized tests that has occurred in Mexico in recent years, this article constitutes a review of the international literature on the subject, for the purpose of reflecting on the possible consequences of this phenomenon and exploring the progress of alternative assessment approaches. It also reviews the development of concepts relating to evaluation in the classroom for training purposes, and summarizes current thinking about this. It emphasizes the importance that such approaches may have, as regarding the improvement of educational quality. In conclusion, it argues that it is necessary to move toward evaluation systems that combine large-scale assessment and classroom assessment in a more balanced fashion.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[Evaluación educativa]]></kwd>
<kwd lng="es"><![CDATA[pruebas estandarizadas]]></kwd>
<kwd lng="es"><![CDATA[evaluación formativa]]></kwd>
<kwd lng="en"><![CDATA[Educational assessment]]></kwd>
<kwd lng="en"><![CDATA[standardized tests]]></kwd>
<kwd lng="en"><![CDATA[formative evaluation]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="justify"><font face="verdana" size="4">Art&iacute;culos arbitrados</font></p>     <p align="justify"><font face="verdana" size="4">&nbsp;</font></p>     <p align="center"><font face="verdana" size="4"><b>Evaluaci&oacute;n formativa en aula y evaluaci&oacute;n a gran escala: hacia un sistema m&aacute;s equilibrado</b></font></p>     <p align="center"><font face="verdana" size="2">&nbsp;</font></p>     <p align="center"><font face="verdana" size="3"><b>Classroom Evaluation for Training, and Large&#150;Scale Evaluation: Toward a More Balanced System</b></font></p>     <p align="center"><font face="verdana" size="2">&nbsp;</font></p>     <p align="center"><font face="verdana" size="2"><b>Felipe Mart&iacute;nez Rizo</b></font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2"><i>Programa de Doctorado Interinstitucional en Educaci&oacute;n Universidad Aut&oacute;noma de Aguascalientes, San Cosme 108, 20010 Aguascalientes, Aguascalientes, M&eacute;xico. Correo electr&oacute;nico:<a href="mailto:fm%20rizo@prodigy.net.mx">fm rizo@prodigy.net.mx</a></i></font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Recibido: 21 de mayo de 2009    <br> Aceptado: 21 de julio de 2009</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2"><b>Resumen</b></font></p>     <p align="justify"><font face="verdana" size="2">Ante la proliferaci&oacute;n de pruebas estandarizadas a gran escala que ha tenido lugar en M&eacute;xico en los &uacute;ltimos a&ntilde;os, el art&iacute;culo constituye una revisi&oacute;n de la literatura internacional, para reflexionar sobre las posibles consecuencias de ese fen&oacute;meno y explorar los avances de enfoques alternativos de evaluaci&oacute;n. Se revisa tambi&eacute;n el desarrollo de las concepciones relativas a la evaluaci&oacute;n en aula con prop&oacute;sitos formativos, y se sintetizan las ideas actuales al respecto. Se subrayan la importancia que tales acercamientos pueden tener, por lo que se refiere a la mejora de la calidad educativa. Para concluir, se sostiene que es necesario avanzar en direcci&oacute;n de sistemas de evaluaci&oacute;n que combinen de manera m&aacute;s equilibrada la evaluaci&oacute;n a gran escala y la evaluaci&oacute;n en aula.</font></p>     <p align="justify"><font face="verdana" size="2"><b>Palabras clave: </b>Evaluaci&oacute;n educativa, pruebas estandarizadas, evaluaci&oacute;n formativa.</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2"><b>Abstract</b></font></p>     <p align="justify"><font face="verdana" size="2">Given the large&#150;scale proliferation of standardized tests that has occurred in Mexico in recent years, this article constitutes a review of the international literature on the subject, for the purpose of reflecting on the possible consequences of this phenomenon and exploring the progress of alternative assessment approaches. It also reviews the development of concepts relating to evaluation in the classroom for training purposes, and summarizes current thinking about this. It emphasizes the importance that such approaches may have, as regarding the improvement of educational quality. In conclusion, it argues that it is necessary to move toward evaluation systems that combine large&#150;scale assessment and classroom assessment in a more balanced fashion.</font></p>     <p align="justify"><font face="verdana" size="2"><b>Key words: </b>Educational assessment, standardized tests, formative evaluation.</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2"><b>Introducci&oacute;n: Evaluaci&oacute;n del aprendizaje y pruebas estandarizadas</b></font></p>     <p align="justify"><font face="verdana" size="2">La evaluaci&oacute;n del aprendizaje tiene antecedentes antiguos. En China comenzaron a aplicarse pruebas a grandes n&uacute;meros de personas m&aacute;s de 1,000 a&ntilde;os A.C, (Oakes y Lipton, 2007). Mucho despu&eacute;s, en el siglo XVI de nuestra era, los liceos jesuitas iniciaron una tradici&oacute;n que, en el XIX, llev&oacute; a ex&aacute;menes <i>tipo ensayo, </i>como el <i>abitur </i>alem&aacute;n o el <i>baccalaureat </i>franc&eacute;s.</font></p>     <p align="justify"><font face="verdana" size="2">En las escuelas elementales la evaluaci&oacute;n se sistematiz&oacute; m&aacute;s tarde, ya que los sistemas educativos en esos niveles s&oacute;lo se consolidaron despu&eacute;s de que la revoluci&oacute;n industrial y la ilustraci&oacute;n hicieron que se considerara necesario que todos los futuros ciudadanos supieran al menos leer y escribir. Antes la ense&ntilde;anza de primeras letras estaba a cargo de preceptores privados en hogares acomodados, o se daba en peque&ntilde;as escuelas parroquiales o gremiales. El n&uacute;mero de alumnos era reducido y no exist&iacute;a la noci&oacute;n de grado. La evaluaci&oacute;n no implicaba el uso de procedimientos sistem&aacute;ticos; bastaba el juicio del maestro, que no necesitaba usar instrumentos especiales; era suficiente la observaci&oacute;n cotidiana que el docente ten&iacute;a del progreso de cada uno de sus estudiantes.</font></p>     <p align="justify"><font face="verdana" size="2">Cuando los ni&ntilde;os que aprend&iacute;an a leer y escribir eran una minor&iacute;a, su nivel era tambi&eacute;n menos heterog&eacute;neo que hoy, y los est&aacute;ndares de calidad que un maestro utilizaban impl&iacute;citamente al formular juicios de evaluaci&oacute;n eran relativamente simples. Al generalizarse el acceso a la educaci&oacute;n el alumnado se volvi&oacute; tambi&eacute;n m&aacute;s heterog&eacute;neo, y fue m&aacute;s dif&iacute;cil mantener est&aacute;ndares de calidad comparables.</font></p>     <p align="justify"><font face="verdana" size="2">En Estados Unidos se desarroll&oacute;, desde el siglo XIX, un sistema de educaci&oacute;n de cobertura masiva, no s&oacute;lo en educaci&oacute;n b&aacute;sica, sino tambi&eacute;n en media y superior. Por ello, no sorprende que en ese pa&iacute;s surgieran tempranamente evaluaciones a gran escala, con la aplicaci&oacute;n de pruebas de historia a m&aacute;s de 500 escolares de Boston, en 1845. En 1895 Rice aplic&oacute; pruebas de ortograf&iacute;a a 16,000 alumnos, y en 1897, de aritm&eacute;tica a 13,000 estudiantes, y de lectura a 8,300 (De Landsheere, 1986/1996).</font></p>     <p align="justify"><font face="verdana" size="2">En 1890 J. McKeen Cattell, con su art&iacute;culo <i>Mental tests and measurements, </i>invent&oacute; la palabra <i>test </i>y public&oacute; ese texto fundacional. Binet desarroll&oacute; unas pruebas de inteligencia, que luego fueron adaptadas por Terman en Stanford en 1916, y se extendieron con el Army Test en 1917 (De Landsheere, 1996).</font></p>     <p align="justify"><font face="verdana" size="2">Gracias al desarrollo de la psicometr&iacute;a, el College Board &#150;organismo especializado que fue creado en 1900 para elaborar pruebas de ingreso comunes para un grupo de universidades de la costa este de los Estados Unidos&#150; estuvo en condiciones, en 1925, de desarrollar pruebas de aptitud (en contraposici&oacute;n a las de conocimientos), que iban m&aacute;s all&aacute; de la memorizaci&oacute;n de datos aislados y se acercaban a la evaluaci&oacute;n de habilidades intelectuales b&aacute;sicas. Desde la d&eacute;cada de 1920 en la Universidad de Princeton se hicieron trabajos en este campo, y en 1948, la oficina que se dedicaba a la elaboraci&oacute;n de tests se separ&oacute; de la universidad, constituy&eacute;ndose el Educational Testing Service (De Landsheere, 1986).</font></p>     <p align="justify"><font face="verdana" size="2">En la segunda mitad del siglo XX el American College Testing (act) y la Universidad de Iowa desarrollaron tambi&eacute;n pruebas importantes. Hasta esas fechas, sin embargo, casi &uacute;nicamente en el &aacute;mbito anglosaj&oacute;n hubo avances similares, al grado de que la psicometr&iacute;a se lleg&oacute; a considerar una disciplina estadounidense. Esta situaci&oacute;n lleg&oacute; a ser tan marcada que en 1931, al escuchar que los participantes en un congreso se refer&iacute;an a la psicometr&iacute;a como estadounidense, E. L. Thorndike protest&oacute; diciendo que "por el bien de la ciencia y por el nuestro, ser&iacute;a preferible que las pruebas estandarizadas no fueran denominadas 'ex&aacute;menes estadounidenses'"(Joncich, como se cita en De Landsheere, 1996).</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2"><b>I. Predominio y extensi&oacute;n de la evaluaci&oacute;n a gran escala</b></font></p>     <p align="justify"><font face="verdana" size="2">Los pioneros de las pruebas estandarizadas estaban convencidos de que las escuelas ten&iacute;an serios problemas de calidad, y consideraban que las evaluaciones de los maestros ten&iacute;an deficiencias graves. Por ello, buscaron elaborar instrumentos que permitieran comparar los niveles de rendimiento de alumnos de diferentes escuelas. Thorndike pensaba que las pruebas remediar&iacute;an la <i>escandalosa falta de confiabilidad de los ex&aacute;menes aplicados por los maestros </i>(Shepard, 2006, p. 623).</font></p>     <p align="justify"><font face="verdana" size="2">La ventaja de la comparabilidad de los resultados que ofrec&iacute;an los nuevos instrumentos era atractiva, pero sus limitaciones fueron advertidas desde fechas tempranas. En 1923, B. D. Wood se quejaba de que las pruebas estandarizadas med&iacute;an s&oacute;lo <i>hechos aislados y piezas de informaci&oacute;n, </i>en lugar de <i>capacidad de razonamiento, habilidad organizadora, </i>etc. Ralph Tyler, subray&oacute; tambi&eacute;n desde los primeros a&ntilde;os la necesidad de verlas no como un proceso separado de la ense&ntilde;anza, sino como parte integral de &eacute;sta (Shepard, 2006).</font></p>     <p align="justify"><font face="verdana" size="2">El contenido de los textos sobre evaluaci&oacute;n utilizados en las instituciones formadoras de maestros, muestra que prevalec&iacute;a la idea de que las evaluaciones que los maestros deb&iacute;an aplicar en el aula deb&iacute;an ser r&eacute;plicas de las evaluaciones a gran escala. Por lo tanto, los maestros deb&iacute;an aprender a elaborar preguntas estructuradas y a analizar los resultados de instrumentos formados estad&iacute;sticamente con ellas. Adem&aacute;s, deb&iacute;an cuidar la validez y confiabilidad de tales instrumentos, en la misma forma en que debe hacerse a gran escala. (Shepard, 2005).</font></p>     <p align="justify"><font face="verdana" size="2">Varios acontecimientos contribuyeron a generar un clima de preocupaci&oacute;n sobre la calidad de la educaci&oacute;n que las escuelas norteamericanas ofrec&iacute;an a los ni&ntilde;os, al comenzar la segunda mitad del siglo XX. Entre dichos acontecimientos pueden mencionarse: el impacto del lanzamiento del Sputnik por la entonces Uni&oacute;n de Rep&uacute;blicas Socialistas Sovi&eacute;ticas (urss), en 1957; el Informe Coleman, en 1966, y la tendencia a la baja de los resultados promedio obtenidos a&ntilde;o tras a&ntilde;o por los aspirantes a ingresar a la educaci&oacute;n superior en el Scholastic Aptitude Test (sat).</font></p>     <p align="justify"><font face="verdana" size="2">El National Defense Education Act, de 1958, muestra el lugar de la educaci&oacute;n en la lectura del lanzamiento del Sputnik, en el contexto de la guerra fr&iacute;a (Mathison y Ross, 2008). En los a&ntilde;os siguientes, las legislaturas de California, Florida y Oregon establecieron la obligaci&oacute;n de evaluar a los alumnos mediante pruebas construidas en relaci&oacute;n con est&aacute;ndares m&iacute;nimos de desempe&ntilde;o <i>(minimum competency testing), </i>como parte importante de sus estrategias de mejora.</font></p>     <p align="justify"><font face="verdana" size="2">Para 1982, 42 de los 50 estados norteamericanos ten&iacute;an programas obligatorios de esa naturaleza. Al generalizarse, las <i>pruebas de competencias m&iacute;nimas </i>muchas veces se hicieron de manera deficiente, por lo que su impacto se redujo y las expectativas depositadas en ellos no se cumplieron (Baker y Choppin, 1990).</font></p>     <p align="justify"><font face="verdana" size="2">La publicaci&oacute;n del informe <i>A nation at risk, </i>en 1983, mostr&oacute; la continuidad de la preocupaci&oacute;n norteamericana por la calidad educativa, en una perspectiva de seguridad nacional. Con &eacute;l inici&oacute; el movimiento de <i>est&aacute;ndares educativos, </i>que se manifest&oacute; con fuerza durante la d&eacute;cada de 1990 (Mathison y Ross, 2008)</font></p>     <p align="justify"><font face="verdana" size="2">En 1989, en la llamada Cumbre Educativa de Charlottesville, los gobernadores de los 50 estados norteamericanos adoptaron un conjunto de metas en la perspectiva del a&ntilde;o 2000. La tercera meta establec&iacute;a que para esa fecha "los estudiantes americanos deber&iacute;an terminar los grados 4&deg;, 8&deg; y 12&deg; demostrando competencia en temas exigentes de ingl&eacute;s, matem&aacute;ticas, ciencias, historia y geograf&iacute;a" (Mathison, 2008, pp. 8&#150;9). En 1990 se establecieron procedimientos apoyados con fondos federales para avanzar hacia esas metas, y se crearon el National Education Goals Panel y el National Council on Education Standards and Testing.</font></p>     <p align="justify"><font face="verdana" size="2">La preocupaci&oacute;n por la calidad educativa no fue exclusiva de Estados Unidos. Los hechos que agudizaron esa preocupaci&oacute;n, en especial el lanzamiento del Sputnik, produjeron tambi&eacute;n reacciones que llevaron al surgimiento de las evaluaciones internacionales a lo largo de la segunda mitad del siglo XX. Aun si cada pa&iacute;s contara con un sistema nacional de evaluaci&oacute;n, la comparaci&oacute;n de los resultados no seguir&iacute;a, dadas las diferencias de los sistemas educativos en estructura, curr&iacute;culos y calendarios escolares; adem&aacute;s de las diferencias de contenido, grado de dificultad y enfoque de los instrumentos de evaluaci&oacute;n mismos. Por ello, los trabajos pioneros de la International Association for the Evaluation of Educational Achievement (IEA) fueron notables (Postlethwaite, 1985; De Landsheere, 1994).</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2"><b>II. Proliferaci&oacute;n de las pruebas a gran escala en el siglo XXI</b></font></p>     <p align="justify"><font face="verdana" size="2">La descentralizaci&oacute;n que ha caracterizado al sistema educativo norteamericano trajo consigo la consecuencia de que las evaluaciones a gran escala que se aplican en cada estado no se pueden comparar. El sistema National Assessment of Educational Progress (naep), establecido a fines de la d&eacute;cada de 1960 (Walberg, 1990), ofrec&iacute;a resultados confiables sobre el sistema en ciertas materias y grados en la escala nacional, pero no individual, de escuela o distrito, y ni siquiera estatal. Para dar resultados confiables a nivel de plantel se buscaron otras soluciones: la Prueba Nacional Voluntaria (Voluntary National Test), propuesta por Clinton, o un sistema de pruebas adaptativas computarizadas en internet, que propuso la Rand Corporation (Klein y Hamilton, 1999).</font></p>     <p align="justify"><font face="verdana" size="2">Al comenzar el a&ntilde;o 2002, el presidente Bush promovi&oacute; una nueva legislaci&oacute;n educativa en el nivel federal, que se conoce con la expresi&oacute;n <i>No child left behind </i>(nclb). Esta ley implic&oacute; cambios importantes en las pol&iacute;ticas educativas en general, y en particular en lo que se refiere a la evaluaci&oacute;n del rendimiento de los alumnos.</font></p>     <p align="justify"><font face="verdana" size="2">La Ley pretende modificar en un plazo bastante corto (12 a&ntilde;os, es decir, para el 2014) la situaci&oacute;n de la educaci&oacute;n norteamericana, incluyendo las desigualdades que la caracterizan, con medidas, entre las que destaca reforzar los mecanismos de evaluaci&oacute;n de la calidad educativa: todos los estados americanos deber&aacute;n tener est&aacute;ndares de desempe&ntilde;o claros y sistemas estatales de evaluaci&oacute;n alineados con ellos, as&iacute; como aplicar anualmente pruebas de ingl&eacute;s, matem&aacute;ticas y ciencias a todos los alumnos de los grados 4&deg; a 8&deg;.</font></p>     <p align="justify"><font face="verdana" size="2">La participaci&oacute;n de los estados en las pruebas del naep ser&aacute; condici&oacute;n obligatoria para que puedan acceder a fondos federales para apoyar los programas de mejora educativa que la nueva legislaci&oacute;n contempla. Los resultados de los alumnos en las pruebas estatales son el criterio para definir si la escuela logra los avances estipulados para recibir apoyos <i>(adequate yearly progress, </i>ayp), y puede ser cerrada si no lo consigue. Esto hace que las pruebas de alto impacto tengan las consecuencias que se discutir&aacute;n m&aacute;s adelante.</font></p>     <p align="justify"><font face="verdana" size="2">Adem&aacute;s de Estados Unidos, al comenzar el siglo XXI muchos pa&iacute;ses han puesto en marcha sistemas de evaluaci&oacute;n similares, incluyendo a muchos de Europa, pero tambi&eacute;n del Asia Oriental y el cercano oriente, en especial en Israel; en pa&iacute;ses &aacute;rabes comienzan a implantarse con apoyo de la unesco. En &Aacute;frica destaca el South African Consortium for the Monitoring of Educational Quality. En Am&eacute;rica Latina, M&eacute;xico y Costa Rica comenzaron a emprender evaluaciones a gran escala en educaci&oacute;n b&aacute;sica desde los a&ntilde;os de 1970 y 1980, pero s&oacute;lo Chile desarroll&oacute; un verdadero sistema de evaluaci&oacute;n antes de 1990. En la &uacute;ltima d&eacute;cada del siglo XX y en la primera del XXI, casi todos los pa&iacute;ses lo han hecho (Mart&iacute;nez Rizo, 2009).</font></p>     <p align="justify"><font face="verdana" size="2">A nivel regional destaca el Laboratorio Latinoamericano de Evaluaci&oacute;n de la Calidad de la Educaci&oacute;n (LLECE) de la Oficina Regional de la unesco para Am&eacute;rica Latina y el Caribe. En 1997 llev&oacute; a cabo un primer estudio en 3&deg; y 4&deg; grado de primaria, con participaci&oacute;n de Argentina, Bolivia, Brasil, Chile, Colombia, Cuba, Dominicana, Honduras, M&eacute;xico, Paraguay y Venezuela. En 2006 el LLECE llev&oacute; a cabo un segundo estudio en Argentina, Brasil, Chile, Colombia, Costa Rica, Cuba, Ecuador, El Salvador, Guatemala, M&eacute;xico, Nicaragua, Panam&aacute;, Paraguay, Per&uacute;, Rep&uacute;blica Dominicana y Uruguay (Mart&iacute;nez Rizo, 2008).</font></p>     <p align="justify"><font face="verdana" size="2">En el plano internacional, adem&aacute;s de la ampliaci&oacute;n de las evaluaciones de la IEA, las pruebas de la Organizaci&oacute;n para la Cooperaci&oacute;n y el Desarrollo Econ&oacute;mico (OCDE) se han extendido a&uacute;n m&aacute;s, en lo que se conoce con las siglas PISA (Programme for Institutional Student Assessment). Estas pruebas, de enfoque no curricular y dirigidas a j&oacute;venes de 15 a&ntilde;os de edad, se aplicaron por primera vez en 32 pa&iacute;ses en el a&ntilde;o 2000, y luego cada tres a&ntilde;os. En 2009 participaron m&aacute;s de 60 pa&iacute;ses (Mart&iacute;nez Rizo, 2008).</font></p>     <p align="justify"><font face="verdana" size="2">En M&eacute;xico, las pruebas estandarizadas comenzaron a usarse en la segunda mitad del siglo XX. En educaci&oacute;n superior con pruebas de selecci&oacute;n y en los niveles b&aacute;sicos del sistema educativo, con el uso de pruebas rudimentarias elaboradas por los maestros mismos o, m&aacute;s frecuentemente, por los supervisores, que las proporcionaban a las escuelas a su cargo. Desde la d&eacute;cada de 1970, la Secretar&iacute;a de Educaci&oacute;n P&uacute;blica comenz&oacute; a hacer evaluaciones a gran escala. Las primeras pruebas se aplicaron en 1972, para decidir la admisi&oacute;n de alumnos en secundaria. A fines de esa d&eacute;cada se hicieron las primeras aplicaciones de pruebas a muestras de alumnos de primaria, con el proyecto llamado <i>Evaluaci&oacute;n del rendimiento acad&eacute;mico de los alumnos de 4<sup>o</sup> y 5<sup>o</sup> grados de educaci&oacute;n primaria. </i>(Mart&iacute;nez Rizo, 2008).</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">La situaci&oacute;n no avanz&oacute; mucho, sino hasta principios de la d&eacute;cada de 1990, cuando la evaluaci&oacute;n a gran escala recibi&oacute; un importante impulso, por la conjunci&oacute;n de varias circunstancias. La principal ocurri&oacute; en 1992, con el Acuerdo Nacional para la Modernizaci&oacute;n de la Educaci&oacute;n B&aacute;sica (anmeb), del que se derivaron la descentralizaci&oacute;n del sistema educativo y el programa Carrera Magisterial. Para asignar los est&iacute;mulos de este programa, se decidi&oacute; tomar en cuenta, entre otros elementos, los resultados de los alumnos, lo que trajo consigo la necesidad de aplicar cada a&ntilde;o pruebas a gran cantidad de alumnos. La primera aplicaci&oacute;n involucr&oacute; a m&aacute;s de cuatro millones. Estas evaluaciones siguieron aplic&aacute;ndose hasta 2005, cuando el n&uacute;mero de alumnos evaluados mediante ellas lleg&oacute; a cerca de ocho millones. Un segundo elemento consisti&oacute; en los programas compensatorios que el gobierno mexicano implement&oacute; a partir de 1991, con apoyo del Banco Mundial. Estos programas incluyeron un componente de evaluaci&oacute;n, con la aplicaci&oacute;n de pruebas a los alumnos beneficiados. A partir de 1994 se busc&oacute; extender la aplicaci&oacute;n de pruebas similares en todas las entidades, en forma permanente, mediante el proyecto denominado Estudio de Evaluaci&oacute;n de la Educaci&oacute;n Primaria (evep).</font></p>     <p align="justify"><font face="verdana" size="2">Tambi&eacute;n en 1994, el ingreso de M&eacute;xico a la OCDE mostr&oacute; el inter&eacute;s de las autoridades por integrarse a la vida econ&oacute;mica y pol&iacute;tica internacional, incluyendo la participaci&oacute;n en evaluaciones educativas, como el TIMSS de la IEA, el LLECE y el proyecto PISA de la OCDE. En 1996 se emprendi&oacute; un trabajo de definici&oacute;n de est&aacute;ndares curriculares y se desarrollaron evaluaciones en relaci&oacute;n con ellos: las Pruebas de Est&aacute;ndares Nacionales, que se aplicaron por primera vez en 1998.</font></p>     <p align="justify"><font face="verdana" size="2">En el siglo XXI la evaluaci&oacute;n educativa en M&eacute;xico avanz&oacute; con la creaci&oacute;n del Instituto Nacional para la Evaluaci&oacute;n de la Educaci&oacute;n (INEE) y con el desarrollo de nuevas iniciativas de la Secretar&iacute;a de Educaci&oacute;n P&uacute;blica (SEP), en particular las pruebas censales denominadas Ex&aacute;menes Nacionales del Logro Acad&eacute;mico en Centros Escolares (ENLACE) (Mart&iacute;nez Rizo, 2008).</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2"><b>III. Consecuencias negativas de las pruebas y cr&iacute;ticas al respecto</b></font></p>     <p align="justify"><font face="verdana" size="2">Sin considerar las de ingreso a las universidades, las pruebas usadas en niveles preuniversitarios en la mayor&iacute;a de los estados norteamericanos a lo largo del siglo XX eran de bajo impacto: sus resultados no influ&iacute;an en las decisiones importantes que se tomaban con respecto a cada alumno, ni tampoco en las que ten&iacute;an que ver con maestros y escuelas individuales. Esta situaci&oacute;n comenz&oacute; a cambiar en la d&eacute;cada de 1980, y la tendencia se acentu&oacute; en la de 1990, para culminar en las disposiciones de la Ley <i>No child left behind, </i>de 2002, con la que las pruebas a gran escala adquirieron un peso fundamental y sin precedentes en decisiones relativas a alumnos, maestros y escuelas.</font></p>     <p align="justify"><font face="verdana" size="2">En otros pa&iacute;ses ocurri&oacute; algo similar. El que las pruebas se aplicaran masivamente y sus resultados se difundieran mediante ordenamientos simples de escuelas, basados en los puntajes obtenidos en promedio por los alumnos, sin tener en cuenta el contexto en que opera cada una <i>(rankings </i>o <i>league tables), </i>volv&iacute;a de alto impacto los resultados. Esto es verdad aun en ausencia de disposiciones legales precisas, que impliquen consecuencias oficiales fuertes basadas en esos resultados, como ha ocurrido en Estados Unidos, el Reino Unido o Chile.</font></p>     <p align="justify"><font face="verdana" size="2">Muchas de las cr&iacute;ticas a las pruebas a gran escala provienen de personas que las rechazan en bloque, sin matices que tengan en cuenta sus variantes y los usos de sus resultados. En cambio, las cr&iacute;ticas que se incluyen en los p&aacute;rrafos siguientes, vienen de personas conocedoras de los aspectos metodol&oacute;gicos relevantes de las pruebas estandarizadas y que, en general, son partidarias de un uso adecuado de ellas. A diferencia de los cr&iacute;ticos radicales, lo que estos juicios cuestionan son usos de la evaluaci&oacute;n que creen ileg&iacute;timos, porque no tienen en cuenta los alcances y las limitaciones de las pruebas. Por ello, tienden a hacer un uso abusivo de sus resultados, con consecuencias negativas que pueden ser serias (Mart&iacute;nez Rizo, en prensa).</font></p>     <p align="justify"><font face="verdana" size="2">A prop&oacute;sito del creciente peso que la evaluaci&oacute;n basada en pruebas adquiri&oacute; en Estados Unidos, antes de la Ley <i>No child left behind, </i>y de los riesgos que trajo consigo, un experto reconocido dijo que la tendencia se deb&iacute;a a la preocupaci&oacute;n &#150;en muchos casos fundada&#151; de muchas personas respecto a la calidad de las escuelas, y que en ese contexto las pruebas adquirieron un peso predominante. Luego se refiri&oacute; a las consecuencias negativas que trajo consigo esa importancia excesiva y mal enfocada que se estaba dando a las pruebas de rendimiento:</font></p>     <blockquote>       ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Por la err&oacute;nea utilizaci&oacute;n de pruebas de rendimiento estandarizadas tradicionales para evaluar la calidad de las escuelas hay cosas realmente terribles que est&aacute;n ocurriendo en las escuelas de nuestros ni&ntilde;os en estos d&iacute;as. Una es que aspectos importantes del curr&iacute;culo se est&aacute;n haciendo a un lado, porque no son medidos por las pruebas. Otra es que los ni&ntilde;os est&aacute;n siendo entrenados sin descanso para que dominen el contenido de esas pruebas de alto impacto y, en consecuencia, est&aacute;n comenzando a odiar la escuela. Y una m&aacute;s es que, en muchos casos, los maestros se dedican a preparar a sus alumnos para las pruebas, lo que se parece mucho a hacer trampa, porque est&aacute;n inflando las puntuaciones de los alumnos sin elevar su competencia en los aspectos que se supone miden las pruebas &#91;traducci&oacute;n libre del autor&#93; (Popham, 2001, Secc. Do you think the politicians know this?, p&aacute;rr. 2).</font></p> </blockquote>     <p align="justify"><font face="verdana" size="2">Popham (2001) dejaba claro que su postura no se refer&iacute;a a cualquier forma de usar pruebas para evaluar resultados educativos, sino a ciertas formas inapropiadas de hacerlo. Afirmaba, expresamente, que pruebas bien dise&ntilde;adas y utilizadas adecuadamente pueden ser de gran valor para la educaci&oacute;n:</font></p>     <blockquote>       <p align="justify"><font face="verdana" size="2">Est&aacute; surgiendo en nuestro pa&iacute;s una resistencia a cualquier tipo de pruebas. Pienso que esto no es sano. Creo que hay que usar pruebas bien construidas, que ayuden a los maestros a mejorar su ense&ntilde;anza. Pienso tambi&eacute;n que el p&uacute;blico tiene derecho a saber qu&eacute; tan bien funcionan las escuelas. Por ello pienso que oponerse a cualquier tipo de pruebas es negativo para los alumnos. Tenemos que hacer buenas pruebas, que pueden ser una fuerza poderosa para mejorar la ense&ntilde;anza, haciendo que los alumnos aprendan lo que deben aprender &#91;traducci&oacute;n libre del autor&#93; (Popham, 2001, Secc. I met this teacher..., p&aacute;rr. 1).</font></p> </blockquote>     <p align="justify"><font face="verdana" size="2">En un texto reciente, con la evidencia de que sus temores respecto a la extensi&oacute;n de las pruebas a gran escala sin las debidas consideraciones, se hab&iacute;an vuelto realidad, este experto precisa dos razones por las que una buena idea &#150;conseguir que los alumnos alcancen altos niveles de competencia, con una educaci&oacute;n basada en est&aacute;ndares&#151; est&aacute; teniendo las consecuencias que &eacute;l anticipaba: por una parte, el exceso de contenidos que trae consigo una definici&oacute;n inadecuada de los est&aacute;ndares; por otra, el uso de pruebas inapropiadas, en concreto por su falta de sensibiidad a la instrucci&oacute;n (instructionally insensitive tests), como instrumentos para verificar el cumplimiento de los est&aacute;ndares (Popham, 2008).</font></p>     <p align="justify"><font face="verdana" size="2">La experiencia de la aplicaci&oacute;n de la Ley <i>No child left behind, </i>despu&eacute;s de su entrada en vigor, ha puesto en evidencia deficiencias importantes y consecuencias contraproducentes, sobre todo, para escuelas p&uacute;blicas. Varias proyecciones se&ntilde;alan que muy pocas de ellas podr&aacute;n satisfacer las exigencias del avance anual adecuado <i>(adequate yearly progress), </i>que establece la Ley; mientras que la gran mayor&iacute;a (tal vez m&aacute;s de 95% en todo el pa&iacute;s) deber&aacute;n ser clasificadas como deficientes <i>(failing) </i>y enfrentar las consecuencias de ello, que pueden llegar te&oacute;ricamente hasta su desaparici&oacute;n (Oakes y Lipton, 2007).</font></p>     <p align="justify"><font face="verdana" size="2">Un investigador destacado en el escenario psicom&eacute;trico contempor&aacute;neo, Robert Linn, escribi&oacute; tambi&eacute;n antes de la Ley <i>No child left behind:</i></font></p>     <blockquote>       <p align="justify"><font face="verdana" size="2">Me veo llevado a concluir que, en la mayor&iacute;a de los casos, los instrumentos y la tecnolog&iacute;a no han estado a la altura de lo que esperaba de ellos la rendici&oacute;n de cuentas de alto impacto. Los sistemas de evaluaci&oacute;n basados en pruebas, que son &uacute;tiles para prop&oacute;sitos de monitoreo, pierden mucha de su confiabilidad y credibilidad para ello, cuando se les asocian consecuencias fuertes. Los efectos negativos inesperados de usos de alto impacto de la rendici&oacute;n de cuentas frecuentemente son m&aacute;s importantes que los efectos positivos que se buscaban &#91;traducci&oacute;n libre del autor&#93; (Linn, 2000, p. 16).</font></p> </blockquote>     <p align="justify"><font face="verdana" size="2">Contempor&aacute;nea a la Ley es la cita siguiente, en la que tres estudiosos de la Rand Corporation precisan lo que probablemente explica las amplias expectativas que han llevado a usos inadecuados de las pruebas a gran escala y de alto impacto:</font></p>     ]]></body>
<body><![CDATA[<blockquote>       <p align="justify"><font face="verdana" size="2">Los sistemas de rendici&oacute;n de cuentas basados en pruebas se basan en la creencia de que la educaci&oacute;n p&uacute;blica puede mejorar gracias a una estrategia sencilla: haga que todos los alumnos presenten pruebas estandarizadas de rendimiento, y asocie consecuencias fuertes a las pruebas, en la forma de premios cuando los resultados suben, y sanciones cuando no ocurra as&iacute; &#91;traducci&oacute;n libre del autor&#93; (Hamilton, Stecher y Klein, 2002, p. iii).</font></p> </blockquote>     <p align="justify"><font face="verdana" size="2">Muchas personas no tienen conciencia de la dificultad que implica obtener buenos resultados educativos con grupos de alumnos que provienen de un medio social desfavorable. En M&eacute;xico es frecuente que dirigentes del sector empresarial vean con simpat&iacute;a las estrategias simplistas a las que alude la cita anterior, pensando que las fallas de la escuela p&uacute;blica se podr&iacute;an corregir f&aacute;cilmente con escuelas privadas como las que atienden a sus hijos; pero ignoran que menos del 10% de los ni&ntilde;os mexicanos, de condiciones privilegiadas, asisten a ellas. Probablemente por eso son frecuentes las opiniones de que bastar&aacute; con aplicar pruebas masivamente, y tomar medidas correctivas simples, para que la calidad de la educaci&oacute;n mejore sustancialmente.</font></p>     <p align="justify"><font face="verdana" size="2">En Am&eacute;rica Latina, hasta mediados de la d&eacute;cada de 1990 los resultados de las pruebas que se aplicaban en educaci&oacute;n b&aacute;sica no llevaban a decisiones que afectaran a individuos, como decidir si aprobar o reprobar a un alumno, asignar est&iacute;mulos o tomar medidas correctivas que afecten a maestros o escuelas. Su impacto era bajo e incluso nulo, por la ausencia de difusi&oacute;n de los resultados. La excepci&oacute;n fue el Sistema de Medici&oacute;n de la Calidad de la Educaci&oacute;n (simce), de Chile, que desde sus inicios se defini&oacute; como de alto impacto: su dise&ntilde;o censal se hizo con el prop&oacute;sito de contribuir a la introducci&oacute;n de cambios mayores en el sistema   educativo,   como   su   municipalizaci&oacute;n   y   relativa   privatizaci&oacute;n.   Los resultados se han utilizado para decidir cu&aacute;les escuelas pueden recibir fondos p&uacute;blicos, en la forma de bonos individuales para sus alumnos.</font></p>     <p align="justify"><font face="verdana" size="2">Los desarrollos m&aacute;s recientes en nuestro <i>subcontinente </i>apuntan en una direcci&oacute;n similar a la observada en Estados Unidos: se tiende a pensar que aplicar pruebas censales, cuyos resultados permitan comparaciones directas y simples entre escuelas, facilitar&aacute; tomar decisiones que llevar&aacute;n a mejoras sustanciales a corto plazo. Adem&aacute;s de Chile, Uruguay y M&eacute;xico, otros pa&iacute;ses que est&aacute;n incursionando en la aplicaci&oacute;n de pruebas censales son: Brasil, Colombia, Costa Rica, Rep&uacute;blica Dominicana, Ecuador, El Salvador, Guatemala y Per&uacute;. El riesgo de que aparezcan consecuencias contraproducentes no es ya s&oacute;lo te&oacute;rico, sino real.</font></p>     <p align="justify"><font face="verdana" size="2">En M&eacute;xico el balance de la evaluaci&oacute;n tiene luces y sombras. En el lado positivo se deben mencionar los avances t&eacute;cnicos y la formaci&oacute;n de especialistas de buen nivel; la creciente conciencia ciudadana del derecho a conocer los resultados de las evaluaciones, que contrasta con el hermetismo anterior; y el que algunas autoridades educativas, en el nivel federal y en algunos estados, comiencen a hacer uso de los resultados de las evaluaciones para toma de decisiones. En el lado negativo hay que contar el n&uacute;mero ya excesivo y creciente de pruebas que se desarrollan y aplican, que pesa cada vez m&aacute;s sobre alumnos, maestros y escuelas; el predominio de la evaluaci&oacute;n a gran escala que deben usar los maestros en el aula; el uso inapropiado, cada vez m&aacute;s frecuente, de los resultados y su excesivo peso en el dise&ntilde;o de las pol&iacute;ticas p&uacute;blicas.</font></p>     <p align="justify"><font face="verdana" size="2">En s&iacute;ntesis, la proliferaci&oacute;n de pruebas a gran escala va acompa&ntilde;ada por el inter&eacute;s de que sus resultados se utilicen para sustentar decisiones de las que se deriven mejoras importantes para la calidad. Esta tendencia se relaciona con la de rendici&oacute;n de cuentas, y cobra sentido en el contexto de corrientes m&aacute;s amplias: b&uacute;squeda de transparencia en el manejo de los asuntos p&uacute;blicos; con frecuencia, desconfianza respecto de la educaci&oacute;n p&uacute;blica y, en general, respecto a la gesti&oacute;n p&uacute;blica de los servicios. A ello debe a&ntilde;adirse la escasa cultura en la sociedad, en cuanto a evaluaci&oacute;n educativa, no s&oacute;lo entre el p&uacute;blico general, sino tambi&eacute;n entre maestros y autoridades educativas, e incluso entre investigadores y especialistas. Esto lleva a esperar resultados casi milagrosos en las escuelas, gracias a la aplicaci&oacute;n de pruebas, sin tener en cuenta sus alcances y l&iacute;mites.</font></p>     <p align="justify"><font face="verdana" size="2">Para que se concreten las perspectivas favorables que se asocian con las pruebas es necesaria una visi&oacute;n m&aacute;s completa de sus posibilidades. Hay que tener claro que las pruebas a gran escala tienen rasgos que limitan su capacidad para informar sobre muchos aspectos importantes de los que debe incluir el curr&iacute;culo. Lo anterior se ve considerablemente agravado en el caso de aplicaciones censales, sobre todo, si se pretende cubrir muchos grados y con mucha frecuencia. Adem&aacute;s, dichas pruebas nunca podr&aacute;n sustituir el trabajo del maestro.</font></p>     <p align="justify"><font face="verdana" size="2">El &uacute;ltimo punto tiene especial relevancia: s&oacute;lo un buen maestro puede llevar a cabo la evaluaci&oacute;n m&aacute;s importante de cada alumno. Una evaluaci&oacute;n que incluya todos los aspectos del curr&iacute;culo y los niveles cognitivos m&aacute;s complejos, que tenga en cuenta las circunstancias de cada ni&ntilde;o, y se haga con la frecuencia necesaria para ofrecer retroalimentaci&oacute;n oportuna para que el alumno pueda mejorar. Este tipo de evaluaciones son las que deben hacerse en cada aula regularmente, con acercamientos m&aacute;s finos que los que pueden emplearse a gran escala. Muchos maestros no tienen la preparaci&oacute;n necesaria para hacer bien dicha evaluaci&oacute;n, pero ninguna prueba a gran escala podr&aacute; ocupar su lugar. Por ello, habr&aacute; que ofrecer a los docentes los apoyos necesarios para que cumplan adecuadamente con su funci&oacute;n evaluativa, viendo a las pruebas como uno de esos apoyos.</font></p>     <p align="justify"><font face="verdana" size="2">Aun si se hacen bien, las evaluaciones a cargo de los maestros tienen tambi&eacute;n limitaciones. En particular, sus resultados no son agregables, en el sentido de que permitan la construcci&oacute;n de medidas sint&eacute;ticas ni pueden ofrecer informaci&oacute;n sobre la situaci&oacute;n de conjuntos de grandes dimensiones, como son los sistemas educativos. Las pruebas a gran escala pueden ofrecer insumos valiosos para la toma de decisiones en diversos niveles del sistema, pero siempre que se les vea como complementos del trabajo de los maestros, y no pretendan sustituirlo.</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Es fundamental, adem&aacute;s, adoptar una perspectiva que no vea la evaluaci&oacute;n como amenaza, sino como oportunidad de aprendizaje y de mejora. Los resultados de las pruebas, en vez de servir para hacer ordenamientos simples, podr&iacute;an ayudar a detectar oportunamente alumnos en riesgo y escuelas que necesiten apoyo especial, y as&iacute; para brindarlo oportunamente a unos y otras, en lugar de propiciar competencias est&eacute;riles de las que se derivan consecuencias perversas.</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2"><b>IV. Evaluaci&oacute;n formativa y evaluaci&oacute;n en el aula</b></font></p>     <p align="justify"><font face="verdana" size="2">Si se tiene en cuenta que las evaluaciones que hac&iacute;an los maestros a fines del siglo XIX y principios del XX consist&iacute;an, en muchos casos, en recitaciones de tipo mec&aacute;nico o memor&iacute;stico, con las que un alumno mostraba lo que sab&iacute;a (Oakes y Lipton, 2007), no sorprende que las pruebas estandarizadas fueran vistas como un avance, y se convirtieran en el referente que los maestros trataban de imitar, y para lo que se les preparaba.</font></p>     <p align="justify"><font face="verdana" size="2">Sin embargo, y adem&aacute;s de sus ventajas, las pruebas a gran escala de enfoque normativo y preguntas de opci&oacute;n m&uacute;ltiple tienen tambi&eacute;n claras limitaciones, en especial en relaci&oacute;n con la medici&oacute;n de niveles cognitivos complejos y por lo dif&iacute;cil que resulta controlar la influencia del contexto social de los alumnos en los resultados o, de otro modo, por su falta de sensibilidad a la instrucci&oacute;n. Por ello, desde las primeras d&eacute;cadas del siglo pasado se expresaron cr&iacute;ticas a esas evaluaciones, cuestionamientos que arreciaron en la medida en que las pruebas a gran escala adquirieron mayor peso, como ha ocurrido en las &uacute;ltimas d&eacute;cadas.</font></p>     <p align="justify"><font face="verdana" size="2">En este apartado se ver&aacute; el desarrollo de la alternativa a la evaluaci&oacute;n a gran escala que son las evaluaciones a cargo de los maestros. La postura que ve a las pruebas a gran escala como complemento del trabajo docente, pero no como sustituto del mismo, parte de la idea de que la influencia de un buen maestro es insustituible, tanto para que los alumnos aprendan, como para valorar el grado en que tal cosa ocurre, o sea, para evaluar.</font></p>     <p align="justify"><font face="verdana" size="2">Valorar el grado en que un alumno tiene los conocimientos y habilidades previstos al final de un ciclo escolar no es sencillo, si se quiere cubrir de manera suficiente las diversas materias o &aacute;reas del curr&iacute;culo y los temas de cada &aacute;rea o materia. La tarea se complica si se quiere conocer el avance del alumno &#150;lo que es esencial para ofrecer retroalimentaci&oacute;n&#150;, ya que la evaluaci&oacute;n deber&aacute; hacerse desde el inicio del ciclo escolar y en varios momentos del mismo, en forma permanente.</font></p>     <p align="justify"><font face="verdana" size="2">Esto &uacute;ltimo es b&aacute;sico si se quiere que la evaluaci&oacute;n sea &uacute;til no s&oacute;lo para detectar el resultado final de un proceso educativo (lo que se conoce como evaluaci&oacute;n sumativa), sino, sobre todo, para contribuir a que el proceso de aprendizaje mejore en toda su extensi&oacute;n, a lo que alude la expresi&oacute;n evaluaci&oacute;n formativa. Si se trata de valorar el avance cotidiano de dos o tres decenas de alumnos, y se quiere tener informaci&oacute;n sobre las circunstancias personales, familiares y sociales de cada uno, para tenerla en cuenta en el momento de tomar decisiones importantes para el futuro de cada uno de ellos, la tarea evaluativa se vuelve compleja.</font></p>     <p align="justify"><font face="verdana" size="2">Como se mencion&oacute; antes, desde los inicios del desarrollo de las pruebas a gran escala, algunos de sus promotores m&aacute;s l&uacute;cidos, como Tyler, se&ntilde;alaban que tambi&eacute;n ese tipo de evaluaciones deb&iacute;an verse como parte del proceso de ense&ntilde;anza&#150;aprendizaje, pero prevaleci&oacute; un enfoque que en realidad las manejaba como un elemento adicional que s&oacute;lo ten&iacute;a lugar al final del mismo.</font></p>     <p align="justify"><font face="verdana" size="2">La distinci&oacute;n entre la evaluaci&oacute;n final y la que tiene lugar a lo largo del proceso, entre <i>evaluaci&oacute;n formativa </i>y <i>sumativa, </i>es reciente.</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">La Teor&iacute;a Cl&aacute;sica de los Tests y las pruebas de rendimiento a gran escala de dise&ntilde;o tradicional se desarrollaron durante la primera mitad del siglo XX; ambas estuvieron marcadas por las concepciones psicol&oacute;gicas y pedag&oacute;gicas de la &eacute;poca, entre las que destacaban corrientes como el conductismo de Skinner. Los avances de las nuevas concepciones psicom&eacute;tricas, de mediados del siglo pasado en adelante, se dieron a su vez en forma paralela a la llamada <i>revoluci&oacute;n cognitiva, </i>de la que se derivan tambi&eacute;n las corrientes pedag&oacute;gicas que se engloban bajo la etiqueta demasiado trillada del <i>constructivismo. </i>Estos desarrollos coinciden en rechazar el planteamiento conductista que reduce el campo de estudio de la psicolog&iacute;a a los fen&oacute;menos m&aacute;s directamente observables, para intentar <i>abrir la caja negra de la mente, </i>explorando los procesos que tienen lugar en su interior, con t&eacute;cnicas como las de <i>pensar en voz alta </i>(Shepard, 2006).</font></p>     <p align="justify"><font face="verdana" size="2">En la medida en que se identifican y exploran los procesos mentales se abren horizontes vastos y atractivos tanto para la pedagog&iacute;a como para las metodolog&iacute;as de evaluaci&oacute;n del aprendizaje, en especial para las que pretendan servir a prop&oacute;sitos <i>formativos, </i>aportando elementos para que maestros y alumnos modifiquen sus acciones en consecuencia, para alcanzar mejores resultados. En este sentido, un importante trabajo sobre la evaluaci&oacute;n en aula apunta elementos importantes en lo que se refiere al potencial formativo de las evaluaciones:</font></p>     <blockquote>       <p align="justify"><font face="verdana" size="2">La evaluaci&oacute;n no puede promover el aprendizaje si se basa en tareas o preguntas que distraen la atenci&oacute;n de los objetivos reales de la ense&ntilde;anza. Hist&oacute;ricamente, las pruebas tradicionales muchas veces orientaban la instrucci&oacute;n en una direcci&oacute;n equivocada, si centraban la atenci&oacute;n en lo que es m&aacute;s f&aacute;cil de medir, en vez de hacerlo en lo que es m&aacute;s importante de aprender (Shepard, 2006, p. 626).</font></p> </blockquote>     <p align="justify"><font face="verdana" size="2">El inter&eacute;s por la evaluaci&oacute;n en aula con prop&oacute;sitos formativos se relaciona con la creciente conciencia de las limitaciones de las pruebas convencionales para tales fines, y con avances paralelos debidos a los expertos en &aacute;reas de contenidos curriculares que, tanto por el rechazo de los efectos de las pruebas usadas para rendici&oacute;n de cuentas, como por los profundos cambios en las concepciones del aprendizaje y del manejo adecuado de los contenidos, comenzaron a desarrollar alternativas a las pruebas para su uso en el aula (Shepard, 2006).</font></p>     <p align="justify"><font face="verdana" size="2">Como se ha dicho, muchos maestros no tienen la competencia necesaria para manejar evaluaciones en aula que sean superiores a las de gran escala en lo relativo a su potencial para retroalimentar su trabajo y el de sus alumnos. Por ello, desde 1989, Silver y Kilpatrick (como se cita en Shepard, 2006, p. 627) sosten&iacute;an que:</font></p>     <blockquote>       <p align="justify"><font face="verdana" size="2">M&aacute;s all&aacute; de la pr&aacute;ctica prevaleciente seg&uacute;n la cual los maestros desarrollan sus propias pruebas para que se parezcan, tanto en forma como en contenido, a las pruebas de opci&oacute;n m&uacute;ltiple externas, deber&iacute;a hacerse un serio esfuerzo para prepararlos m&aacute;s bien para que puedan conducir lecciones de soluci&oacute;n de problemas, y para evaluar la habilidad y las disposiciones de sus alumnos al respecto en el marco de esas lecciones &#91;traducci&oacute;n libre del autor&#93;.</font></p> </blockquote>     <p align="justify"><font face="verdana" size="2">Un trabajo muy reciente presenta un interesante resumen de la forma en que ha evolucionado la definici&oacute;n de evaluaci&oacute;n formativa (Brookhart, 2009).</font></p>     <p align="justify"><font face="verdana" size="2">La idea original que distingue la informaci&oacute;n que se usa para mejorar algo que est&aacute; en proceso, en oposici&oacute;n a la que sirve para valorar el resultado final, la propuso Michael Scriven, en 1967. Este autor se refer&iacute;a a la evaluaci&oacute;n del curr&iacute;culo y de programas educativos. Pronto otros autores cayeron en la cuenta de la importancia de esa distinci&oacute;n que, aunque hoy parece obvia, no se hab&iacute;a manejado expl&iacute;citamente antes del trabajo seminal de Scriven.</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">En 1971 apareci&oacute; el libro de Bloom, Hasting y Madaus, que populariz&oacute; las nociones de evaluaci&oacute;n formativa y sumativa, aplicadas ya al aprendizaje de los alumnos. En esa obra se precisan las diferencias de las evaluaciones que se usan para apoyar decisiones instruccionales, distinguiendo los prop&oacute;sitos formativos y los sumativos, as&iacute; como los de ubicaci&oacute;n y diagn&oacute;stico. Brookhart (2009) subraya que este trabajo a&ntilde;ade al concepto de Scriven un elemento importante: que, adem&aacute;s de <i>ofrecer informaci&oacute;n sobre el proceso de aprendizaje y no s&oacute;lo sobre sus resultados finales, </i>lo que la evaluaci&oacute;n formativa aporta <i>puede servir a los maestros para que tomen mejores decisiones instruccionales.   </i>Puede a&ntilde;adirse que Bloom puso en pr&aacute;ctica sus ideas con el sistema de ense&ntilde;anza Mastery Learning, basado en el modelo de aprendizaje de Carroll.</font></p>     <p align="justify"><font face="verdana" size="2">La noci&oacute;n se desarroll&oacute; con Sadler (1989), para quien no s&oacute;lo el docente puede usar resultados de evaluaci&oacute;n formativa, sino tambi&eacute;n los alumnos. Con este autor el calificativo de <i>formativo </i>se aplica al sustantivo que designa la evaluaci&oacute;n del aprendizaje de los alumnos <i>(assessment) </i>y no, como en Scriven y Bloom, al de <i>evaluation, </i>que se refer&iacute;a a curr&iacute;culos y programas (Brookhart, 2009).</font></p>     <p align="justify"><font face="verdana" size="2">Un paso m&aacute;s en la precisi&oacute;n de la idea de evaluaci&oacute;n formativa se da cuando se destaca la importancia de los aspectos afectivos de la retroalimentaci&oacute;n que se da a los alumnos. Hasta entonces el &eacute;nfasis se pon&iacute;a en los aspectos cognitivos. M&aacute;s recientemente autores como Black y Wiliam (1998), Stiggins (2008) y Brookhart (2009), subrayan esta dimensi&oacute;n.</font></p>     <p align="justify"><font face="verdana" size="2">El &uacute;ltimo autor citado se&ntilde;ala que, hasta hace poco, se consideraba aceptable que s&oacute;lo unos alumnos alcanzaran los objetivos de aprendizaje, mientras muchos no lo lograban. El papel de la evaluaci&oacute;n era distinguir unos de otros, y los criterios para valorar la calidad de las evaluaciones eran su validez y su confiabilidad. Hoy se espera de las escuelas que consigan que todos los alumnos alcancen los niveles de competencia necesarios, lo que obliga a reflexionar sobre las formas apropiadas para evaluar el aprendizaje en este nuevo contexto, lo que tiene que ver con el impacto emocional de la evaluaci&oacute;n sobre los alumnos, Stiggins dice:</font></p>     <blockquote>       <p align="justify"><font face="verdana" size="2">Desde los primeros grados, algunos alumnos... obtienen altos puntajes en las evaluaciones y reciben altas calificaciones. El efecto emocional es que se ven a s&iacute; mismos como capaces de aprender, y se sienten cada vez m&aacute;s confiados... Otros, en cambio, obtienen puntajes bajos en las pruebas y reciben calificaciones malas. Esto los lleva a dudar de su capacidad. La falta de confianza en s&iacute; mismos los priva de las reservas emocionales para correr el riesgo de seguir intentando... Si un alumno se rinde y deja de esforzarse, o incluso si abandona la escuela, eso es visto como un problema del alumno, no de sus maestros o de la escuela. La responsabilidad de &eacute;sta es ofrecer oportunidades de aprendizaje, si los alumnos no las aprovechan, no es responsabilidad del sistema &#91;traducci&oacute;n libre del autor&#93; (2008, p. 7).</font></p> </blockquote>     <p align="justify"><font face="verdana" size="2">Stiggins (2008) a&ntilde;ade que la importancia del cambio de paradigma que implica centrar la atenci&oacute;n en los alumnos, como usuarios privilegiados de los resultados, teniendo en cuenta el impacto afectivo de las evaluaciones, no se puede exagerar:</font></p>     <blockquote>       <p align="justify"><font face="verdana" size="2">Durante d&eacute;cadas los expertos en la mejora escolar han cometido el error de pensar que los adultos del sistema son los usuarios m&aacute;s importantes de las evaluaciones. Hemos cre&iacute;do que si los adultos toman mejores decisiones en lo relativo a la ense&ntilde;anza, las escuelas se volver&aacute;n m&aacute;s eficaces... Pero esta visi&oacute;n pierde de vista la realidad de que los alumnos pueden ser tomadores de decisiones de aprendizaje m&aacute;s importantes que los adultos... Si un alumno decide que cierto aprendizaje est&aacute; fuera de su alcance o que el riesgo de fracaso p&uacute;blico es demasiado grande o amenazador, entonces, hagamos lo que hagamos los adultos, el aprendizaje termina. Por ello la pregunta fundamental para maestros y directores de escuela es: &iquest;qu&eacute; podemos hacer para ayudar a que los alumnos respondan en forma productiva las preguntas anteriores, que los mantengan con esperanza de que el &eacute;xito est&aacute; a su alcance si persisten en el intento? &#91;traducci&oacute;n libre del autor&#93; (p. 8)</font></p> </blockquote>     <p align="justify"><font face="verdana" size="2">Cada una de las etapas del desarrollo de la noci&oacute;n de <i>evaluaci&oacute;n formativa </i>ha aportado algo sustantivo: la idea original de Scriven, que distingue la evaluaci&oacute;n al final o durante el proceso; la aplicaci&oacute;n expl&iacute;cita de la noci&oacute;n a la evaluaci&oacute;n del aprendizaje, y no s&oacute;lo del curr&iacute;culo o programas, por Bloom; la identificaci&oacute;n de los alumnos como destinatarios clave de la informaci&oacute;n, con Sadler; y, finalmente la atenci&oacute;n a la dimensi&oacute;n afectiva, con Brookhart, Black y Wiliam y Stiggins.</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2"><b>V. Conclusi&oacute;n</b></font></p>     <p align="justify"><font face="verdana" size="2">Hacer evaluaci&oacute;n formativa, en el aula o en un nivel m&aacute;s amplio, no es sencillo, pero si no se consigue dar ese giro a la evaluaci&oacute;n, su utilidad como herramienta de mejora ser&aacute; reducida. Por ello, dar a los maestros elementos que les permitan orientar su trabajo de evaluaci&oacute;n en sentido formativo es importante y complejo.</font></p>     <p align="justify"><font face="verdana" size="2">El giro que est&aacute; tomando la evaluaci&oacute;n en nuestro sistema educativo no parece ir en la direcci&oacute;n correcta. Sin desconocer el lado positivo de los avances que se han dado en los &uacute;ltimos a&ntilde;os en M&eacute;xico, en evaluaci&oacute;n educativa, parece que ha llegado el momento de advertir lo anterior. Esta llamada de atenci&oacute;n podr&aacute; ser m&aacute;s productiva si, al mismo tiempo, se propone una alternativa mejor. La direcci&oacute;n alternativa no es otra que la de un sistema de evaluaci&oacute;n que combine de manera m&aacute;s equilibrada evaluaciones a gran escala parsimoniosas y consistentes, con un rico trabajo de evaluaci&oacute;n formativa en aula a cargo de los maestros.</font></p>     <p align="justify"><font face="verdana" size="2">En estos &uacute;ltimos p&aacute;rrafos se desarrolla esta idea, siguiendo de nuevo a Stiggins (2008) en su texto, titulado significativamente <i>Un manifiesto por la evaluaci&oacute;n: Llamada por el desarrollo de sistemas de evaluaci&oacute;n equilibrados.</i></font></p>     <blockquote>       <p align="justify"><font face="verdana" size="2">Un manifiesto es la expresi&oacute;n p&uacute;blica de intenciones, creencias, opiniones o propuestas de pol&iacute;ticas a favor de cierta acci&oacute;n pol&iacute;tica o social. Con frecuencia tan ardientes expresiones se oponen a los valores y pr&aacute;cticas convencionales o dominantes. He decidido difundir este manifiesto porque estoy convencido de que hemos llegado a un punto decisivo en la evoluci&oacute;n de nuestros sistemas educativos, en el que debemos reevaluar, redefinir y redise&ntilde;ar el papel de la evaluaci&oacute;n en el desarrollo de escuelas eficaces. La tarea a emprender es tan importante que exige una urgente acci&oacute;n pedag&oacute;gica, social y pol&iacute;tica &#91;traducci&oacute;n libre del autor&#93; (p. 2).</font></p> </blockquote>     <p align="justify"><font face="verdana" size="2">En las &uacute;ltimas p&aacute;ginas del texto de Stiggins (2008), este autor explica en qu&eacute; consiste su manifiesto, en t&eacute;rminos de la evaluaci&oacute;n total como soluci&oacute;n:</font></p>     <blockquote>       <p align="justify"><font face="verdana" size="2">Hoy entendemos mucho mejor que antes c&oacute;mo usar productivamente la evaluaci&oacute;n.     Debemos     sustituir    los     pasados     sistemas,     marcadamente desequilibrados, por otros que satisfagan las necesidades de informaci&oacute;n de todos los usuarios: sistemas que, a la vez, verifiquen el aprendizaje y lo apoyen, desde el aula hasta la sala de juntas de las autoridades. Para conseguir el equilibrio tan necesario y tan largamente ausente, debemos implementar pr&aacute;cticas de evaluaci&oacute;n en aula que se apoyen en una gama de aproximaciones a la calidad usadas estrat&eacute;gicamente de manera que mantengan la fe de los alumnos en s&iacute; mismos... es tiempo de sustituir la intimidaci&oacute;n de la rendici&oacute;n de cuentas como principal motivaci&oacute;n, por la promesa del &eacute;xito acad&eacute;mico para todos los aprendices, como esa fuerza motivacional. El miedo a veces funciona, pero s&oacute;lo motiva a los que tienen esperanza de tener &eacute;xito. Desafortunadamente, cuando se trata de aprender la desesperanza siempre pesa m&aacute;s que la intimidaci&oacute;n. Una evaluaci&oacute;n en aula efectiva puede y debe servir para promover la esperanza en todos los alumnos &#91;traducci&oacute;n libre del autor&#93; (p. 10).</font></p> </blockquote>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Stiggins (2008) se&ntilde;ala que hoy estamos en condiciones de modificar los sistemas de evaluaci&oacute;n en la direcci&oacute;n correcta; que, gracias a las investigaciones que se han llevado a cabo durante las &uacute;ltimas dos d&eacute;cadas, se cuenta con lo necesario para poner en marcha actividades formativas para maestros que les den la competencia necesaria para hacer buenas evaluaciones, y comenta que las escuelas de educaci&oacute;n deber&iacute;an caminar en esta direcci&oacute;n.</font></p>     <p align="justify"><font face="verdana" size="2">La situaci&oacute;n del sistema educativo mexicano es similar, pero m&aacute;s grave. Por ello la necesidad de equilibrar nuestro sistema de evaluaci&oacute;n es a&uacute;n m&aacute;s apremiante. Stiggins termina su alegato diciendo que tenemos lo necesario, y que la &uacute;nica pregunta que necesita respuesta es una que tambi&eacute;n debe plantearse en M&eacute;xico:</font></p>     <blockquote>       <p align="justify"><font face="verdana" size="2">&iquest;Tendr&aacute;n educadores y dise&ntilde;adores de pol&iacute;ticas la oportunidad de aprender a evaluar productivamente? Hist&oacute;ricamente la respuesta inequ&iacute;voca ha sido: no. A consecuencia de ello, el inmenso potencial de la evaluaci&oacute;n para apoyar el aprendizaje se ha desaprovechado, sin duda incluso ha pasado desapercibido en los niveles m&aacute;s altos de la toma de decisiones. No tiene por qu&eacute; ser as&iacute;. Est&aacute; a nuestro alcance adoptar una nueva visi&oacute;n de una evaluaci&oacute;n de excelencia, que libere la fuente de confianza, motivaci&oacute;n y potencial de aprendizaje que hay en cada alumno. Es tiempo de hacerlo &#91;traducci&oacute;n libre del autor&#93; (Stiggins, 2008, p. 12).</font></p> </blockquote>     <p align="justify"><font face="verdana" size="2">Al revisar la literatura sobre el tema de la evaluaci&oacute;n en aula con prop&oacute;sitos formativos, se hace evidente el creciente inter&eacute;s que despierta en los medios educativos. Las referencias eran raras a fines de la d&eacute;cada de 1980; aumentaron a lo largo de la de 1990, en especial en su segunda parte; y se volvieron numerosas en lo que va del siglo XXI. Un trabajo a&uacute;n no publicado con dos centenares de referencias sobre el tema, en su mayor&iacute;a de la &uacute;ltima d&eacute;cada, est&aacute; a la disposici&oacute;n de las personas interesadas (Mart&iacute;nez Rizo, 2009).</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2"><b>Referencias</b></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Baker E. L. y Choppin, B. H. (1990). Minimum competency testing. En H.J Walberg y H. J. Haertel (Eds.). (1990). <i>The International Encyclopedia of Educational </i>Evaluation (pp. 499&#150;502). Oxford&#150;Nueva York: Pergamon Press.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=7008110&pid=S1607-4041200900020000200001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="verdana" size="2">Black, P. y Wiliam, D. (1998). Assessment and classroom learning. <i>Assessment in Education, 5, 7&#150;74.</i></font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=7008111&pid=S1607-4041200900020000200002&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="verdana" size="2">Bloom, B. S, Hastings, J. T., Madaus, G. F. (Eds.). (1971). <i>Handbook on formative and summative evaluation of student learning. </i>Nueva York: McGraw&#150;Hill.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=7008112&pid=S1607-4041200900020000200003&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="verdana" size="2">Brookhart, S. M. (2009). Editorial. <i>Educational Measurement: Issues and Practice, </i>28 (1), 1&#150;2.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=7008113&pid=S1607-4041200900020000200004&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="verdana" size="2">De Landsheere, G. (1996). <i>La investigaci&oacute;n educativa en el mundo </i>(Trad. G. A. Gallardo Jord&aacute;n). M&eacute;xico: Fondo de Cultura Econ&oacute;mica. (Trabajo original publicado en 1986).</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=7008114&pid=S1607-4041200900020000200005&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="verdana" size="2">Hamilton, L. S., Stecher, B. M. y Klein S. P. (Eds.). (2002). <i>Making sense of test&#150;based accountability in education. </i>Santa Monica, CA: Rand Corporation.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=7008115&pid=S1607-4041200900020000200006&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="verdana" size="2">Klein, S. P. y Hamilton, L. (1999). <i>Large&#150;scale testing. Current practices and new directions. </i>Santa Monica, CA: Rand Education.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=7008116&pid=S1607-4041200900020000200007&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="verdana" size="2">Linn, R. (2000). Assessments and accountability. <i>Educational Researcher, 29 </i>(2), 4&#150;16.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=7008117&pid=S1607-4041200900020000200008&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="verdana" size="2">Mart&iacute;nez, Rizo, F. (2008). <i>Las evaluaciones educativas en Am&eacute;rica Latina </i>(Serie: Cuadernos de Investigaci&oacute;n, No. 32). M&eacute;xico: Instituto Nacional para la Evaluaci&oacute;n de la Educaci&oacute;n.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=7008118&pid=S1607-4041200900020000200009&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="verdana" size="2">Mart&iacute;nez Rizo, F. (2009). <i>Marco de referencia para el proyecto "El uso formativo de la evaluaci&oacute;n para mejorar el aprendizaje". </i>Manuscrito no publicado, Universidad Aut&oacute;noma de Aguascalientes&#150;Instituto de Investigaci&oacute;n, Innovaci&oacute;n y Estudios de Posgrado de la Educaci&oacute;n.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=7008119&pid=S1607-4041200900020000200010&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="verdana" size="2">Mart&iacute;nez Rizo, F. (en prensa). Assessment in the context of educational policy: The case of Latin American Countries. En E. Baker, B. McGaw y P. Paterson (Eds.), <i>International Encyclopedia of Education </i>(3a ed.). Oxford&#150;Nueva York: Elsevier.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=7008120&pid=S1607-4041200900020000200011&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="verdana" size="2">Mathison, S. (2008). A short history of educational assessment and standards&#150;based educational reform. En S. Mathison y E. W. Ross (Eds.), <i>The nature and limits of standards&#150;based reform and assessment </i>(pp. 3&#150;14.). Nueva York: Teachers College Press.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=7008121&pid=S1607-4041200900020000200012&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="verdana" size="2">Oakes, J. y Lipton, M. (2007). <i>Teaching to change the world </i>(3<sup>a</sup> ed.). Nueva York: McGraw Hill.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=7008122&pid=S1607-4041200900020000200013&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="verdana" size="2">Phelps, R. P. (2000). Trends in large&#150;scale testing outside the United States. <i>Educational Measurement: Issues and Practice, </i>19 (1), 11&#150;21.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=7008123&pid=S1607-4041200900020000200014&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="verdana" size="2">Popham, W. J. (2001).   Interview: James Popham. <i>Frontline. </i>Consultado el 7 de octubre de 2009, en: <a href="http://www.pbs.org/wgbh/pages/frontline/shows/schools/interviews/popham.html" target="_blank">http://www.pbs.org/wgbh/pages/frontline/shows/schools/interviews/popham.html</a></font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=7008124&pid=S1607-4041200900020000200015&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="verdana" size="2">Popham, W. J. (2008). Standards&#150;based education: Two wrongs don't make a right. En S. Mathison y E. W. Ross (Eds.), <i>The nature and limits of standards&#150;based reform and assessment </i>(pp. 15&#150;25). Nueva York: Teachers College Press.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=7008125&pid=S1607-4041200900020000200016&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="verdana" size="2">Postlethwaite, N. (1985). International association for the evaluation of educational achievement (IEA). En T. Hus&eacute;n y N. Postlethawite (Eds.), <i>International encyclopedia of education </i>(pp. 2645&#150;2646). Nueva York: Pergamon Press.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=7008126&pid=S1607-4041200900020000200017&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="verdana" size="2">Sadler, D. R. (1989). Formative assessment and the design of instructional systems. <i>Instructional Science, 18, </i>119&#150;144.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=7008127&pid=S1607-4041200900020000200018&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="verdana" size="2">Scriven, M. (1967). The methodology of evaluation. En R. Tyler, R. Gagne y M. Scriven (Eds.), <i>Perspectives of curriculum evaluation </i>(pp. 39&#150;83). Chicago, IL: Rand McNally.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=7008128&pid=S1607-4041200900020000200019&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="verdana" size="2">Shepard, L. A. (2006). Classroom assessment. En R. L. Brennan (Ed.), <i>Educational measurement </i>(4a. ed., pp. 623&#150;646). Westport, CT, Estados Unidos: Praeger.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=7008129&pid=S1607-4041200900020000200020&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="verdana" size="2">Stiggins, R. (2008). <i>Assessment manifesto: A call for the development of balanced assessment systems. </i>Portland, Estados Unidos: ETS Assessment Training Institute.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=7008130&pid=S1607-4041200900020000200021&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --> ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Baker]]></surname>
<given-names><![CDATA[E. L.]]></given-names>
</name>
<name>
<surname><![CDATA[Choppin]]></surname>
<given-names><![CDATA[B. H.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Minimum competency testing]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Walberg]]></surname>
<given-names><![CDATA[H.J]]></given-names>
</name>
<name>
<surname><![CDATA[Haertel]]></surname>
<given-names><![CDATA[H. J.]]></given-names>
</name>
</person-group>
<source><![CDATA[The International Encyclopedia of Educational Evaluation]]></source>
<year>1990</year>
<month>19</month>
<day>90</day>
<page-range>499-502</page-range><publisher-loc><![CDATA[OxfordNueva York ]]></publisher-loc>
<publisher-name><![CDATA[Pergamon Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Black]]></surname>
<given-names><![CDATA[P.]]></given-names>
</name>
<name>
<surname><![CDATA[Wiliam]]></surname>
<given-names><![CDATA[D.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Assessment and classroom learning]]></article-title>
<source><![CDATA[Assessment in Education]]></source>
<year>1998</year>
<volume>5</volume>
<page-range>7-74</page-range></nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Bloom]]></surname>
<given-names><![CDATA[B. S]]></given-names>
</name>
<name>
<surname><![CDATA[Hastings]]></surname>
<given-names><![CDATA[J. T.]]></given-names>
</name>
<name>
<surname><![CDATA[Madaus]]></surname>
<given-names><![CDATA[G. F.]]></given-names>
</name>
</person-group>
<source><![CDATA[Handbook on formative and summative evaluation of student learning]]></source>
<year>1971</year>
<publisher-loc><![CDATA[Nueva York ]]></publisher-loc>
<publisher-name><![CDATA[McGraw-Hill]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Brookhart]]></surname>
<given-names><![CDATA[S. M.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Editorial]]></article-title>
<source><![CDATA[Educational Measurement: Issues and Practice]]></source>
<year>2009</year>
<volume>28</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>1-2</page-range></nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[De Landsheere]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
<name>
<surname><![CDATA[Gallardo Jordán]]></surname>
<given-names><![CDATA[G. A.]]></given-names>
</name>
</person-group>
<source><![CDATA[La investigación educativa en el mundo]]></source>
<year>1996</year>
<publisher-name><![CDATA[Fondo de Cultura Económica]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hamilton]]></surname>
<given-names><![CDATA[L. S.]]></given-names>
</name>
<name>
<surname><![CDATA[Stecher]]></surname>
<given-names><![CDATA[B. M.]]></given-names>
</name>
<name>
<surname><![CDATA[Klein]]></surname>
<given-names><![CDATA[S. P.]]></given-names>
</name>
</person-group>
<source><![CDATA[Making sense of test-based accountability in education]]></source>
<year>2002</year>
<publisher-loc><![CDATA[Santa Monica^eCA CA]]></publisher-loc>
<publisher-name><![CDATA[Rand Corporation]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Klein]]></surname>
<given-names><![CDATA[S. P.]]></given-names>
</name>
<name>
<surname><![CDATA[Hamilton]]></surname>
<given-names><![CDATA[L.]]></given-names>
</name>
</person-group>
<source><![CDATA[Large-scale testing: Current practices and new directions]]></source>
<year>1999</year>
<publisher-loc><![CDATA[Santa Monica^eCA CA]]></publisher-loc>
<publisher-name><![CDATA[Rand Education]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Linn]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Assessments and accountability]]></article-title>
<source><![CDATA[Educational Researcher]]></source>
<year>2000</year>
<volume>29</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>4-16</page-range></nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Martínez, Rizo]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
</person-group>
<source><![CDATA[Las evaluaciones educativas en América Latina]]></source>
<year>2008</year>
<volume>32</volume>
<publisher-name><![CDATA[Instituto Nacional para la Evaluación de la Educación]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Martínez Rizo]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
</person-group>
<source><![CDATA["El uso formativo de la evaluación para mejorar el aprendizaje"]]></source>
<year>2009</year>
<publisher-name><![CDATA[Universidad Autónoma de Aguascalientes-Instituto de Investigación, Innovación y Estudios de Posgrado de la Educación.]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Martínez Rizo]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Assessment in the context of educational policy: The case of Latin American Countries]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Baker]]></surname>
<given-names><![CDATA[E.]]></given-names>
</name>
<name>
<surname><![CDATA[McGaw]]></surname>
<given-names><![CDATA[B.]]></given-names>
</name>
<name>
<surname><![CDATA[Paterson]]></surname>
<given-names><![CDATA[P.]]></given-names>
</name>
</person-group>
<source><![CDATA[International Encyclopedia of Education]]></source>
<year></year>
<edition>3</edition>
<publisher-loc><![CDATA[OxfordNueva York ]]></publisher-loc>
<publisher-name><![CDATA[Elsevier]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Mathison]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A short history of educational assessment and standards-based educational reform.]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Mathison]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
<name>
<surname><![CDATA[Ross]]></surname>
<given-names><![CDATA[E. W.]]></given-names>
</name>
</person-group>
<source><![CDATA[The nature and limits of standards-based reform and assessment]]></source>
<year>2008</year>
<page-range>3-14</page-range><publisher-loc><![CDATA[Nueva York ]]></publisher-loc>
<publisher-name><![CDATA[Teachers College Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Oakes]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[Lipton]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
</person-group>
<source><![CDATA[Teaching to change the world]]></source>
<year>2007</year>
<edition>3ª</edition>
<publisher-loc><![CDATA[Nueva York ]]></publisher-loc>
<publisher-name><![CDATA[McGraw Hill]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Phelps]]></surname>
<given-names><![CDATA[R. P.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Trends in large-scale testing outside the United States]]></article-title>
<source><![CDATA[Educational Measurement: Issues and Practice]]></source>
<year>2000</year>
<volume>19</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>11-21</page-range></nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Popham]]></surname>
<given-names><![CDATA[W. J.]]></given-names>
</name>
</person-group>
<source><![CDATA[Interview: James Popham. Frontline]]></source>
<year>2001</year>
</nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Popham]]></surname>
<given-names><![CDATA[W. J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Standards-based education: Two wrongs don't make a right.]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Mathison]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
<name>
<surname><![CDATA[Ross]]></surname>
<given-names><![CDATA[E. W.]]></given-names>
</name>
</person-group>
<source><![CDATA[The nature and limits of standards-based reform and assessment]]></source>
<year>2008</year>
<page-range>15-25</page-range><publisher-loc><![CDATA[Nueva York ]]></publisher-loc>
<publisher-name><![CDATA[Teachers College Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B17">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Postlethwaite]]></surname>
<given-names><![CDATA[N.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[International association for the evaluation of educational achievement (IEA)]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Husén]]></surname>
<given-names><![CDATA[T.]]></given-names>
</name>
<name>
<surname><![CDATA[Postlethawite]]></surname>
<given-names><![CDATA[N.]]></given-names>
</name>
</person-group>
<source><![CDATA[International encyclopedia of education]]></source>
<year>1985</year>
<page-range>2645-2646</page-range><publisher-loc><![CDATA[Nueva York ]]></publisher-loc>
<publisher-name><![CDATA[Pergamon Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B18">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Sadler]]></surname>
<given-names><![CDATA[D. R.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Formative assessment and the design of instructional systems.]]></article-title>
<source><![CDATA[Instructional Science]]></source>
<year>1989</year>
<volume>18</volume>
<page-range>119-144</page-range></nlm-citation>
</ref>
<ref id="B19">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Scriven]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[The methodology of evaluation]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Tyler]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[Gagne]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[Scriven]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
</person-group>
<source><![CDATA[Perspectives of curriculum evaluation]]></source>
<year>1967</year>
<page-range>39-83</page-range><publisher-loc><![CDATA[Chicago^eIL IL]]></publisher-loc>
<publisher-name><![CDATA[Rand McNally]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B20">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Shepard]]></surname>
<given-names><![CDATA[L. A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Classroom assessment]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Brennan]]></surname>
<given-names><![CDATA[R. L.]]></given-names>
</name>
</person-group>
<source><![CDATA[Educational measurement]]></source>
<year>2006</year>
<edition>4</edition>
<page-range>623-646</page-range><publisher-loc><![CDATA[Westport^eCT CT]]></publisher-loc>
<publisher-name><![CDATA[Praeger]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B21">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Stiggins]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<source><![CDATA[Assessment manifesto: A call for the development of balanced assessment systems]]></source>
<year>2008</year>
<publisher-loc><![CDATA[Portland ]]></publisher-loc>
<publisher-name><![CDATA[ETS Assessment Training Institute]]></publisher-name>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
