<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>0185-2698</journal-id>
<journal-title><![CDATA[Perfiles educativos]]></journal-title>
<abbrev-journal-title><![CDATA[Perfiles educativos]]></abbrev-journal-title>
<issn>0185-2698</issn>
<publisher>
<publisher-name><![CDATA[Universidad Nacional Autónoma de México, Instituto de Investigaciones sobre la Universidad y la Educación]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S0185-26982011000100009</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Una reseña sobre la validez de constructo de pruebas referidas a criterio]]></article-title>
<article-title xml:lang="en"><![CDATA[A report concerning the validity of theoretical construction for proofs referred to criteria]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Leyva Barajas]]></surname>
<given-names><![CDATA[Yolanda Edith]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Instituto Internacional de Investigación de Tecnología Educativa, S.C.  ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>00</month>
<year>2011</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>00</month>
<year>2011</year>
</pub-date>
<volume>33</volume>
<numero>131</numero>
<fpage>131</fpage>
<lpage>154</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://www.scielo.org.mx/scielo.php?script=sci_arttext&amp;pid=S0185-26982011000100009&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.mx/scielo.php?script=sci_abstract&amp;pid=S0185-26982011000100009&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.mx/scielo.php?script=sci_pdf&amp;pid=S0185-26982011000100009&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[El presente artículo es una reseña de los conceptos y métodos que han guiado la construcción de pruebas educativas a gran escala para una variedad de propósitos en la actualidad. Inicia con antecedentes de la evaluación referida a criterio y se desarrolla el tema de la metodología para la construcción de pruebas criteriales, destacando la importancia de la definición del dominio a evaluar y del establecimiento de estándares o puntos de corte que permitan diferenciar niveles de competencia dentro de este dominio, para lo cual se revisan los métodos desarrollados y las tendencias actuales. Se concluye con una reflexión sobre la importancia de establecer líneas de investigación que garanticen la confiabilidad y validez de estas pruebas, para asegurar que las inferencias que se hacen a partir de sus resultados, sirvan como indicadores de calidad del aprendizaje y como apoyo a las decisiones de mejora para las que fueron construidas.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[This article is a report on the concepts and methods that have guided the construction of large-scale educational tests for several purposes. It starts with precedents for evaluation criteria and the methodology to construct criteria tests. The article highlights the relevance of the definition of the domain to be evaluated, and the establishment of standards that allow differential levels of competence in this domain. To do so, the methods developed are reviewed as well as the current tendencies. It concludes with a reflection about the importance of establishing research lines that guaranty the reliability and validity of these tests, so it can be ensured that the inferences that are made from the results are useful as quality learning indicators and as a support for improving decisions, which are the reason these tests were designed.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[Evaluación criterial]]></kwd>
<kwd lng="es"><![CDATA[competencias]]></kwd>
<kwd lng="es"><![CDATA[estándares]]></kwd>
<kwd lng="es"><![CDATA[puntos de corte]]></kwd>
<kwd lng="es"><![CDATA[validez]]></kwd>
<kwd lng="es"><![CDATA[pruebas educativas]]></kwd>
<kwd lng="en"><![CDATA[Evaluation criteria]]></kwd>
<kwd lng="en"><![CDATA[competencies]]></kwd>
<kwd lng="en"><![CDATA[standards]]></kwd>
<kwd lng="en"><![CDATA[cutpoints]]></kwd>
<kwd lng="en"><![CDATA[validity]]></kwd>
<kwd lng="en"><![CDATA[educational t]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="justify"><font face="verdana" size="4"><b>Horizontes</b></font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="center"><font face="verdana" size="4"><b>Una rese&ntilde;a sobre la validez de constructo de pruebas referidas a criterio</b></font></p>     <p align="center"><font face="verdana" size="2">&nbsp;</font></p>     <p align="center"><font face="verdana" size="3"><b>A report concerning the validity of theoretical construction for proofs referred to criteria</b></font></p>     <p align="center"><font face="verdana" size="2">&nbsp;</font></p>     <p align="center"><font face="verdana" size="2"><b>Yolanda Edith Leyva Barajas</b></font></p>     <p align="center"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2"> <i>Doctora en Educaci&oacute;n. Licenciada en Psicolog&iacute;a y maestra en An&aacute;lisis Experimental de la Conducta por la Facultad de Psicolog&iacute;a de la UNAM. Actualmente es directora de evaluaci&oacute;n y certificaci&oacute;n en el Instituto Internacional de Investigaci&oacute;n de Tecnolog&iacute;a Educativa, S.C.; miembro de la Red Iberoamericana de Investigadores sobre la Evaluaci&oacute;n de la Docencia.</i> <i>Catedr&aacute;tica invitada de la Universidad de Valencia. &Uuml;ltimas publicaciones: (2009), Jes&uacute;s M. Jornet y Yolanda E. Leyva (coords.), Conceptos, metodolog&iacute;a y profesionalizaci&oacute;n en la evaluaci&oacute;n educativa, M&eacute;xico, INITE; (2010), "La evaluaci&oacute;n como recurso estrat&eacute;gico para la mejora de la pr&aacute;ctica docente ante los retos de una educaci&oacute;n basada en competencias", Revista Iberoamericana de Evaluaci&oacute;n Educativa, vol. 3, n&uacute;m. 1, pp. 232&#150;245.</i> CE: <a href="mailto:yolanda.leyva@inite.edu.mx">yolanda.leyva@inite.edu.mx</a></font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Recepci&oacute;n: 6 de abril de 2010    <br> Aceptaci&oacute;n: 9 de junio de 2010</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2"><b>Resumen:</b></font></p>     <p align="justify"><font face="verdana" size="2">El presente art&iacute;culo es una rese&ntilde;a de los conceptos y m&eacute;todos que han guiado la construcci&oacute;n de pruebas educativas a gran escala para una variedad de prop&oacute;sitos en la actualidad. Inicia con antecedentes de la evaluaci&oacute;n referida a criterio y se desarrolla el tema de la metodolog&iacute;a para la construcci&oacute;n de pruebas criteriales, destacando la importancia de la definici&oacute;n del dominio a evaluar y del establecimiento de est&aacute;ndares o puntos de corte que permitan diferenciar niveles de competencia dentro de este dominio, para lo cual se revisan los m&eacute;todos desarrollados y las tendencias actuales. Se concluye con una reflexi&oacute;n sobre la importancia de establecer l&iacute;neas de investigaci&oacute;n que garanticen la confiabilidad y validez de estas pruebas, para asegurar que las inferencias que se hacen a partir de sus resultados, sirvan como indicadores de calidad del aprendizaje y como apoyo a las decisiones de mejora para las que fueron construidas.</font></p>     <p align="justify"><font face="verdana" size="2"><b>Palabras clave: </b>Evaluaci&oacute;n criterial, competencias, est&aacute;ndares, puntos de corte, validez, pruebas educativas.</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2"><b>Abstract:</b></font></p>     <p align="justify"><font face="verdana" size="2">This article is a report on the concepts and methods that have guided the construction of large&#150;scale educational tests for several purposes. It starts with precedents for evaluation criteria and the methodology to construct criteria tests. The article highlights the relevance of the definition of the domain to be evaluated, and the establishment of standards that allow differential levels of competence in this domain. To do so, the methods developed are reviewed as well as the current tendencies. It concludes with a reflection about the importance of establishing research lines that guaranty the reliability and validity of these tests, so it can be ensured that the inferences that are made from the results are useful as quality learning indicators and as a support for improving decisions, which are the reason these tests were designed.</font></p>     <p align="justify"><font face="verdana" size="2"><b>Keywords: </b>Evaluation criteria, competencies, standards, cutpoints, validity, educational tests.</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2"><b>Introducci&oacute;n</b></font></p>     <p align="justify"><font face="verdana" size="2">La importancia de este art&iacute;culo radica en brindar un marco conceptual y metodol&oacute;gico para ayudar a comprender qu&eacute; son las pruebas criteriales, c&oacute;mo se construyen, c&oacute;mo y para qu&eacute; se aplican, c&oacute;mo se fundamenta la interpretaci&oacute;n de los resultados que se obtienen a partir de ellas y cu&aacute;les son sus principales usos; es decir, para qu&eacute; sirven. Este tipo de pruebas, tanto internacionales como nacionales, se han venido aplicando en M&eacute;xico en las &uacute;ltimas d&eacute;cadas y a&uacute;n se sabe poco de ellas inclusive dentro del &aacute;mbito educativo. Entre las pruebas criteriales m&aacute;s representativas que se aplican en nuestro pa&iacute;s, est&aacute;n los Ex&aacute;menes Generales para el Egreso de Licenciatura (EGEL) del Centro Nacional para la Evaluaci&oacute;n de la Educaci&oacute;n Superior (CENEVAL); los ex&aacute;menes de la Calidad y el Logro Educativos (EXCALE) del Instituto Nacional para la Evaluaci&oacute;n de la Educaci&oacute;n (INEE); y la prueba para la Evaluaci&oacute;n Nacional de Logro Acad&eacute;mico en Centros Escolares (ENLACE) que aplica la Secretar&iacute;a de Educaci&oacute;n P&uacute;blica. Entre las internacionales est&aacute; el Programa para la evaluaci&oacute;n internacional de alumnos <i>(Programme for International Student Assessment, </i>pisa por sus siglas en ingl&eacute;s), y la prueba del Segundo Estudio Regional Comparativo y Explicativo (SERCE) del proyecto coordinado por la oficina regional de educaci&oacute;n de la UNESCO para Am&eacute;rica Latina y el Caribe, entre otras.</font></p>     <p align="justify"><font face="verdana" size="2">El desarrollo del campo de las pruebas criteriales en M&eacute;xico es relativamente reciente y existen s&oacute;lo algunas experiencias documentadas acerca de estudios de validez apropiados a este tipo de pruebas. En la literatura de pa&iacute;ses con una gran tradici&oacute;n en su uso para evaluaci&oacute;n a gran escala, como es el caso de Estados Unidos, en los primeros a&ntilde;os de aplicaciones (de los sesenta a los ochenta), todav&iacute;a algunos evaluadores asum&iacute;an que la validez de las mediciones de una prueba criterial consist&iacute;a s&oacute;lo en demostrar de manera formal la validez de contenido, concediendo menor importancia a las condiciones bajo las cuales se aplicaban, al uso que se hac&iacute;a de sus resultados y a las decisiones que depend&iacute;an de estos resultados. El panorama actual ha evolucionado hacia la creaci&oacute;n de nuevas l&iacute;neas de investigaci&oacute;n educativa orientadas a la validaci&oacute;n de una gran variedad de pruebas criteriales vinculadas a otras de las ciencias cognoscitivas.</font></p>     <p align="justify"><font face="verdana" size="2">Una revisi&oacute;n de la publicaci&oacute;n acerca de los est&aacute;ndares de calidad para la construcci&oacute;n de pruebas psicol&oacute;gicas y educativas publicado en 1999 por la <i>American Psychological Association </i>(APA), la <i>American Educational Research Association </i>(AERA) y el <i>National Council on Measurement in Education </i>(NCME) permite dimensionar la importancia de incluir programas de investigaci&oacute;n en la agenda de la evaluaci&oacute;n en nuestro pa&iacute;s, ya que en estos documentos se destaca que la consideraci&oacute;n fundamental de cualquier proceso de evaluaci&oacute;n es la validez. En esta publicaci&oacute;n se atienden aspectos de la validez de pruebas con referencia a criterio considerando los diversos &aacute;ngulos del problema de sesgo que pueden afectar los derechos de las personas y la equidad. Se atienden tambi&eacute;n otros avances t&eacute;cnicos recientes de especial inter&eacute;s para los organismos que aplican pruebas a gran escala, como es el caso de integrar el uso de teor&iacute;as de medici&oacute;n m&aacute;s actualizadas, por el tipo de informaci&oacute;n que proporcionan para la mejora continua de estos instrumentos.</font></p>     <p align="justify"><font face="verdana" size="2">De acuerdo con estos est&aacute;ndares de calidad, la validez depende de factores tales como la intenci&oacute;n espec&iacute;fica de la prueba, el procedimiento usado en su construcci&oacute;n, las condiciones de la colecci&oacute;n de los datos, y los procedimientos de enjuiciamiento y medici&oacute;n; as&iacute; como del an&aacute;lisis de los procedimientos empleados y las caracter&iacute;sticas de las personas que proporcionan los datos y la informaci&oacute;n. Por todo ello se pueden identificar fuentes de evidencia que permiten aclarar diversos factores que pueden afectar la validez (AERA, APA, NCME, 1999).</font></p>     <p align="justify"><font face="verdana" size="2">Como parte de esta reflexi&oacute;n sobre la validez, conviene considerar el reto que representa la evaluaci&oacute;n de competencias, lo cual demanda la medici&oacute;n de un constructo te&oacute;rico m&aacute;s general, lo que a su vez implica la incorporaci&oacute;n de una red te&oacute;rica m&aacute;s amplia y comprensiva. Esto conduce a abordar el problema de la validez no s&oacute;lo en t&eacute;rminos de una o m&aacute;s correlaciones con criterios, como en la pr&aacute;ctica tradicional de validez predictiva y concurrente, o en t&eacute;rminos de juicios del grado en el cual se ha logrado representar un dominio, como en la pr&aacute;ctica com&uacute;n de validez de contenido. El campo de la validez se integra, como ya lo hab&iacute;an referido Cronbach (1971) y Messick (1975), con prueba de hip&oacute;tesis y con todos los medios emp&iacute;ricos y filos&oacute;ficos mediante los cuales se eval&uacute;an las teor&iacute;as cient&iacute;ficas.</font></p>     <p align="justify"><font face="verdana" size="2">Se ofrece tambi&eacute;n una reflexi&oacute;n acerca de las implicaciones que tiene esta orientaci&oacute;n del concepto de validez para la construcci&oacute;n, administraci&oacute;n y uso de pruebas criteriales, ya que los investigadores se han orientado a tender un v&iacute;nculo entre la validaci&oacute;n de pruebas educativas y el campo de investigaci&oacute;n de la psicolog&iacute;a cognoscitiva, como es el caso de las l&iacute;neas de investigaci&oacute;n propuestas por Shavelson y Ruiz&#150;Primo (2000) para obtener validez cognoscitiva, las cuales prometen evidencias m&aacute;s s&oacute;lidas para la generalizaci&oacute;n de los resultados en el &aacute;mbito de la evaluaci&oacute;n de competencias. Un ejemplo de este tipo de investigaci&oacute;n es presentado por Leyva (2004) al integrar un marco te&oacute;rico acerca de estudios de investigaci&oacute;n que se han realizado para validez de constructo de la evaluaci&oacute;n de competencias m&eacute;dicas y que ejemplifican el tipo de v&iacute;nculos con l&iacute;neas de investigaci&oacute;n de las ciencias cognoscitivas, adem&aacute;s de una propuesta de estudios de investigaci&oacute;n realizados a partir de los resultados de la aplicaci&oacute;n del EGEL de Medicina del CENEVAL, para la validaci&oacute;n tanto de la definici&oacute;n y estructura del dominio de la prueba, como de los puntos de corte para diferenciar niveles de desempe&ntilde;o o competencia.</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2"><b>Antecedentes de la evaluaci&oacute;n referida a criterio</b></font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Existe coincidencia en la literatura de evaluaci&oacute;n a gran escala, en situar a Glaser como el autor del primer art&iacute;culo publicado con el tema de evaluaci&oacute;n referida a criterio, debido principalmente a que es el primero en plantear lo inadecuado de sustentar una variedad de decisiones acerca de programas instruccionales basados en objetivos o en competencias, a partir de mediciones obtenidas con las tradicionales pruebas normativas; el mismo Glaser, no obstante, se&ntilde;ala que Flanagan en 1951 y Ebel en 1962 hab&iacute;an hecho una distinci&oacute;n entre evaluaci&oacute;n normativa y criterial (Glaser, 1963). A partir de mediados de los a&ntilde;os sesenta, se pueden encontrar en la literatura diversas definiciones de lo que es una prueba referida a criterio, entre las que destacan, por sus contribuciones al campo, la de Glaser y Nitko (1971), quienes enfatizan que una prueba criterial sirve para obtener mediciones directamente interpretables en t&eacute;rminos de realizaciones est&aacute;ndar concretas, es decir, lo que el sustentante puede o no realizar; y la de Popham (1978), quien refer&iacute;a el uso de estas pruebas para determinar la posici&oacute;n de un individuo con respecto a un dominio perfectamente definido.</font></p>     <p align="justify"><font face="verdana" size="2">En cuanto a su uso, Hambleton y Swaminathan (1978) se&ntilde;alan que las evaluaciones referidas a criterio sirven para guiar el proceso individual en programas basados en objetivos de aprendizaje, comprobar el rendimiento de los alumnos, diagnosticar deficiencias de aprendizaje, evaluar programas educativos y de acci&oacute;n social y para verificar el logro de competencias con fines de certificaci&oacute;n u otorgamiento de licencias. En este tipo de evaluaci&oacute;n, la apreciaci&oacute;n del grado con que un sustentante cumple con los objetivos de la ense&ntilde;anza se lleva a cabo en funci&oacute;n de su desempe&ntilde;o, sin compararle con el de sus compa&ntilde;eros.</font></p>     <p align="justify"><font face="verdana" size="2">Aunque existen algunas variantes en la definici&oacute;n del concepto de evaluaci&oacute;n criterial, hay acuerdo en que sirve para comprobar el rendimiento mediante la apreciaci&oacute;n de las realizaciones personales respecto de los objetivos logrados, sin compararlas con las del grupo al que pertenece, facilitando as&iacute; el diagn&oacute;stico de dificultades, la programaci&oacute;n de las actividades de recuperaci&oacute;n y la toma de decisiones de promoci&oacute;n de nivel o de certificaci&oacute;n de cada individuo evaluado.</font></p>     <p align="justify"><font face="verdana" size="2">Otros autores importantes que aportaron herramientas conceptuales al campo fueron Popham y Husek (1969), con una aclaraci&oacute;n importante al destacar que el t&eacute;rmino <b><i>criterio </i></b>&#151;de las pruebas criteriales&#151; se refiere a un dominio de conductas bien definido y no s&oacute;lo al hecho de haber establecido un est&aacute;ndar de ejecuci&oacute;n o un punto de corte. En cuanto a la interpretaci&oacute;n de la ejecuci&oacute;n o desempe&ntilde;o de un individuo, es correcto hacer una interpretaci&oacute;n de tipo descriptivo, o bien establecer alg&uacute;n est&aacute;ndar o punto de corte contra el cual contrastar dicha ejecuci&oacute;n, lo cual ser&aacute; posible siempre que se haya definido adecuadamente el marco l&oacute;gico contra el cual se va a contrastar tal ejecuci&oacute;n o desempe&ntilde;o, es decir, que la adecuada definici&oacute;n del dominio resulta indispensable. Desde luego la decisi&oacute;n de establecer un punto de corte o hacer una interpretaci&oacute;n descriptiva depende del prop&oacute;sito de la prueba, como se puede apreciar en las distintas pruebas que se aplican en la actualidad.</font></p>     <p align="justify"><font face="verdana" size="2">Una confusi&oacute;n frecuente en este campo es la relativa a las diversas denominaciones que se han empleado en la literatura para referirse a pruebas que presentan pocas o ninguna diferencia con las pruebas referidas a criterio (las denominadas <b><i>pruebas de maestr&iacute;a, </i></b>o las pruebas <b><i>referidas a dominio, </i></b>y las <b><i>referidas a objetivos). </i></b>Si se adopta la definici&oacute;n de Popham (1978), no existen diferencias esenciales entre ellas; finalmente todas se constituyen de reactivos que emparejan con objetivos. La distinci&oacute;n principal entre pruebas <b><i>referidas a objetivos </i></b>y las <b><i>referidas a criterio </i></b>es que en estas &uacute;ltimas los &iacute;tems son un conjunto representativo de un dominio claramente definido de conductas que miden un objetivo, mientras que en las pruebas referidas a objetivos no siempre se especifica un dominio de conductas, por lo que no se considera que los &iacute;tems sean representativos de alg&uacute;n dominio conductual (Hambleton y Swaminathan, 1978).</font></p>     <p align="justify"><font face="verdana" size="2">Actualmente existen pocas dudas respecto de la necesidad de emplear pruebas con especificaciones cualitativamente diferentes a aqu&eacute;llas que t&iacute;picamente se han empleado para el dise&ntilde;o de una prueba referida a norma, y existe acuerdo en que las caracter&iacute;sticas m&aacute;s destacadas y comunes a lo que se ha dado en considerar una prueba referida a criterio son:</font></p>     <blockquote>       <p align="justify"><font face="verdana" size="2">1. Requiere la definici&oacute;n clara y exhaustiva de un dominio objetivo a evaluar.</font></p>       <p align="justify"><font face="verdana" size="2">2. Permite averiguar la posici&oacute;n de un sujeto respecto del dominio de una conducta bien definida que manifieste el aprendizaje de un alumno.</font></p>       <p align="justify"><font face="verdana" size="2">3. La interpretaci&oacute;n del rendimiento es directa: la ejecuci&oacute;n que realiza el alumno indica su grado de dominio o competencia, independientemente de lo que hagan otros sujetos.</font></p>       ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">4. El criterio o est&aacute;ndar en el cual se basa tiene un car&aacute;cter absoluto, es decir que no est&aacute; condicionado por el nivel de ejecuci&oacute;n de un grupo. Es la descripci&oacute;n de la clase de conducta que el alumno puede o no manifestar.</font></p>       <p align="justify"><font face="verdana" size="2">5. El l&iacute;mite en que se basa la toma de decisiones que afectan al proceso educativo se establece de manera descriptiva, indicando el grado de dominio alcanzado o bien especificando un punto que se toma como <i>punto de corte, </i>o <i>nivel m&iacute;nimo de dominio.</i></font></p>       <p align="justify"><font face="verdana" size="2">6. Permite retroalimentar la intervenci&oacute;n en el proceso educativo de manera inmediata.</font></p> </blockquote>     <p align="justify"><font face="verdana" size="2">En t&eacute;rminos metodol&oacute;gicos las pruebas referidas a criterio son especialmente &uacute;tiles cuando se trabaja con unidades de aprendizaje muy concretas, es decir, aqu&eacute;llas al servicio de la evaluaci&oacute;n formativa (Jornet y Su&aacute;rez, 1994); no obstante, en este art&iacute;culo se destaca su utilidad para la evaluaci&oacute;n sumativa aplicada a cursos escolares completos o incluso a periodos m&aacute;s largos aplicada a grandes poblaciones, como es el caso de las pruebas a gran escala que se est&aacute;n aplicando actualmente en todo el mundo. Esta utilidad radica en su capacidad para:</font></p>     <blockquote>       <p align="justify"><font face="verdana" size="2">1. Determinar el nivel de aprendizaje alcanzado por un alumno y, en funci&oacute;n del mismo, asignarle una calificaci&oacute;n o emitir un juicio de acreditaci&oacute;n acad&eacute;mica.</font></p>       <p align="justify"><font face="verdana" size="2">2. Certificar que un determinado alumno posee, al menos en el momento de la evaluaci&oacute;n, ciertas destrezas, conocimientos, habilidades o competencias.</font></p>       <p align="justify"><font face="verdana" size="2">3. Predecir el &eacute;xito de un alumno en un curso posterior relacionado con la misma materia. Para que dicha predicci&oacute;n quede garantizada, el alumno al menos debe superar el punto de corte de aquellos objetivos que se consideran b&aacute;sicos, por su papel de conectores con los aprendizajes posteriores.</font></p>       <p align="justify"><font face="verdana" size="2">4. Indicar a los profesores, planeadores y autoridades educativas problemas de programaci&oacute;n y secuenciaci&oacute;n de &aacute;reas o temas en el curr&iacute;culo escolar.</font></p>       <p align="justify"><font face="verdana" size="2">5. Informar a los alumnos sobre su progreso en el aprendizaje, indicando los aspectos m&aacute;s logrados y los m&aacute;s deficientes.</font></p> </blockquote>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2"><b>Construcci&oacute;n de las pruebas criteriales a gran escala</b></font></p>     <p align="justify"><font face="verdana" size="2">Dado que las pruebas criteriales son construidas con la finalidad de apoyar generalizaciones v&aacute;lidas respecto del desempe&ntilde;o de los individuos en relaci&oacute;n con dominios especificados de contenido o de conducta, Hambleton (1985) y Popham (1978) han enfatizado que los objetivos conductuales por s&iacute; mismos no son suficientes para una especificaci&oacute;n detallada de los reactivos de la prueba. Las especificaciones de los reactivos, seg&uacute;n Popham (1978), deben dividirse en cuatro partes: descripci&oacute;n de un objetivo conductual; direcci&oacute;n y ejemplos de los tipos de reactivos a incluir; acotaci&oacute;n y limitaciones respecto de la amplitud y dificultad del contenido; y descripci&oacute;n del tipo de respuestas esperadas, as&iacute; como de respuestas incorrectas. Con base en la investigaci&oacute;n desarrollada en el campo durante m&aacute;s de dos d&eacute;cadas, Hambleton (1995) presenta una propuesta metodol&oacute;gica, que a&uacute;n se considera vigente, de 12 pasos a seguir para la construcci&oacute;n de este tipo de pruebas:</font></p>     <blockquote>       <p align="justify"><font face="verdana" size="2">1. Preparaci&oacute;n y selecci&oacute;n de las especificaciones del dominio o los objetivos que se pretenden evaluar.</font></p>       <p align="justify"><font face="verdana" size="2">2. Descripci&oacute;n clara y detallada de las especificaciones: los prop&oacute;sitos de la prueba, el tipo de formato de reactivos deseable, el n&uacute;mero de reactivos de la prueba y las instrucciones para los redactores de reactivos.</font></p>       <p align="justify"><font face="verdana" size="2">3. Redacci&oacute;n de los reactivos para medir los objetivos incluidos en la prueba, o versiones de la prueba si se requiere la elaboraci&oacute;n de formas paralelas.</font></p>       <p align="justify"><font face="verdana" size="2">4. Edici&oacute;n inicial de los reactivos de la prueba por los individuos que los redactan.</font></p>       <p align="justify"><font face="verdana" size="2">5. Evaluaci&oacute;n sistem&aacute;tica y consistente de reactivos en los pasos 2 y 3 para determinar su congruencia con los objetivos y para determinar su representatividad.</font></p>       <p align="justify"><font face="verdana" size="2">6. Edici&oacute;n adicional de reactivos con base en los datos del paso 5, descartando aqu&eacute;llos que no midan adecuadamente los objetivos que se pretenden medir.</font></p>       ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">7. Integraci&oacute;n de versiones de la prueba con base en las especificaciones realizadas.</font></p>       <p align="justify"><font face="verdana" size="2">8. Empleo de m&eacute;todos para determinar est&aacute;ndares (puntos de corte) que permitan interpretar la ejecuci&oacute;n de los sustentantes.</font></p>       <p align="justify"><font face="verdana" size="2">9. Administraci&oacute;n de la prueba bajo condiciones estandarizadas de aplicaci&oacute;n.</font></p>       <p align="justify"><font face="verdana" size="2">10. Investigaci&oacute;n y an&aacute;lisis para recopilar evidencias necesarias de confiabilidad y validez de la prueba.</font></p>       <p align="justify"><font face="verdana" size="2">11. Preparaci&oacute;n de un manual t&eacute;cnico de la prueba.</font></p>       <p align="justify"><font face="verdana" size="2">12. Compilaci&oacute;n de datos t&eacute;cnicos, tanto de los reactivos como de la prueba, para reforzar la validez en t&eacute;rminos de las inferencias que se llevan a cabo y el tipo de usos en condiciones diversas y con diferentes poblaciones examinadas.</font></p> </blockquote>     <p align="justify"><font face="verdana" size="2">Resulta conveniente destacar que las operaciones fundamentales para la elaboraci&oacute;n de este tipo de pruebas son: la especificaci&oacute;n del dominio, el an&aacute;lisis de los reactivos, la determinaci&oacute;n de est&aacute;ndares o puntos de corte, y la determinaci&oacute;n de la confiabilidad y la validez; y que &eacute;stos son <b><i>procesos iterativos </i></b>hasta lograr niveles ajustados y satisfactorios. La definici&oacute;n del dominio o universo de medida es origen y referencia de todos los dem&aacute;s, por lo cual debe reunir caracter&iacute;sticas de precisi&oacute;n tales, que en todo momento permita saber si un reactivo pertenece o no a dicho dominio; el punto de corte o est&aacute;ndar se entiende como el punto de superaci&oacute;n o nivel m&iacute;nimo, es decir, el valor que, dentro de un continuo de medida sobre el que se puede situar la ejecuci&oacute;n de un individuo, sirve para diferenciar el grado de suficiencia del grado de insuficiencia en el cumplimiento de objetivos o el logro de competencias.</font></p>     <p align="justify"><font face="verdana" size="2"><b>Conceptualizaci&oacute;n del dominio educativo</b></font></p>     <p align="justify"><font face="verdana" size="2">La definici&oacute;n y estructuraci&oacute;n del dominio es uno de los dos temas centrales sobre los cuales gira la construcci&oacute;n de una prueba criterial. En general existe coincidencia en la afirmaci&oacute;n de que es la calidad de la definici&oacute;n del dominio lo que permite referir las puntuaciones individuales a criterios internos a la tarea, o en otras palabras, a criterios de <b><i>calidad </i></b>definidos como de m&iacute;nima competencia. Este tema es crucial por su importancia en la determinaci&oacute;n de la validez de contenido y de constructo, as&iacute; como en otros conceptos de validez que se han sugerido para este tipo de pruebas y que se explicar&aacute;n con mayor amplitud y profundidad en la cuarta secci&oacute;n de este art&iacute;culo.</font></p>     <p align="justify"><font face="verdana" size="2">En relaci&oacute;n con los elementos del dominio se pueden identificar tres niveles de definici&oacute;n: taxon&oacute;mico, por objetivos y por &iacute;tems o reactivos. El nivel taxon&oacute;mico puede desempe&ntilde;ar un doble papel: a) como orientaci&oacute;n del an&aacute;lisis de acercamiento al dominio; y b) a partir de la comprobaci&oacute;n emp&iacute;rica, como la s&iacute;ntesis de resultados gen&eacute;ricos descriptivos de la realidad. De esta forma se establece un proceso de retroalimentaci&oacute;n te&oacute;rico&#150;emp&iacute;rico&#150;te&oacute;rico a trav&eacute;s de los niveles inferiores de descripci&oacute;n, es decir, los objetivos y reactivos a partir de los cuales se podr&aacute;n hacer inferencias acerca de procesos mentales involucrados para su soluci&oacute;n.</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">De acuerdo con Millman (1974), es m&aacute;s &uacute;til contar con objetivos ampliados, los cuales define como un enunciado extenso de una meta educativa que proporciona abundantes especificaciones relativas a la situaci&oacute;n de la prueba, las alternativas de respuesta y los criterios de adecuaci&oacute;n de la respuesta correcta. Seg&uacute;n este autor, la importancia de esta gu&iacute;a adicional a los objetivos conductuales es que ayuda a la definici&oacute;n apropiada del dominio de reactivos de la prueba; y es especialmente apropiada y &uacute;til si lo que se pretende es la evaluaci&oacute;n de competencias.</font></p>     <p align="justify"><font face="verdana" size="2">A partir de estos objetivos ampliados es posible hacer un an&aacute;lisis de tareas y con ello una definici&oacute;n m&aacute;s precisa que consiste en la especificaci&oacute;n de los &iacute;tems o reactivos que se van a construir, es decir que los reactivos ser&aacute;n las unidades m&iacute;nimas de medici&oacute;n. Para una revisi&oacute;n de los procedimientos que se han propuesto y desarrollado en el marco de la evaluaci&oacute;n criterial se recomienda consultar algunos ejemplos como el de la especificaci&oacute;n del dominio en cuatro pasos de Popham (1978) y la teor&iacute;a de facetas de Berk (1978) para la definici&oacute;n de contenido para cada objetivo de inter&eacute;s; est&aacute; tambi&eacute;n la transformaci&oacute;n de &iacute;tems de Anderson (1972) y la de algoritmos de Scandura (1977). En un an&aacute;lisis de los m&eacute;todos desarrollados, Hambleton (1980) se&ntilde;ala que los mejores ejemplos de especificaciones de dominio eran los de Ebel (1962) y los de Hively, Patterson y Page (1968), quienes demostraron que es posible desarrollar y usar reglas de generaci&oacute;n de reactivos para construir una prueba. Actualmente existen programas que utilizan estos desarrollos para la generaci&oacute;n de pruebas educativas a gran escala, principalmente en el &aacute;mbito de la aplicaci&oacute;n de pruebas adaptativas.</font></p>     <p align="justify"><font face="verdana" size="2">Jornet y Su&aacute;rez (1994) presentan una conceptualizaci&oacute;n del dominio como universo de medida, a partir de la cual se analizan los elementos implicados en su definici&oacute;n y estructuraci&oacute;n, y ofrecen una s&iacute;ntesis de los medios que han sido utilizados para hacer operativo el acceso y manipulaci&oacute;n de dominios. Los autores aportan una visi&oacute;n gen&eacute;rica del dominio educativo que sirve para acercarse al problema de la medici&oacute;n desde una &oacute;ptica m&aacute;s consecuente con la realidad educativa, compleja y multidimensional. Para ellos un dominio est&aacute; bien definido si est&aacute;n especificadas sus unidades &#151;objetivos y reactivos&#151;, es decir que la calidad de la definici&oacute;n del dominio depende de la concreci&oacute;n de las unidades que lo definen. En este sentido, la definici&oacute;n de dominio se entiende en un continuo generalidad&#150;concreci&oacute;n, de manera que a mayor concreci&oacute;n existe una mayor calidad en la definici&oacute;n. Como aspectos vinculados con la definici&oacute;n est&aacute;n los de exclusividad y exhaustividad, es decir que las unidades que definen el dominio no deben traslaparse y deben contener el dominio en su totalidad.</font></p>     <p align="justify"><font face="verdana" size="2">Lo anterior pone de manifiesto la importancia del material instruccional en cuesti&oacute;n, ya que a mayor ambigüedad en los contenidos, mayor ser&aacute; la generalizaci&oacute;n de la definici&oacute;n del dominio. S&oacute;lo si se conoce bien cu&aacute;les son los componentes y los procesos que subyacen a &eacute;stos, el dominio puede especificarse y medirse adecuadamente; cuando esto no es posible, se afectan directamente todas las caracter&iacute;sticas e indicadores integrados en el proceso de medici&oacute;n. Adem&aacute;s de la definici&oacute;n, Jornet y Su&aacute;rez (1994) destacan la importancia de analizar y especificar la estructura del dominio, para lo cual refieren dos sistemas de configuraci&oacute;n: el de estructura impl&iacute;cita, que corresponde a aquellos dominios cuyas unidades tienen una caracter&iacute;stica propia independientemente de las dem&aacute;s unidades, como la dificultad te&oacute;rica o complejidad cognitiva; y el de aqu&eacute;llos cuya estructura es consecuencia de las relaciones entre las unidades, tales como relevancia del contenido, nivel de generalidad, secuencia, etc. El de estructura resultante corresponde, en cambio, a aquellos dominios obtenidos del an&aacute;lisis emp&iacute;rico de las respuestas de los sujetos a los reactivos, como lo es la dificultad.</font></p>     <p align="justify"><font face="verdana" size="2">La complejidad que implica la definici&oacute;n del dominio, as&iacute; como su adecuada representatividad mediante un buen esquema de muestreo, requiere de una metodolog&iacute;a para la elaboraci&oacute;n de las especificaciones necesarias que garanticen la validez de constructo de la prueba. Tal metodolog&iacute;a implica, adem&aacute;s de la integraci&oacute;n de profesores especialistas en el tema a evaluar, el uso de alguna taxonom&iacute;a de objetivos como la que public&oacute; Bloom desde 1956 y que fue ampliamente utilizada y difundida para este prop&oacute;sito durante m&aacute;s de medio siglo. Conviene m&aacute;s, sin embargo, utilizar una m&aacute;s actual, que haya incorporado los descubrimientos m&aacute;s recientes en torno a la representaci&oacute;n y uso del conocimiento derivados tanto de investigaci&oacute;n b&aacute;sica de las ciencias cognoscitivas, como de la investigaci&oacute;n aplicada en educaci&oacute;n. Una de ellas es la taxonom&iacute;a de Marzano (2007), que adem&aacute;s de integrar todos estos avances, inicia con una cr&iacute;tica sustentada a la taxonom&iacute;a de Bloom recuperando lo que a&uacute;n es vigente, lo cual la hace apropiada para el enfoque actual de evaluaci&oacute;n de competencias. Este hecho facilita su uso y comprensi&oacute;n por los profesores y especialistas, quienes necesariamente han de implicarse en la construcci&oacute;n de este tipo de pruebas y est&aacute;n familiarizados con la taxonom&iacute;a de Bloom.</font></p>     <p align="justify"><font face="verdana" size="2">Otra taxonom&iacute;a interesante es la propuesta por Biggs y Collins (1982), la cual se refiere al sistema de categor&iacute;as y progreso jer&aacute;rquico en la complejidad estructural de las respuestas de los escolares en el que expresan el aprendizaje <i>(Structured of the Observed Learning Outcome, </i>SOLO, por sus siglas en ingl&eacute;s). Esta taxonom&iacute;a permite clasificar y evaluar el resultado de una tarea de aprendizaje en funci&oacute;n de su organizaci&oacute;n estructural, ya que cada uno de los niveles describe un desempe&ntilde;o particular en un determinado momento, el cual se basa en el progreso de los estudiantes en tareas con niveles de complejidad creciente, mediante la relaci&oacute;n de sus respuestas con aspectos m&aacute;s abstractos de las tareas, es decir que el proceso pasa de un conocimiento pobre o superficial a un conocimiento s&oacute;lido o profundo de la realidad.</font></p>     <p align="justify"><font face="verdana" size="2">Cualquiera que sea la taxonom&iacute;a elegida, es importante conocer sus fundamentos te&oacute;ricos y garantizar su comprensi&oacute;n por parte de los especialistas, con la finalidad de evitar sesgos en la definici&oacute;n del dominio.</font></p>     <p align="justify"><font face="verdana" size="2"><b>Determinaci&oacute;n de est&aacute;ndares y puntos de corte</b></font></p>     <p align="justify"><font face="verdana" size="2">El segundo elemento central en la construcci&oacute;n de pruebas criteriales es el establecimiento de est&aacute;ndares o puntos de corte, ya que entre sus principales prop&oacute;sitos est&aacute; la toma de decisiones que conciernen al control y seguimiento del progreso de los estudiantes a trav&eacute;s del curr&iacute;culo para la promoci&oacute;n, certificaci&oacute;n y graduaci&oacute;n. Un est&aacute;ndar es un punto en la escala de puntuaciones de una prueba que sirve para clasificar, a quienes fueron examinados, en categor&iacute;as que reflejan diferentes niveles de ejecuci&oacute;n en relaci&oacute;n con los objetivos o competencias medidos por la prueba. Existe una gran diversidad de m&eacute;todos para establecer est&aacute;ndares y puntos de corte; para elegir el m&aacute;s adecuado debemos considerar algunos factores tales como: la importancia de las decisiones que se tomar&aacute;n; el tiempo, las fuentes y recursos disponibles; la capacidad de los jueces especialistas con los que contamos (algunos m&eacute;todos requieren mayor conocimiento del dominio del contenido, mientras que otros requieren mayor conocimiento de los estudiantes que ser&aacute;n examinados), y la pertinencia del m&eacute;todo para el tipo de prueba que estamos elaborando. En cualquier caso, Cizek y Bunch (2007) apuntan reiteradamente la importancia de que las personas involucradas en la determinaci&oacute;n de est&aacute;ndares o puntos de corte sean las mismas que participen en la definici&oacute;n del dominio, y cuando esto no sea posible, insisten en que al menos debe existir un puente de comunicaci&oacute;n entre unos y otros especialistas.</font></p>     <p align="justify"><font face="verdana" size="2">En un intento por sintetizar la informaci&oacute;n relativa a los diversos m&eacute;todos disponibles y ofrecer un panorama general de ellos, es importante destacar una diferencia entre procedimientos orientados a determinar el punto de corte a partir de una escala de puntuaciones verdaderas, de aqu&eacute;llos que lo establecen a partir de puntuaciones observadas. En el primer caso, de acuerdo con Jornet y Su&aacute;rez (1987), se refiere al establecimiento de un est&aacute;ndar, el cual se reservar&iacute;a para hacer referencia al sistema de criterios de interpretaci&oacute;n, la definici&oacute;n te&oacute;rica de los niveles de desempe&ntilde;o, logro o competencia. De modo general los procedimientos utilizan el juicio de grupos de jueces expertos acerca de la prueba, de los individuos o de grupos de individuos. Por otra parte, los procedimientos utilizados para establecer un punto de corte a partir de un valor est&aacute;ndar que suponen previamente determinado, se ocupan de trasladar dicho valor a la escala observada, tomando en cuenta las diferencias que se dan en la medici&oacute;n y generalmente optimizando las <a href="#c1">Cuadro 1</a> se presentan los m&eacute;todos en funci&oacute;n consecuencias resultantes de la decisi&oacute;n. En el    del tipo de objetivo (Hambleton, 1980).</font></p>     ]]></body>
<body><![CDATA[<p align="center"><font face="verdana" size="2"><a name="c1" id="c1"></a></font></p>     <p align="center"><font face="verdana" size="2"><img src="/img/revistas/peredu/v33n131/a9c1.jpg" ></font></p>     <p align="justify"><font face="verdana" size="2">Para la determinaci&oacute;n de est&aacute;ndares, Linn (1979) propone una tipolog&iacute;a en funci&oacute;n del tipo de est&aacute;ndar: de exhortaci&oacute;n, cuando representa metas deseables de logro a las que debe orientarse la mejora de un sistema educativo o de los estudiantes; de ejemplificaci&oacute;n, cuando lo que representa son las competencias caracter&iacute;sticas de diversos niveles de ejecuci&oacute;n; y de rendici&oacute;n de cuentas, cuando representan metas curriculares precisas, orientando la evaluaci&oacute;n hacia la contrastaci&oacute;n entre el curr&iacute;culum dise&ntilde;ado, el implementado y los logros obtenidos por los examinados.</font></p>     <p align="justify"><font face="verdana" size="2">En t&eacute;rminos de los m&eacute;todos para la determinaci&oacute;n de puntos de corte, en el <a href="#c2">Cuadro 2</a> se ofrece una clasificaci&oacute;n de los m&eacute;todos m&aacute;s usados en el campo de la evaluaci&oacute;n criterial en los inicios de las aplicaciones de este tipo de pruebas.</font></p>     <p align="center"><font face="verdana" size="2"><a name="c2" id="c2"></a></font></p>     <p align="center"><font face="verdana" size="2"><img src="/img/revistas/peredu/v33n131/a9c2.jpg" ></font></p>     <p align="justify"><font face="verdana" size="2">Los m&eacute;todos llamados de juicio son los que mantienen el objetivo original de determinar un est&aacute;ndar absoluto capaz de diferenciar el nivel m&iacute;nimo que debe satisfacerse, sin embargo, su uso exclusivo genera diversos problemas con su aplicaci&oacute;n. Las cr&iacute;ticas se han centrado principalmente en los m&eacute;todos referidos al contenido de la prueba o juicio sobre los &iacute;tems y son principalmente dos: 1) las diferencias encontradas entre los est&aacute;ndares producidos por m&eacute;todos diferentes y 2) las discrepancias observadas entre los jueces dentro de un mismo m&eacute;todo. Para mayor informaci&oacute;n sobre estudios comparativos entre m&eacute;todos se recomienda el art&iacute;culo de Jornet y Su&aacute;rez (1987). No obstante, las discrepancias observadas no invalidan los m&eacute;todos, dado que reflejan las diferencias predecibles a partir de c&oacute;mo define cada m&eacute;todo el nivel m&iacute;nimo de competencia.</font></p>     <p align="justify"><font face="verdana" size="2">Hay autores que se han abocado a clarificar cu&aacute;les son los motivos conceptuales y t&eacute;cnicos que generan estas discrepancias entre los est&aacute;ndares resultantes de cada m&eacute;todo, como es el caso de Brennan y Cockwood (1980) y Shepard (1980). Sin embargo, persiste el principal problema con los comit&eacute;s o grupos de expertos que establecen est&aacute;ndares &uacute;nicamente mediante m&eacute;todos de juicio, y es que a menudo establecen est&aacute;ndares que har&iacute;an fallar a m&aacute;s de la mitad de los individuos evaluados, a&uacute;n aqu&eacute;llos que han completado todos los programas educativos acreditados y cuentan con experiencia pr&aacute;ctica bajo estrecha supervisi&oacute;n (Schoon, Guillion y Ferrara, 1979). Una experiencia semejante a la de estos autores se vivi&oacute; en M&eacute;xico durante la etapa en la que los consejos t&eacute;cnicos enfrentaron la tarea de establecer los puntos de corte de los Ex&aacute;menes Generales para el Egreso de la Licenciatura (EGEL), lo que condujo a evitar que se utilizaran m&eacute;todos atendiendo s&oacute;lo al contenido de la prueba; en esa ocasi&oacute;n se mostr&oacute; a los integrantes de los consejos t&eacute;cnicos evidencia emp&iacute;rica de cu&aacute;ntos sustentantes no superar&iacute;an tales est&aacute;ndares a pesar de haber acreditado todas las asignaturas de una licenciatura. Lo anterior deja un margen de duda acerca de qu&eacute; se est&aacute; evaluando, si el nivel m&iacute;nimo de competencia real o lo que los jueces creen que deber&iacute;a ser (Leyva, 2004). En este tipo de pruebas, y dadas las implicaciones pol&iacute;ticas que tienen, conviene que los est&aacute;ndares se definan por los jueces desde el momento en que se plantea la prueba, pero que se verifiquen y ajusten a partir de los resultados en una o varias aplicaciones con la poblaci&oacute;n seleccionada.</font></p>     <p align="justify"><font face="verdana" size="2"><b>Estudios comparativos de m&eacute;todos de establecimiento de est&aacute;ndares</b></font></p>     <p align="justify"><font face="verdana" size="2">Toda esta pol&eacute;mica, y las discrepancias observadas, hicieron que durante la d&eacute;cada de los ochenta se realizaran estudios de comparaci&oacute;n de puntos de corte producidos por diversos m&eacute;todos, de los cuales m&aacute;s de la mitad se dedicaron a comparar los m&eacute;todos de juicio, principalmente los de Angoff, Ebel y Nedelsky; los estudios restantes trataron con uno o dos de estos m&eacute;todos de juicio y los m&eacute;todos de contraste y de l&iacute;mite (Livingston y Zieky, 1982). Entre los resultados m&aacute;s interesantes de estos estudios est&aacute; la subjetividad de las decisiones empleadas a partir del contenido de los reactivos de los m&eacute;todos de juicio, ya que los m&eacute;todos producen est&aacute;ndares marcadamente diferentes cuando se aplica la misma prueba, ya sea por los mismos jueces o por muestras de jueces paralelas al azar (Shepard, 1980). Otros datos emp&iacute;ricos demuestran que los m&eacute;todos de Angoff y Nedelsky tienen serios problemas debido a inconsistencias en las especificaciones de probabilidades de &eacute;xito (Van der Linden, 1984); no obstante, los autores se&ntilde;alan que es posible mejorar la exactitud de los m&eacute;todos mediante la confrontaci&oacute;n del est&aacute;ndar con los resultados inmediatos. Entre los m&eacute;todos contrastados algunos demostraron ser m&aacute;s efectivos que otros para determinados casos; por ejemplo, en aquellos casos en los que era requerido un m&eacute;todo de juicio para el establecimiento de est&aacute;ndares, el m&eacute;todo de Angoff ofreci&oacute; un buen balance entre adecuaci&oacute;n t&eacute;cnica y practicidad.</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">En cuanto a los m&eacute;todos emp&iacute;ricos, el punto de corte es elegido de manera sistem&aacute;tica a partir de c&oacute;mo se distribuyen los resultados de los examinados; no obstante, los principales estudiosos del tema sugieren no usar s&oacute;lo datos emp&iacute;ricos, ya que parte esencial de las pruebas criteriales requiere del componente de juicio respecto a criterios o est&aacute;ndares logrados; en vez de ello recomiendan el uso de m&eacute;todos mixtos, es decir, combinan los juicios de expertos y la evidencia emp&iacute;rica de su aplicaci&oacute;n incluyendo datos de ejecuci&oacute;n real en los procesos de establecimiento del punto de corte. El que toma las decisiones debe asignar peso, de manera primaria, a la evidencia de juicios.</font></p>     <p align="justify"><font face="verdana" size="2">Dado que una soluci&oacute;n emp&iacute;rica para el problema del establecimiento de los puntos de corte no necesariamente resuelve el problema, no debe subestimarse el papel de los juicios en los m&eacute;todos de grupos de contraste y grupos de criterio. Los juicios acerca de personas examinadas proporcionan fundamentos para la estimaci&oacute;n estad&iacute;stica de las probabilidades de clasificaci&oacute;n (Berk, 1996). El componente de juicio en estos m&eacute;todos consiste en definir, operacionalmente, maestr&iacute;a o competencia en t&eacute;rminos de la ejecuci&oacute;n real en la prueba de individuos que han sido juzgados como competentes por sus profesores, supervisores inmediatos o personas similares, aptas o capacitadas dentro de un dominio de habilidades, conocimientos o competencias similares a las evaluadas. A&uacute;n cuando exista rigor en la especificaci&oacute;n del criterio de selecci&oacute;n y en los m&eacute;todos estandarizados empleados, la debilidad de estos m&eacute;todos estriba justo en nominaciones tales como: calificado, apto o competente, as&iacute; como en los procesos para identificar personas competentes o no competentes para incluirlos en los grupos de criterio. Las interpretaciones de competencia o maestr&iacute;a a partir de una lista bien definida de habilidades pueden ser diversas y comparativamente limitadas. De este grupo de m&eacute;todos, los de grupos de contraste se perciben como los m&aacute;s apropiados, en t&eacute;rminos de la adecuaci&oacute;n t&eacute;cnica, respecto de los restantes m&eacute;todos analizados, seguidos de los m&eacute;todos de grupo criterio. Sin embargo, su principal utilidad radica en que constituyen m&eacute;todos de validaci&oacute;n de est&aacute;ndares y de los niveles de desempe&ntilde;o que producen, m&aacute;s que m&eacute;todos para el establecimiento de puntos corte.</font></p>     <p align="justify"><font face="verdana" size="2"><b>Tendencias actuales en el establecimiento de est&aacute;ndares</b></font></p>     <p align="justify"><font face="verdana" size="2">Aunque la mayor parte de los m&eacute;todos desarrollados hasta la d&eacute;cada de los ochenta no se utilizan en la actualidad tal y como fueron propuestos, algunas de sus modificaciones han sido muy exitosas y han dado origen a una nueva generaci&oacute;n de m&eacute;todos. La evoluci&oacute;n de estos m&eacute;todos ocurri&oacute; en t&eacute;rminos de la orientaci&oacute;n general de procesos, entre ellos las t&eacute;cnicas de trabajo con los jueces y los indicadores de convergencia de los juicios. Esto se dio como resultado de estudios comparativos entre m&eacute;todos en diversos tipos de pruebas con prop&oacute;sitos y &aacute;mbitos de aplicaci&oacute;n tambi&eacute;n diversos, los cuales permitieron analizar y detectar mejores pr&aacute;cticas en t&eacute;rminos de pertinencia y practicidad, aspectos que confieren mayor madurez metodol&oacute;gica al campo.</font></p>     <p align="justify"><font face="verdana" size="2">Tambi&eacute;n ocurri&oacute; un cambio significativo en las interpretaciones: se pas&oacute; de las dicot&oacute;micas para admisi&oacute;n o certificaci&oacute;n, a las interpretaciones a partir de series graduadas de niveles de desempe&ntilde;o de las pruebas a gran escala para la evaluaci&oacute;n de sistemas educativos, como es el caso del NAEP <b><i>(Nacional Assessment Educational Program), </i></b>que utiliza tres niveles de desempe&ntilde;o: b&aacute;sico, competente y avanzado (Cizek y Bunch, 2007). Otro ejemplo es el caso de Espa&ntilde;a: Jornet y Gonz&aacute;lez (2009) refieren que el estudio de Diagn&oacute;stico del Sistema Educativo Estatal Espa&ntilde;ol de 1998, identifica niveles de competencia a partir de los &iacute;tems caracter&iacute;sticos de cada uno de ellos, considerando su comportamiento emp&iacute;rico; en el &aacute;mbito internacional est&aacute; el proyecto pisa, que ha adoptado un sistema polit&oacute;mico de cuatro niveles descriptivos para informar de sus resultados.</font></p>     <p align="justify"><font face="verdana" size="2">Dentro de esta evoluci&oacute;n, el componente que se afianza y adquiere un mayor reconocimiento en cualquier m&eacute;todo es el consenso intersubjetivo de los especialistas en el dominio a evaluar. Tanto las categor&iacute;as de contenido como las descripciones de lo que los sujetos evaluados son capaces de realizar en cada nivel de desempe&ntilde;o y la selecci&oacute;n de los &iacute;tems caracter&iacute;sticos de cada uno de estos niveles, son componentes que se desarrollan a trav&eacute;s de procesos de juicios de expertos. Jornet y Gonz&aacute;lez (2009) presentan un an&aacute;lisis de la evoluci&oacute;n de los enfoques m&aacute;s recientes sobre esta problem&aacute;tica, de las aproximaciones para definir categor&iacute;as de contenido en el desarrollo de est&aacute;ndares, y de los tipos de m&eacute;todos para identificar puntos de corte; as&iacute; como criterios que pueden apoyar en la elecci&oacute;n del m&eacute;todo de determinaci&oacute;n de est&aacute;ndares. Estos autores destacan la importancia del consenso intersubjetivo como referencia precisa para el dise&ntilde;o y como garant&iacute;a de calidad de los est&aacute;ndares. En otro art&iacute;culo (Jornet, Gonz&aacute;lez y Su&aacute;rez, 2010) presentan un estado del arte de los m&eacute;todos para desarrollar procesos de validaci&oacute;n de la determinaci&oacute;n de est&aacute;ndares en pruebas de rendimiento educativo.</font></p>     <p align="justify"><font face="verdana" size="2">En una revisi&oacute;n m&aacute;s exhaustiva de m&eacute;todos de nueva generaci&oacute;n, Cizek y Bunch (2007) sugieren una clasificaci&oacute;n en t&eacute;rminos de las variantes en los procedimientos empleados y en el tipo de informaci&oacute;n utilizada, presentando las siguientes agrupaciones generales:</font></p>     <blockquote>       <p align="justify"><font face="verdana" size="2">1. M&eacute;todos de consenso directo. El m&aacute;s representativo de este grupo de m&eacute;todos es una alternativa a los m&eacute;todos de Angoff y Nedelsky (Sireci, Hambleton y pitoniak, 2004), el cual, adem&aacute;s de ocupar significativamente menos tiempo de los jueces expertos, supera algunas de las cr&iacute;ticas m&aacute;s usuales a los m&eacute;todos de juicio, incorporando estrategias que permiten a los especialistas expresar sus opiniones para la colocaci&oacute;n del punto de corte de forma directa sobre una escala, evitando el procedimiento de emitir juicios por cada uno de los reactivos de una prueba, como en los m&eacute;todos tradicionales.</font></p>       <p align="justify"><font face="verdana" size="2">2. Los denominados m&eacute;todos holistas, cuya caracter&iacute;stica principal es la evaluaci&oacute;n de muestras completas del trabajo de un examinado por uno o varios jueces que rinden un solo dictamen global acerca de cada muestra de trabajo. La valoraci&oacute;n tiene el prop&oacute;sito de clasificar los trabajos en categor&iacute;as de rendimiento, o bien en categor&iacute;as que representan los l&iacute;mites entre los niveles de rendimiento. Estos m&eacute;todos son muy &uacute;tiles para tareas de desarrollo o ejecuci&oacute;n.</font></p>       ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">3. Los m&eacute;todos que entran en esta clasificaci&oacute;n son el del juicio anal&iacute;tico (Plake, Hambleton y Jaeger, 1997) y el del cuerpo de trabajo <b><i>(Body of work method) </i></b>(Kingstone <b><i>et al., </i></b>2001), donde el juicio est&aacute; basado en el examen de las respuestas en un amplio cuerpo de trabajo del estudiante, m&eacute;todo que registra una mayor frecuencia de uso.</font></p>       <p align="justify"><font face="verdana" size="2">4. M&eacute;todos de correspondencia de &iacute;tems, como el m&eacute;todo del marcador de Lewis, Mitzel y Green (1996), los cuales son vistos como una sucesi&oacute;n l&oacute;gica de una serie de estrategias desarrolladas en los noventa en conjunci&oacute;n con el establecimiento de puntos de corte utilizados en el National Assessment of Educational Progress (NAEP) por investigadores del American College Testing (ACT) referidos como estimaci&oacute;n media y que en esencia representan una extensi&oacute;n de la t&eacute;cnica modificada de Angoff. El procedimiento es un conjunto completo de actividades dise&ntilde;adas para producir puntos de corte con base en la identificaci&oacute;n, por parte de los jueces, de &iacute;tems que act&uacute;an como punto de inflexi&oacute;n entre dos niveles de desempe&ntilde;o previamente definidos por juicio. Los &iacute;tems est&aacute;n ordenados en t&eacute;rminos de su dificultad emp&iacute;rica, lo que permite ajustes m&aacute;s realistas. Una variante de este m&eacute;todo se emple&oacute; en el INEE como modelo de determinaci&oacute;n de niveles de logro de los EXCALE (Jornet y Backhoff, 2008).</font></p>       <p align="justify"><font face="verdana" size="2">5. M&eacute;todos de empate reactivo&#150;descriptor, que consisten en describir el conocimiento y las habilidades esperadas de examinados en cada uno de los niveles de ejecuci&oacute;n alcanzados, es decir, lo que son capaces de hacer por cada categor&iacute;a de ejecuci&oacute;n. Estos m&eacute;todos comparten caracter&iacute;sticas con el m&eacute;todo del marcador, tales como el uso de los conjuntos de reactivos ordenados por &iacute;ndice de dificultad; de hecho ambos m&eacute;todos pueden considerarse como casos especiales de aproximaciones de mapeo de reactivos, s&oacute;lo que el de empate &iacute;tem&#150;descriptor se centra en los juicios de los jueces en &aacute;reas de incertidumbre de la clasificaci&oacute;n, y en t&eacute;rminos de los procedimientos anal&iacute;ticos empleados hay mucha similitud con los que se usan en los m&eacute;todos de contraste.</font></p>       <p align="justify"><font face="verdana" size="2">6. M&eacute;todos de compromiso, que recomiendan mezclar informaci&oacute;n normativa y criterial. El punto de corte se establece mediante un acuerdo entre los niveles m&iacute;nimos de competencia estimados por jueces y la distribuci&oacute;n emp&iacute;rica resultante de un grupo de referencia. En esta categor&iacute;a est&aacute;n los m&eacute;todos de contraste y los m&aacute;s representativos son el m&eacute;todo de compromiso de Hofstee (1983) y el de Beuk (1984).</font></p>       <p align="justify"><font face="verdana" size="2">7. Los m&eacute;todos emp&iacute;ricos son de diversa &iacute;ndole y lo que tienen en com&uacute;n es el hecho de que la mayor parte del procedimiento se sustenta en informaci&oacute;n emp&iacute;rica; es decir que se caracterizan por utilizar la escala de puntuaciones observadas. De estos m&eacute;todos podemos identificar tres grupos: a) los modelos de estado; b) los modelos continuos basados en la teor&iacute;a de la decisi&oacute;n; y c) los modelos continuos basados en la distribuci&oacute;n de los &iacute;tems sobre la escala de habilidad total.</font></p> </blockquote>     <p align="justify"><font face="verdana" size="2">En la actualidad se han venido planteado nuevos problemas e implicaciones importantes para la determinaci&oacute;n de est&aacute;ndares y puntos de corte, como es el hecho de medir apropiadamente el progreso anual respecto de los est&aacute;ndares establecidos por grado, lo cual implica crear un sistema coherente de est&aacute;ndares de ejecuci&oacute;n a trav&eacute;s de los grados escolares y de los individuos que permita hacer inferencias acerca de si los estudiantes superaron los est&aacute;ndares de cada evaluaci&oacute;n y del progreso anual que van logrando, de una manera significativa y lo m&aacute;s exacta posible (Cizek, 2005).</font></p>     <p align="justify"><font face="verdana" size="2">Una fuente de informaci&oacute;n m&aacute;s completa para apoyar las decisiones relativas al establecimiento de est&aacute;ndares o puntos de corte es la que publican Cizek y Bunch (2007), quienes adem&aacute;s de hacer una rese&ntilde;a muy completa, describen cambios y futuras direcciones en el establecimiento de puntos de corte a partir de experiencias que ellos tuvieron tanto en el campo de pruebas a gran escala de certificaci&oacute;n como en programas de evaluaci&oacute;n formativa. Desarrollaron este trabajo en atenci&oacute;n a los nuevos requerimientos de la legislaci&oacute;n federal de los Estados Unidos de Norteam&eacute;rica de administrar pruebas de tercero a octavo grado para medir el progreso anual de los estudiantes en lectura y matem&aacute;ticas con la finalidad de proporcionar informaci&oacute;n &uacute;til a profesores, padres de familia y estudiantes.</font></p>     <p align="justify"><font face="verdana" size="2">Conocer estos m&eacute;todos para establecer sistemas de est&aacute;ndares que sean aplicables a pruebas distintas para evaluar el progreso acad&eacute;mico de los estudiantes resulta muy alentador en t&eacute;rminos de la oportunidad que brindan para sustentar decisiones orientadas a elevar la calidad de la educaci&oacute;n.</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2"><b>Confiabilidad y errores de medida</b></font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">La utilidad de las mediciones de desempe&ntilde;o presupone que los individuos y los grupos exhiben alg&uacute;n grado de estabilidad o regularidad en su conducta. No obstante, muestras sucesivas de desempe&ntilde;o de una misma persona son raramente id&eacute;nticas en todos los aspectos; las ejecuciones, actitudes, productos y respuestas a conjuntos de preguntas var&iacute;an en su calidad y car&aacute;cter de una ocasi&oacute;n a otra, a&uacute;n dentro de condiciones estrictamente controladas. Esta variaci&oacute;n se refleja en las medidas que se obtienen mediante una prueba, y las causas de esta variabilidad generalmente no est&aacute;n relacionadas con los prop&oacute;sitos de la medici&oacute;n.</font></p>     <p align="justify"><font face="verdana" size="2">Un examinado puede esforzarse mucho durante una aplicaci&oacute;n, o tener m&aacute;s suerte, o estar m&aacute;s alerta, o sentir menos ansiedad, o gozar de mejor salud en una ocasi&oacute;n que en otra. Tambi&eacute;n puede ser que un examinado pueda tener mayor conocimiento, experiencia o comprensi&oacute;n de lo que es relevante a la tarea en el dominio muestreado en la prueba, que los dem&aacute;s examinados. Algunos individuos pueden exhibir menos variaci&oacute;n en sus mediciones que otros, pero ninguna persona es completamente consistente, lo cual implica que siempre que se haga una medici&oacute;n existir&aacute; un error de medida derivado de alguna de las fuentes de variaci&oacute;n antes se&ntilde;aladas.</font></p>     <p align="justify"><font face="verdana" size="2">La confiabilidad se refiere al grado en el cual las medidas de una prueba o de un procedimiento de medici&oacute;n est&aacute;n libres de error; es el grado de consistencia de tales mediciones cuando el procedimiento o la prueba son repetidos en una poblaci&oacute;n de individuos o grupos (AERA, APA, NCME, 1999). As&iacute; como toda medida incluye un componente de error, existe un valor hipot&eacute;tico libre de error que caracteriza a un examinado en alg&uacute;n atributo o dominio representado en una prueba. En t&eacute;rminos de la <i>teor&iacute;a cl&aacute;sica </i>de las pruebas, este valor libre de error es la <i>medida verdadera </i>de la persona y se define como la medida promedio resultante de repeticiones de la prueba o de formas alternas del instrumento. En t&eacute;rminos estad&iacute;sticos es un par&aacute;metro personal, y cada medida observada es una estimaci&oacute;n de este par&aacute;metro.</font></p>     <p align="justify"><font face="verdana" size="2">Dentro de la aproximaci&oacute;n de la <i>teor&iacute;a de la generalizabilidad, </i>un concepto comparable es referido como la <i>medida universo </i>del examinado; y dentro de la <i>teor&iacute;a de respuesta al &iacute;tem </i>(IRT por sus siglas en ingl&eacute;s), un concepto similar es el llamado la <i>habilidad </i>de la persona. La diferencia hipot&eacute;tica entre una medida de la persona observada a trav&eacute;s de un procedimiento de medici&oacute;n y su <i>habilidad </i>o <i>medida universo </i>o <i>medida verdadera </i>es lo que entendemos como el error de medida.</font></p>     <p align="justify"><font face="verdana" size="2">Los errores de medida son usualmente vistos como aleatorios e impredecibles, contrario a aquellos errores sistem&aacute;ticos, los cuales pueden afectar la ejecuci&oacute;n de individuos o grupos pero de una manera consistente, como por ejemplo aqu&eacute;llos que resultan de la aplicaci&oacute;n de formas alternas de una prueba que no son equivalentes, ya que las personas que tomen la forma m&aacute;s dif&iacute;cil tendr&aacute;n una medida promedio menor que aqu&eacute;llos que tomen la otra; en este caso, tal diferencia no debe considerarse como un error de medida dentro de los m&eacute;todos de cuantificaci&oacute;n y resumen del error. Los est&aacute;ndares de calidad se&ntilde;alan la importancia de la estandarizaci&oacute;n de pruebas y procedimientos para asegurar la consistencia en las principales caracter&iacute;sticas de las pruebas, as&iacute; como en el apego a los procedimientos estipulados en la administraci&oacute;n y el uso prescrito de las medidas obtenidas para reducir el error (AERA, APA, NCME, 1999). En el caso de la aproximaci&oacute;n de la <i>teor&iacute;a de</i> <i>la generalizabilidad </i>(TG), estas diferencias pueden reconocerse como una fuente de error.</font></p>     <p align="justify"><font face="verdana" size="2">El error de medida reduce la utilidad de la medici&oacute;n y limita el grado en el cual los resultados de una prueba pueden generalizarse m&aacute;s all&aacute; de las condiciones espec&iacute;ficas de aplicaci&oacute;n de la medici&oacute;n; no obstante, dada la naturaleza aleatoria del error de medida, no es posible separarlas de las medidas observadas, s&oacute;lo es posible saber su magnitud a trav&eacute;s de algunos procedimientos estad&iacute;sticos. La informaci&oacute;n cr&iacute;tica en confiabilidad incluye la identificaci&oacute;n de las principales fuentes de error, un resumen estad&iacute;stico apoyado en la magnitud de tales errores y el grado de <i>generalizabilidad </i>de las medidas a trav&eacute;s de formas alternas, mediciones, administraciones o cualquier otra dimensi&oacute;n relevante.</font></p>     <p align="justify"><font face="verdana" size="2">La informaci&oacute;n acerca de la confiabilidad puede reportarse en t&eacute;rminos de varianza de errores de medida, en t&eacute;rminos de uno o m&aacute;s coeficientes, o en t&eacute;rminos <i>defunciones de informaci&oacute;n de pruebas </i>basadas en IRT. El error est&aacute;ndar de medida es la desviaci&oacute;n est&aacute;ndar de una distribuci&oacute;n hipot&eacute;tica de errores de medida de una poblaci&oacute;n evaluada mediante una prueba o procedimiento particular. Tradicionalmente se reconocen tres categor&iacute;as de coeficientes de confiabilidad:</font></p>     <blockquote>       <p align="justify"><font face="verdana" size="2">1. Coeficientes derivados de la administraci&oacute;n de formas paralelas en sesiones de prueba independientes.</font></p>       <p align="justify"><font face="verdana" size="2">2. Coeficientes obtenidos por la administraci&oacute;n del mismo instrumento en ocasiones separadas.</font></p>       ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">3. Coeficientes basados en la relaci&oacute;n entre medidas derivadas de reactivos individuales o subconjuntos de reactivos dentro de una prueba, con datos de una misma aplicaci&oacute;n denominados "coeficientes de consistencia interna".</font></p> </blockquote>     <p align="justify"><font face="verdana" size="2">Con el desarrollo de la TG las tres categor&iacute;as mencionadas se consideran como casos especiales de una clasificaci&oacute;n m&aacute;s general de coeficientes de <i>generalizabilidad,</i> los cuales son definidos, igual que los coeficientes tradicionales, como la raz&oacute;n entre la varianza de medidas verdaderas y la varianza de medidas observadas, pero con la salvedad de que permiten al investigador especificar y estimar los diversos componentes de varianza verdadera, varianza de error y varianza de medidas observadas mediante la aplicaci&oacute;n de las t&eacute;cnicas de an&aacute;lisis de varianza (Kieffer, 1999). De especial inter&eacute;s son los estimados num&eacute;ricos por separado de los componentes de varianza del error total, ya que permiten examinar la contribuci&oacute;n de cada fuente de error, adem&aacute;s de que hacen posible la estimaci&oacute;n de coeficientes de confiabilidad aplicables a una amplia variedad de dise&ntilde;os de medici&oacute;n.</font></p>     <p align="justify"><font face="verdana" size="2">Una aportaci&oacute;n de la IRT al campo de la evaluaci&oacute;n mediante pruebas a gran escala son las funciones de informaci&oacute;n de pruebas, las cuales resumen eficientemente qu&eacute; tan bien discrimina una prueba entre los diversos niveles de habilidad de los individuos; dentro de esta teor&iacute;a se emplea una funci&oacute;n matem&aacute;tica denominada la <i>curva caracter&iacute;stica del &iacute;tem </i>o <i>funci&oacute;n de respuesta al &iacute;tem,</i><i></i> como modelo para representar el incremento en la proporci&oacute;n de respuestas correctas a un &iacute;tem por grupos de niveles de habilidad progresivamente mayores en el rasgo o caracter&iacute;stica que se est&aacute; midiendo (Embretson y Reise, 2000). Esta funci&oacute;n puede tomarse como una expresi&oacute;n matem&aacute;tica de la precisi&oacute;n de medida en cada nivel del rasgo o dominio evaluado. Precisi&oacute;n, en el contexto de la IRT, es an&aacute;loga al rec&iacute;proco de la varianza de error condicional de la teor&iacute;a cl&aacute;sica.</font></p>     <p align="justify"><font face="verdana" size="2">Aunque los coeficientes de confiabilidad tradicionales, y aqu&eacute;llos derivados de las otras dos aproximaciones, parecieran ser intercambiables, en realidad conllevan formas diferentes de informaci&oacute;n. Un coeficiente puede proporcionar informaci&oacute;n desde una perspectiva amplia, mientras que otros s&oacute;lo desde un &aacute;mbito m&aacute;s restringido. Un coeficiente puede reflejar error debido a inconsistencia en la medici&oacute;n y no reflejar la variaci&oacute;n que caracteriza a pruebas sucesivas de ejecuciones o productos; o bien puede reflejar la consistencia interna del instrumento y fallar en reflejar los errores de medida asociados con cambios en los examinados. Por otra parte, los errores est&aacute;ndar de medida pueden reflejar variaciones de muchas fuentes de error o s&oacute;lo de algunas, por lo que es necesario tener especial cuidado en la elecci&oacute;n e interpretaci&oacute;n de los diversos &iacute;ndices o coeficientes que se incluir&aacute;n en un estudio de confiabilidad, as&iacute; como la decisi&oacute;n de la magnitud y tipo de error que se puede aceptar, dependiendo del uso espec&iacute;fico que se le dar&aacute; a la prueba.</font></p>     <p align="justify"><font face="verdana" size="2">No es f&aacute;cil recomendar o decidir entre las opciones de cuantificaci&oacute;n de la confiabilidad; ning&uacute;n m&eacute;todo de investigaci&oacute;n es &oacute;ptimo en todos los casos, ni es recomendable limitarse a s&oacute;lo una aproximaci&oacute;n. Es por eso que los est&aacute;ndares de la aera, apa y NCME (1999) demandan a los evaluadores que reporten no s&oacute;lo los coeficientes de confiabili&#150;dad, sino el detalle de los m&eacute;todos empleados para estimarlos, la naturaleza de los grupos o individuos de los que se derivan los datos, las condiciones dentro de las cuales fueron obtenidos y el uso que se dar&aacute; a las mediciones. Finalmente, es necesario reconocer y enfati&#150;zar que el nivel de confiabilidad de las medidas de una prueba tiene implicaciones para la validez de la interpretaci&oacute;n de las mismas.</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2"><b>La validez en las pruebas criteriales</b></font></p>     <p align="justify"><font face="verdana" size="2">La validez es la consideraci&oacute;n fundamental en el desarrollo y evaluaci&oacute;n de una prueba. El concepto se refiere al grado en el cual la evidencia y la teor&iacute;a apoyan las interpretaciones de las medidas de una prueba de acuerdo con los usos previstos (AERA, APA, NCME, 1999). La validaci&oacute;n de una prueba es el proceso de acumulaci&oacute;n de evidencias que apoyen tales interpretaciones, y su objetivo es determinar qu&eacute; tan apropiadas, significativas y &uacute;tiles resultan las inferencias espec&iacute;ficas que se hacen a partir de las mediciones realizadas mediante la prueba en funci&oacute;n del uso espec&iacute;fico para el cual se dise&ntilde;&oacute;.</font></p>     <p align="justify"><font face="verdana" size="2">Se pueden identificar diversas fuentes de evidencia que pueden aclarar algunos aspectos de la validez; no obstante se trata de un concepto unitario, es el grado en el cual toda la evidencia acumulada apoya la interpretaci&oacute;n de las medidas de una prueba de acuerdo con el prop&oacute;sito propuesto. Tradicionalmente han existido diversas maneras de obtener evidencias de validez, por lo que se han convenido categor&iacute;as tales como la validez de contenido, de constructo y de criterio. Esta &uacute;ltima puede ser de car&aacute;cter predictivo o concurrente. Sin embargo, tales categor&iacute;as y niveles no implican que existan distintos tipos de validez, o que alguna estrategia de validaci&oacute;n sea mejor para cada tipo de inferencia o uso posible de una prueba; de hecho, no es posible hacer una distinci&oacute;n rigurosa entre ellas.</font></p>     <p align="justify"><font face="verdana" size="2">Un proceso de validaci&oacute;n ideal incluye varios tipos de evidencia y, desde luego, la calidad de esta evidencia; una l&iacute;nea simple de evidencia s&oacute;lida es preferible, en ocasiones, a numerosas y variadas l&iacute;neas de evidencia cuya calidad sea cuestionable. Los juicios profesionales deben guiar las decisiones relativas a las formas de validaci&oacute;n que son m&aacute;s necesarias y viables a la luz de la intenci&oacute;n y el uso de la prueba. Los recursos deben dirigirse a obtener la combinaci&oacute;n de evidencia que refleje de manera &oacute;ptima el valor de la prueba para el prop&oacute;sito para el cual se construy&oacute;, por lo que el uso de diversas fuentes de informaci&oacute;n en los procesos de validaci&oacute;n permite considerar aquellas variables y facetas importantes, obteniendo as&iacute; una estimaci&oacute;n m&aacute;s amplia que incluya tambi&eacute;n evidencia de la validez de clasificaci&oacute;n de niveles de desempe&ntilde;o a partir de la determinaci&oacute;n de est&aacute;ndares o puntos de corte.</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">En cuanto a las pruebas referidas a criterio, la validez debe estudiarse en relaci&oacute;n con los usos principales de sus puntuaciones, seg&uacute;n la propuesta de Hambleton (1984):</font></p>     <blockquote>       <p align="justify"><font face="verdana" size="2">a) Describir lo que conocen los examinados en t&eacute;rminos de ejecuci&oacute;n.</font></p>       <p align="justify"><font face="verdana" size="2">b) Describir la ejecuci&oacute;n de grupos espec&iacute;ficos de sujetos en evaluaci&oacute;n de programas.</font></p>       <p align="justify"><font face="verdana" size="2">c) Clasificar a los sujetos en niveles de desempe&ntilde;o.</font></p>       <p align="justify"><font face="verdana" size="2">d) Certificar la competencia de un individuo respecto de un dominio definido.</font></p> </blockquote>     <p align="justify"><font face="verdana" size="2">Messick (1975) comenta que lo que muchos evaluadores presentan como validez de contenido se basa &uacute;nicamente en el an&aacute;lisis formal de la congruencia reactivos&#150;objetivo, siendo esto, m&aacute;s bien, relevancia de contenido o representatividad del contenido, pero no validez, ya que no proporciona evidencia que apoye la interpretaci&oacute;n de respuestas o mediciones. En esta misma l&iacute;nea de ideas, Linn (1979) afirma que la cuesti&oacute;n de validez es una cuesti&oacute;n propia de la interpretaci&oacute;n de la medida m&aacute;s que de la medida en s&iacute;. Las medidas pueden tener diversas interpretaciones, las cuales seguramente difieren en el grado de validez y por lo tanto en el tipo de evidencia que se requiere para el proceso de validaci&oacute;n.</font></p>     <p align="justify"><font face="verdana" size="2">Lo m&aacute;s apropiado en la actualidad es conducir estudios de validez de constructo para validar el uso de las mediciones de la prueba, y en el caso de que la prueba se utilice para tomar decisiones respecto del nivel de competencia logrado en funci&oacute;n de est&aacute;ndares o puntos de corte, se requiere validar tanto las clasificaciones que se producen como los mismos procedimientos o m&eacute;todos mediante los cuales se establecieron dichos est&aacute;ndares.</font></p>     <p align="justify"><font face="verdana" size="2"><b>Validez de contenido o evidencia basada en prueba de contenido</b></font></p>     <p align="justify"><font face="verdana" size="2">La calidad de los reactivos de una prueba se puede determinar por el grado en el cual &eacute;stos reflejan, en t&eacute;rminos de su contenido, el dominio del cual se derivan. La evidencia de la validez basada en pruebas de contenido puede obtenerse mediante el an&aacute;lisis de la relaci&oacute;n entre el contenido de la prueba y el constructo que intenta medir. La acumulaci&oacute;n de evidencia involucra una consideraci&oacute;n de tres caracter&iacute;sticas de los reactivos de una prueba: que el reactivo realmente mida alg&uacute;n aspecto del contenido incluido en las especificaciones del dominio, su calidad t&eacute;cnica y su representatividad. Es decir que se pretende establecer si la prueba es una muestra adecuada o representativa del dominio, y se favorece a partir de la calidad de la definici&oacute;n del dominio, de la propia calidad t&eacute;cnica de sus reactivos y del sistema de muestreo utilizado para construir la prueba.</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">El perfil referencial de validez y las tablas de especificaciones son los documentos necesarios para garantizar a priori la validez de contenido y de constructo de las pruebas. Las tablas de especificaciones son tambi&eacute;n instrumentos base para los procedimientos de validaci&oacute;n por jueces, los cuales tienen que emitir juicios respecto de si los reactivos son adecuados y pertinentes al perfil referencial y a la definici&oacute;n del dominio que queda establecido en la tabla de especificaciones. A&uacute;n cuando se sigan todos los pasos descritos en las secciones anteriores para la definici&oacute;n y estructuraci&oacute;n del dominio, las especificaciones no son siempre lo suficientemente precisas para asumir a priori que los reactivos que se generan son v&aacute;lidos, por lo que independientemente de lo cuidadoso que sea el proceso de generaci&oacute;n de reactivos, se deben conducir estudios <i>a posteriori.</i></font></p>     <p align="justify"><font face="verdana" size="2">Hay dos aproximaciones generales que se usan para establecer la validez de contenido de reactivos de una prueba referida a criterio: la primera aproximaci&oacute;n involucra los juicios emitidos por especialistas en el contenido. Estos juicios conciernen al grado en que un reactivo es congruente y pertinente con el dominio que est&aacute; destinado a medir. La segunda aproximaci&oacute;n consiste en aplicar t&eacute;cnicas emp&iacute;ricas en la misma forma en que se aplican a los &iacute;tems de las tradicionales pruebas referidas a norma.</font></p>     <p align="justify"><font face="verdana" size="2">Al respecto, Hambleton (1980) propone algunos m&eacute;todos derivados de la primera aproximaci&oacute;n tanto para obtener evidencia de la validez de contenido como de la calidad t&eacute;cnica del reactivo; respecto de la representatividad se&ntilde;ala que para poder determinarla se requiere integrar alguna versi&oacute;n de la prueba, y si el dominio est&aacute; definido con claridad los especialistas podr&aacute;n emitir sus juicios acerca de la representatividad de los reactivos. Lo cierto es que ambas aproximaciones son perspectivas complementarias, por lo que lo m&aacute;s adecuado es que se aborden tanto la <i>revisi&oacute;n l&oacute;gica, </i>esencial para la selecci&oacute;n de los reactivos, como la <i>revisi&oacute;n emp&iacute;rica, </i>enfoque que complementa al primero y que permite su comprobaci&oacute;n. La revisi&oacute;n emp&iacute;rica se orienta a la obtenci&oacute;n de informaci&oacute;n acerca del funcionamiento de los &iacute;tems o reactivos y de la consistencia del funcionamiento de la prueba, y se concreta en el an&aacute;lisis de datos para comprobar las hip&oacute;tesis de dificultad, discriminaci&oacute;n, ajuste y validez en la interpretaci&oacute;n de resultados.</font></p>     <p align="justify"><font face="verdana" size="2"><b>Validez de constructo y elementos de estructuraci&oacute;n del dominio</b></font></p>     <p align="justify"><font face="verdana" size="2">Desde un punto de vista cient&iacute;fico, el t&eacute;rmino validez se refiere a la validez de constructo; mientras que los t&eacute;rminos validez predictiva, concurrente, convergente, factorial etc., pueden ser considerados m&aacute;s bien como estrategias de colecci&oacute;n y an&aacute;lisis de datos empleadas para probar las conexiones conceptuales entre la medici&oacute;n y el constructo (Angoff, 1988). La validez se entiende como la existencia de evidencias en torno a la consistencia entre el perfil referencial y la prueba; el &eacute;nfasis est&aacute; dado en sustentar el grado en que los puntajes en la prueba representan la medida de la caracter&iacute;stica o atributo psicol&oacute;gico que se supone eval&uacute;a la prueba; es decir, el constructo te&oacute;rico. para ello es necesario establecer procedimientos de revisi&oacute;n l&oacute;gica de la adecuaci&oacute;n, del an&aacute;lisis de su estructura interna y del an&aacute;lisis de la relaci&oacute;n de la prueba con variables externas.</font></p>     <p align="justify"><font face="verdana" size="2">Tambi&eacute;n se deben establecer an&aacute;lisis de constructo en rangos que justifiquen los niveles de desempe&ntilde;o sobre los cuales se establecen los puntos de corte. Tanto las descripciones como las decisiones que se toman a partir de una prueba referida a criterio se hacen con base en las respuestas que los sustentantes dan a los reactivos de la prueba, por lo que es esencial establecer un dise&ntilde;o experimental cuidadoso para investigar la validez de constructo. Estas investigaciones deben derivarse necesariamente del uso propuesto de las mediciones de la prueba, ya que &eacute;ste proporcionar&aacute; la direcci&oacute;n para el tipo de evidencia que es prioritario recuperar.</font></p>     <p align="justify"><font face="verdana" size="2">Mientras que en algunos casos el dominio de medida de una prueba puede ser el criterio de inter&eacute;s, en otros casos puede existir la intenci&oacute;n expl&iacute;cita de generalizar m&aacute;s all&aacute; del dominio de &iacute;tems de la prueba. La necesidad de hacer inferencias en un dominio m&aacute;s amplio del que la prueba mide directamente, requiere de bases te&oacute;ricas m&aacute;s profundas que vinculen la prueba y el criterio; esto es, la necesidad de obtener evidencias de validez de constructo. Haertel (1985) expone la conveniencia de concebir los resultados de aprendizaje como constructos, y a las pruebas referidas a criterio como medidas de estos constructos. Estos constructos se contrastan con otros "m&aacute;s naturales" derivados de la investigaci&oacute;n psicol&oacute;gica. Como estrategia de evaluaci&oacute;n sugiere la integraci&oacute;n de teor&iacute;as de procesos psicol&oacute;gicos y estructuras de memoria implicadas en estos constructos con descripciones de ejecuciones demostradas en diversos contextos, dentro y fuera del &aacute;mbito escolar.</font></p>     <p align="justify"><font face="verdana" size="2">En el &aacute;mbito educativo generalmente los atributos son definidos primariamente en t&eacute;rminos de sus manifestaciones conductuales, y s&oacute;lo de manera secundaria en t&eacute;rminos de los procesos cognoscitivos y mecanismos de memoria subyacentes. Con ellos se pretende cubrir o relacionar un rango espec&iacute;fico de situaciones y son menos estables en el tiempo que la mayor&iacute;a de los constructos psicol&oacute;gicos. De acuerdo con Haertel (1985), no obstante las diferencias que existen entre las pruebas psicol&oacute;gicas y las educativas, la validez de constructo es tan importante para justificar las interpretaciones de las pruebas educativas criteriales como para las mediciones psicol&oacute;gicas, por lo que existe una considerable similitud en la l&oacute;gica de validaci&oacute;n e interpretaci&oacute;n de estas dos formas de medici&oacute;n.</font></p>     <p align="justify"><font face="verdana" size="2">Las pruebas psicol&oacute;gicas son empleadas para hacer inferencias de constructos no observables, para lo cual las predicciones e inferencias se hacen a partir de conductas manifiestas. Las pruebas educativas se emplean para determinar si los estudiantes se desempe&ntilde;an adecuadamente en alg&uacute;n dominio de contenido espec&iacute;fico. Frecuentemente es necesario y deseable intentar generalizar a un dominio m&aacute;s amplio de situaciones y tipos de respuesta de las que la prueba contiene, como es el caso actual de la evaluaci&oacute;n de competencias; en este caso se deber&aacute; justificar dicha generalizaci&oacute;n por medio de alguna teor&iacute;a psicol&oacute;gica (de aprendizaje, memoria, recuperaci&oacute;n o transferencia).</font></p>     <p align="justify"><font face="verdana" size="2">La validez de constructo no s&oacute;lo sirve para justificar los usos de una prueba educativa, sino que puede proporcionar una articulaci&oacute;n entre l&iacute;neas de investigaci&oacute;n de la psicolog&iacute;a educativa con la psicolog&iacute;a cognoscitiva, colocando el &eacute;nfasis en los procesos cognoscitivos y las estructuras de memoria desarrolladas mediante el proceso de instrucci&oacute;n (Greeno, 1980; Snow, 1980). Zeller (1988) propone seis pasos necesarios para establecer la validez de constructo:</font></p>     ]]></body>
<body><![CDATA[<blockquote>       <p align="justify"><font face="verdana" size="2">1. Elegir o construir una teor&iacute;a para la definici&oacute;n de conceptos y la determinaci&oacute;n a priori de las relaciones entre ellos.</font></p>       <p align="justify"><font face="verdana" size="2">2. Seleccionar indicadores que representen cada uno de los conceptos contenidos en la teor&iacute;a.</font></p>       <p align="justify"><font face="verdana" size="2">3. Establecer la naturaleza dimensional de estos indicadores.</font></p>       <p align="justify"><font face="verdana" size="2">4. Calcular la correlaci&oacute;n entre las escalas construidas.</font></p>       <p align="justify"><font face="verdana" size="2">5. Comparar las correlaciones emp&iacute;ricas con las relaciones te&oacute;ricamente determinadas entre los conceptos.</font></p> </blockquote>     <p align="justify"><font face="verdana" size="2">Queda claro que la evaluaci&oacute;n o constataci&oacute;n de los dos primeros pasos requiere de an&aacute;lisis l&oacute;gicos a trav&eacute;s de jueces expertos, mientras que generalmente los &uacute;ltimos tres pasos se han llevado a cabo mediante an&aacute;lisis emp&iacute;ricos como el an&aacute;lisis factorial, t&eacute;cnica usualmente empleada para el an&aacute;lisis de dimensiones de una prueba referida a norma, ya que permite corroborar, a trav&eacute;s de una matriz, si un patr&oacute;n de factores obtenido en el an&aacute;lisis corresponde con el patr&oacute;n de objetivos especificados en el dominio, y si cada reactivo forma parte del factor/objetivo predeterminado.</font></p>     <p align="justify"><font face="verdana" size="2">La estructura resultante de un an&aacute;lisis factorial se compara con alguna estructura que especifique una relaci&oacute;n te&oacute;rica entre los objetivos. Debe quedar claro que los procesos de validez de constructo est&aacute;n necesariamente ligados a la teor&iacute;a, y por ello es materialmente imposible validar la medida de un atributo si no existe una red te&oacute;rica subyacente al atributo a evaluar. El significado de un factor no depende de las caracter&iacute;sticas estad&iacute;sticas de sus indicadores, sino de su contenido te&oacute;rico. para decidir adecuadamente cu&aacute;l de los factores emp&iacute;ricos representa adecuadamente la estructura del dominio a evaluar, es necesario ir m&aacute;s all&aacute; de los criterios estad&iacute;sticos usados.</font></p>     <p align="justify"><font face="verdana" size="2">Entre las t&eacute;cnicas que se reportan en la literatura como de uso m&aacute;s frecuente para determinar la validez de constructo de una prueba referida a criterio est&aacute; la del an&aacute;lisis del escalograma de Guttman, siempre y cuando los objetivos puedan ordenarse en secuencias lineales o jer&aacute;rquicas. En la medida en que las mediciones obtenidas respecto de un objetivo de la jerarqu&iacute;a concuerden con la jerarqu&iacute;a establecida se estar&aacute; ofreciendo evidencia de validez de constructo; si, por el contrario, las mediciones no concuerdan, puede pensarse que ha ocurrido una de tres posibles situaciones: la jerarqu&iacute;a est&aacute; incorrectamente especificada, las mediciones de los objetivos no son v&aacute;lidas, o una combinaci&oacute;n de ambas explicaciones.</font></p>     <p align="justify"><font face="verdana" size="2"><b>Validez de criterio o evidencia basada en relaciones con otras variables</b></font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">A&uacute;n cuando las puntuaciones derivadas de las pruebas referidas a criterio sean descriptivas de los objetivos que suponen reflejar, la utilidad de &eacute;stas como predictores para decir que un sustentante tendr&aacute; o no tendr&aacute; &eacute;xito en la siguiente unidad de instrucci&oacute;n no se puede asegurar. Los estudios de validez de criterio que se emplean en las pruebas normativas son los mismos que se pueden usar para las pruebas criteriales (Cronbach, 1971).</font></p>     <p align="justify"><font face="verdana" size="2">La validez criterial se entiende como la consistencia entre las decisiones que puedan derivarse a partir de la prueba y las de otro instrumento o proceso alternativo externo a la prueba que sirva como criterio para la misma. Se establece mediante estudios de validez concurrente &#151;relaci&oacute;n con otras pruebas o formas de evaluaci&oacute;n con el mismo significado te&oacute;rico&#151; o validez predictiva, mediante la cual se analiza la capacidad de la prueba para cumplir los objetivos fijados en cuanto a su potencialidad para predecir acontecimientos ulteriores, como por ejemplo el rendimiento del alumnado en niveles o cursos posteriores. La evidencia obtenida mediante la relaci&oacute;n con otras variables se orienta a determinar el grado en el cual estas relaciones son consistentes con el constructo de la prueba.</font></p>     <p align="justify"><font face="verdana" size="2">Otro tipo de estudios que entran dentro de esta categor&iacute;a es la de grupos de contraste para establecer la validez de clasificaci&oacute;n o decisi&oacute;n. Las pruebas criteriales com&uacute;nmente se emplean para tomar decisiones en donde se espera que la ejecuci&oacute;n de un sustentante exceda un nivel m&iacute;nimo de ejecuci&oacute;n, a menudo referido a un est&aacute;ndar, para considerarlo apto, es decir, con un nivel de desempe&ntilde;o satisfactorio, generalmente para promoverlo u otorgarle alg&uacute;n certificado. El an&aacute;lisis de validez de decisi&oacute;n generalmente se realiza por medio de jueces expertos en el &aacute;rea, los cuales estudian las propiedades que engloban los reactivos ordenados en el modelo de Guttman. Las categor&iacute;as no deben ser m&aacute;s numerosas que los niveles de desempe&ntilde;o que van a dictaminarse.</font></p>     <p align="justify"><font face="verdana" size="2">Este tipo de validez es en realidad una forma particular de validez de constructo, e involucra el conjunto de est&aacute;ndares de ejecuci&oacute;n de una prueba y la comparaci&oacute;n de la ejecuci&oacute;n de la prueba de dos o m&aacute;s grupos de criterios en relaci&oacute;n con el est&aacute;ndar especificado (Leyva, 2004). Los grupos se forman considerando alg&uacute;n criterio que determine su grado de maestr&iacute;a respecto del dominio a evaluar; por ejemplo, expertos <i>vs. </i>novatos. En este caso se aplica la prueba a ambos grupos y se obtiene el porcentaje de sujetos clasificados correctamente mediante la prueba. La ventaja de este procedimiento radica en que es reportada en una forma interpretable. Adicionalmente, la correlaci&oacute;n entre dos variables dicot&oacute;micas (miembros de un grupo contra decisiones de maestr&iacute;a) puede reportarse y emplearse como &iacute;ndice de validez de decisi&oacute;n.</font></p>     <p align="justify"><font face="verdana" size="2">La validez de decisi&oacute;n depende de varios factores importantes: 1) la calidad de la investigaci&oacute;n de la prueba; 2) la pertinencia de los grupos de criterio; 3) los grupos examinados; y 4) el nivel m&iacute;nimo de ejecuci&oacute;n requerida para alcanzar el nivel de maestr&iacute;a o competencia denominado est&aacute;ndar o punto de corte. Los puntos de corte deben ser validados en combinaci&oacute;n con el an&aacute;lisis de reactivos, de tal forma que se garantice que los reactivos se ubican bien en un constructo dado, permitiendo ser usados como discriminadores de los niveles de desempe&ntilde;o, lo que en la literatura se denomina "anclaje" de los reactivos a los niveles de desempe&ntilde;o. Al respecto, Berk (1976) estima que el mejor punto de corte es aquel que maximice la validez de clasificaci&oacute;n; la utilidad y la validez se incrementan minimizando los errores de clasificaci&oacute;n. Adicionalmente, para las pruebas criteriales, parece de gran utilidad el m&eacute;todo de validaci&oacute;n de grupos de criterio (Berk, 1976). Se basa en la utilizaci&oacute;n de dos grupos de sujetos como criterios de contraste: los instruidos (que han superado con &eacute;xito un curso) y los no instruidos (que a&uacute;n no lo han abordado).</font></p>     <p align="justify"><font face="verdana" size="2">Otra alternativa, cuando se han cuidado las propiedades m&eacute;tricas de la prueba, ser&iacute;a el anclaje de escala propuesto por Beaton y Allen (1992), el cual involucra un componente estad&iacute;stico que identifica reactivos que discriminan entre puntos sucesivos en una escala de ejecuci&oacute;n usando caracter&iacute;sticas espec&iacute;ficas de los reactivos. Tambi&eacute;n involucra un componente de consenso en el cual se emplean reactivos identificados por expertos especialistas en el &aacute;rea, para proporcionar una interpretaci&oacute;n de lo que saben o pueden hacer los grupos de estudiantes en, o cerca de las puntuaciones de las escalas seleccionadas.</font></p>     <p align="justify"><font face="verdana" size="2">Tanto las escalas referidas a norma como las referidas a criterio contienen informaci&oacute;n &uacute;til para quien trata de interpretar los resultados de una prueba. El <i>National Assessment of Educational Progress </i>(NAEP) intenta satisfacer ambos tipos de interpretaciones mediante la producci&oacute;n de escalas continuas que sean manejables para la interpretaci&oacute;n referida a norma y por el anclaje de estas escalas en una forma que describa, en t&eacute;rminos probabil&iacute;sticos, lo que saben o saben hacer estudiantes de diferentes puntos de la escala. La idea b&aacute;sica del anclaje es simple, sin embargo, es probable que los intentos por describir los logros de los estudiantes en cada punto de la escala resulten complicados. Por ello es conveniente elegir algunos puntos a lo largo de la escala para la descripci&oacute;n, los cuales se denominar&aacute;n "puntajes o niveles ancla" (Beaton y Allen, 1992). Es probable que en muchos casos el nivel de logro sea acumulativo, es decir que los estudiantes de mayor nivel de desempe&ntilde;o sepan y puedan realizar todo lo que saben y pueden hacer los estudiantes de niveles m&aacute;s bajos y m&aacute;s. Es por ello que las descripciones deben incorporar el incremento en el logro entre los diferentes puntajes ancla de la escala.</font></p>     <p align="justify"><font face="verdana" size="2">Hay dos m&eacute;todos de anclaje de la escala: el m&eacute;todo directo y el m&eacute;todo atenuado. Ambos requieren que la escala haya sido generada por m&eacute;todos psicom&eacute;tricos tradicionales o de teor&iacute;a de respuesta al &iacute;tem (IRT). Los m&eacute;todos directos usan las funciones discretas de respuesta a los reactivos, es decir, la proporci&oacute;n de respuestas correctas en los diferentes niveles de la escala. El m&eacute;todo atenuado emplea el procedimiento de ajuste de curvas a los reactivos para crear funciones atenuadas de respuesta al &iacute;tem.</font></p>     <p align="justify"><font face="verdana" size="2"><b>Validez cognoscitiva</b></font></p>     <p align="justify"><font face="verdana" size="2">Como ya se se&ntilde;al&oacute;, en el enfoque actual de evaluaci&oacute;n de competencias se requiere expandir la teor&iacute;a de validez hacia una teor&iacute;a que d&eacute; cuenta de interpretaciones de procesos cognoscitivos a partir de medidas de una prueba o de ejecuciones observables para poder generalizar los resultados m&aacute;s all&aacute; del dominio de una prueba. Shavelson y Ruiz&#150;Primo (2000) proponen algunas aplicaciones de m&eacute;todos de evaluaci&oacute;n tales como el mapa conceptual para establecer la validez cognoscitiva de las medidas de pruebas de ejecuci&oacute;n o competencias. De acuerdo con esta aproximaci&oacute;n, los resultados de una prueba constituyen una muestra del universo de conductas de inter&eacute;s del individuo, a partir de la cual se hacen inferencias.</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Desde esta perspectiva, el puntaje o medida asignada a un estudiante es una muestra del dominio de posibles medidas que pudimos haber obtenido del estudiante. Un esquema de muestreo es &uacute;til para identificar facetas que caracterizan la medici&oacute;n. Las facetas incluyen: a) la tarea presentada, b) la ocasi&oacute;n de la medici&oacute;n, c) los juicios de quienes observan la ejecuci&oacute;n, y d) los m&eacute;todos de evaluaci&oacute;n (Ruiz&#150;Primo y Shavelson, 2001). Esto significa que, para un tipo particular de evaluaci&oacute;n, las facetas relevantes a la medida pueden variar, por ejemplo, la faceta que se refiere a los juicios de observadores es irrelevante en una prueba de opci&oacute;n m&uacute;ltiple.</font></p>     <p align="justify"><font face="verdana" size="2">Tradicionalmente la variaci&oacute;n debida a la tarea, la ocasi&oacute;n o los juicios, se manejaba como fuente que atentaba contra la confiabilidad de la prueba. En contraste, la incorporaci&oacute;n de m&eacute;todos de medici&oacute;n dentro de la especificaci&oacute;n del universo en el cual ocurre el muestreo, nos permite trasladar nuestro enfoque de una teor&iacute;a de confiabilidad a una teor&iacute;a de validez. Cuando las ejecuciones var&iacute;an de una tarea a otra, o de una ocasi&oacute;n a otra, hablamos de un error de medida debido a la variabilidad del muestreo. Pero si la ejecuci&oacute;n var&iacute;a de un m&eacute;todo de medici&oacute;n a otro hablamos de un problema de validez (convergente) debida a variabilidad ocasionada por el m&eacute;todo (Kane, 1982; Baxter y Shavelson, 1994).</font></p>     <p align="justify"><font face="verdana" size="2">Este tipo de evidencia de validez de constructo se orienta a examinar las interpretaciones propuestas de los puntajes de una prueba mediante estudios de investigaci&oacute;n que impliquen comparaciones entre expertos y novatos, an&aacute;lisis cognoscitivo y an&aacute;lisis de la calidad de las tareas (Shavelson y Ruiz&#150;Primo, 2000; Ruiz&#150;Primo y Shavelson, 2001). La importancia de realizar este tipo de investigaci&oacute;n es que permite profundizar en los procesos cognoscitivos evocados con la soluci&oacute;n de casos o problemas, proporcionando elementos valiosos para la construcci&oacute;n de programas educativos m&aacute;s adecuados para el desarrollo de competencias en los diferentes niveles educativos (Patel, Kaufman y Arocha, 2000). Tambi&eacute;n proporciona elementos para mejorar los m&eacute;todos de evaluaci&oacute;n hasta ahora desarrollados.</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2"><b>A manera de conclusi&oacute;n</b></font></p>     <p align="justify"><font face="verdana" size="2">Se ha podido apreciar la complejidad en torno a la elaboraci&oacute;n y administraci&oacute;n de pruebas criteriales; no obstante, en la actualidad existe una gran cantidad de recursos conceptuales y metodol&oacute;gicos desarrollados para establecer l&iacute;neas de investigaci&oacute;n orientadas a la mejora continua y uso adecuado de los resultados de este tipo de pruebas educativas en la evaluaci&oacute;n de competencias. Hasta ahora el trabajo de investigaci&oacute;n en este campo es a&uacute;n incipiente y desafortunadamente en nuestro pa&iacute;s ni siquiera se considera importante, a pesar del uso creciente de pruebas criteriales en procesos de certificaci&oacute;n de competencias. Los pocos trabajos de investigaci&oacute;n que existen no se han difundido lo suficiente, a pesar de que de ellos depende en gran medida ganar credibilidad y con ello utilidad de los resultados generados durante casi una d&eacute;cada de aplicaci&oacute;n de pruebas internacionales y nacionales en nuestro pa&iacute;s.</font></p>     <p align="justify"><font face="verdana" size="2">En la &uacute;ltima d&eacute;cada se ha evaluado a miles de egresados de las principales universidades p&uacute;blicas y privadas del pa&iacute;s en diversos campos profesionales, lo que ha generado grandes bases de datos; pero es evidente que el uso que se ha hecho de los resultados es muy pobre y en ocasiones inapropiado, adem&aacute;s de los problemas ocasionados por una difusi&oacute;n distorsionada, que lejos de apoyar los distintos niveles de decisiones produce errores conceptuales con implicaciones negativas para el prop&oacute;sito esencial de mejorar la calidad de la educaci&oacute;n en nuestro pa&iacute;s. En educaci&oacute;n b&aacute;sica el panorama no es m&aacute;s alentador: la aplicaci&oacute;n poblacional de la prueba enlace ha producido fuentes de invalidez por la falta de controles en su aplicaci&oacute;n, afectando la interpretaci&oacute;n y credibilidad de los resultados. En el INEE se han realizado esfuerzos importantes en el sentido planteado en este art&iacute;culo, los cuales se han difundido en diversas publicaciones t&eacute;cnicas, no obstante &eacute;stas son consultadas por muy pocas personas.</font></p>     <p align="justify"><font face="verdana" size="2">Se requiere un mayor esfuerzo, dadas las implicaciones que actualmente tiene la evaluaci&oacute;n a gran escala en M&eacute;xico; se necesita invertir en la profesionalizaci&oacute;n del evaluador educativo y en el desarrollo de las l&iacute;neas de investigaci&oacute;n comentadas en este art&iacute;culo, as&iacute; como en mecanismos de difusi&oacute;n m&aacute;s eficaces para orientar a estudiantes, profesores, directivos y padres de familia en el uso adecuado de los resultados de estas pruebas para que realmente tenga sentido seguir aplic&aacute;ndolas a nivel nacional. Finalmente, y no menos importante, es imperativo que quienes son responsables de tomar decisiones para reorientar pol&iacute;ticas p&uacute;blicas en materia de educaci&oacute;n no sean tan ajenos a estos temas.</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2"><b>Referencias</b></font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">American Educational Research Association (AERA), American Psychological Association (APA), National Council on Measurement in Education (NCME) (1999), <i>Standards for Educational and Psychological Testing, </i>Washington, APA.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862070&pid=S0185-2698201100010000900001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Anderson, R.C. (1972), "How to Construct Achievement Tests to Assess Comprehension?", <i>Review of Educational Research, </i>n&uacute;m 42, pp. 145&#150;170.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862072&pid=S0185-2698201100010000900002&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Angoff, W.H. (1988), "Validity: An evolving concept", en H. Wainer y H.I. Braun (eds.), <i>Test Validity, </i>New Jersey, LEA, pp. 19&#150;32.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862074&pid=S0185-2698201100010000900003&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Baxter, G.P. y R.J. Shavelson (1994), "Science Performance Assessments: Benchmarks and surrogates", <i>International Journal of Educational Research, </i>vol. 21, n&uacute;m. 3, pp. 279&#150;298.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862076&pid=S0185-2698201100010000900004&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Beaton, A.E. y N.L. Allen (1992), "Interpreting Scales Through Scale Anchoring", <i>Journal of Educational Statistics, </i>vol. 17, pp. 191&#150;204.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862078&pid=S0185-2698201100010000900005&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">Berk, R.A. (1976), "Determination of Optimal Cutting Scores in Criterion&#150;referenced Measurement, <i>Journal of Experimental Education, </i>vol. 45, pp. 4&#150;9.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862080&pid=S0185-2698201100010000900006&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Berk, R.A. (1978), "The Application of Structural Facet Theory to Achievement Test Construction", <i>Educational Research Quarterly, </i>vol. 3, pp. 62&#150;72.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862082&pid=S0185-2698201100010000900007&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Berk, R.A. (1996), "Standard Setting: The next generation (where few psychometricians have gone before)", <i>Applied Measurement in Education, </i>vol. 9, n&uacute;m. 3, pp. 215&#150;235.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862084&pid=S0185-2698201100010000900008&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Beuck, C.H. (1984), "A Method for Reaching a Compromise between Absolute and Relative Standards in Examinations", <i>Journal of Educational Measurement, </i>vol. 21, pp. 147&#150;152.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862086&pid=S0185-2698201100010000900009&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Biggs, J.B. y K.E. Collins (1982), <i>Evaluating the Quality of Learning: The SOLO Taxonomy, </i>Nueva York, Academic Press.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862088&pid=S0185-2698201100010000900010&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">Brennan, R.L. y R.E. Cockwood (1980), "A Comparison of the Nedelsky and Angoff Cutting Score Procedures Using Generalizability Theory", <i>Applied Psychological Measurement, </i>vol. 4, n&uacute;m. 2, pp. 219&#150;240.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862090&pid=S0185-2698201100010000900011&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Cizek, G.J. (2005), "Adapting Testing Technology to Serve Accountability Aims: The case of vertically&#150;moderated standard seeting", <i>Applied Measurement in Education, </i>vol. 18, n&uacute;m. 1, pp. 1&#150;10.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862092&pid=S0185-2698201100010000900012&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Cizek, G.J. y M.B. Bunch (2007), <i>Standard Setting: A guide to establishing and evaluating performance standards on tests, </i>California, SAGE Publications.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862094&pid=S0185-2698201100010000900013&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Cronbach, L.J. (1971), "Test Validation", en R.L Thorndike (ed.), <i>Educational Measurement, </i>Washington, American Council on Education, pp. 443&#150;507.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862096&pid=S0185-2698201100010000900014&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Ebel, R.L. (1962), "Content Standard Test Scores", <i>Educational and Psychological Measurement, </i>vol. 22, pp. 15&#150;25.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862098&pid=S0185-2698201100010000900015&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">Embreston, S.E. y S.P. Reise (2000), <i>Item Response Theory for Psychologists, </i>New Jersey, LEA.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862100&pid=S0185-2698201100010000900016&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Glaser, R. (1963), "Instructional Technology and the Measurement of Learning Outcomes", <i>American Psychologist, </i>vol. 18, pp. 515&#150;521.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862102&pid=S0185-2698201100010000900017&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Glaser, R. y A.J. Nitko (1971), "Measurement in Learning and Instruction", en R. Thorndike (ed.), <i>Educational Measurement, </i>Washington, American Council on Education, pp. 1040&#150;1044.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862104&pid=S0185-2698201100010000900018&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Greeno, J.G. (1980), "Psychology of Learning, 1960&#150;1980: One participant observation", <i>American Psychologist, </i>vol. 35, pp. 713&#150;728.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862106&pid=S0185-2698201100010000900019&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Haertel, E. (1985), "Construct Validity and Criterion&#150;Referenced Testing", <i>Review of Educational Research, </i>vol. 55, pp. 23&#150;46.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862108&pid=S0185-2698201100010000900020&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">Hambleton, R.K. (1980), "Test Score Validity and Standard&#150;setting Methods", en R.A. Berk, <i>Criterion&#150;Referenced Measurement: The state of the art, </i>Baltimore, Johns Hopkins University Press, pp. 80&#150;123.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862110&pid=S0185-2698201100010000900021&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Hambleton, R.K. (1984), "Validating the Test Scores", en R. Berk (ed.), <i>A Guide to Criterion&#150;Referenced Test Construction, </i>Baltimore, MD, The Johns Hopkins University Press, pp. 199&#150;230.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862112&pid=S0185-2698201100010000900022&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Hambleton, R.K. (1985), "Criterion&#150;Referenced Assessment of Individual Differences", en C.R. Reynolds y V.L. Willson (eds.), <i>Methodological and Statistical Advances in the Study of Individual Differences, </i>Nueva York, Plenum Press, pp. 393&#150;424.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862114&pid=S0185-2698201100010000900023&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Hambleton, R.K. (1995), "Criterion&#150;Referenced Measurement", en T. Husan y T.N. Postlethwaite (eds.), <i>International Encyclopedia of Education, </i>Nueva York, Pergamon Press, pp. 1182&#150;1189.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862116&pid=S0185-2698201100010000900024&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Hambleton, R.K. y H. Swaminathan (1978), "Criterion&#150;Referenced Testing and Measurement: A review of technical issues and developments", <i>Review of Educational Research, </i>vol. 40, pp. 1&#150;47.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862118&pid=S0185-2698201100010000900025&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">Hively, W., H.L. Patterson y S.A. Page (1968), "Universe&#150;defined System of Arithmetic Achievement Tests", <i>Journal of Educational Measurement, </i>vol. 5, pp. 275&#150;290.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862120&pid=S0185-2698201100010000900026&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Hofstee, W.K.B. (1983), "The Case for Compromise in Educational Selection and Grading", en S.B. Anderson y J.S. Helmick (eds.), <i>On Educational Testing, </i>San Francisco, Jossey&#150;Bass, pp. 109&#150;127.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862122&pid=S0185-2698201100010000900027&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Jornet, J.M. y E. Backhoff (2008), <i>Modelo para la determinaci&oacute;n de niveles de logro y puntos de corte de los ex&aacute;menes de la calidad y el logro educativos (Excale), </i>M&eacute;xico, INEE, Colecci&oacute;n Cuadernos de Investigaci&oacute;n, n&uacute;m. 30.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862124&pid=S0185-2698201100010000900028&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Jornet, J.M. y J. Gonz&aacute;lez (2009), "Evaluaci&oacute;n crite&#150;rial: determinaci&oacute;n de est&aacute;ndares de interpretaci&oacute;n (EE) para pruebas de rendimiento educativo", <i>Estudios sobre Educaci&oacute;n, </i>n&uacute;m. 16, pp. 103&#150;123.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862126&pid=S0185-2698201100010000900029&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Jornet, J.M., J. Gonz&aacute;lez y J.M. Su&aacute;rez (2010), "Validaci&oacute;n de los procesos de determinaci&oacute;n de est&aacute;ndares de interpretaci&oacute;n para pruebas de rendimiento educativo", <i>Estudios sobre Educaci&oacute;n </i>(en prensa).    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862128&pid=S0185-2698201100010000900030&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">Jornet, J.M. y J.M. Su&aacute;rez (1994), "Evaluaci&oacute;n referida al criterio: construcci&oacute;n de un <i>test </i>criterial de clase", en V. Garc&iacute;a Hoz, <i>Problemas y m&eacute;todos de investigaci&oacute;n en educaci&oacute;n personalizada, </i>Madrid, Rialp, pp. 419&#150;443.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862130&pid=S0185-2698201100010000900031&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Jornet, J.M. y J.M. Su&aacute;rez (1987), "Un procedimiento para la determinaci&oacute;n de est&aacute;ndares y establecimiento de puntos de corte en programas educativos", <i>Estudios de la Revista BORDON, </i>vol. 41, pp. 217&#150;236.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862132&pid=S0185-2698201100010000900032&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Kane, M.T. (1982), "A Sampling Model of Validity", <i>Applied Psychological Measurement, </i>vol. 6, pp. 126&#150;160.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862134&pid=S0185-2698201100010000900033&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Kieffer, K.M (1999), "Why Generalizability Theory is Essential and Classical Test Theory is Often Inadequate", <i>Advances in Social Science Methodology, </i>vol. 5, pp. 149&#150;170.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862136&pid=S0185-2698201100010000900034&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Kingstone, N.M., S.R. Kahl, K. Sweeney y L. Bay (2001), <i>Setting Performance Standards: Concepts, methods and perspectives, </i>Mahwah, N.J., Lawrence Erlbaum.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862138&pid=S0185-2698201100010000900035&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">Leyva, Y.E. (2004), <i>Validez de constructo en la evaluaci&oacute;n de competencias m&eacute;dicas mediante pruebas referidas a criterio, </i>Tesis doctoral, M&eacute;xico, Universidad Aut&oacute;noma de Aguascalientes.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862140&pid=S0185-2698201100010000900036&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Lewis, D.M., H.C. Mitzel y D.R. Green (1996), "Standard Setting: A bookmark approach", en D.R. Green (dir.), <i>IRT&#150;Based Standard&#150;Setting Procedures Utilizing Behavioural Anchoring, </i>simposio organizado por el Council of Chief State School Officers National Conference on Large&#150;Scale Assessment, Phoenix, junio.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862142&pid=S0185-2698201100010000900037&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Linn, R.L. (1979), "Issues of Validity in Measurement for Competency&#150;Based Programs", en M.A. Bunda y J.R. Sanders (eds.), <i>Practices and Problems in Competency&#150;Based Measurement, </i>Washington, National Council on Measurement in Education, pp. 547&#150;561.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862144&pid=S0185-2698201100010000900038&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Livingston, S.A. y M.J. Zieky (1982), <i>Passing Scores: A manual for setting standards of performance on educational and occupational tests, </i>Princeton, N.J., Educational Testing Service.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862146&pid=S0185-2698201100010000900039&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Marzano, R.J. (2007), <i>Designing a New Taxonomy of Educational Objectives, </i>California, Corwin Press, Inc., Sage Publications Company.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862148&pid=S0185-2698201100010000900040&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">Messik, S. (1975), "The Standard Problem: Meaning and values in measurement and evaluation", <i>American Psychologist, </i>vol. 30, pp. 955&#150;966.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862150&pid=S0185-2698201100010000900041&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Millman, J. (1974), "Criterion&#150;Referenced Measurement", en W.J. Popham (ed.), <i>Evaluation in Education: Current applications, </i>Berkeley, McCutchan, pp. 205&#150;216.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862152&pid=S0185-2698201100010000900042&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Patel, V.L., D.R. Kaufman y J.F. Arocha (2000), "Conceptual Change in the Biomedical and Health Sciences Domain", en R. Glaser (ed.), <i>Advances in Instructional Psychology, </i>vol. 5: <i>Educational Design and Cognitive Science, </i>Londres, LAE, pp. 329&#150;392.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862154&pid=S0185-2698201100010000900043&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Plake, B.S., R.K. Hambleton y R.M. Jaeger (1997), "A New Standard Setting Method form Performance and Assessment. The dominant profile judgment method and some field&#150;test results", <i>Educational and Psychological Measurement, </i>vol. 57, pp. 400&#150;411.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862156&pid=S0185-2698201100010000900044&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Popham, W.J. (1983), <i>Evaluaci&oacute;n basada en criterios, </i>Madrid, Magisterio Espa&ntilde;ol, S.A.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862158&pid=S0185-2698201100010000900045&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">Popham, W.J. y T.R. Husek (1969), "Implication of Criterion&#150;Referenced Test", <i>Applied Psychology Measurement, </i>vol. 4, pp. 469&#150;492.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862160&pid=S0185-2698201100010000900046&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Ruiz&#150;Primo, M.A. y R.J. Shavelson (2001), "Comparison of the Reliability and Validity of Scores from two Concept&#150;Mapping Techniques", <i>Journal of Research in Science Teaching, </i>vol. 38, n&uacute;m.2, pp. 260&#150;278.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862162&pid=S0185-2698201100010000900047&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Scandura, J.M. (1977), <i>Problem Solving: A structural/process approach with educational implications, </i>Nueva York, Academic Press.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862164&pid=S0185-2698201100010000900048&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Schoon, CG., C.M. Guillion y P. Ferrara (1979), "Bayesian Statistics, Credentialing Examinations and the Determination of Passing Points", <i>Evaluation and the Health Professions, </i>vol. 2, pp. 181&#150;201.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862166&pid=S0185-2698201100010000900049&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Shavelson, R.J. y M.A. Ruiz&#150;Primo (2000), "On the Psychometrics of Assessing Science Understanding", en J. Mintzes, J. Wandersee y J. Novak (eds.), <i>Assessing Science Understanding, </i>San Diego, Academic Press, pp. 303&#150;341.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862168&pid=S0185-2698201100010000900050&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">Shepard, L.A. (1980), "Standard Setting Issues and Methods", <i>Applied Psychological Measurement, </i>vol. 4, n&uacute;m. 4, pp. 447&#150;467.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862170&pid=S0185-2698201100010000900051&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Sireci, S.G., R.K. Hambleton y M.J. Pitoniak (2004), "Setting Passing Scores on Licensure Examinations Using Direct Consensus", <i>CLEAR Exam Review, </i>vol. 15, n&uacute;m. 1, pp. 21.25.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862172&pid=S0185-2698201100010000900052&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Snow, R.E. (1980), "Aptitude and Achievement", en W.B. Schrader (ed.), <i>Measuring Achievement: Progress over a decade, new directions for testing and measurement, </i>San Francisco, Jossey Bass, pp. 47&#150;103.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862174&pid=S0185-2698201100010000900053&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Van der Linden, W.J. (1984), "Decision Models for the Use with Criterion&#150;Referenced Tests", <i>Applied Psychological Measurement, </i>vol. 4, pp. 469&#150;492.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862176&pid=S0185-2698201100010000900054&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">Zeller, R.A. (1988), "Validity", en J.P. Keeves (ed.), <i>Educational Research, Methodology and Measurement: An International Handbook, </i>Nueva York, Pergamon Press, pp. 322&#150;330.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5862178&pid=S0185-2698201100010000900055&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     ]]></body>
<body><![CDATA[ ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="book">
<collab>American Educational Research Association</collab>
<collab>American Psychological Association</collab>
<collab>National Council on Measurement in Education</collab>
<source><![CDATA[Standards for Educational and Psychological Testing]]></source>
<year>1999</year>
<publisher-loc><![CDATA[Washington ]]></publisher-loc>
<publisher-name><![CDATA[APA]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Anderson]]></surname>
<given-names><![CDATA[R.C.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[How to Construct Achievement Tests to Assess Comprehension?]]></article-title>
<source><![CDATA[Review of Educational Research]]></source>
<year>1972</year>
<volume>42</volume>
<page-range>145-170</page-range></nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Angoff]]></surname>
<given-names><![CDATA[W.H.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Validity: An evolving concept]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Wainer]]></surname>
<given-names><![CDATA[H.]]></given-names>
</name>
<name>
<surname><![CDATA[Braun]]></surname>
<given-names><![CDATA[H.I.]]></given-names>
</name>
</person-group>
<source><![CDATA[Test Validity]]></source>
<year>1988</year>
<page-range>19-32</page-range><publisher-loc><![CDATA[New Jersey ]]></publisher-loc>
<publisher-name><![CDATA[LEA]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Baxter]]></surname>
<given-names><![CDATA[G.P.]]></given-names>
</name>
<name>
<surname><![CDATA[Shavelson]]></surname>
<given-names><![CDATA[R.J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Science Performance Assessments: Benchmarks and surrogates]]></article-title>
<source><![CDATA[International Journal of Educational Research]]></source>
<year>1994</year>
<volume>21</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>279-298</page-range></nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Beaton]]></surname>
<given-names><![CDATA[A.E.]]></given-names>
</name>
<name>
<surname><![CDATA[Allen]]></surname>
<given-names><![CDATA[N.L.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Interpreting Scales Through Scale Anchoring]]></article-title>
<source><![CDATA[Journal of Educational Statistics]]></source>
<year>1992</year>
<volume>17</volume>
<page-range>191-204</page-range></nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Berk]]></surname>
<given-names><![CDATA[R.A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Determination of Optimal Cutting Scores in Criterion-referenced Measurement]]></article-title>
<source><![CDATA[Journal of Experimental Education]]></source>
<year>1976</year>
<volume>45</volume>
<page-range>4-9</page-range></nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Berk]]></surname>
<given-names><![CDATA[R.A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[The Application of Structural Facet Theory to Achievement Test Construction]]></article-title>
<source><![CDATA[Educational Research Quarterly]]></source>
<year>1978</year>
<volume>3</volume>
<page-range>62-72</page-range></nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Berk]]></surname>
<given-names><![CDATA[R.A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Standard Setting: The next generation (where few psychometricians have gone before)]]></article-title>
<source><![CDATA[Applied Measurement in Education]]></source>
<year>1996</year>
<volume>9</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>215-235</page-range></nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Beuck]]></surname>
<given-names><![CDATA[C.H.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A Method for Reaching a Compromise between Absolute and Relative Standards in Examinations]]></article-title>
<source><![CDATA[Journal of Educational Measurement]]></source>
<year>1984</year>
<volume>21</volume>
<page-range>147-152</page-range></nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Biggs]]></surname>
<given-names><![CDATA[J.B.]]></given-names>
</name>
<name>
<surname><![CDATA[Collins]]></surname>
<given-names><![CDATA[K.E.]]></given-names>
</name>
</person-group>
<source><![CDATA[Evaluating the Quality of Learning: The SOLO Taxonomy]]></source>
<year>1982</year>
<publisher-loc><![CDATA[Nueva York ]]></publisher-loc>
<publisher-name><![CDATA[Academic Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Brennan]]></surname>
<given-names><![CDATA[R.L.]]></given-names>
</name>
<name>
<surname><![CDATA[Cockwood]]></surname>
<given-names><![CDATA[R.E.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A Comparison of the Nedelsky and Angoff Cutting Score Procedures Using Generalizability Theory]]></article-title>
<source><![CDATA[Applied Psychological Measurement]]></source>
<year>1980</year>
<volume>4</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>219-240</page-range></nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Cizek]]></surname>
<given-names><![CDATA[G.J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Adapting Testing Technology to Serve Accountability Aims: The case of vertically-moderated standard seeting]]></article-title>
<source><![CDATA[Applied Measurement in Education]]></source>
<year>2005</year>
<volume>18</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>1-10</page-range></nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Cizek]]></surname>
<given-names><![CDATA[G.J.]]></given-names>
</name>
<name>
<surname><![CDATA[Bunch]]></surname>
<given-names><![CDATA[M.B.]]></given-names>
</name>
</person-group>
<source><![CDATA[Standard Setting: A guide to establishing and evaluating performance standards on tests]]></source>
<year>2007</year>
<publisher-loc><![CDATA[California ]]></publisher-loc>
<publisher-name><![CDATA[SAGE Publications]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Cronbach]]></surname>
<given-names><![CDATA[L.J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Test Validation]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Thorndike]]></surname>
<given-names><![CDATA[R.L]]></given-names>
</name>
</person-group>
<source><![CDATA[Educational Measurement]]></source>
<year>1971</year>
<page-range>443-507</page-range><publisher-loc><![CDATA[Washington ]]></publisher-loc>
<publisher-name><![CDATA[American Council on Education]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ebel]]></surname>
<given-names><![CDATA[R.L.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Content Standard Test Scores]]></article-title>
<source><![CDATA[Educational and Psychological Measurement]]></source>
<year>1962</year>
<volume>22</volume>
<page-range>15-25</page-range></nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Embreston]]></surname>
<given-names><![CDATA[S.E.]]></given-names>
</name>
<name>
<surname><![CDATA[Reise]]></surname>
<given-names><![CDATA[S.P.]]></given-names>
</name>
</person-group>
<source><![CDATA[Item Response Theory for Psychologists]]></source>
<year>2000</year>
<publisher-loc><![CDATA[New Jersey ]]></publisher-loc>
<publisher-name><![CDATA[LEA]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B17">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Glaser]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Instructional Technology and the Measurement of Learning Outcomes]]></article-title>
<source><![CDATA[American Psychologist]]></source>
<year>1963</year>
<volume>18</volume>
<page-range>515-521</page-range></nlm-citation>
</ref>
<ref id="B18">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Glaser]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[Nitko]]></surname>
<given-names><![CDATA[A.J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Measurement in Learning and Instruction]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Thorndike]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<source><![CDATA[Educational Measurement]]></source>
<year>1971</year>
<page-range>1040-1044</page-range><publisher-loc><![CDATA[Washington ]]></publisher-loc>
<publisher-name><![CDATA[American Council on Education]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B19">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Greeno]]></surname>
<given-names><![CDATA[J.G.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Psychology of Learning, 1960-1980: One participant observation]]></article-title>
<source><![CDATA[American Psychologist]]></source>
<year>1980</year>
<volume>35</volume>
<page-range>713-728</page-range></nlm-citation>
</ref>
<ref id="B20">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Haertel]]></surname>
<given-names><![CDATA[E.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Construct Validity and Criterion-Referenced Testing]]></article-title>
<source><![CDATA[Review of Educational Research]]></source>
<year>1985</year>
<volume>55</volume>
<page-range>23-46</page-range></nlm-citation>
</ref>
<ref id="B21">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hambleton]]></surname>
<given-names><![CDATA[R.K.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Test Score Validity and Standard-setting Methods]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Berk]]></surname>
<given-names><![CDATA[R.A.]]></given-names>
</name>
</person-group>
<source><![CDATA[Criterion-Referenced Measurement: The state of the art, Baltimore]]></source>
<year>1980</year>
<page-range>80-123</page-range><publisher-name><![CDATA[Johns Hopkins University Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B22">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hambleton]]></surname>
<given-names><![CDATA[R.K.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Validating the Test Scores]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Berk]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<source><![CDATA[A Guide to Criterion-Referenced Test Construction]]></source>
<year>1984</year>
<page-range>199-230</page-range><publisher-loc><![CDATA[Baltimore^eMD MD]]></publisher-loc>
<publisher-name><![CDATA[The Johns Hopkins University Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B23">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hambleton]]></surname>
<given-names><![CDATA[R.K.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Criterion-Referenced Assessment of Individual Differences]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Reynolds]]></surname>
<given-names><![CDATA[C.R.]]></given-names>
</name>
<name>
<surname><![CDATA[Willson]]></surname>
<given-names><![CDATA[V.L.]]></given-names>
</name>
</person-group>
<source><![CDATA[Methodological and Statistical Advances in the Study of Individual Differences]]></source>
<year>1985</year>
<page-range>393-424</page-range><publisher-loc><![CDATA[Nueva York ]]></publisher-loc>
<publisher-name><![CDATA[Plenum Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B24">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hambleton]]></surname>
<given-names><![CDATA[R.K.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Criterion-Referenced Measurement]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Husan]]></surname>
<given-names><![CDATA[T.]]></given-names>
</name>
<name>
<surname><![CDATA[Postlethwaite]]></surname>
<given-names><![CDATA[T.N.]]></given-names>
</name>
</person-group>
<source><![CDATA[International Encyclopedia of Education]]></source>
<year>1995</year>
<page-range>182-1189</page-range><publisher-loc><![CDATA[Nueva York ]]></publisher-loc>
<publisher-name><![CDATA[Pergamon Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B25">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hambleton]]></surname>
<given-names><![CDATA[R.K.]]></given-names>
</name>
<name>
<surname><![CDATA[Swaminathan]]></surname>
<given-names><![CDATA[H.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Criterion-Referenced Testing and Measurement: A review of technical issues and developments]]></article-title>
<source><![CDATA[Review of Educational Research]]></source>
<year>1978</year>
<volume>40</volume>
<page-range>1-47</page-range></nlm-citation>
</ref>
<ref id="B26">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hively]]></surname>
<given-names><![CDATA[W.]]></given-names>
</name>
<name>
<surname><![CDATA[Patterson]]></surname>
<given-names><![CDATA[H.L.]]></given-names>
</name>
<name>
<surname><![CDATA[Page]]></surname>
<given-names><![CDATA[S.A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Universe-defined System of Arithmetic Achievement Tests]]></article-title>
<source><![CDATA[Journal of Educational Measurement]]></source>
<year>1968</year>
<volume>5</volume>
<page-range>275-290</page-range></nlm-citation>
</ref>
<ref id="B27">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hofstee]]></surname>
<given-names><![CDATA[W.K.B.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[The Case for Compromise in Educational Selection and Grading]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Anderson]]></surname>
<given-names><![CDATA[S.B.]]></given-names>
</name>
<name>
<surname><![CDATA[Helmick]]></surname>
<given-names><![CDATA[J.S.]]></given-names>
</name>
</person-group>
<source><![CDATA[On Educational Testing]]></source>
<year>1983</year>
<page-range>109-127</page-range><publisher-loc><![CDATA[San Francisco ]]></publisher-loc>
<publisher-name><![CDATA[Jossey-Bass]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B28">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Jornet]]></surname>
<given-names><![CDATA[J.M.]]></given-names>
</name>
<name>
<surname><![CDATA[Backhoff]]></surname>
<given-names><![CDATA[E.]]></given-names>
</name>
</person-group>
<source><![CDATA[Modelo para la determinación de niveles de logro y puntos de corte de los exámenes de la calidad y el logro educativos (Excale)]]></source>
<year>2008</year>
<volume>30</volume>
<publisher-name><![CDATA[INEE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B29">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Jornet]]></surname>
<given-names><![CDATA[J.M.]]></given-names>
</name>
<name>
<surname><![CDATA[González]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Evaluación crite-rial: determinación de estándares de interpretación (EE) para pruebas de rendimiento educativo]]></article-title>
<source><![CDATA[Estudios sobre Educación]]></source>
<year>2009</year>
<numero>16</numero>
<issue>16</issue>
<page-range>103-123</page-range></nlm-citation>
</ref>
<ref id="B30">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Jornet]]></surname>
<given-names><![CDATA[J.M.]]></given-names>
</name>
<name>
<surname><![CDATA[González]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[Suárez]]></surname>
<given-names><![CDATA[J.M.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Validación de los procesos de determinación de estándares de interpretación para pruebas de rendimiento educativo]]></article-title>
<source><![CDATA[Estudios sobre Educación]]></source>
<year>2010</year>
</nlm-citation>
</ref>
<ref id="B31">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Jornet]]></surname>
<given-names><![CDATA[J.M.]]></given-names>
</name>
<name>
<surname><![CDATA[Suárez]]></surname>
<given-names><![CDATA[J.M.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Evaluación referida al criterio: construcción de un test criterial de clase]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[García Hoz]]></surname>
<given-names><![CDATA[V.]]></given-names>
</name>
</person-group>
<source><![CDATA[Problemas y métodos de investigación en educación personalizada]]></source>
<year>1994</year>
<page-range>419-443</page-range><publisher-loc><![CDATA[Madrid ]]></publisher-loc>
<publisher-name><![CDATA[Rialp]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B32">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Jornet]]></surname>
<given-names><![CDATA[J.M.]]></given-names>
</name>
<name>
<surname><![CDATA[Suárez]]></surname>
<given-names><![CDATA[J.M.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Un procedimiento para la determinación de estándares y establecimiento de puntos de corte en programas educativos]]></article-title>
<source><![CDATA[Revista BORDON]]></source>
<year>1987</year>
<volume>41</volume>
<page-range>217-236</page-range></nlm-citation>
</ref>
<ref id="B33">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kane]]></surname>
<given-names><![CDATA[M.T.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A Sampling Model of Validity]]></article-title>
<source><![CDATA[Applied Psychological Measurement]]></source>
<year>1982</year>
<volume>6</volume>
<page-range>126-160</page-range></nlm-citation>
</ref>
<ref id="B34">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kieffer]]></surname>
<given-names><![CDATA[K.M]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Why Generalizability Theory is Essential and Classical Test Theory is Often Inadequate]]></article-title>
<source><![CDATA[Advances in Social Science Methodology]]></source>
<year>1999</year>
<volume>5</volume>
<page-range>149-170</page-range></nlm-citation>
</ref>
<ref id="B35">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kingstone]]></surname>
<given-names><![CDATA[N.M.]]></given-names>
</name>
<name>
<surname><![CDATA[Kahl]]></surname>
<given-names><![CDATA[S.R.]]></given-names>
</name>
<name>
<surname><![CDATA[Sweeney]]></surname>
<given-names><![CDATA[K.]]></given-names>
</name>
<name>
<surname><![CDATA[Bay]]></surname>
<given-names><![CDATA[L.]]></given-names>
</name>
</person-group>
<source><![CDATA[Setting Performance Standards: Concepts, methods and perspectives]]></source>
<year>2001</year>
<publisher-loc><![CDATA[Mahwah^eN.J. N.J.]]></publisher-loc>
<publisher-name><![CDATA[Lawrence Erlbaum]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B36">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Leyva]]></surname>
<given-names><![CDATA[Y.E.]]></given-names>
</name>
</person-group>
<source><![CDATA[Validez de constructo en la evaluación de competencias médicas mediante pruebas referidas a criterio]]></source>
<year>2004</year>
</nlm-citation>
</ref>
<ref id="B37">
<nlm-citation citation-type="confpro">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Lewis]]></surname>
<given-names><![CDATA[D.M.]]></given-names>
</name>
<name>
<surname><![CDATA[Mitzel]]></surname>
<given-names><![CDATA[H.C.]]></given-names>
</name>
<name>
<surname><![CDATA[Green]]></surname>
<given-names><![CDATA[D.R.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Standard Setting: A bookmark approach]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Green]]></surname>
<given-names><![CDATA[D.R.]]></given-names>
</name>
</person-group>
<source><![CDATA[]]></source>
<year>1996</year>
<conf-name><![CDATA[ IRT-Based Standard-Setting Procedures Utilizing Behavioural Anchoring]]></conf-name>
<conf-loc>Phoenix </conf-loc>
</nlm-citation>
</ref>
<ref id="B38">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Linn]]></surname>
<given-names><![CDATA[R.L.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Issues of Validity in Measurement for Competency-Based Programs]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Bunda]]></surname>
<given-names><![CDATA[M.A.]]></given-names>
</name>
<name>
<surname><![CDATA[Sanders]]></surname>
<given-names><![CDATA[J.R.]]></given-names>
</name>
</person-group>
<source><![CDATA[Practices and Problems in Competency-Based Measurement]]></source>
<year>1979</year>
<page-range>547-561</page-range><publisher-loc><![CDATA[Washington ]]></publisher-loc>
<publisher-name><![CDATA[National Council on Measurement in Education]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B39">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Livingston]]></surname>
<given-names><![CDATA[S.A.]]></given-names>
</name>
<name>
<surname><![CDATA[Zieky]]></surname>
<given-names><![CDATA[M.J.]]></given-names>
</name>
</person-group>
<source><![CDATA[Passing Scores: A manual for setting standards of performance on educational and occupational tests]]></source>
<year>1982</year>
<publisher-loc><![CDATA[Princeton^eN.J. N.J.]]></publisher-loc>
<publisher-name><![CDATA[Educational Testing Service]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B40">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Marzano]]></surname>
<given-names><![CDATA[R.J.]]></given-names>
</name>
</person-group>
<source><![CDATA[Designing a New Taxonomy of Educational Objectives]]></source>
<year>2007</year>
<publisher-loc><![CDATA[California ]]></publisher-loc>
<publisher-name><![CDATA[Corwin Press, Inc.Sage Publications Company]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B41">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Messik]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[The Standard Problem: Meaning and values in measurement and evaluation]]></article-title>
<source><![CDATA[American Psychologist]]></source>
<year>1975</year>
<volume>30</volume>
<page-range>955-966</page-range></nlm-citation>
</ref>
<ref id="B42">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Millman]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Criterion-Referenced Measurement]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Popham]]></surname>
<given-names><![CDATA[W.J.]]></given-names>
</name>
</person-group>
<source><![CDATA[Evaluation in Education: Current applications]]></source>
<year>1974</year>
<page-range>205-216</page-range><publisher-loc><![CDATA[Berkeley ]]></publisher-loc>
<publisher-name><![CDATA[McCutchan]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B43">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Patel]]></surname>
<given-names><![CDATA[V.L.]]></given-names>
</name>
<name>
<surname><![CDATA[Kaufman]]></surname>
<given-names><![CDATA[D.R.]]></given-names>
</name>
<name>
<surname><![CDATA[Arocha]]></surname>
<given-names><![CDATA[J.F.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Conceptual Change in the Biomedical and Health Sciences Domain]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Glaser]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<source><![CDATA[Advances in Instructional Psychology]]></source>
<year>2000</year>
<volume>5</volume>
<page-range>329-392</page-range><publisher-loc><![CDATA[Londres ]]></publisher-loc>
<publisher-name><![CDATA[LAE]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B44">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Plake]]></surname>
<given-names><![CDATA[B.S.]]></given-names>
</name>
<name>
<surname><![CDATA[Hambleton]]></surname>
<given-names><![CDATA[R.K.]]></given-names>
</name>
<name>
<surname><![CDATA[Jaeger]]></surname>
<given-names><![CDATA[R.M.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A New Standard Setting Method form Performance and Assessment. The dominant profile judgment method and some field-test results]]></article-title>
<source><![CDATA[Educational and Psychological Measurement]]></source>
<year>1997</year>
<volume>57</volume>
<page-range>. 400-411</page-range></nlm-citation>
</ref>
<ref id="B45">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Popham]]></surname>
<given-names><![CDATA[W.J.]]></given-names>
</name>
</person-group>
<source><![CDATA[Evaluación basada en criterios]]></source>
<year>1983</year>
<publisher-loc><![CDATA[Madrid ]]></publisher-loc>
<publisher-name><![CDATA[Magisterio Español, S.A.]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B46">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Popham]]></surname>
<given-names><![CDATA[W.J.]]></given-names>
</name>
<name>
<surname><![CDATA[Husek]]></surname>
<given-names><![CDATA[T.R.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Implication of Criterion-Referenced Test]]></article-title>
<source><![CDATA[Applied Psychology Measurement]]></source>
<year>1969</year>
<volume>4</volume>
<page-range>469-492</page-range></nlm-citation>
</ref>
<ref id="B47">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ruiz-Primo]]></surname>
<given-names><![CDATA[M.A.]]></given-names>
</name>
<name>
<surname><![CDATA[Shavelson]]></surname>
<given-names><![CDATA[R.J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Comparison of the Reliability and Validity of Scores from two Concept-Mapping Techniques]]></article-title>
<source><![CDATA[Journal of Research in Science Teaching]]></source>
<year>2001</year>
<volume>38</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>260-278</page-range></nlm-citation>
</ref>
<ref id="B48">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Scandura]]></surname>
<given-names><![CDATA[J.M.]]></given-names>
</name>
</person-group>
<source><![CDATA[Problem Solving: A structural/process approach with educational implications]]></source>
<year>1977</year>
<publisher-loc><![CDATA[Nueva York ]]></publisher-loc>
<publisher-name><![CDATA[Academic Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B49">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Schoon]]></surname>
<given-names><![CDATA[CG.]]></given-names>
</name>
<name>
<surname><![CDATA[Guillion]]></surname>
<given-names><![CDATA[C.M.]]></given-names>
</name>
<name>
<surname><![CDATA[Ferrara]]></surname>
<given-names><![CDATA[P.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Bayesian Statistics, Credentialing Examinations and the Determination of Passing Points]]></article-title>
<source><![CDATA[Evaluation and the Health Professions]]></source>
<year>1979</year>
<volume>2</volume>
<page-range>181-201</page-range></nlm-citation>
</ref>
<ref id="B50">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Shavelson]]></surname>
<given-names><![CDATA[R.J.]]></given-names>
</name>
<name>
<surname><![CDATA[Ruiz-Primo]]></surname>
<given-names><![CDATA[M.A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[On the Psychometrics of Assessing Science Understanding]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Mintzes]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[Wandersee]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
<name>
<surname><![CDATA[Novak]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
</person-group>
<source><![CDATA[Assessing Science Understanding]]></source>
<year>2000</year>
<page-range>303-341</page-range><publisher-loc><![CDATA[San Diego ]]></publisher-loc>
<publisher-name><![CDATA[Academic Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B51">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Shepard]]></surname>
<given-names><![CDATA[L.A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Standard Setting Issues and Methods]]></article-title>
<source><![CDATA[Applied Psychological Measurement]]></source>
<year>1980</year>
<volume>4</volume>
<numero>4</numero>
<issue>4</issue>
<page-range>447-467</page-range></nlm-citation>
</ref>
<ref id="B52">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Sireci]]></surname>
<given-names><![CDATA[S.G.]]></given-names>
</name>
<name>
<surname><![CDATA[Hambleton]]></surname>
<given-names><![CDATA[R.K.]]></given-names>
</name>
<name>
<surname><![CDATA[Pitoniak]]></surname>
<given-names><![CDATA[M.J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Setting Passing Scores on Licensure Examinations Using Direct Consensus]]></article-title>
<source><![CDATA[CLEAR Exam Review]]></source>
<year>2004</year>
<volume>15</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>21.25</page-range></nlm-citation>
</ref>
<ref id="B53">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Snow]]></surname>
<given-names><![CDATA[R.E.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Aptitude and Achievement]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Schrader]]></surname>
<given-names><![CDATA[W.B.]]></given-names>
</name>
</person-group>
<source><![CDATA[Measuring Achievement: Progress over a decade, new directions for testing and measurement]]></source>
<year>1980</year>
<page-range>47-103</page-range><publisher-loc><![CDATA[San Francisco ]]></publisher-loc>
<publisher-name><![CDATA[Jossey Bass]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B54">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Van der Linden]]></surname>
<given-names><![CDATA[W.J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Decision Models for the Use with Criterion-Referenced Tests]]></article-title>
<source><![CDATA[Applied Psychological Measurement]]></source>
<year>1984</year>
<volume>4</volume>
<page-range>469-492</page-range></nlm-citation>
</ref>
<ref id="B55">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Zeller]]></surname>
<given-names><![CDATA[R.A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Validity]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Keeves]]></surname>
<given-names><![CDATA[J.P.]]></given-names>
</name>
</person-group>
<source><![CDATA[Educational Research, Methodology and Measurement: An International Handbook]]></source>
<year>1988</year>
<page-range>322-330</page-range><publisher-loc><![CDATA[Nueva York ]]></publisher-loc>
<publisher-name><![CDATA[Pergamon Press]]></publisher-name>
</nlm-citation>
</ref>
</ref-list>
</back>
</article>
