<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2007-5057</journal-id>
<journal-title><![CDATA[Investigación en educación médica]]></journal-title>
<abbrev-journal-title><![CDATA[Investigación educ. médica]]></abbrev-journal-title>
<issn>2007-5057</issn>
<publisher>
<publisher-name><![CDATA[Universidad Nacional Autónoma de México, Facultad de Medicina]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2007-50572014000100007</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Virtudes y limitaciones de la teoría de respuesta al ítem para la evaluación educativa en las ciencias médicas]]></article-title>
<article-title xml:lang="en"><![CDATA[Virtues and limitations of item response theory for educational assessment in the medical sciences]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Leenen]]></surname>
<given-names><![CDATA[Iwin]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad Nacional Autónoma de México Facultad de Medicina ]]></institution>
<addr-line><![CDATA[México D.F.]]></addr-line>
<country>México</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>03</month>
<year>2014</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>03</month>
<year>2014</year>
</pub-date>
<volume>3</volume>
<numero>9</numero>
<fpage>40</fpage>
<lpage>55</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://www.scielo.org.mx/scielo.php?script=sci_arttext&amp;pid=S2007-50572014000100007&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.mx/scielo.php?script=sci_abstract&amp;pid=S2007-50572014000100007&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.mx/scielo.php?script=sci_pdf&amp;pid=S2007-50572014000100007&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[La teoría clásica de los tests (TCT) y la teoría de respuesta al ítem (TRI) constituyen los dos enfoques principales de la psicometría. Aunque los fundamentos de la TRI se elaboraron a mediados del siglo XX y numerosas publicaciones han argumentado la superioridad teórica de la TRI sobre la TCT, el enfoque clásico sigue siendo, por mucho, lo más utilizado para la evaluación educativa, también en el campo de la educación médica. En este artículo, se revisan los fundamentos y conceptos centrales de ambos enfoques psicométricos y se esbozan las posibles ventajas de los modelos de la TRI en el contexto de la evaluación educativa en las ciencias de la salud. Sin embargo, al evaluar los supuestos que subyacen los modelos TRI básicos, es notable una discrepancia significativa entre los mismos y la compleja realidad en la evaluación educativa. Dicha discrepancia lleva a la conclusión que, para poder aprovechar las ventajas de la TRI, muchas veces es necesario considerar modelos más complejos que los conocidos tradicionalmente, como los modelos multidimensionales y/o modelos que toman en cuenta dependencias entre preguntas particulares.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[Classical test theory (CTT) and item response theory (IRT) constitute the two main paradigms in psychometrics. Although the foundations of IRT were already introduced in the middle of the twentieth century and despite the numerous publications since which show the theoretical superiority of IRT over CTT, the classical approach is still, by far, the most commonly usedfor educational measurement, not the least in the field of medical education. In this article, I revise the fundamentals and basic concepts of both psychometric approaches and highlight the advantages that IRT models may offer in the context of educational assessment in the health sciences. However, based on an evaluation of the assumptions underlying the most commonly used IRT models, it is argued that these assumptions are significantly discrepant with the complex reality often encountered in educational measurement. As a result, it is concluded that, in order to take proper advantage of the IRT framework, often more complex models, beyond the traditionally known, must be considered, including multidimensional models and/or models that take into account local dependencies among test items.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[Teoría clásica de los tests]]></kwd>
<kwd lng="es"><![CDATA[teoría de respuesta al ítem]]></kwd>
<kwd lng="es"><![CDATA[psicometría]]></kwd>
<kwd lng="es"><![CDATA[evaluación educativa]]></kwd>
<kwd lng="es"><![CDATA[análisis de ítems]]></kwd>
<kwd lng="es"><![CDATA[México]]></kwd>
<kwd lng="en"><![CDATA[Classical test theory]]></kwd>
<kwd lng="en"><![CDATA[item response theory]]></kwd>
<kwd lng="en"><![CDATA[psychometrics]]></kwd>
<kwd lng="en"><![CDATA[educational measurement]]></kwd>
<kwd lng="en"><![CDATA[item analysis]]></kwd>
<kwd lng="en"><![CDATA[Mexico]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[  	    <p align="justify"><font face="verdana" size="4">Metodolog&iacute;a de investigaci&oacute;n en educaci&oacute;n m&eacute;dica</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="center"><font face="verdana" size="4"><b>Virtudes y limitaciones de la teor&iacute;a de respuesta al &iacute;tem para la evaluaci&oacute;n educativa en las ciencias m&eacute;dicas</b></font></p>     <p align="center"><font face="verdana" size="2">&nbsp;</font></p>     <p align="center"><font face="verdana" size="3"><b>Virtues and limitations of item response theory for educational assessment in the medical sciences</b></font><font face="verdana" size="2">&nbsp;</font></p>     <p align="center"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="center"><font face="verdana" size="2"><b>Iwin Leenen</b></font><font face="verdana" size="2">&nbsp;</font></p>     <p align="center"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><i>Facultad de Medicina, Universidad Nacional Aut&oacute;noma de M&eacute;xico, M&eacute;xico D.F., M&eacute;xico</i> </font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">&nbsp;</font></p> 	    <p align="justify"><font face="verdana" size="2"><b>Correspondencia:</b>     <br>     <i>Secretar&iacute;a de Educaci&oacute;n M&eacute;dica,     <br>     Facultad de Medicina, Universidad Nacional Aut&oacute;noma de M&eacute;xico.     <br>     Edif. B, 3er piso, Av. Universidad N&deg; 3000, Circuito escolar CU, C.P. 04510, M&eacute;xico D.F., M&eacute;xico.     <br>     Tel&eacute;fono: 5623 2300, ext. 43034.</i> <i>    <br> </i>Correo electr&oacute;nico: <a href="mailto:iwin.leenen@gmail.com">iwin.leenen@gmail.com</a></font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p> 	    <p align="justify"><font face="verdana" size="2">Recepci&oacute;n 26 de septiembre de 2013;     <br>     Aceptaci&oacute;n 30 de octubre de 2013</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2"><b>Resumen</b></font></p>     <p align="justify"><font face="verdana" size="2">La teor&iacute;a cl&aacute;sica de los tests (TCT) y la teor&iacute;a de respuesta al &iacute;tem (TRI) constituyen los dos enfoques principales de la psicometr&iacute;a. Aunque los fundamentos de la TRI se elaboraron a mediados del siglo XX y numerosas publicaciones han argumentado la superioridad te&oacute;rica de la TRI sobre la TCT, el enfoque cl&aacute;sico sigue siendo, por mucho, lo m&aacute;s utilizado para la evaluaci&oacute;n educativa, tambi&eacute;n en el campo de la educaci&oacute;n m&eacute;dica. En este art&iacute;culo, se revisan los fundamentos y conceptos centrales de ambos enfoques psicom&eacute;tricos y se esbozan las posibles ventajas de los modelos de la TRI en el contexto de la evaluaci&oacute;n educativa en las ciencias de la salud. Sin embargo, al evaluar los supuestos que subyacen los modelos TRI b&aacute;sicos, es notable una discrepancia significativa entre los mismos y la compleja realidad en la evaluaci&oacute;n educativa. Dicha discrepancia lleva a la conclusi&oacute;n que, para poder aprovechar las ventajas de la TRI, muchas veces es necesario considerar modelos m&aacute;s complejos que los conocidos tradicionalmente, como los modelos multidimensionales y/o modelos que toman en cuenta dependencias entre preguntas particulares.</font></p> 	    <p align="justify"><font face="verdana" size="2"><b>Palabras clave:</b> Teor&iacute;a cl&aacute;sica de los tests; teor&iacute;a de respuesta al &iacute;tem; psicometr&iacute;a; evaluaci&oacute;n educativa; an&aacute;lisis de &iacute;tems; M&eacute;xico.</font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2"><b>Abstract</b></font></p>  	    <p align="justify"><font face="verdana" size="2">Classical test theory (CTT) and item response theory (IRT) constitute the two main paradigms in psychometrics. Although the foundations of IRT were already introduced in the middle of the twentieth century and despite the numerous publications since which show the theoretical superiority of IRT over CTT, the classical approach is still, by far, the most commonly usedfor educational measurement, not the least in the field of medical education. In this article, I revise the fundamentals and basic concepts of both psychometric approaches and highlight the advantages that IRT models may offer in the context of educational assessment in the health sciences. However, based on an evaluation of the assumptions underlying the most commonly used IRT models, it is argued that these assumptions are significantly discrepant with the complex reality often encountered in educational measurement. As a result, it is concluded that, in order to take proper advantage of the IRT framework, often more complex models, beyond the traditionally known, must be considered, including multidimensional models and/or models that take into account local dependencies among test items.</font></p> 	    <p align="justify"><font face="verdana" size="2"><b>Keywords: </b> Classical test theory; item response theory; psychometrics; educational measurement; item analysis; Mexico.</font><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2"><b>Introducci&oacute;n</b></font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">A la luz del objetivo de formar profesionales de la salud competentes y preparados para proporcionar atenci&oacute;n m&eacute;dica de calidad, se considera una tarea esencial de la educaci&oacute;n m&eacute;dica monitorear y evaluar de forma continua el proceso educativo de los estudiantes de medicina. En este sentido, la psicometr&iacute;a juega un papel importante dentro del campo de la educaci&oacute;n m&eacute;dica, ya que esta disciplina investiga c&oacute;mo medir y evaluar de forma &oacute;ptima los constructos y atributos centrales en el aprendizaje de los estudiantes (como conocimientos, competencias, actitudes, entre otros). Por ejemplo, la psicometr&iacute;a permite analizar la validez de los instrumentos utilizados para la evaluaci&oacute;n educativa y propicia el desarrollo de ideas o propuestas para mejorar dichos instrumentos.</font></p>     <p align="justify"><font face="verdana" size="2">Existen dos enfoques principales de la psicometr&iacute;a: la teor&iacute;a cl&aacute;sica de los tests (TCT) y la teor&iacute;a de respuesta al &iacute;tem (TRI). El primero, que se conoce tambi&eacute;n como <i>modelo de la puntuaci&oacute;n verdadera</i> o <i>teor&iacute;a del error de medici&oacute;n,</i> se ciment&oacute; en las ideas originales de Charles Spearman, cuyas elaboraciones matem&aacute;ticas publicadas al inicio del siglo XX implicaban la diferenciaci&oacute;n de los conceptos <i>puntuaci&oacute;n verdadera</i> y <i>puntuaci&oacute;n observada</i> como resultado de la aplicaci&oacute;n de una prueba.<sup>1,2</sup> La TRI, por otro lado, cuyos fundamentos se elaboraron en la segunda mitad del siglo pasado a partir de las contribuciones seminales de Louis Guttman, Frederic Lord y george Rasch, aproxima el an&aacute;lisis de las respuestas en una prueba de forma radicalmente diferente, enfoc&aacute;ndose en los componentes constituyentes de la misma (es decir, los &iacute;tems) en vez del resultado global de la medici&oacute;n.<sup>35</sup></font></p>  	    <p align="justify"><font face="verdana" size="2">Gracias a los avances tecnol&oacute;gicos y los nuevos desarrollos te&oacute;ricos, la TRI creci&oacute; en relevancia e importancia durante las &uacute;ltimas tres d&eacute;cadas y cada vez m&aacute;s se considera una alternativa viable para la TCT. Actualmente, constituye una familia muy extensa de modelos psicom&eacute;tricos, los cuales tienen en com&uacute;n que relacionan formalmente &#151;generalmente a trav&eacute;s de una(s) ecuaci&oacute;n(es) matem&aacute;tica(s)&#151; las caracter&iacute;sticas latentes (es decir, hipot&eacute;ticas, no observables) de los &iacute;tems en una prueba y de las personas que la contestan, con el fin de llegar a afirmaciones (probabil&iacute;sticas) de la conducta de cada persona en cada &iacute;tem. Aunque entre los expertos en psicometr&iacute;a existe consenso general sobre la superioridad te&oacute;rica de la TRI, el enfoque principal en contextos aplicados para el an&aacute;lisis de los resultados de los tests sigue siendo la TCT. Espec&iacute;ficamente, en el &aacute;rea de la educaci&oacute;n m&eacute;dica son escasos los estudios que analizan los datos de instrumentos de evaluaci&oacute;n dentro del marco de la TRI.</font></p>     <p align="justify"><font face="verdana" size="2">Este art&iacute;culo dar&aacute; una introducci&oacute;n conceptual de los dos enfoques principales de la psicometr&iacute;a; espera dar una presentaci&oacute;n clara de los conceptos claves de cada uno de estos paradigmas y quiere invitar a los investigadores en educaci&oacute;n m&eacute;dica a considerar &#151;y reflexionar cr&iacute;ticamente sobre&#151; la perspectiva que ofrece la TRI como alternativa para la TCT. Adem&aacute;s, se espera aclarar que la TRI es mucho m&aacute;s que los dos o tres modelos que se suelen presentar en los art&iacute;culos introductorios y que la familia de modelos TRI incluye miembros cuyos supuestos se ajustan mejor a los contextos t&iacute;picos de evaluaci&oacute;n en medicina. La introducci&oacute;n a los modelos en este art&iacute;culo es necesariamente limitada; para un tratamiento m&aacute;s completo, el lector interesado puede consultar las diversas publicaciones que existen sobre el tema, tanto en espa&ntilde;ol<sup>6&#45;8</sup> como en ingl&eacute;s.<sup>9&#45;13</sup></font></p>  	    <p align="justify"><font face="verdana" size="2">La primera y segunda secci&oacute;n, revisan los conceptos y supuestos b&aacute;sicos y la l&oacute;gica subyacente de la TCT y la TRI, respectivamente. En la tercera secci&oacute;n se comparan ambas aproximaciones y se eval&uacute;an las diferencias desde un punto de vista te&oacute;rico a trav&eacute;s de un an&aacute;lisis de (algunos de) los argumentos que manejan los expertos para colegir la superioridad de la TRI. La cuarta secci&oacute;n reconsidera los modelos m&aacute;s comunes de la TRI; en particular, se contrastan sus supuestos con la realidad compleja con que se suele topar en la evaluaci&oacute;n educativa y se discuten algunos modelos alternativos que pueden ofrecer una respuesta a los inconvenientes percibidos. La &uacute;ltima secci&oacute;n concluir&aacute; el art&iacute;culo con unas reflexiones generales sobre las ideas expuestas.</font></p>     <p align="justify">&nbsp;</p>     <p align="justify"><font face="verdana" size="2"><b>Conceptos b&aacute;sicos de la teor&iacute;a cl&aacute;sica de los tests</b></font></p>     <p align="justify"><font face="verdana" size="2"><b>Puntuaci&oacute;n verdadera y la ecuaci&oacute;n b&aacute;sica de la TCT</b></font></p>     <p align="justify"><font face="verdana" size="2">La TCT es una teor&iacute;a sobre la medici&oacute;n que se obtiene al aplicar un instrumento a una persona. Consideremos, en primera instancia, la aplicaci&oacute;n del instrumento a s&oacute;lo una persona, digamos la persona <i>p,</i> y representemos el resultado de esta medici&oacute;n como <i>x<sub>p</sub></i> (lo cual, entonces, corresponde a una puntuaci&oacute;n codificada como un n&uacute;mero real). Spearman<sup>1,2</sup> reconoci&oacute; que, debido a la interferencia de factores perturbantes, <i>x<sub>p</sub></i> generalmente <i>no</i> coincide con la medici&oacute;n que uno realmente desea tener, es decir, que el resultado observado va acompa&ntilde;ado con un error de medici&oacute;n. Los factores perturbantes que causan el error de medici&oacute;n pueden tener su origen en la persona, en el instrumento, o en la situaci&oacute;n. Como ejemplo del primer tipo de errores, se puede pensar en la medici&oacute;n de la presi&oacute;n arterial, que fluct&uacute;a considerablemente en el transcurso de un d&iacute;a por lo cual una &uacute;nica medici&oacute;n suele ser insuficiente. Para un ejemplo del segundo tipo de perturbaciones, consid&eacute;rese el term&oacute;metro, el cual intercambia calor con el cuerpo sujeto de la medici&oacute;n y, por lo tanto, no dar&aacute; la temperatura exacta de este cuerpo. Factores perturbantes que tienen su origen en la situaci&oacute;n ocurren, por ejemplo, en la aplicaci&oacute;n de un examen mientras que en la plaza de a lado un candidato presidencial ha organizado un mitin y pronuncia su discurso electoral bajo los fuertes aplausos y las porras de sus simpatizantes. Dentro de la TCT, se formulan supuestos sobre el efecto de los factores perturbantes (es decir, sobre el error de medici&oacute;n) y se desarrollan procedimientos para cuantificar su influencia en el resultado obtenido.</font></p>     <p align="justify"><font face="verdana" size="2">El supuesto b&aacute;sico de la TCT es que, en cada medici&oacute;n, el error se extrae aleatoriamente de alguna distribuci&oacute;n de probabilidad.<sup>14</sup> Si <i>&#949;<sub><i>p</i></sub></i> representa el error que acompa&ntilde;a la medici&oacute;n <i>x<sub>p</sub></i>, la diferencia</font></p>  	    ]]></body>
<body><![CDATA[<p align="center"><img src="/img/revistas/iem/v3n9/a7e1.jpg"></p>     <p align="justify"><font face="verdana" size="2">corresponde con la "puntuaci&oacute;n purificada", es decir, la puntuaci&oacute;n de la cual se ha quitado el error de medici&oacute;n. La teor&iacute;a cl&aacute;sica denomina este resultado <i>puntuaci&oacute;n verdadera</i> y se representa por &#964;<sub><i>p</i></sub>. Es decir, se define</font></p>  	    <p align="center"><img src="/img/revistas/iem/v3n9/a7e2.jpg"></p> 	    <p align="justify"><font face="verdana" size="2">lo cual es algebraicamente equivalente a</font></p>  	    <p align="center"><img src="/img/revistas/iem/v3n9/a7e3.jpg"></p>     <p align="justify"><font face="verdana" size="2">Mientras que <i>x<sub>p</sub></i> es el valor observado de la medici&oacute;n y por lo tanto conocido, la puntuaci&oacute;n verdadera &#964;<sub><i>p</i></sub>  y el error de medici&oacute;n &#949;<sub><i>p</i></sub> son constructos hipot&eacute;ticos &#151;que existen s&oacute;lo gracias a la teor&iacute;a&#151; y desconocidos, o bien, <i>latentes.</i> (N&oacute;tese que en este art&iacute;culo me adhiero a la costumbre de representar par&aacute;metros latentes por min&uacute;sculas griegas y los valores observados por min&uacute;sculas romanas; las may&uacute;sculas se reservan para representar variables). Aunque nunca se conoce con exactitud la puntuaci&oacute;n verdadera y el error asociados con una medici&oacute;n concreta, dentro de la TCT se han desarrollado m&eacute;todos que permiten llegar a conclusiones sobre estas entidades a partir de los datos de una muestra.</font></p>      <p align="justify"><font face="verdana" size="2">Para aclarar y precisar las implicaciones del supuesto b&aacute;sico mencionado anteriormente de que el error de medici&oacute;n es el resultado de una extracci&oacute;n de alguna distribuci&oacute;n de probabilidad, consid&eacute;rese el siguiente experimento mental. Supongamos que fuese posible repetir un gran n&uacute;mero de veces la medici&oacute;n de la persona <i>p</i> bajo <i>circunstancias similares</i> a las de la medici&oacute;n inicial, es decir, sin que las aplicaciones anteriores influyesen en las nuevas mediciones (no hay efectos de memoria, fatiga, aburrimiento, etc., como si se le lavase el cerebro a la persona antes de cada nueva aplicaci&oacute;n). Entonces, el supuesto b&aacute;sico implica que en cada una de estas repeticiones (a) se extrae un nuevo valor para el error de medici&oacute;n de su distribuci&oacute;n probabil&iacute;stica, mientras que (b) la puntuaci&oacute;n verdadera <i>no</i> cambia. En otras palabras, considerando las r&eacute;plicas hipot&eacute;ticas de la persona <i>p,</i> el error de medici&oacute;n es una variable aleatoria, la cual se representa por <i>E<sub>p</sub></i>, y la puntuaci&oacute;n verdadera es una constante (&#964;<sub>p</sub>). Esto implica que la puntuaci&oacute;n observada de la persona <i>p</i> tambi&eacute;n es una variable aleatoria: <i>X<sub>p</sub>.</i></font></p> <font face="verdana" size="2">La <b><a href="/img/revistas/iem/v3n9/a7f1.jpg" target="_blank">Figura 1</a></b> ilustra esta idea gr&aacute;ficamente. Para concretar el ejemplo, supongamos que las puntuaciones son de un examen cl&iacute;nico objetivo estructurado (ECOE) que se ha calificado como un porcentaje, es decir, son calificaciones sobre 100 (que se calcularon a partir de las calificaciones en una serie de estaciones). La distribuci&oacute;n en la parte superior izquierda representa la distribuci&oacute;n de probabilidad de <i>E<sub>p</sub></i> para una primera persona (p=1). Para este ejemplo se escogi&oacute; una distribuci&oacute;n normal (aunque el supuesto de normalidad no es parte del n&uacute;cleo de la TCT). En la tabla debajo de la distribuci&oacute;n de <i>E<sub>1</sub></i> se resumen los resultados obtenidos en ocho de las r&eacute;plicas hipot&eacute;ticas que se realizaron en el experimento mental. Se observa que, por un lado, la puntuaci&oacute;n verdadera de esta persona (&#964;<sub>1</sub> = 64.30) es una constante; el valor de <i>E</i><sub>11</sub> por otro lado, es diferente en cada r&eacute;plica y se ha extra&iacute;do de la distribuci&oacute;n arriba (por ejemplo, &#949;<sub>11</sub>, el error que acompa&ntilde;a la primera medici&oacute;n de la primera persona, es igual a &#45;2.31; &#949;<sub>12</sub>, el error de su segunda medici&oacute;n, es +2.59, etc.). Puesto que el modelo supone que la puntuaci&oacute;n observada es la suma de una constante y una variable, <i>X<sub>p</sub></i> var&iacute;a tambi&eacute;n entre las r&eacute;plicas de la misma persona.</font>     <p align="justify"><font face="verdana" size="2">La gr&aacute;fica de la distribuci&oacute;n en la <b><a href="/img/revistas/iem/v3n9/a7f1.jpg" target="_blank">Figura 1</a></b> t&aacute;citamente refleja otro supuesto de la TCT: el valor esperado (es decir, la media) de la distribuci&oacute;n de probabilidad que se supone para <i>E<sub>p</sub></i> es igual a 0, para cada persona <i>p.</i> En algunas r&eacute;plicas la puntuaci&oacute;n observada sobreestima la puntuaci&oacute;n verdadera, en otras la subestima, pero, a la larga, los efectos positivos y negativos de los factores perturbantes se equilibran. Por otro lado, la varianza de la distribuci&oacute;n de probabilidad de <i>E<sub>p</sub></i>, denotada &#963;<sup>2</sup><sub><i>Ep</i></sub>, es un &iacute;ndice de la precisi&oacute;n de las mediciones de la persona <i>p:</i> si es grande, los valores de <i>E<sub>p</sub></i> fluct&uacute;an mucho entre las r&eacute;plicas; en el caso extremo de que &#963;<sup>2</sup><sub><i>Ep</i></sub>= 0, <i>E<sub>p</sub></i> siempre asume el mismo valor, igual a la media 0, y entonces no hay error. N&oacute;tese que de lo anterior directamente sigue que:</font></p>     <p align="center"><img src="/img/revistas/iem/v3n9/a7e4.jpg"></p>  	    <p align="justify"><font face="verdana" size="2">Este resultado implica que la puntuaci&oacute;n verdadera de la persona <i>p</i> se podr&iacute;a estimar a partir de la media de las puntuaciones observadas en una muestra de r&eacute;plicas y que la varianza de las mismas puntuaciones observadas ser&iacute;a un indicador de la precisi&oacute;n de las mediciones para esta persona.</font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">La parte superior derecha de la <b><a href="/img/revistas/iem/v3n9/a7f1.jpg" target="_blank">Figura 1</a></b> representa el mismo proceso para otra persona <i>(p</i>=2). N&oacute;tese que la distribuci&oacute;n de probabilidad de los errores de medici&oacute;n de esta persona tiene mayor varianza: la TCT, en su desarrollo inicial, no restringe que las distribuciones de probabilidad para diferentes personas sean id&eacute;nticas.</font></p>  	    <p align="justify"><font face="verdana" size="2">En la realidad, sin embargo, varios obst&aacute;culos pr&aacute;cticos impiden obtener r&eacute;plicas de la medici&oacute;n de la misma persona bajo las circunstancias especificadas en el experimento mental. Con el objetivo de poder estimar los par&aacute;metros de inter&eacute;s, la TCT cambia un poco el enfoque y a&ntilde;ade unos nuevos supuestos al modelo: en lugar de considerar a las personas por separado, se extiende la teor&iacute;a a una <i>poblaci&oacute;n</i> de personas. La tabla en la parte inferior de la <b><a href="/img/revistas/iem/v3n9/a7f1.jpg" target="_blank">Figura 1</a></b> sirve para aclarar dicha extensi&oacute;n: la conceptualizaci&oacute;n de la TCT para una poblaci&oacute;n sigue, tal como la construcci&oacute;n de la tabla, un proceso de dos pasos. Primero, para cada persona se saca independientemente un error de medici&oacute;n <i>&#949;<sub>&#961;</sub></i> de su distribuci&oacute;n, el cual, seg&uacute;n lo anteriormente expuesto, se suma a la puntuaci&oacute;n verdadera &#964;<sub><i>p</i></sub> de esta persona para obtener la puntuaci&oacute;n observada x<sub>p</sub>. Segundo, se definen tres nuevas variables <i>E, T</i> y <i>X,</i> que representan la variaci&oacute;n del error de medici&oacute;n y las puntuaciones verdaderas y observadas, respectivamente, dentro de la poblaci&oacute;n de personas. Como muestran las tres columnas correspondientes de la tabla inferior de la <b><a href="/img/revistas/iem/v3n9/a7f1.jpg" target="_blank">Figura 1</a></b> , hay variaci&oacute;n en las tres variables (contrario al caso de las r&eacute;plicas dentro de cada persona, donde &uacute;nicamente var&iacute;an el error de medici&oacute;n y la puntuaci&oacute;n observada). Estas tres variables se relacionan en la ecuaci&oacute;n central de la TCT:</font></p>     <p align="center"><img src="/img/revistas/iem/v3n9/a7e5.jpg"></p>  	    <p align="justify"><font face="verdana" size="2"><b>Confiabilidad y error est&aacute;ndar de medici&oacute;n</b></font>	</p>     <p align="justify"><font face="verdana" size="2">En la secci&oacute;n anterior se identific&oacute; la varianza &#963;<sup>2</sup><sub><i>Ep</i></sub> como un &iacute;ndice de la precisi&oacute;n de las mediciones de la persona <i>p.</i> Adem&aacute;s, se mencion&oacute; que, en principio, las varianzas de distintas personas pueden diferir. Sin embargo, al considerar la poblaci&oacute;n de personas y la variable <i>E,</i> cuyos valores se extraen de las respectivas distribuciones individuales (es decir, son valores realizados de las variables <i>E<sub>p</sub></i> asociadas con las distintas personas), la teor&iacute;a cl&aacute;sica incorpora como supuesto adicional que dichas distribuciones individuales sean id&eacute;nticas y, particularmente, que para cualquier persona <i>p</i> se cumpla</font></p> 	    <p align="center"><img src="/img/revistas/iem/v3n9/a7e6.jpg"></p>     <p align="justify"><font face="verdana" size="2">En relaci&oacute;n con la <b><a href="/img/revistas/iem/v3n9/a7f1.jpg" target="_blank">Figura 1</a></b> , este supuesto implica que (a) se cambien las distribuciones en la parte superior para que sean id&eacute;nticas (con la misma varianza) y, por consiguiente, (b) que la varianza de los valores de <i>E</i><sub>1</sub> en la segunda fila de la tabla de la persona 1 sea igual a la varianza de los valores en la fila de E<sub>2</sub> de la persona 2 y que, adem&aacute;s, (c) las varianzas en estas filas sean iguales a la varianza de los valores en la &uacute;ltima columna de la tabla inferior.</font></p>     <p align="justify"><font face="verdana" size="2">El desarrollo del modelo hasta el momento permite derivar la siguiente igualdad en la poblaci&oacute;n de personas:</font></p>     <p align="center"><img src="/img/revistas/iem/v3n9/a7e7.jpg"></p>     <p align="justify"><font face="verdana" size="2">Esta ecuaci&oacute;n descompone la varianza observada en dos partes: varianza verdadera y varianza del error. En otras palabras, las diferencias que se observan entre las puntuaciones de las personas reflejan, por una parte, diferencias verdaderas entre las personas y, por otra parte, diferencias debidas a factores perturbantes.</font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Un concepto central en la TCT es la <i>confiabilidad.</i> Analizando la ecuaci&oacute;n anterior, es claro que un instrumento es m&aacute;s confiable conforme las diferencias observadas son m&aacute;s diferencias verdaderas (y menos diferencias por errores de medici&oacute;n). De esta idea sigue la definici&oacute;n de la confiabilidad de un instrumento, representada por &#961;, como la raz&oacute;n entre la varianza verdadera y la observada:</font></p>  	    <p align="center"><img src="/img/revistas/iem/v3n9/a7e8.jpg"></p>     <p align="justify"><font face="verdana" size="2">o, de forma equivalente:</font></p>  	    <p align="center"><img src="/img/revistas/iem/v3n9/a7e9.jpg"></p>     <p align="justify"><font face="verdana" size="2">Esta definici&oacute;n implica que la confiabilidad es un n&uacute;mero entre 0 y 1 (siempre y cuando &#963;<sup>2</sup><sub>X</sub>  &gt; 0) y alcanza su m&aacute;ximo de 1 si &#963;<sup>2</sup><sub>X</sub> = &#963;<sup>2</sup><sub>T</sub> (toda la varianza observada es varianza verdadera) y su m&iacute;nimo de 0 cuando &#963;<sup>2</sup><sub>X</sub> = &#963;<sup>2</sup><sub>E </sub></font><font face="verdana" size="2">(todas las diferencias que se observan se deben a errores de medici&oacute;n).</font></p>     <p align="justify"><font face="verdana" size="2">Dado que la definici&oacute;n de la confiabilidad incluye un t&eacute;rmino desconocido (no se conocen las puntuaciones verdaderas ni su varianza), se desarrollaron m&eacute;todos para <i>estimar</i> la confiabilidad a partir de una muestra. Los m&eacute;todos m&aacute;s conocidos incluyen el m&eacute;todo de formas paralelas, el test&#45;retest, el m&eacute;todo de dos mitades y el an&aacute;lisis interno (que incluye el famoso coeficiente &#945; de Cronbach).<sup>6</sup> La exposici&oacute;n de estos m&eacute;todos y su l&oacute;gica se encuentra fuera del alcance de este art&iacute;culo.</font></p>  	    <p align="justify"><font face="verdana" size="2">A la ra&iacute;z cuadrada de la varianza de <i>E</i> se le llama <i>error est&aacute;ndar de medici&oacute;n.</i> Si se dispone de (una estimaci&oacute;n de) la confiabilidad del instrumento y la varianza observada, se obtiene (una estimaci&oacute;n de) el error est&aacute;ndar a trav&eacute;s de la siguiente ecuaci&oacute;n:</font></p>       	    <p align="center"><img src="/img/revistas/iem/v3n9/a7e10.jpg"></p> 	    <p align="center"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Teor&iacute;a de respuesta al &iacute;tem: conceptos y modelos b&aacute;sicos</b></font>	</p> 	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">La TRI aproxima la medici&oacute;n de los constructos que un instrumento pretende evaluar de una forma radicalmente diferente que la teor&iacute;a cl&aacute;sica. Mientras que la TCT considera la puntuaci&oacute;n asociada con una prueba <i>en su globalidad</i> &#151;n&oacute;tese que el error de medici&oacute;n y la puntuaci&oacute;n observada y verdadera se refieren a la prueba en su totalidad&#151;, los modelos TRI analizan c&oacute;mo las personas se comportan <i>en los elementos constituyentes</i> de la prueba, es decir, analizan las respuestas de cada persona en cada &iacute;tem de la prueba. Por lo tanto, la TRI es apropiada para analizar instrumentos compuestos de elementos m&aacute;s b&aacute;sicos (donde el ejemplo t&iacute;pico son los ex&aacute;menes que consisten en diferentes preguntas) y menos como modelo para mediciones indivisibles, como la presi&oacute;n arterial o la temperatura corporal de una persona.</font></p>     <p align="justify"><font face="verdana" size="2">La TRI es una amplia familia de modelos psicom&eacute;tricos que comparten los siguientes supuestos b&aacute;sicos:</font></p>  	    <blockquote> 	      <p align="justify"><font face="verdana" size="2">1. Subyacente a la prueba existen uno o m&aacute;s <i>constructos</i> o <i>rasgos latentes</i> (ciertas habilidades, actitudes, competencias, etc.) que intervienen cuando las personas responden a los &iacute;tems;</font></p> 	      <p align="justify"><font face="verdana" size="2">2. tanto las personas como los &iacute;tems tienen caracter&iacute;sticas relevantes (para los constructos mencionados) que se pueden resumir en uno o m&aacute;s <i>par&aacute;metros</i> (par&aacute;metros en la TRI son n&uacute;meros que caracterizan un &iacute;tem o una persona);</font></p> 	      <p align="justify"><font face="verdana" size="2">3. las caracter&iacute;sticas de los &iacute;tems se definen independientemente de (es decir, existen sin referencia a) las personas, y viceversa, las caracter&iacute;sticas de las personas son independientes de los &iacute;tems;</font></p> 	      <p align="justify"><font face="verdana" size="2">4. es posible hacer una afirmaci&oacute;n sobre la conducta de una persona espec&iacute;fica en un &iacute;tem espec&iacute;fico (por ejemplo, sobre la probabilidad de que lo acierte) tras la aplicaci&oacute;n de una <i>regla</i> (generalmente, una funci&oacute;n o una ecuaci&oacute;n) que combina los par&aacute;metros de la persona y del &iacute;tem.</font></p> </blockquote>  	    <p align="justify"><font face="verdana" size="2">Los miembros de la familia TRI difieren entre s&iacute; respecto de (a) el n&uacute;mero de rasgos latentes que suponen subyacentes a la prueba, (b) el n&uacute;mero de par&aacute;metros que especifican para los &iacute;tems y, similarmente, el n&uacute;mero de par&aacute;metros para las personas y (c) la regla que determina c&oacute;mo combinar los par&aacute;metros de personas e &iacute;tems para llegar a una afirmaci&oacute;n sobre la conducta observable en la prueba. &Eacute;ste &uacute;ltimo tiene implicaciones directas para el formato de respuesta de los &iacute;tems (por ejemplo, &iacute;tems dicot&oacute;micos, con s&oacute;lo dos respuestas posibles, <i>vs.</i> polit&oacute;micos con m&uacute;ltiples categor&iacute;as de respuesta) y el tipo de constructos subyacentes que el modelo permite analizar. A continuaci&oacute;n, se introducen los conceptos b&aacute;sicos de la TRI a partir del modelo de Rasch.</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>El modelo de Rasch</b></font><font face="verdana" size="2">&nbsp;</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Rasch<sup>5</sup> no fue el primero para proponer un modelo TRI: las ideas b&aacute;sicas de la TRI ya se formaron en los a&ntilde;os 1940 y unos ocho a&ntilde;os anteriores a Rasch, Lord hab&iacute;a elaborado un modelo que se parece en varios sentidos al modelo de Rasch. Sin embargo, su elegancia, debido no s&oacute;lo a la sencillez matem&aacute;tica y f&aacute;cil aplicaci&oacute;n, sino tambi&eacute;n a sus propiedades te&oacute;ricas e implicaciones filos&oacute;ficas,<sup>11,15</sup> hace que muchos expertos consideren el modelo de Rasch como el <i>primus inter pares</i> de la TRI.</font></p>  	    <p align="justify"><font face="verdana" size="2">Rasch modela la probabilidad de que una persona <i>p</i> (de alguna poblaci&oacute;n de personas) conteste correctamente un &iacute;tem <i>i</i> (de alguna poblaci&oacute;n de &iacute;tems). Por lo tanto, es para &iacute;tems con dos posibles respuestas, que t&iacute;picamente se clasifican en "correcta" (o "acertar") e "incorrecta" (o "fallar"). A la respuesta de la persona <i>p</i> en el &iacute;tem <i>i</i> corresponde una variable aleatoria <i>X<sub>pi</sub></i>, que se define con los siguientes valores:</font></p>  	    <p align="center"><img src="/img/revistas/iem/v3n9/a7e11.jpg"></p>     <p align="justify"><font face="verdana" size="2">Respecto de (a) el n&uacute;mero de rasgos latentes, el modelo supone <i>unidimensionalidad:</i> un rasgo latente es suficiente para describir el comportamiento de las personas en los &iacute;tems. Adem&aacute;s, supone (b) que cada &iacute;tem y cada persona se caracterizan por s&oacute;lo un par&aacute;metro: el par&aacute;metro del &iacute;tem <i>i</i> se representa por &#946;<sub>i</sub>, el par&aacute;metro de la persona <i>p</i> por &#952;<sub>p</sub>, donde &#946;<sub>i</sub> y &#952;<sub>p</sub> son n&uacute;meros reales cualesquiera. Finalmente, en el modelo de Rasch, (c) la regla que combina &#946;<sub>i</sub> y &#952;<sub>p</sub> para llegar a una afirmaci&oacute;n sobre la probabilidad de que la persona acierte el &iacute;tem es</font></p>     <p align="center"><img src="/img/revistas/iem/v3n9/a7e12.jpg"></p>     <p align="justify"><font face="verdana" size="2">donde e es la base de los logaritmos naturales (e&#8776;2.718 ). N&oacute;tese que la expresi&oacute;n al lado derecho de la Ecuaci&oacute;n (4a) transforma la diferencia &#952;<sub>p</sub> &#45; &#946;<sub>i</sub> (la cual, en principio, puede variar de &#45;&#8734; a +&#8734;) a un n&uacute;mero entre 0 y 1, propio para una probabilidad. Dicha transformaci&oacute;n se conoce como la transformaci&oacute;n log&iacute;stica y entra, por ejemplo, tambi&eacute;n como funci&oacute;n de enlace en modelos de regresi&oacute;n log&iacute;stica. Por lo tanto, el modelo de Rasch pertenece a la subfamilia de modelos log&iacute;sticos dentro de la TRI.</font></p>     <p align="justify"><font face="verdana" size="2">Obviamente, puesto que el modelo considera &uacute;nicamente dos categor&iacute;as de respuesta, la probabilidad de que la persona <i>p</i> falle el &iacute;tem <i>i</i> es la complementaria de la Ecuaci&oacute;n (4a):</font></p>  	    <p align="center"><img src="/img/revistas/iem/v3n9/a7e13.jpg"></p>  	    <p align="justify"><font face="verdana" size="2">lo cual, si se elabora algebraicamente, lleva a:</font></p>  	    <p align="center"><img src="/img/revistas/iem/v3n9/a7e14.jpg"></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Al considerar la probabilidad de acertar en funci&oacute;n de la habilidad latente (es decir, al considerar en la Ecuaci&oacute;n (4a) la <i>variable</i> &#952; en vez del <i>valor</i> &#952;<sub><i>p</i></sub> que tiene la persona <i>p</i> en esta variable), se define la <i>curva caracter&iacute;stica del &iacute;tem:</i></font></p>  	    <p align="center"><img src="/img/revistas/iem/v3n9/a7e15.jpg"></p>     <p align="justify"><font face="verdana" size="2">La curva caracter&iacute;stica define el modelo; o en otras palabras, se puede identificar un modelo TRI a partir de las curvas caracter&iacute;sticas de los &iacute;tems. En la gr&aacute;fica izquierda de la <b><a href="/img/revistas/iem/v3n9/a7f2.jpg" target="_blank">Figura 2</a></b> se representan las curvas caracter&iacute;sticas de dos &iacute;tems en el modelo de Rasch. La &uacute;nica diferencia entre los &iacute;tems es su posici&oacute;n sobre la dimensi&oacute;n latente. N&oacute;tese que el par&aacute;metro de dificultad determina la posici&oacute;n de un &iacute;tem en el rasgo latente: &#946;<sub>i</sub> corresponde al nivel del rasgo para el cual la probabilidad de acertar el &iacute;tem <i>i</i> es 0.5. Efectivamente, de la Ecuaci&oacute;n (5) sigue que, si &#952; = &szlig;<sub>i</sub>, entonces &#402;<sub><i>i</i></sub>(&#952;) = 0.5.</font></p>     <p align="justify"><font face="verdana" size="2">Cabe resaltar algunas propiedades m&aacute;s de las curvas caracter&iacute;sticas en el modelo de Rasch. Primero, las curvas son crecientes &#151;a mayor habilidad, mayor probabilidad de acertar&#151;, lo cual es justo en un contexto donde el constructo subyacente es de rendimiento &oacute;ptimo. Segundo, las as&iacute;ntotas izquierda y derecha de la funci&oacute;n son 0 y 1, respectivamente, lo cual quiere decir que la probabilidad de acertar un &iacute;tem se acerca a 1, conforme la habilidad de la persona incrementa y que, conforme la habilidad de la persona disminuye, la probabilidad de acertar cualquier &iacute;tem se acerca a 0. Tercero, como se observa en la gr&aacute;fica derecha de la <b><a href="/img/revistas/iem/v3n9/a7f2.jpg" target="_blank">Figura 2</a></b> donde se representan las curvas caracter&iacute;sticas de varios &iacute;tems en un modelo Rasch, las curvas nunca intersectan. Se puede verificar en la Ecuaci&oacute;n (5) que, si el &iacute;tem <i>i</i> es m&aacute;s f&aacute;cil que el &iacute;tem <i>j</i> &#91;&#946;<sub>i</sub> &lt; &#946;<i>j</i>&#93;, entonces la probabilidad de acertar <i>i</i> es mayor que la probabilidad de acertar <i>j</i> &#91;&#402;.(&#952;) &gt; &#402;<sub>&#1523;</sub>(&#952;)&#93;, para <i>cualquier</i> nivel &#952; en el rasgo latente.</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>El supuesto de independencia local</b></font><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2">Supongamos que se conocen el par&aacute;metro &#952;<sub><i>p</i></sub> de una persona <i>p</i> y los par&aacute;metros &#946;<sub><i>i</i></sub>, &#946;<sub><i>j</i></sub> y &#946;<i><sub>k</sub></i> de tres &iacute;tems. En este caso, la Ecuaci&oacute;n (4a) permite derivar la probabilidad, seg&uacute;n el modelo de Rasch, de que la persona <i>p</i> d&eacute; la respuesta correcta en cada uno de los tres &iacute;tems. Sin embargo, la ecuaci&oacute;n s&oacute;lo proporciona dichas probabilidades <i>por separado;</i> no especifica c&oacute;mo derivar la probabilidad <i>conjunta</i> de que, por ejemplo, la persona <i>p</i> acierte los &iacute;tems <i>i</i> y <i>j</i> y que falle el &iacute;tem <i>k.</i> Para llegar a afirmaciones sobre tales probabilidades, el modelo de Rasch (y la gran mayor&iacute;a de otros modelos TRI) incluye un supuesto adicional: la <i>independencia local.</i> De este supuesto se desprende que la probabilidad conjunta equivale al producto de las probabilidades separadas.</font></p>  	    <p align="justify"><font face="verdana" size="2">Es esencial entender bien la cualidad de local en este supuesto; quiere decir que la independencia entre respuestas es condicional a la habilidad &#952;<sub><i>p</i></sub> de la persona. Consideremos a dos personas <i>p</i> y <i>q</i> con el mismo nivel en el rasgo latente que responden los mismos tres &iacute;tems y supongamos que la persona <i>p</i> acert&oacute; los primeros dos &iacute;tems, mientras que la persona <i>q</i> los fall&oacute;. A partir de esta informaci&oacute;n, &iquest;se concluir&aacute; que la persona <i>p</i> tendr&aacute; una probabilidad mayor que la persona <i>q</i> de acertar el tercer &iacute;tem? Si se acepta el supuesto de independencia local, la respuesta a esta pregunta es <i>no.</i> Bajo este supuesto, la probabilidad de acertar un &iacute;tem no cambiar&aacute; a la luz de informaci&oacute;n adicional sobre las respuestas en otros &iacute;tems y depende &uacute;nicamente del par&aacute;metro del &iacute;tem y el par&aacute;metro de la persona; puesto que en el ejemplo asumimos que &#952;<sub><i>p</i></sub> = &#952;<sub><i>q</i></sub>, la probabilidad de acertar el tercer &iacute;tem (y cualquier otro &iacute;tem) es la misma para ambas personas.</font></p>     <p align="justify"><font face="verdana" size="2">Si no se especificase que &#952;<sub><i>p</i></sub> = &#952;<sub><i>q</i></sub>, entonces la valoraci&oacute;n de la probabilidad de acertar el tercer &iacute;tem s&iacute; ser&iacute;a diferente para las dos personas: despu&eacute;s de haber observado que la persona <i>p</i> acert&oacute; los primeros dos &iacute;tems y la persona <i>q</i> los fall&oacute;, es m&aacute;s plausible que &#952;<i><sub>&#961;</sub></i> &gt; &#952;<i><sub>q</sub></i> y por lo tanto, es plausible que la persona <i>p</i> tenga una probabilidad mayor de acertar el tercer &iacute;tem. Lo importante en este razonamiento es que, en el modelo de Rasch y todos los dem&aacute;s modelos que incluyen independencia local entre sus supuestos, el ajuste en la probabilidad despu&eacute;s de observar las respuestas en otros &iacute;tems se atribuye <i>exclusivamente</i> a la revaloraci&oacute;n del nivel de la persona en el rasgo latente. Es decir, el nivel en el rasgo latente funciona como variable mediadora, lo cual implica que, si se mantiene &#952;<sub><i>p</i></sub> fijo, entonces la probabilidad de acertar un &iacute;tem ya no se afecta por conocer las respuestas en otros &iacute;tems.</font></p>  	    <p align="justify"><font face="verdana" size="2">En resumen, el supuesto de independencia en los modelos TRI es local porque hace referencia a subgrupos de personas con id&eacute;nticos valores en &#952;. Dentro de un grupo de personas en el cual todos tienen el mismo valor en &#952;, no hay correlaci&oacute;n entre las variables <i>X<sub>i</sub></i> y <i>X<sub>j</sub></i> para cualquier par de &iacute;tems <i>i</i> y <i>j;</i> en otras palabras, si hay correlaci&oacute;n, entonces es porque las personas difieren respecto de &#952;. La &uacute;nica causa de correlaci&oacute;n entre los &iacute;tems es el rasgo latente. Esta consideraci&oacute;n relaciona conceptualmente los supuestos de independencia local y de unidimensionalidad y ha llevado a algunos autores a la conclusi&oacute;n que el primero sigue directamente del segundo o que son emp&iacute;ricamente indistinguibles.<sup>6,16,17</sup></font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Estimaci&oacute;n de par&aacute;metros</b></font><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2">Los valores de los par&aacute;metros de &iacute;tems y personas son inherentemente desconocidos. El objetivo principal de una aplicaci&oacute;n del modelo de Rasch suele ser obtener estimaciones para estos par&aacute;metros a trav&eacute;s de un an&aacute;lisis de las respuestas observadas en una muestra.</font></p>  	    <p align="justify"><font face="verdana" size="2">Existen varios m&eacute;todos de estimaci&oacute;n para modelos TRI. El m&eacute;todo m&aacute;s com&uacute;n se conoce como <i>estimaci&oacute;n por m&aacute;xima verosimilitud</i> (en ingl&eacute;s: <i>maximum likelihood estimation,</i> MLE). MLE es una herramienta de estimaci&oacute;n general en la estad&iacute;stica (introducida en los albores del siglo XX por R. A. Fisher)<sup>18</sup> y tiene una serie de propiedades te&oacute;ricas atractivas que se sostienen en general bajo condiciones leves. Una exposici&oacute;n detallada de MLE en modelos TRI excede el alcance de este art&iacute;culo; no obstante, se ilustra el principio con un ejemplo sencillo.</font></p>  	    <p align="justify"><font face="verdana" size="2">Supongamos que se conocen los par&aacute;metros &#946;<sub>1</sub>, &#946;<sub>2</sub>,..., &#946;<sub>6</sub> de los seis &iacute;tems que se graficaron en la parte derecha de la <b><a href="/img/revistas/iem/v3n9/a7f2.jpg" target="_blank">Figura 2</a></b> y que se desea estimar el par&aacute;metro &#952;<i><sub>&#961;</sub></i> con base en las respuestas observadas de la persona <i>p</i> en estos &iacute;tems. La segunda y tercera columna de la <b><a href="/img/revistas/iem/v3n9/a7t1.jpg" target="_blank">Tabla 1</a></b> muestran para cada &iacute;tem los valores del par&aacute;metro de dificultad y la respuesta que dio la persona p, respectivamente. Al aplicar MLE se considera la probabilidad de las respuestas observadas bajo los supuestos del modelo. En la cuarta columna de la tabla, se incluye la F&oacute;rmula (4a) o (4b) en funci&oacute;n de la respuesta en cada &iacute;tem; por ejemplo, para el primer &iacute;tem, la cual no se contest&oacute; correctamente, la tabla aplica la Ecuaci&oacute;n (4b). N&oacute;tese que en este ejemplo el &uacute;nico par&aacute;metro desconocido en las expresiones de la cuarta columna es La idea fundamental de MLE es que se consideran diferentes valores para &#952;<sub><i>p</i></sub> y, a continuaci&oacute;n, se eval&uacute;a la probabilidad de las respuestas observadas. Esta &uacute;ltima probabilidad es un indicador de la plausibilidad del par&aacute;metro y se llama la <i>verosimilitud</i> de&#952;<sub><i>p</i></sub></font>.</p>     <p align="justify"><font face="verdana" size="2">Las &uacute;ltimas columnas de la <b><a href="/img/revistas/iem/v3n9/a7t1.jpg" target="_blank">Tabla 1</a></b> muestran la verosimilitud para algunos valores ilustrativos de Se observa, por ejemplo, que &#952;<sub>p</sub> = 4 es m&aacute;s veros&iacute;mil que &#952;<sub><i>p</i></sub>= 6 para la respuesta observada en el primer &iacute;tem, mientras que para el segundo &iacute;tem la conclusi&oacute;n es al rev&eacute;s. Sin embargo, en vez de evaluar cada &iacute;tem por separado, se considera la verosimilitud del par&aacute;metro &#952;<sub><i>p</i></sub> para el <i>patr&oacute;n</i> de respuestas: bajo el supuesto de independencia local, la verosimilitud de &#952;<sub><i>p</i></sub> dada las respuestas en los seis &iacute;tems, es el producto de las verosimilitudes de cada &iacute;tem. La &uacute;ltima fila de la <b><a href="/img/revistas/iem/v3n9/a7t1.jpg" target="_blank">Tabla 1</a></b> ilustra el c&aacute;lculo para los cuatro valores de &#952;<sub><i>p</i></sub>; cada resultado es el producto de las seis probabilidades precedentes en la misma columna.</font></p>  	    <p align="justify"><font face="verdana" size="2">Para examinar c&oacute;mo la verosimilitud var&iacute;a en funci&oacute;n de todos los posibles valores de se puede investigar la <i>funci&oacute;n de verosimilitud.</i> La <b><a href="#f3">Figura 3</a></b> muestra que la funci&oacute;n de verosimilitud para el ejemplo anterior llega a su m&aacute;ximo si &#952;<sub><i>p</i></sub> = 5.433. Esto quiere decir que 5.433 es el m&aacute;s plausible entre todos los valores para Se dice que <sub><i><img src="/img/revistas/iem/v3n9/a7e24.jpg"></i></sub> = 5.433 es la estimaci&oacute;n por m&aacute;xima verosimilitud del par&aacute;metro &#952;<sub><i>p</i></sub> (se pone un sombrero arriba del s&iacute;mbolo del par&aacute;metro para distinguir la estimaci&oacute;n del valor verdadero).</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p> 	    <p align="center"><a name="f3"></a><img src="/img/revistas/iem/v3n9/a7f3.jpg"></p> 	    <p align="center"><font face="verdana" size="2">&nbsp;</font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">En el contexto de estimar los par&aacute;metros de un modelo TRI, el problema resulta ser considerablemente m&aacute;s complejo debido a que se estiman simult&aacute;neamente m&uacute;ltiples par&aacute;metros. Sin embargo, la esencia del m&eacute;todo sigue siendo la misma que lo expuesto para el caso anterior simple: se busca una soluci&oacute;n para los par&aacute;metros desconocidos que tenga m&aacute;xima verosimilitud a la luz de los datos observados. Cabe mencionar que se han desarrollado diversas variantes de MLE, principalmente para resolver algunos inconvenientes del m&eacute;todo est&aacute;ndar. Por otro lado, en la &uacute;ltima d&eacute;cada ha incrementado sustancialmente el n&uacute;mero de aplicaciones donde la estimaci&oacute;n se realiza dentro del marco alternativo ofrecido por la estad&iacute;stica bayesiana.<sup>19</sup></font></p>  	    <p align="justify"><font face="verdana" size="2">Para terminar esta secci&oacute;n, conviene se&ntilde;alar que el modelo de Rasch en su formulaci&oacute;n general sufre de una falta de identificabilidad. Quiere decir que la soluci&oacute;n de los par&aacute;metros no es &uacute;nica, que la funci&oacute;n de verosimilitud no tiene uno, sino varios m&aacute;ximos. Un simple an&aacute;lisis de la Ecuaci&oacute;n (4) provee el argumento: la probabilidad de acertar o fallar un &iacute;tem depende de los par&aacute;metros de la persona y del &iacute;tem &uacute;nicamente a trav&eacute;s de su diferencia &#952;<sub>&#961;</sub> &#45; &#946;<sub><i>i</i></sub>. Por lo tanto, cuando se dispone de una estimaci&oacute;n de los par&aacute;metros (&#952;<sub>1</sub>, &#952;<sub>2</sub>,..., &#952;<sub>&#925;</sub>, &#946;<sub>1</sub>, &#946;<sub>2</sub>,..., &#946;<sub>n</sub>) a partir de las respuestas de <i>N</i> personas en <i>n</i> &iacute;tems, se puede construir otra soluci&oacute;n sumando una constante <i>c</i> arbitraria a los par&aacute;metros de todas las personas y todos los &iacute;tems, como sigue:</font></p>     <p align="center"><img src="/img/revistas/iem/v3n9/a7e16.jpg"></p>  	    <p align="justify"><font face="verdana" size="2">En este caso, la soluci&oacute;n (&#952;*<sub>1</sub>, &#952;*<sub>2</sub>,...,&#952;*<sub>N</sub>,&#946;*<sub>1</sub>,&#946;*<sub>2</sub>,...,&#946*<sub>n</sub>) produce las mismas probabilidades a trav&eacute;s de la Ecuaci&oacute;n (4) que la soluci&oacute;n original, puesto que &#952;*<sub><i>p</i></sub> &#45; &#946;*<sub><i>i</i></sub> = &#952;<sub>&#961;</sub> &#45; &#946;<i><sub>i</sub></i> para cualquier combinaci&oacute;n de una persona <i>&#961;</i> y un &iacute;tem i. Una forma com&uacute;n para resolver esta indeterminaci&oacute;n del modelo consiste en a&ntilde;adir la restricci&oacute;n que la media aritm&eacute;tica de los par&aacute;metros &szlig;<sub><i>i</i></sub>. de los &iacute;tems sea 0.</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Funci&oacute;n de informaci&oacute;n</b></font><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2">El m&eacute;todo de MLE que se introdujo en la secci&oacute;n anterior proporciona una estimaci&oacute;n puntual de los par&aacute;metros. En muchas ocasiones, es deseable tener tambi&eacute;n una indicaci&oacute;n de la precisi&oacute;n de la estimaci&oacute;n, por ejemplo, en t&eacute;rminos de un intervalo de confianza para el valor verdadero del par&aacute;metro. Un teorema en la teor&iacute;a de MLE muy relevante al respecto dice que el valor de un par&aacute;metro estimado por m&aacute;xima verosimilitud se puede considerar aproximadamente como una extracci&oacute;n de una distribuci&oacute;n normal cuya media es el valor verdadero del par&aacute;metro y cuya varianza es el inverso de la funci&oacute;n de informaci&oacute;n.<sup>20</sup></font></p>  	    <p align="justify"><font face="verdana" size="2">La funci&oacute;n de informaci&oacute;n se define en t&eacute;rminos del valor esperado de la segunda derivada del logaritmo de la funci&oacute;n de verosimilitud. Aplicado al par&aacute;metro &#952; en el modelo de Rasch, se puede derivar que la informaci&oacute;n proporcionada por un test de <i>n</i> &iacute;tems para estimar &#952; se da por:</font></p>  	    <p align="center"><img src="/img/revistas/iem/v3n9/a7e17.jpg"></p>     <p align="justify"><font face="verdana" size="2">donde &#402;<sub>i</sub>(&#952;) se define como en la Ecuaci&oacute;n (5). El producto en la suma del lado derecho, &#402;<sub><i>i</i></sub>(&#952;) &#91;1 &#45; &#402;<sub><i>i</i></sub>,(&#952;)&#93;, se llama la funci&oacute;n de informaci&oacute;n del &iacute;tem <i>i</i> sobre el par&aacute;metro &#952; (generalmente presentada por &#921;<sub><i>i</i></sub>(&#952;). El resultado en la Ecuaci&oacute;n (6) implica que la informaci&oacute;n proporcionada por el test en su totalidad es una suma simple de las informaciones proporcionadas por los &iacute;tems. Esto se muestra en la <b><a href="#f4">Figura 4</a></b>, donde se representa la funci&oacute;n de informaci&oacute;n para los seis &iacute;tems y del test en su totalidad para el ejemplo de la <b><a href="/img/revistas/iem/v3n9/a7t1.jpg" target="_blank">Tabla 1</a></b>. Adem&aacute;s, la figura ilustra que la funci&oacute;n de informaci&oacute;n de cada &iacute;tem es m&aacute;xima cuando &#952; coincide con el par&aacute;metro de dificultad. Esto quiere decir que un &iacute;tem proporciona m&aacute;s informaci&oacute;n para estimar la habilidad de las personas cuyo par&aacute;metro se encuentra cerca del par&aacute;metro de dificultad del &iacute;tem y menos para las personas que se encuentran lejos del &iacute;tem en la dimensi&oacute;n latente. Extendiendo esta idea al test en su totalidad, se concluye que proporciona m&aacute;s informaci&oacute;n para estimar los valores de &#952; que se encuentran entre las &#946;<sub><i>i</i></sub> de los &iacute;tems.</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="center"><a name="f4"><img src="/img/revistas/iem/v3n9/a7f4.jpg"></a></p>     <p align="center"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2">El teorema mencionado al inicio de esta secci&oacute;n permite derivar intervalos de confianza para el par&aacute;metro de inter&eacute;s. Para calcular el intervalo de confianza asociado con <img src="/img/revistas/iem/v3n9/a7e24.jpg">= 5.433 en el ejemplo anterior, se considera primero el error est&aacute;ndar de la estimaci&oacute;n:</font></p>  	    <p align="center"><img src="/img/revistas/iem/v3n9/a7e18.jpg"></p>     <p align="justify"><font face="verdana" size="2">Puesto que se desconoce el valor verdadero &#952;<sub>&#961;</sub> de la persona <i>&#961;</i> en el ejemplo, se utiliza el valor estimado <img src="/img/revistas/iem/v3n9/a7e24.jpg">= 5.433 para calcular la informaci&oacute;n. Como se puede leer en la <b><a href="#f4">Figura 4</a></b>, /(5.433) = 0.766, por lo cual</font></p>  	    <p align="center"><img src="/img/revistas/iem/v3n9/a7e19.jpg"></p>     <p align="justify"><font face="verdana" size="2">A continuaci&oacute;n, se utiliza el m&eacute;todo com&uacute;n para derivar un intervalo de confianza para la media de una distribuci&oacute;n normal (con desviaci&oacute;n est&aacute;ndar conocida); se obtiene el siguiente intervalo de 95% para el valor verdadero del par&aacute;metro &#952;<sub><i>p</i></sub> en nuestro ejemplo:</font></p>  	    <p align="center"><img src="/img/revistas/iem/v3n9/a7e20.jpg"></p>     <p align="justify"><font face="verdana" size="2">N&oacute;tese que este intervalo de confianza es muy amplio, lo cual se debe a que el ejemplo conformaba s&oacute;lo seis &iacute;tems.</font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">En aplicaciones reales, donde se desconocen los par&aacute;metros de los &iacute;tems (contrario al caso de nuestro ejemplo), se reemplazan tambi&eacute;n los <img src="/img/revistas/iem/v3n9/a7e25.jpg"><sub><i>i</i></sub> en la Ecuaci&oacute;n (6) por las respectivas estimaciones. Cuando se requieren intervalos de confianza para los par&aacute;metros &#946;<sub>i</sub>, se puede aplicar un procedimiento similar a la que se acaba de presentar para los &#952;<sub><i>p</i></sub> (aunque la funci&oacute;n de informaci&oacute;n /(&szlig;) es otra). Por otro lado, si se ha optado por una estimaci&oacute;n dentro del marco bayesiano, se examina la distribuci&oacute;n posterior del par&aacute;metro de inter&eacute;s (y espec&iacute;ficamente su varianza) para evaluar la precisi&oacute;n de las estimaciones.</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Dos modelos alternativos: el 2PL y 3PL</b></font><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2">En esta secci&oacute;n se describen brevemente otros dos modelos TRI, que relajan los supuestos del modelo de Rasch en el sentido que permiten que los &iacute;tems difieran en otra(s) caracter&iacute;stica(s) que s&oacute;lo el par&aacute;metro de dificultad. En otras palabras, en dichos modelos cada &iacute;tem se cuantifica en dos o tres par&aacute;metros, lo cual explica sus nombres: 2PL (modelo log&iacute;stico de 2 par&aacute;metros) y 3PL (modelo log&iacute;stico de 3 par&aacute;metros).<sup>21</sup> En muchos otros aspectos, como el supuesto de unidimensionalidad e independencia local, el 2PL y 3PL son similares al modelo de Rasch.</font></p>  	    <p align="justify"><font face="verdana" size="2">El 2PL a&ntilde;ade un par&aacute;metro de <i>discriminaci&oacute;n</i> a cada &iacute;tem, el cual se representa por <i>a<sub>i</sub>.</i> En el panel superior izquierdo de la <b><a href="/img/revistas/iem/v3n9/a7f5.jpg" target="_blank">Figura 5</a>,</b> se representan las curvas caracter&iacute;sticas de dos &iacute;tems, <i>i</i> y j, que tienen la misma dificultad (&szlig;<sub><i>i</i></sub> = &szlig;<sub><i>j</i></sub>) pero que difieren en su par&aacute;metro de discriminaci&oacute;n: &#945;<sub><i>j</i></sub> &gt; &#945;<sub><i>i</i></sub>. Se observa que la curva del &iacute;tem <i>j</i> es m&aacute;s pronunciada cerca de su posici&oacute;n en el rasgo latente. En particular, comparando cualquier par de personas <i>&#961;</i> y q, con par&aacute;metros &#952;<sub><i>p</i></sub> &lt; &szlig;<sub><i>i</i></sub> = &szlig;<sub><i>j</i></sub> &lt; &#952;<sub>q</sub> (es decir, uno se encuentra por debajo de los par&aacute;metros de dificultad, el otro por encima), se cumple la siguiente desigualdad:</font></p>  	    <p align="center"><img src="/img/revistas/iem/v3n9/a7e21.jpg"></p>  	    <p align="justify"><font face="verdana" size="2">Esta expresi&oacute;n significa que, si los par&aacute;metros de dificultad de dos &iacute;tems coinciden, entonces la diferencia entre ambas personas respecto de su probabilidad de acertar los &iacute;tems es m&aacute;s grande en el &iacute;tem con mayor grado de discriminaci&oacute;n. En la gr&aacute;fica izquierda, la diferencia entre las probabilidades de acertar de las personas <i>&#961;</i> y <i>q</i> es .769 &#45; .289 = .480 en el &iacute;tem <i>j</i>, pero s&oacute;lo .630 &#45; .401 = .229 en el &iacute;tem <i>i</i>. Efectivamente, el &iacute;tem <i>j</i> discrimina m&aacute;s entre (las probabilidades de acertar de) estas dos personas. De forma alternativa, la probabilidad de encontrar una diferencia entre las respuestas de ambas personas (que uno acierte y el otro falle) es m&aacute;s grande en el &iacute;tem <i>j</i> que en el &iacute;tem <i>i.</i></font></p>  	    <p align="justify"><font face="verdana" size="2">La ecuaci&oacute;n matem&aacute;tica de la curva caracter&iacute;stica de un &iacute;tem <i>i</i> en el 2PL es la siguiente:</font></p>  	    <p align="center"><img src="/img/revistas/iem/v3n9/a7e22.jpg"></p>     <p align="justify"><font face="verdana" size="2">Para que &#402,(&#952;) sea creciente, se a&ntilde;ade la restricci&oacute;n que &#945;<sub><i>i</i></sub> &gt; 0. Alineado con la interpretaci&oacute;n anterior, la ecuaci&oacute;n ense&ntilde;a que el par&aacute;metro de discriminaci&oacute;n encoge (si &#945;<sub><i>i</i></sub> &lt; 1) o estira (si &#945;<sub><i>i</i></sub> &gt; 1) la diferencia entre los par&aacute;metros de la persona y del &iacute;tem. En el panel superior derecho de la <b><a href="/img/revistas/iem/v3n9/a7f5.jpg" target="_blank">Figura 5</a></b> se grafican las curvas caracter&iacute;sticas de una familia de &iacute;tems que difieren tanto en dificultad como en discriminaci&oacute;n.</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">&nbsp;</font></p>     <p align="center"><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2">El tercer par&aacute;metro para los &iacute;tems, que se introduce en el modelo 3PL, se suele denominar el par&aacute;metro de <i>seudo&#45;adivinaci&oacute;n.</i> Dicho par&aacute;metro, que se representa por &#947;<sub><i>i</i></sub>, cambia la as&iacute;ntota izquierda de la curva caracter&iacute;stica: mientras que en el modelo de Rasch y el 2PL, las personas con una habilidad muy baja tienen (casi) nula probabilidad de acertar el &iacute;tem, en el 3PL est&aacute; probabilidad se acerca a &#947;<sub><i>i</i></sub>, donde &#947;<sub><i>i</i></sub> satisface la restricci&oacute;n: 0 &#8804; &#947;<sub><i>i</i></sub>  &#8804; 1. La curva caracter&iacute;stica de un &iacute;tem <i>i</i> seg&uacute;n el 3PL se da por:</font></p>  	    <p align="center"><img src="/img/revistas/iem/v3n9/a7e23.jpg"></p>     <p align="justify"><font face="verdana" size="2">En la parte inferior de la <b><a href="/img/revistas/iem/v3n9/a7f5.jpg" target="_blank">Figura 5</a></b> se ejemplifican unas curvas caracter&iacute;sticas t&iacute;picas del 3PL. El panel izquierdo ilustra el efecto del par&aacute;metro de seudo&#45;adivinaci&oacute;n comparando dos &iacute;tems cuyos valores en los otros dos par&aacute;metros son iguales. N&oacute;tese que &szlig;<sub><i>i</i></sub> en el 3PL ya no corresponde con la habilidad para la cual la probabilidad de acertar es .50 (sino con la posici&oacute;n donde esta probabilidad es .50 + &#947;<sub><i>i</i></sub> / 2).</font></p>  	    <p align="justify"><font face="verdana" size="2">Se suele interpretar y<sub>&#1523;i</sub> como la probabilidad de acertar el &iacute;tem <i>i</i> en caso de que se "desconozca la respuesta", por lo cual este modelo parece ser adecuado para el an&aacute;lisis de &iacute;tems de opci&oacute;n m&uacute;ltiple, o bien, &iacute;tems que se pueden acertar adivinando, sin conocer la respuesta. Sin embargo, la interpretaci&oacute;n que se adhiere a un par&aacute;metro, por ejemplo, interpretar &#947;<sub><i>i</i></sub> en t&eacute;rminos de "la probabilidad de adivinar correctamente" no es parte (de la definici&oacute;n formal) del modelo. Es posible que las respuestas en un &iacute;tem se describan bien por la Ecuaci&oacute;n (8), aunque las personas <i>no</i> adivinen, sino que, por ejemplo, hayan llegado a la respuesta correcta con base en un razonamiento err&oacute;neo.<sup>22</sup></font></p>  	    <p align="justify"><font face="verdana" size="2">En general, la interpretaci&oacute;n de los par&aacute;metros en el 2PL y 3PL es menos un&iacute;voca que en el modelo de Rasch. Por ejemplo, se mencion&oacute; anteriormente que Rasch implica que si &szlig;<sub><i>i</i></sub> &lt; &szlig;<sub><i>j</i></sub>, entonces el &iacute;tem <i>i</i> es m&aacute;s f&aacute;cil que el &iacute;tem <i>j</i> para <i>todas</i> las personas. En el 2PL, sin embargo, esta interpretaci&oacute;n no es necesariamente correcta, como se ilustra con los &iacute;tems 3 y 6 en la gr&aacute;fica en el panel superior derecho de la <b><a href="/img/revistas/iem/v3n9/a7f5.jpg" target="_blank">Figura 5</a></b>: a pesar de que el &iacute;tem 6 tiene el par&aacute;metro de dificultad m&aacute;s <i>grande</i> que el &iacute;tem 3, la probabilidad de acertarlo es m&aacute;s <i>alta</i> (es decir, el &iacute;tem 6 es m&aacute;s <i>f&aacute;cil)</i> para una parte significativa de la dimensi&oacute;n latente (en espec&iacute;fico, para las personas con niveles altos en &#952;). En el 3PL, la interpretaci&oacute;n es a&uacute;n m&aacute;s confusa. Es posible que el &iacute;tem sea m&aacute;s <i>f&aacute;cil</i> que el &iacute;tem <i>j</i> en t&eacute;rminos de su par&aacute;metro de dificultad (&szlig;<sub><i>i</i></sub> &lt; &szlig;<sub><i>j</i></sub>), sin embargo, que el &iacute;tem <i>i</i> sea m&aacute;s <i>dif&iacute;cil</i> en el sentido que su curva caracter&iacute;stica se encuentre por debajo de &#151;o bien, la probabilidad de acertarlo sea m&aacute;s baja que&#151; la del &iacute;tem <i>j</i> para <i>todos</i> los niveles de la habilidad subyacente (para un ejemplo, comp&aacute;rense los &iacute;tems 2 y 4 en el panel inferior derecho). Este tipo de consideraciones han sido objeto de un debate intenso a favor y en contra del 3PL.</font></p>     <p align="justify"><font face="verdana" size="2">Al terminar esta introducci&oacute;n de los modelos TRI b&aacute;sicos, cabe se&ntilde;alar que el modelo de Rasch es un caso especial del modelo 2PL, que se obtiene restringiendo los par&aacute;metros de discriminaci&oacute;n a 1. Similarmente, el 2PL es un caso especial que se obtiene por la restricci&oacute;n de &#947;<sub><i>i</i></sub>  = 0 para cada &iacute;tem. En la siguiente secci&oacute;n se considera la bondad de ajuste de un modelo a los datos. La jerarqu&iacute;a entre los tres modelos introducidos en esta secci&oacute;n implica que el modelo 3PL es m&aacute;s flexible y generalmente tiene mejor ajuste a los datos, mientras que el modelo de Rasch es el m&aacute;s exigente y f&aacute;cilmente se rechaza. Como se explic&oacute; en el p&aacute;rrafo anterior, esta flexibilidad viene con el precio de una interpretaci&oacute;n menos clara de los par&aacute;metros.</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>An&aacute;lisis te&oacute;rico de las diferencias entre ambos enfoques psicom&eacute;tricos</b></font><font face="verdana" size="2">&nbsp;</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Desde un punto de vista te&oacute;rico, las ventajas de la TRI son dif&iacute;ciles de negar. Un an&aacute;lisis TRI generalmente proporciona informaci&oacute;n m&aacute;s detallada, m&aacute;s sofisticada y con un sustento te&oacute;rico m&aacute;s s&oacute;lido. En esta secci&oacute;n se discuten brevemente cuatro ventajas de la TRI sobre la TCT.</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Interpretaci&oacute;n de las puntuaciones</b></font><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2">En la gran mayor&iacute;a de los casos, el objetivo final de una medici&oacute;n es hacer inferencias sobre alguna habilidad abstracta o alg&uacute;n constructo subyacente a la prueba utilizada. Una pregunta que la TCT (en su formulaci&oacute;n original) deja sin contestar es hasta qu&eacute; grado la puntuaci&oacute;n en la prueba contiene informaci&oacute;n sobre este constructo subyacente. Incluso en el caso de que se midiese con exactitud la puntuaci&oacute;n verdadera, no es claro qu&eacute; conclusiones se pueden sacar sobre un constructo latente con base en el resultado obtenido; el modelo de la TCT simplemente no especifica la relaci&oacute;n entre la habilidad latente que supuestamente se mide y el resultado observado en el test. Los par&aacute;metros en los modelos TRI, por otro lado, tienen una relaci&oacute;n directa con la dimensi&oacute;n que se pretende medir, lo cual conlleva a una interpretaci&oacute;n m&aacute;s clara de los resultados. Por ejemplo, &#952; <i>coincide con</i> (una cuantificaci&oacute;n de) la habilidad abstracta subyacente a la prueba.</font></p>  	    <p align="justify"><font face="verdana" size="2">La falta de la especificaci&oacute;n de la relaci&oacute;n entre la puntuaci&oacute;n en el test y la habilidad que se pretende medir tiene, adem&aacute;s de su relevancia te&oacute;rica, varias implicaciones pr&aacute;cticas. En primera instancia, no es evidente cu&aacute;l es el nivel de medici&oacute;n de la puntuaci&oacute;n (observada o verdadera) de la TCT. Si, por ejemplo, la puntuaci&oacute;n de la persona <i>&#961;</i> en una prueba es mayor que la de la persona <i>q</i>, entonces &iquest;se puede concluir que <i>&#961;</i> tiene m&aacute;s de la habilidad que mide el test que la persona <i>q</i>? En la TCT, es muy com&uacute;n calcular la puntuaci&oacute;n en el test por la suma de puntuaciones en los &iacute;tems, la cual en el caso de &iacute;tems binarios corresponde con el n&uacute;mero de respuestas correctas. Se puede derivar que, si los supuestos del modelo Rasch son ciertos, entonces la respuesta a la pregunta anterior es afirmativa: la puntuaci&oacute;n obtenida por el n&uacute;mero de respuestas correctas refleja el orden entre las personas en la dimensi&oacute;n subyacente que se mide. Sin embargo, si los &iacute;tems difieren en discriminaci&oacute;n (como en el 2PL), es posible que una persona con una puntuaci&oacute;n m&aacute;s alta que otra persona reciba una estimaci&oacute;n m&aacute;s baja para su par&aacute;metro de habilidad. Con el mismo razonamiento, se puede cuestionar incluso si las puntuaciones de la TCT cumplen con los requisitos m&aacute;s b&aacute;sicos de medici&oacute;n.</font></p>     <p align="justify"><font face="verdana" size="2">Una segunda implicaci&oacute;n apunta al significado de las puntuaciones en la TCT con relaci&oacute;n a alg&uacute;n est&aacute;ndar o criterio de decisi&oacute;n. Los ex&aacute;menes en M&eacute;xico se aprueban usualmente al obtener el 60% de la calificaci&oacute;n m&aacute;xima, pero el enfoque tradicional de la TCT carece de ilaci&oacute;n sobre lo que "sabe" la persona que logra aprobar el examen con esta calificaci&oacute;n. Los modelos de la TRI, al contrario, ponen las habilidades de las personas en la misma dimensi&oacute;n que las dificultades de los &iacute;tems y permiten concluir cu&aacute;les son los &iacute;tems que una persona domina (donde "dominar" tiene un significado preciso; en el modelo Rasch, por ejemplo, se dice que una persona <i>&#961;</i> domina un &iacute;tem <i>i</i> si &#952;<sub><i>p</i></sub> &gt; &szlig;<sub><i>i</i></sub> y entonces la probabilidad de que lo acierte es mayor que .50). Es decir, a partir de un an&aacute;lisis TRI, se obtiene informaci&oacute;n sobre el nivel de la persona en el constructo subyacente en relaci&oacute;n con los &iacute;tems incluidos en el test.</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Chequeo y falsabilidad del modelo</b></font><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2">Algunos autores han defendido la TCT refiri&eacute;ndose a los leves supuestos del modelo, que "no requieren evaluaciones estrictas del ajuste a los datos".<sup>23</sup> Sin embargo, es cuestionable abogar a favor del uso de un modelo (o una teor&iacute;a cient&iacute;fica en general) con el argumento de que hay pocas posibilidades que los datos lo rechacen. La filosof&iacute;a de la ciencia (y especialmente el principio popperiano de falsabilidad) adopta una posici&oacute;n opuesta.<sup>24</sup></font></p>  	    <p align="justify"><font face="verdana" size="2">M&aacute;s fundamental es la objeci&oacute;n de que la teor&iacute;a cl&aacute;sica (y espec&iacute;ficamente el supuesto central de que &#949;<sub><i>p</i></sub> se extrae aleatoriamente de una distribuci&oacute;n de proba dad y que su efecto en &#964;<sub>&#961;</sub> es aditivo) no es comprobable. Adem&aacute;s, se ha reconocido que otros supuestos (menos esenciales) son poco realistas y/o se violan en la pr&aacute;ctica (como el supuesto en la Ecuaci&oacute;n 2 o el supuesto de que <i>E</i> es independiente de <i>T</i> en la Ecuaci&oacute;n 1 ).<sup>25,26</sup> Sin embargo, entre los usuarios de la TCT existe la cultura de no preocuparse por los supuestos del modelo y proceder como si fuesen correctos.</font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Los supuestos en la TRI, por otro lado, generalmente son m&aacute;s exigentes y aunque se admite que ning&uacute;n modelo es una representaci&oacute;n perfecta del proceso cognitivo que subyace a los datos, se considera esencial evaluar, a trav&eacute;s de pruebas estad&iacute;sticas de bondad de ajuste, si es justificable mantener el modelo como hip&oacute;tesis para los mismos. Com&uacute;nmente, ajustar un modelo TRI implica un proceso iterativo: a partir de un modelo inicial, (a) se eval&uacute;a el ajuste global a los datos y en caso de que resulte inaceptable, (b) se aplican pruebas tendientes a hallar violaciones espec&iacute;ficas, con base en las cuales (c) se realizan modificaciones precisas; despu&eacute;s se regresa al punto (a) hasta obtener un modelo final con un ajuste satisfactorio. En la siguiente secci&oacute;n se ejemplificar&aacute; c&oacute;mo se pueden adaptar los modelos TRI para acomodar violaciones comunes en el contexto de la evaluaci&oacute;n educativa en las ciencias de la salud.</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Error est&aacute;ndar de medici&oacute;n</b></font><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2">Como se discuti&oacute; anteriormente (v&eacute;ase la Ecuaci&oacute;n 2), la TCT a&ntilde;ade a sus supuestos que el error est&aacute;ndar de medici&oacute;n es una constante para cualquier nivel de la puntuaci&oacute;n verdadera. La TRI, por otro lado, permite que el error est&aacute;ndar var&iacute;e en funci&oacute;n de la habilidad subyacente (v&eacute;ase la Ecuaci&oacute;n 7) y, efectivamente, evidencia que la precisi&oacute;n asociada con una medici&oacute;n <i>no</i> es constante en toda la escala, sino menor a los extremos. Adem&aacute;s, intuitivamente parece l&oacute;gico que una medici&oacute;n sea menos confiable en caso de una discordancia entre la dificultad global de la prueba y el nivel de la persona cuyo nivel se desea medir (es decir, si la prueba es demasiado f&aacute;cil o dif&iacute;cil).</font></p>     <p align="justify"><font face="verdana" size="2">Si el supuesto de un error est&aacute;ndar de medici&oacute;n parejo no es correcto, la estimaci&oacute;n de &#963<sub>E</sub> (a trav&eacute;s de, por ejemplo, una estimaci&oacute;n de la confiabilidad por el coeficiente &#945; de Cronbach y una aplicaci&oacute;n de la F&oacute;rmula 3) corresponde aproximadamente con la media de los errores est&aacute;ndares individuales.<sup>25</sup> Por lo tanto, para unas personas el error est&aacute;ndar global es una subestimaci&oacute;n de su error est&aacute;ndar individual; para otras es una sobreestimaci&oacute;n. En consideraci&oacute;n de que la precisi&oacute;n de la medici&oacute;n en el contexto de la evaluaci&oacute;n educativa no es igualmente importante para todos los niveles en la escala &#151;subestimar una calificaci&oacute;n verdadera de 60% con 2% generalmente tiene implicaciones mucho m&aacute;s graves que cometer un error del mismo tama&ntilde;o cuando la calificaci&oacute;n verdadera sea 82%&#151;, conviene concentrar las fuerzas para que el error est&aacute;ndar se minimice alrededor de la(s) l&iacute;nea(s) divisoria(s) relacionada(s) con las decisiones que se planean tomar con base en el instrumento.</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Invarianza de los par&aacute;metros</b></font><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2">La diferencia m&aacute;s saliente entre los dos enfoques principales de la psicometr&iacute;a probablemente es la invarianza de los par&aacute;metros en la TRI. Quiere decir que, si los supuestos de un modelo TRI se cumplen para una poblaci&oacute;n de personas y una poblaci&oacute;n de &iacute;tems, entonces:</font></p>  	    <blockquote> 	      <p align="justify"><font face="verdana" size="2">a. las propiedades de los &iacute;tems (es decir, sus par&aacute;metros como dificultad y discriminaci&oacute;n) o de una prueba en su totalidad (por ejemplo, la funci&oacute;n de informaci&oacute;n) no cambian al considerarlos o aplicarlos en diferentes muestras de personas; las propiedades ser&iacute;an las mismas en una muestra de personas dotadas y una muestra de personas menos capaces. En la TCT esto no es el caso: los &iacute;ndices asociados con una prueba generalmente son distintos en diferentes muestras de personas. Por ejemplo, la confiabilidad suele ser m&aacute;s baja en un grupo de personas m&aacute;s homog&eacute;neo y el grado de dificultad de un &iacute;tem (el cual se define, en el caso de que la respuesta se codifique de forma binaria, como la proporci&oacute;n de personas que lo acierta) es diferente en grupos de personas capaces y menos capaces.</font></p> 	      ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">b. los par&aacute;metros de las personas son los mismos independientemente de la muestra de &iacute;tems que se incluyan en la prueba; no importa, por ejemplo, que la prueba tenga mayoritariamente &iacute;tems f&aacute;ciles, o bien, dif&iacute;ciles, las &#952;s de las personas son id&eacute;nticas en cualquier caso. Las caracter&iacute;sticas de las personas en la TCT &#151;m&aacute;s notablemente, sus puntuaciones verdaderas&#151; <i>no</i> son id&eacute;nticas en diferentes pruebas: si la versi&oacute;n A de un examen incluye m&aacute;s preguntas f&aacute;ciles que otra versi&oacute;n B, las puntuaciones verdaderas de la versi&oacute;n A ser&aacute;n m&aacute;s altas. </font></p> </blockquote>  	    <p align="justify"><font face="verdana" size="2">Es importante insistir en la interpretaci&oacute;n correcta de la propiedad de invarianza de los par&aacute;metros en modelos TRI, ya que a veces publicaciones sobre el tema difunden una interpretaci&oacute;n err&oacute;nea. La invarianza o la independencia de la muestra <i>no</i> implica que la <i>estimaci&oacute;n</i> de los par&aacute;metros de los &iacute;tems sea independiente de la muestra de personas. Esto s&oacute;lo es cierto para un subgrupo (importante) de modelos TRI, a saber la familia de modelos tipo Rasch, la cual adem&aacute;s del modelo de Rasch introducido anteriormente, incluye varios modelos que comparten las propiedades especiales del modelo de Rasch (v&eacute;ase el libro de Wright y Stone<sup>27</sup> o el editado por Fischer y Molenaar<sup>28</sup> para una discusi&oacute;n m&aacute;s profunda). Adem&aacute;s, incluso para modelos tipo Rasch, aunque el valor esperado de la estimaci&oacute;n de los par&aacute;metros es independiente de la muestra, la <i>&#961;recisi&oacute;n</i> de la estimaci&oacute;n no lo es, como se mostr&oacute; en la secci&oacute;n donde se introdujo la funci&oacute;n de informaci&oacute;n.</font></p>     <p align="justify"><font face="verdana" size="2">Desde la perspectiva cl&aacute;sica es, en principio, imposible separar la influencia de la versi&oacute;n utilizada para una prueba, por un lado, y la contribuci&oacute;n de las personas, por otro lado, en las calificaciones obtenidas. Gracias a la invarianza de los par&aacute;metros de los &iacute;tems, la TRI permite comparar el rendimiento de distintos (grupos de) individuos aunque contestaron diferentes versiones de una prueba. Un tipo de aplicaciones que explota m&aacute;ximamente esta propiedad son los <i>tests ada&#961;tativos informatizados</i> (TAI).<sup>29</sup> Lo t&iacute;pico de un TAI, para lo cual se requieren una computadora equipada de un software especial y un banco amplio de &iacute;tems calibrados, es que se estima el nivel &#952; de la persona despu&eacute;s de <i>cada</i> respuesta y que se elige entre los &iacute;tems restantes del banco el m&aacute;s adecuado (generalmente el m&aacute;s informativo condicional a la estimaci&oacute;n actual de &#952;) para presentar como el siguiente. Las pruebas populares <i>Test of English as Foreign Language</i> (TOEFL) y <i>Test of English for International Communication</i> (TOEIC) tienen una versi&oacute;n adaptativa.<sup>30</sup></font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Los supuestos de modelos TRI</b> <b><i>vs.</i></b> <b>la realidad de la evaluaci&oacute;n educativa en medicina</b></font><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2">En esta secci&oacute;n se reconsideran los supuestos de los modelos TRI b&aacute;sicos y se contrastan con las circunstancias en las que se realizan las evaluaciones t&iacute;picas en medicina. Ampliando la perspectiva y considerando las posibles soluciones cuando un modelo muestra un ajuste deficiente a los datos, se pueden clasificar generalmente las soluciones en dos grupos, dependiendo de si se sit&uacute;a la causa del problema en el modelo, o bien, en los datos. En el primer caso, la estrategia para remediar el mal ajuste consiste en modificar el modelo; en el segundo caso, se procede a la resoluci&oacute;n del problema cambiando los datos, m&aacute;s espec&iacute;ficamente, eliminando &iacute;tems y/o personas con &iacute;ndices de ajuste problem&aacute;ticos. Ciertamente, un an&aacute;lisis psicom&eacute;trico puede revelar problemas espec&iacute;ficos en algunos &iacute;tems, que despu&eacute;s de un escrutinio m&aacute;s a fondo, puede llevar a la conclusi&oacute;n de que no son aptos, por ejemplo, porque traen una interpretaci&oacute;n ambigua. Asimismo, se puede justificar la eliminaci&oacute;n de una persona despu&eacute;s de examinar a fondo sus respuestas al instrumento y constatar, por ejemplo, que no respondi&oacute; con seriedad a la tarea.</font></p>     <p align="justify"><font face="verdana" size="2">Sin embargo, demasiadas veces se consigue un ajuste aceptable al modelo contemplado despu&eacute;s de la eliminaci&oacute;n de un porcentaje significativo de los &iacute;tems, con la justificaci&oacute;n que tienen un "mal ajuste" o "valores extremos/inaceptables para los par&aacute;metros". En general, es importante tratar los datos "con respeto" y utilizar con mucha cautela la estrategia de dejar fuera del an&aacute;lisis parte de los datos para obtener un ajuste a un modelo estad&iacute;stico. Com&uacute;nmente, a cada &iacute;tem en la prueba se le concedi&oacute; una importancia en la fase de la construcci&oacute;n de la prueba, por lo cual la eliminaci&oacute;n de &iacute;tems generalmente afecta la validez de contenido. Aunque en casos muy particulares las propiedades &uacute;nicas de un modelo psicom&eacute;trico (como el modelo de Rasch) pueden justificar su preponderancia sobre los datos, en la mayor&iacute;a de las aplicaciones el modelo es secundario a los datos. Es decir, si se encuentra un ajuste deficiente para una parte significativa de las personas e &iacute;tems, casi siempre es m&aacute;s apropiado reconsiderar el modelo en vez de censurar los datos.</font></p>  	    <p align="justify"><font face="verdana" size="2">En el resto de esta secci&oacute;n se discuten brevemente algunos modelos TRI alternativos que se han desarrollado precisamente para responder a las implicaciones que tienen ciertos contextos de evaluaci&oacute;n educativa para los supuestos de la TRI.</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Adivinar aleatoriamente en &iacute;tems de opci&oacute;n m&uacute;ltiple</b></font><font face="verdana" size="2">&nbsp;</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">En la pr&aacute;ctica de la evaluaci&oacute;n educativa, el 3PL es el modelo est&aacute;ndar para analizar ex&aacute;menes de opci&oacute;n m&uacute;ltiple desde la perspectiva de la TRI. Sin embargo, varios autores<sup>31,32</sup> han criticado el supuesto inherente de que la probabilidad de acertar un &iacute;tem adivinando (lo cual es la interpretaci&oacute;n com&uacute;n del par&aacute;metro y<sub>i</sub>) &uacute;nicamente depende del &iacute;tem y es constante para todas las personas. Han argumentado que, en caso de que no se sepa la respuesta, tambi&eacute;n las caracter&iacute;sticas de la persona &#45;como su nivel de habilidad&#45; afectan qu&eacute; tan atractivas le parecen las distintas opciones de respuesta. Por ejemplo, para una persona con un nivel <i>muy</i> bajo en la habilidad subyacente, las alternativas pueden parecer igualmente atractivas, as&iacute; que la probabilidad de acertar el &iacute;tem adivinando se acerca a 1<i>/k</i> (con <i>k</i> el n&uacute;mero de opciones de respuesta); por otro lado, una persona de un nivel m&aacute;s alto, aunque no sepa la respuesta correcta, a lo mejor puede identificar uno o m&aacute;s distractores (por lo cual se incrementar&iacute;a la probabilidad de acertar adivinando), mientras que tambi&eacute;n es posible que una alternativa incorrecta enga&ntilde;e a personas de cierto nivel de habilidad (en cuyo caso, la probabilidad de acertar el &iacute;tem se disminuir&iacute;a). En resumen, es poco plausible suponer que la opci&oacute;n correcta atraiga igualmente a todas las personas que no saben la respuesta. San Mart&iacute;n y cols.<sup>32</sup> presentaron evidencia que este supuesto del 3PL se viola m&aacute;s f&aacute;cil en preguntas que permiten que el conocimiento se manifieste de forma gradual.</font></p>     <p align="justify"><font face="verdana" size="2">Bock<sup>33</sup> y Thissen y Steinberg<sup>34</sup> propusieron alternativas para el an&aacute;lisis de &iacute;tems de opci&oacute;n m&uacute;ltiple. Al asignar par&aacute;metros a las distintas opciones de respuesta, estos modelos definen una curva caracter&iacute;stica para cada <i>o&#961;ci&oacute;n.</i> La <b><a href="/img/revistas/iem/v3n9/a7f6.jpg" target="_blank">Figura 6</a></b> muestra para un &iacute;tem de cuatro alternativas c&oacute;mo var&iacute;a la probabilidad de elegir cada opci&oacute;n en funci&oacute;n de la habilidad &#952;. Observando la curva caracter&iacute;stica de la opci&oacute;n correcta, se nota que inicialmente la probabilidad de acertar el &iacute;tem <i>disminuye</i> conforme &#952; incrementa, hasta cierto punto desde el cual la probabilidad de acertar se acerca a 1 para &#952; yendo a infinito. Esta gr&aacute;fica ejemplifica c&oacute;mo las caracter&iacute;sticas de los distractores conllevan a una curva caracter&iacute;stica fundamentalmente distinta a la del 3PL.</font></p>  	    <p align="justify"><font face="verdana" size="2">Adem&aacute;s de que representan mejor el proceso cognitivo de responder a un &iacute;tem de opci&oacute;n m&uacute;ltiple, los modelos mencionados anteriormente acarrean otra ventaja: aprovechan toda la informaci&oacute;n presente en los datos. El 3PL no diferencia las respuestas en los distractores de un mismo &iacute;tem (analiza la informaci&oacute;n dicotomizada de respuesta correcta <i>vs.</i> incorrecta). Estudios han mostrado que incluir esta informaci&oacute;n conlleva a una mejor estimaci&oacute;n de la habilidad de las personas.<sup>35,36</sup></font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Unidimensionalidad</b></font><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2">Todos los modelos examinados hasta ahora suponen que s&oacute;lo un rasgo latente subyace a las respuestas observadas: para fines de la prueba estudiada, cada persona <i>&#961;</i> se puede reducir a una posici&oacute;n &#952;<sub>&#961;</sub> en la dimensi&oacute;n subyacente, la cual se combina con los par&aacute;metros de los &iacute;tems para conocer la probabilidad de acertarlos. Sin embargo, en pocas ocasiones la evaluaci&oacute;n educativa de estudiantes en medicina (y en otras &aacute;reas) es unidimensional; generalmente, un examen sondea diversas sub&aacute;reas en las cuales las diferencias entre estudiantes se manifiestan de forma distinta. Esto no es s&oacute;lo el caso en ex&aacute;menes que expl&iacute;citamente incluyen preguntas de diversas &aacute;reas cl&iacute;nicas y ciencias b&aacute;sicas,<sup>37</sup> sino tambi&eacute;n en ex&aacute;menes de una asignatura en particular y aun cuando cubren s&oacute;lo parte de la materia (como en los ex&aacute;menes parciales).</font></p>  	    <p align="justify"><font face="verdana" size="2">Para tomar en cuenta la multidimensionalidad de los ex&aacute;menes en el contexto educativo, se puede adoptar el marco de la <i>TRI multidimensional</i> (v&eacute;ase el libro de Reckase<sup>38</sup> para una visi&oacute;n general). Un modelo TRI multidimensional reconoce que las respuestas observadas resultan de la interacci&oacute;n de un n&uacute;mero (fijo) de constructos (dimensiones). T&iacute;picamente incluye (a) par&aacute;metros espec&iacute;ficos de cada dimensi&oacute;n (tanto para personas como para &iacute;tems), y (b) una regla que combina (los par&aacute;metros asociados con) las distintas dimensiones para llegar a afirmaciones probabil&iacute;sticas sobre el comportamiento de las personas en los &iacute;tems. Actualmente, la TRI multidimensional es un &aacute;rea muy activa de investigaci&oacute;n y las revistas especializadas publican a menudo art&iacute;culos sobre este tipo de modelos.</font></p>     <p align="justify"><font face="verdana" size="2">Por el n&uacute;mero de par&aacute;metros involucrados en un modelo multidimensional, frecuentemente resulta c&oacute;modo a&ntilde;adir restricciones espec&iacute;ficas para dar forma a la multidimensionalidad. Consid&eacute;rese por ejemplo, el modelo propuesto por Gibbons y Hedeker,<sup>39</sup> el cual es relativamente sencillo y f&aacute;cil de aplicar y, adem&aacute;s, puede tener mucha relevancia para la evaluaci&oacute;n educativa. El modelo requiere que los &iacute;tems se clasifiquen previamente en <i>m</i> grupos que corresponden con <i>m</i> diferentes &aacute;reas. Al nivel de la prueba total, se supone que (a) un constructo <i>general</i> interviene en la respuesta a cualquier &iacute;tem, independientemente del grupo al que pertenece, y (b) que con cada grupo de &iacute;tems se asocia un constructo <i>es&#961;ec&iacute;fico,</i> que &uacute;nicamente afecta las respuestas a los &iacute;tems de este grupo. N&oacute;tese que en este modelo los &iacute;tems s&oacute;lo tienen par&aacute;metros para dos constructos (el general y uno de los espec&iacute;ficos), mientras que las personas ocupan una posici&oacute;n en cada una de las <i>m</i> + 1 dimensiones. Aunque el modelo original de Gibbons y Hedeker s&oacute;lo contiene dos niveles de jerarqu&iacute;a (general <i>vs.</i> espec&iacute;fico), es relativamente sencillo extenderlo para incorporar estructuras jer&aacute;rquicas m&aacute;s complejas (que permiten acomodar, por ejemplo, &aacute;reas y sub&aacute;reas).<sup>40</sup> La ventaja del modelo propuesto por estos autores es que la estimaci&oacute;n de los par&aacute;metros es factible incluso con un n&uacute;mero grande de &aacute;reas y sub&aacute;reas.</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Independencia local</b></font><font face="verdana" size="2">&nbsp;</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Como se explic&oacute; anteriormente, el supuesto de independencia local significa que considerando fijo el valor &#952;<sub><i>p</i></sub>, se valora igual la probabilidad de que la persona <i>p</i> acierte el &iacute;tem <i>i,</i> independientemente de si haya o no acertado el &iacute;tem <i>j.</i> En la literatura se han descrito situaciones particulares que conllevan una violaci&oacute;n del principio de independencia local. La situaci&oacute;n que probablemente tiene m&aacute;s relevancia en el contexto de la educaci&oacute;n m&eacute;dica se presenta cuando un examen incluye una serie de casos cl&iacute;nicos y para cada uno de estos casos cl&iacute;nicos se realizan dos o m&aacute;s preguntas.</font></p>  	    <p align="justify"><font face="verdana" size="2">Muy ilustrativo al respecto es el siguiente caso cl&iacute;nico (del &aacute;rea de Urgencias m&eacute;dicas) que se present&oacute; en un examen sumativo de altas consecuencias en nuestro medio. Despu&eacute;s de haber introducido el cuadro cl&iacute;nico, se realiz&oacute; una primera pregunta para la cual los sustentantes eligiesen el diagn&oacute;stico m&aacute;s probable entre:</font></p>  	    <blockquote> 	      <p align="justify"><font face="verdana" size="2">A. Gastroenteritis probablemente infecciosa.</font></p> 	      <p align="justify"><font face="verdana" size="2">B. Apendicitis aguda.</font></p>           <p align="justify"><font face="verdana" size="2">C. Absceso hep&aacute;tico amebiano.</font></p> </blockquote>      <p align="justify"><font face="verdana" size="2">En la segunda pregunta, se les propusieron los siguientes manejos terap&eacute;uticos:</font></p>  	    <blockquote> 	      <p align="justify"><font face="verdana" size="2">A. Cloranfenicol parenteral.</font></p> 	      <p align="justify"><font face="verdana" size="2">B. Apendicectom&iacute;a.</font></p> 	      ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">C. Metronidazol parenteral.</font></p> </blockquote>      <p align="justify"><font face="verdana" size="2">de los cuales tuvieron que escoger el m&aacute;s apropiado. Ambas preguntas ten&iacute;an la opci&oacute;n B como la correcta y el an&aacute;lisis mostr&oacute; que eran relativamente f&aacute;ciles. Consid&eacute;rese ahora un participante con un alto nivel de habilidad y su probabilidad de contestar correctamente la segunda pregunta. Puesto que tiene un valor alto en &#952; y que la pregunta es f&aacute;cil (es decir, con un grado de dificultad &szlig; bajo), se valorar&aacute; alta la probabilidad de que acierte. Si ahora se dispone de la informaci&oacute;n adicional que esta persona ha llegado al diagn&oacute;stico equivocado de gastroenteritis, &iquest;se valorar&iacute;a igualmente alta la probabilidad de acertar la segunda pregunta? Es obvio que ning&uacute;n m&eacute;dico decida a una apendicectom&iacute;a despu&eacute;s de haber llegado a un diagn&oacute;stico de gastroenteritis. En otras palabras, la respuesta en la primera pregunta condiciona la respuesta a la segunda. Este caso constituye un ejemplo muy claro de la violaci&oacute;n del principio de independencia local; analizar este examen (que incluy&oacute; m&aacute;s casos cl&iacute;nicos del mismo tipo) con un modelo como el 3PL lleva a un ajuste deficiente y a estimaciones err&oacute;neas de los niveles de &#952;.<sup>41</sup></font></p>  	    <p align="justify"><font face="verdana" size="2">Afortunadamente, se han desarrollado alternativas dentro de la TRI para tomar en cuenta este tipo de dependencias entre &iacute;tems. La mayor&iacute;a de estas soluciones requiere que se identifique <i>a priori</i> (posiblemente despu&eacute;s de un an&aacute;lisis preliminar) los &iacute;tems entre los cuales puede existir una dependencia. El m&eacute;todo m&aacute;s apropiado para incluir estas dependencias en el modelo se elige b&aacute;sicamente en funci&oacute;n de la estructura general de la prueba y el n&uacute;mero de &iacute;tems que son interdependientes. Si por ejemplo, la prueba consiste en una mezcla de preguntas aisladas y varios casos con dos o tres preguntas, puede ser adecuada la extensi&oacute;n propuesta por Hoskens y De Boeck.<sup>42</sup> Cuando, por otro lado, la prueba consiste en un n&uacute;mero de <i>testlets</i> (es decir, clusters de &iacute;tems interdependientes) y el n&uacute;mero de &iacute;tems en cada testlet es relativamente grande, puede ser m&aacute;s indicada la metodolog&iacute;a de Wainer y cols.<sup>43,44</sup></font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Discusi&oacute;n y conclusiones</b></font><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2">En este art&iacute;culo se revisaron los conceptos fundamentales de la TCT y de la TRI, los cuales constituyen actualmente los dos paradigmas principales de la psicometr&iacute;a. Se compararon los m&eacute;ritos de ambos enfoques y adem&aacute;s, se examinaron los modelos de la TRI y la plausibilidad de sus supuestos a la luz de las pr&aacute;cticas t&iacute;picas en el &aacute;rea de la evaluaci&oacute;n educativa en las ciencias de la salud. A partir de este an&aacute;lisis se llega a la conclusi&oacute;n de que los supuestos de los modelos TRI tradicionales por muchas razones no son compatibles con dichas pr&aacute;cticas y que el entusiasmo limitado para la TRI (y el consiguiente predominio de la TCT) en el campo de la evaluaci&oacute;n educativa en medicina parcialmente se debe a las dificultades que acompa&ntilde;an el ajuste de un modelo TRI a datos recopilados en el contexto educativo.</font></p>  	    <p align="justify"><font face="verdana" size="2">Respecto de la TCT, cabe mencionar que este art&iacute;culo se limit&oacute; a la formulaci&oacute;n original del modelo cl&aacute;sico y que no indag&oacute; en las contribuciones m&aacute;s recientes que han propuesto soluciones para remediar algunos de los problemas del modelo original. Aunque estas soluciones generalmente son parches <i>ad hoc</i> que no resuelven el problema fundamental (por ejemplo, las f&oacute;rmulas para derivar m&uacute;ltiples errores est&aacute;ndares de medici&oacute;n para la misma poblaci&oacute;n o los m&eacute;todos para lograr una equiparaci&oacute;n de las puntuaciones obtenidas en diferentes versiones de una prueba), dos extensiones aportaron una perspectiva distinta al enfoque tradicional: la perspectiva del an&aacute;lisis factorial de los &iacute;tems en una prueba<sup>13</sup> y la teor&iacute;a de la generalizabilidad.<sup>45,46</sup> La primera se acerca mucho a la TRI debido a que realiza un an&aacute;lisis a nivel de los &iacute;tems y examina la estructura de una prueba apelando a uno o m&aacute;s factores subyacentes (que son conceptualmente id&eacute;nticos a los rasgos latentes en la TRI). La teor&iacute;a de la generalizabilidad, por otro lado, extiende el modelo cl&aacute;sico examinando las posibles fuentes de variaci&oacute;n y sus contribuciones relativas a los datos observados. En este sentido, explicita c&oacute;mo pueden variar las condiciones en el experimento mental que se introdujo en la secci&oacute;n sobre la teor&iacute;a cl&aacute;sica.</font></p>     <p align="justify"><font face="verdana" size="2">Esperamos que este art&iacute;culo haya aclarado que la TRI es una familia muy extensa de modelos, a pesar de que toc&oacute; nada m&aacute;s una selecci&oacute;n muy limitada de los mismos. Por ejemplo, todos los modelos revisados (excepto los modelos que analizan las <i>k</i> categor&iacute;as de respuesta en las preguntas de opci&oacute;n m&uacute;ltiple) son para datos binarios; existen extensiones de modelos para preguntas cuyas respuestas se codifican en m&uacute;ltiples categor&iacute;as ordenadas e incluso para el caso de calificaciones continuas. Otros modelos que no se tocaron en este art&iacute;culo incluyen los que permiten el an&aacute;lisis de datos provenientes de m&uacute;ltiples jueces (como por ejemplo en el examen oral largo ante paciente real, que es una de las alternativas para aprobar el examen profesional en la Facultad de Medicina), modelos para analizar datos longitudinales para investigar cambios en el rasgo latente durante el tiempo, y modelos multidimensionales que permiten investigar las reglas de decisi&oacute;n y los esquemas impl&iacute;citos utilizados por los m&eacute;dicos (por ejemplo, los criterios necesarios y suficientes que llevan a los diagn&oacute;sticos en ciertos contextos). El alcance de modelos TRI para el an&aacute;lisis de datos de evaluaci&oacute;n educativo es virtualmente ilimitado.</font></p>  	    <p align="justify"><font face="verdana" size="2">Este art&iacute;culo no prest&oacute; mucha atenci&oacute;n a algunas limitaciones pr&aacute;cticas de la TRI. Entre las m&aacute;s importantes se encuentran las muestras m&aacute;s amplias que generalmente se requieren para obtener estimaciones estables para los par&aacute;metros; aunque el tama&ntilde;o requerido por un modelo TRI generalmente depende de su complejidad y el n&uacute;mero de par&aacute;metros incluidos &#151;modelos con m&aacute;s par&aacute;metros generalmente requieren muestras m&aacute;s grandes&#151;, casi siempre la TRI resulta m&aacute;s exigente que la TCT al respecto. Tambi&eacute;n la complejidad matem&aacute;tica y cuestiones t&eacute;cnicas (como el uso de programas especializados para la estimaci&oacute;n) pueden disuadir a los investigadores que no son expertos en psicometr&iacute;a y poner trabas a la toma de decisiones adecuadas en aplicaciones concretas.<sup>23</sup></font></p>  	    <p align="justify"><font face="verdana" size="2">Concluyendo, cabe reconocer que se enfatizaron m&aacute;s las diferencias que las similitudes entre los dos enfoques psicom&eacute;tricos. Efectivamente, varios autores han buscado tender un puente entre los dos paradigmas.<sup>13,47,48</sup> Especialmente, la reconsideraci&oacute;n del modelo cl&aacute;sico dentro de la perspectiva del an&aacute;lisis factorial llev&oacute; a cierta reconciliaci&oacute;n entre la TCT y la TRI y mostr&oacute;, para modelos particulares, que ambos enfoques pueden llegar a resultados y conclusiones similares en aplicaciones pr&aacute;cticas y que las diferencias se relacionan m&aacute;s con perspectivas filos&oacute;ficas distintas.</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Agradecimientos</b></font><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2">El autor agradece a Florina Gatica Lara por sus sugerencias sobre una versi&oacute;n anterior y a Alma Jurado N&uacute;&ntilde;ez por compartir sus ideas y reflexiones que enriquecieron el texto actual.</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Financiamiento</b></font><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2">Ninguno.</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Conflicto de intereses</b></font><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2">El autor declara no tener ning&uacute;n conflicto de intereses.</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2"><b>Presentaciones previas</b> </font><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2">Ninguna.</font><font face="verdana" size="2">&nbsp;</font></p>     <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Referencias</b></font><font face="verdana" size="2">&nbsp;</font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">1. Spearman C. Demonstration of formulae for true measurement of correlation. Am J Psychol 1907;18:161&#45;169.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591652&pid=S2007-5057201400010000700001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">2. Spearman C. Correlation calculated from faulty data. Br J Psychol 1910;3:271&#45;295.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591654&pid=S2007-5057201400010000700002&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">3. Guttman L. A basis for scaling qualitative data. Am Social Rev 1944;9:139&#45;150.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591656&pid=S2007-5057201400010000700003&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">4. Lord F. A theory of test scores. Psychometric Monograph 7. Richmond, VA: Psychometric Corporation; 1952.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591658&pid=S2007-5057201400010000700004&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">5. Rasch G. Probabilistic models for some intelligence and attainment tests. Chicago, IL: University of Chicago Press; 1980.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591660&pid=S2007-5057201400010000700005&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">6. Abad FJ, Olea J, Ponsoda V, Garc&iacute;a C. Medici&oacute;n en ciencias sociales y de la salud. Madrid, Espa&ntilde;a: S&iacute;ntesis; 2011.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591662&pid=S2007-5057201400010000700006&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">7. Mu&ntilde;iz J. Introducci&oacute;n a la teor&iacute;a de respuesta a los &iacute;tems. Madrid, Espa&ntilde;a: Pir&aacute;mide; 1997.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591664&pid=S2007-5057201400010000700007&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">8. Mu&ntilde;iz J. Teor&iacute;a cl&aacute;sica de los tests. 2a ed. Madrid, Espa&ntilde;a: Pir&aacute;mide; 2002.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591666&pid=S2007-5057201400010000700008&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">9. Crocker L, Algina J. Introduction to classical and modern test theory. New York, NY: Holt, Rinehart and Winston; 1986.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591668&pid=S2007-5057201400010000700009&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">10. de Ayala RJ. The theory and practice of item response theory. New York, NY: Guilford; 2009.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591670&pid=S2007-5057201400010000700010&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">11. Embretson SE, Reise SP. Item response theory for psychologists. Mahwah, NJ: Erlbaum; 2000.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591672&pid=S2007-5057201400010000700011&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">12. Furr RM, Bacharach VR. Psychometrics: An introduction. Thousand Oaks, CA: Sage; 2008.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591674&pid=S2007-5057201400010000700012&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">13. McDonald RP. Test theory: A unified treatment. Mahwah, NJ: Erlbaum; 1999.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591676&pid=S2007-5057201400010000700013&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">14. Novick MR. The axioms and principal results of classical test theory. J Math Psychol 1966;3:1&#45;18.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591678&pid=S2007-5057201400010000700014&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">15. Andrich D. Controversy and the Rasch model: A characteristic of incompatible paradigms? Med Care 2004;42(S1):7&#45;16.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591680&pid=S2007-5057201400010000700015&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">16. Lord FM, Novick MR. Statistical theories of mental test scores. Reading, MA: Addison&#45;Wesley; 1968.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591682&pid=S2007-5057201400010000700016&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">17. Ip EH. Empirically indistinguishable multidimensional IRT and locally dependent unidimensional item response models. Br J Math Stat Psychol 2010;63:395&#45;416.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591684&pid=S2007-5057201400010000700017&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">18. Aldrich J. R. A. Fisher and the making of maximum likelihood 1912 &#45; 1922. Stat Sci 1997;12:162&#45;176.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591686&pid=S2007-5057201400010000700018&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">19. Fox JP. Bayesian item response modeling: Theory and applications. Nueva York, NY: Springer; 2010.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591688&pid=S2007-5057201400010000700019&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">20. Mood AM, Graybill FA, Boes DC. Introduction to the theory of statistics. 3a ed. Nueva York, NY: McGraw&#45;Hill; 1974.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591690&pid=S2007-5057201400010000700020&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">21. Birnbaum A. Some latent trait models and their use in inferring an examinee's ability. En: Lord FM, Novick MR, editores. Statistical Theories of Mental Test Scores. Reading, MA: Addison&#45;Wesley;1968. p. 396&#45;479.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591692&pid=S2007-5057201400010000700021&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">22. Glas CAW, Verhelst ND. Een overzicht van itemresponsmodellen. En: Eggen TJHM, Sanders PF, editores. Psychometrie in de Prakti&#45;jk. Arnhem, Holanda: Cito; 1993. p. 179&#45;238.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591694&pid=S2007-5057201400010000700022&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">23. Hambleton RK, Jones RW. Comparison of classical test theory and item response theory and their applications to test development. Educ Meas Issues Pract 1993;12(3):38&#45;47.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591696&pid=S2007-5057201400010000700023&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">24. Echeverr&iacute;a J. Filosof&iacute;a de la ciencia. 2a ed. Madrid, Espa&ntilde;a: Akal;1998.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591698&pid=S2007-5057201400010000700024&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">25. Raju NS, Price LR, Oshima TC, et al. Standardized conditional SEM: A case for conditional reliability. Appl Psychol Meas 2007;31:169&#45;180.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591700&pid=S2007-5057201400010000700025&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">26. Zimmerman DW, Williams RH. Chance success due to guessing and non&#45;independence of true scores and error scores in multiple&#45;choice tests: Computer trials with prepared distributions. Psychol Rep 1965;17:159&#45;165.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591702&pid=S2007-5057201400010000700026&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">27. Wright BD, Stone MH. Best test design: Rasch measurement. Chicago, IL: MESA; 1979.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591704&pid=S2007-5057201400010000700027&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">28. Fischer GH, Molenaar IW, editores. Rasch models: Foundations, recent developments, and applications. Nueva York, NY: Springer&#45;Verlag; 1995.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591706&pid=S2007-5057201400010000700028&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">29. Olea J, Ponsoda V. Tests adaptativos informatizados. Madrid, Espa&ntilde;a: UNED; 2013.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591708&pid=S2007-5057201400010000700029&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">30. Olea J, Abad FJ, Ponsoda V, et al. eCAT&#45;Listening: Design and psychometric properties of a computerized adaptive test on English Listening. Psicothema 2011;23:802&#45;807.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591710&pid=S2007-5057201400010000700030&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">31. Samejima F. A new family of models for the multiple choice item. Reporte de Investigaci&oacute;n 79&#45;4. Knoxv'lle, TN: Universidad de Tennessee, Departamento de Psicolog&iacute;a; 1979.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591712&pid=S2007-5057201400010000700031&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">32. San Mart&iacute;n E, del Pino G, De Boeck P. IRT models for ability&#45;based guessing. Appl Psychol Meas 2006;30:183&#45;203.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591714&pid=S2007-5057201400010000700032&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">33. Bock RD. Estimating item parameters and latent ability when responses are scored in two or more nominal categories. Psychometrika 1972;37:29&#45;51.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591716&pid=S2007-5057201400010000700033&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">34. Thissen D, Steinberg L. A response model for multiple choice items. Psychometrika 1984;49:501&#45;519.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591718&pid=S2007-5057201400010000700034&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">35. Levine MV, Drasgow F. The relation between incorrect option choice and estimated ability. Educ Psychol Meas 1983;43:675&#45;685.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591720&pid=S2007-5057201400010000700035&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">36. Thissen DM. Information in wrong responses to the Raven Progressive Matrices. J Educ Meas 1976;13:201&#45;214.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591722&pid=S2007-5057201400010000700036&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">37. Delgado&#45;Maldonado L, S&aacute;nchez&#45;Mendiola M. An&aacute;lisis del examen profesional de la Facultad de Medicina de la UNAM: Una experiencia de evaluaci&oacute;n objetiva del aprendizaje con la teor&iacute;a de respuesta al &iacute;tem. Inv Educ Med 2012;1:130&#45;139.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591724&pid=S2007-5057201400010000700037&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">38. Reckase MD. Multidimensional item response theory. Nueva York, NY: Springer; 2009.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591726&pid=S2007-5057201400010000700038&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">39. Gibbons RD, Hedeker DR. Full&#45;information item bi&#45;factor analysis. Psychometrika 1992;57:423&#45;436.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591728&pid=S2007-5057201400010000700039&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">40. Rijmen F. Hierarchical factor item response theory models for PIRLS: Capturing clustering effects at multiple levels. En: von Dav'er M, Hastedt D, editores. Issues and Methodologies in Large&#45;Scale /Assessments. vol. 4 of IERI Monograph Series. Hamburgo, Alemania: 2011. p. 59&#45;74.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591730&pid=S2007-5057201400010000700040&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">41. Chen CT, Wang WC. Effects of ignoring item interaction on item parameter estimation and detection of interacting items. Appl Psychol Meas 2007;31:388&#45;411.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591732&pid=S2007-5057201400010000700041&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">42. Hoskens M, De Boeck P. A parametric model for local dependence among test items. Psychol Methods 1997;2:261&#45;277.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591734&pid=S2007-5057201400010000700042&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">43. Wainer H, Kiely GL. Item clusters and computerized adaptive testing: A case for testlets. J Educ Meas 1987;24:185&#45;201.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591736&pid=S2007-5057201400010000700043&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">44. Wainer H, Wang X. Using a new statistical model for testlets to score TOEFL. J Educ Meas 2000;37:203&#45;220.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591738&pid=S2007-5057201400010000700044&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">45. Cronbach LJ, Gleser GC, Nanda H, et al. The dependability of behavioral measurements: Theory of generalizability for scores and profiles. Nueva York, NY: Wiley; 1972.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591740&pid=S2007-5057201400010000700045&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">46. Brennan RL. Generalizability theory. Nueva York, NY: Springer;2010.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591742&pid=S2007-5057201400010000700046&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     <!-- ref --><p align="justify"><font face="verdana" size="2">47. Lord FM. Applications of item response theory to practical testing problems. Mahwah, NJ: Lawrence Erlbaum; 1980.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591744&pid=S2007-5057201400010000700047&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">48. Takane Y, de Leeuw J. On the relationship between item response theory and factor analysis of discretized variables. Psychome&#45;trika 1987;52:393&#45;408.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4591746&pid=S2007-5057201400010000700048&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>     ]]></body>
<body><![CDATA[ ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Spearman]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Demonstration of formulae for true measurement of correlation]]></article-title>
<source><![CDATA[Am J Psychol]]></source>
<year>1907</year>
<volume>18</volume>
<page-range>161-169</page-range></nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Spearman]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Correlation calculated from faulty data]]></article-title>
<source><![CDATA[Br J Psychol]]></source>
<year>1910</year>
<volume>3</volume>
<page-range>271-295</page-range></nlm-citation>
</ref>
<ref id="B3">
<label>3</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Guttman]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A basis for scaling qualitative data]]></article-title>
<source><![CDATA[Am Social Rev]]></source>
<year>1944</year>
<volume>9</volume>
<page-range>139-150</page-range></nlm-citation>
</ref>
<ref id="B4">
<label>4</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Lord]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
</person-group>
<source><![CDATA[A theory of test scores]]></source>
<year>1952</year>
<publisher-loc><![CDATA[Richmond^eVA VA]]></publisher-loc>
<publisher-name><![CDATA[Psychometric Corporation]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B5">
<label>5</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rasch]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<source><![CDATA[Probabilistic models for some intelligence and attainment tests]]></source>
<year>1980</year>
<publisher-loc><![CDATA[Chicago^eIL IL]]></publisher-loc>
<publisher-name><![CDATA[University of Chicago Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B6">
<label>6</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Abad]]></surname>
<given-names><![CDATA[FJ]]></given-names>
</name>
<name>
<surname><![CDATA[Olea]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Ponsoda]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
<name>
<surname><![CDATA[García]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<source><![CDATA[Medición en ciencias sociales y de la salud.Madrid,]]></source>
<year>2011</year>
<publisher-loc><![CDATA[España ]]></publisher-loc>
<publisher-name><![CDATA[Síntesis]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B7">
<label>7</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Muñiz]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<source><![CDATA[Introducción a la teoría de respuesta a los ítems]]></source>
<year>1997</year>
<publisher-loc><![CDATA[Madrid ]]></publisher-loc>
<publisher-name><![CDATA[Pirámide]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B8">
<label>8</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Muñiz]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<source><![CDATA[Teoría clásica de los tests]]></source>
<year>2002</year>
<edition>2</edition>
<publisher-loc><![CDATA[Madrid ]]></publisher-loc>
<publisher-name><![CDATA[Pirámide]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B9">
<label>9</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Crocker]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[Algina]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<source><![CDATA[Introduction to classical and modern test theory]]></source>
<year>1986</year>
<publisher-loc><![CDATA[New York^eNY NY]]></publisher-loc>
<publisher-name><![CDATA[Holt, Rinehart and Winston]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<label>10</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[de Ayala]]></surname>
<given-names><![CDATA[RJ]]></given-names>
</name>
</person-group>
<source><![CDATA[The theory and practice of item response theory]]></source>
<year>2009</year>
<publisher-loc><![CDATA[New York^eNY NY]]></publisher-loc>
<publisher-name><![CDATA[Guilford]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B11">
<label>11</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Embretson]]></surname>
<given-names><![CDATA[SE]]></given-names>
</name>
<name>
<surname><![CDATA[Reise]]></surname>
<given-names><![CDATA[SP]]></given-names>
</name>
</person-group>
<source><![CDATA[Item response theory for psychologists]]></source>
<year>2000</year>
<publisher-loc><![CDATA[Mahwah^eNJ NJ]]></publisher-loc>
<publisher-name><![CDATA[Erlbaum]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B12">
<label>12</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Furr]]></surname>
<given-names><![CDATA[RM]]></given-names>
</name>
<name>
<surname><![CDATA[Bacharach]]></surname>
<given-names><![CDATA[VR]]></given-names>
</name>
</person-group>
<source><![CDATA[Psychometrics: An introduction]]></source>
<year>2008</year>
<publisher-loc><![CDATA[Thousand Oaks^eCA CA]]></publisher-loc>
<publisher-name><![CDATA[Sage]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B13">
<label>13</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[McDonald]]></surname>
<given-names><![CDATA[RP]]></given-names>
</name>
</person-group>
<source><![CDATA[Test theory: A unified treatment]]></source>
<year>1999</year>
<publisher-loc><![CDATA[Mahwah^eNJ NJ]]></publisher-loc>
<publisher-name><![CDATA[Erlbaum]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B14">
<label>14</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Novick]]></surname>
<given-names><![CDATA[MR]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[The axioms and principal results of classical test theory]]></article-title>
<source><![CDATA[J Math Psychol]]></source>
<year>1966</year>
<volume>3</volume>
<page-range>1-18</page-range></nlm-citation>
</ref>
<ref id="B15">
<label>15</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Andrich]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Controversy and the Rasch model: A characteristic of incompatible paradigms?]]></article-title>
<source><![CDATA[Med Care]]></source>
<year>2004</year>
<volume>42</volume>
<numero>S1</numero>
<issue>S1</issue>
<page-range>7-16</page-range></nlm-citation>
</ref>
<ref id="B16">
<label>16</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Lord]]></surname>
<given-names><![CDATA[FM]]></given-names>
</name>
<name>
<surname><![CDATA[Novick]]></surname>
<given-names><![CDATA[MR]]></given-names>
</name>
</person-group>
<source><![CDATA[Statistical theories of mental test scores]]></source>
<year>1968</year>
<publisher-loc><![CDATA[Reading^eMA MA]]></publisher-loc>
<publisher-name><![CDATA[Addison-Wesley]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B17">
<label>17</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ip]]></surname>
<given-names><![CDATA[EH]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Empirically indistinguishable multidimensional IRT and locally dependent unidimensional item response models]]></article-title>
<source><![CDATA[Br J Math Stat Psychol]]></source>
<year>2010</year>
<volume>63</volume>
<page-range>395-416</page-range></nlm-citation>
</ref>
<ref id="B18">
<label>18</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Aldrich]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[R: A. Fisher and the making of maximum likelihood 1912 - 1922]]></article-title>
<source><![CDATA[Stat Sci]]></source>
<year>1997</year>
<volume>12</volume>
<page-range>162-176</page-range></nlm-citation>
</ref>
<ref id="B19">
<label>19</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Fox]]></surname>
<given-names><![CDATA[JP]]></given-names>
</name>
</person-group>
<source><![CDATA[Bayesian item response modeling: Theory and applications]]></source>
<year>2010</year>
<publisher-loc><![CDATA[Nueva York^eNY NY]]></publisher-loc>
<publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B20">
<label>20</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Mood]]></surname>
<given-names><![CDATA[AM]]></given-names>
</name>
<name>
<surname><![CDATA[Graybill]]></surname>
<given-names><![CDATA[FA]]></given-names>
</name>
<name>
<surname><![CDATA[Boes]]></surname>
<given-names><![CDATA[DC]]></given-names>
</name>
</person-group>
<source><![CDATA[Introduction to the theory of statistics]]></source>
<year>1974</year>
<edition>3</edition>
<publisher-loc><![CDATA[^eNY NY]]></publisher-loc>
<publisher-name><![CDATA[McGraw-Hill]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B21">
<label>21</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Birnbaum]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Some latent trait models and their use in inferring an examinee's ability]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Lord]]></surname>
<given-names><![CDATA[FM]]></given-names>
</name>
<name>
<surname><![CDATA[Novick]]></surname>
<given-names><![CDATA[MR]]></given-names>
</name>
</person-group>
<source><![CDATA[Statistical Theories of Mental Test Scores]]></source>
<year>1968</year>
<page-range>396-479</page-range><publisher-loc><![CDATA[Reading^eMA MA]]></publisher-loc>
<publisher-name><![CDATA[Addison-Wesley]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B22">
<label>22</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Glas]]></surname>
<given-names><![CDATA[CAW]]></given-names>
</name>
<name>
<surname><![CDATA[Verhelst]]></surname>
<given-names><![CDATA[ND]]></given-names>
</name>
</person-group>
<article-title xml:lang="nl"><![CDATA[Een overzicht van itemresponsmodellen]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Eggen]]></surname>
<given-names><![CDATA[TJHM]]></given-names>
</name>
<name>
<surname><![CDATA[Sanders]]></surname>
<given-names><![CDATA[PF]]></given-names>
</name>
</person-group>
<source><![CDATA[Psychometrie in de Prakti-jk]]></source>
<year>1993</year>
<page-range>179-238</page-range><publisher-loc><![CDATA[Arnhem ]]></publisher-loc>
<publisher-name><![CDATA[Cito]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B23">
<label>23</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hambleton]]></surname>
<given-names><![CDATA[RK]]></given-names>
</name>
<name>
<surname><![CDATA[Jones]]></surname>
<given-names><![CDATA[RW]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Comparison of classical test theory and item response theory and their applications to test development]]></article-title>
<source><![CDATA[Educ Meas Issues Pract]]></source>
<year>1993</year>
<volume>12</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>38-47</page-range></nlm-citation>
</ref>
<ref id="B24">
<label>24</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Echeverría]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<source><![CDATA[Filosofía de la ciencia]]></source>
<year>1998</year>
<edition>2</edition>
<publisher-name><![CDATA[Akal]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B25">
<label>25</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Raju]]></surname>
<given-names><![CDATA[NS]]></given-names>
</name>
<name>
<surname><![CDATA[Price]]></surname>
<given-names><![CDATA[LR]]></given-names>
</name>
<name>
<surname><![CDATA[Oshima]]></surname>
<given-names><![CDATA[TC]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Standardized conditional SEM: A case for conditional reliability]]></article-title>
<source><![CDATA[Appl Psychol Meas]]></source>
<year>2007</year>
<volume>31</volume>
<page-range>169-180</page-range></nlm-citation>
</ref>
<ref id="B26">
<label>26</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Zimmerman]]></surname>
<given-names><![CDATA[DW]]></given-names>
</name>
<name>
<surname><![CDATA[Williams]]></surname>
<given-names><![CDATA[RH]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Chance success due to guessing and non-independence of true scores and error scores in multiple-choice tests: Computer trials with prepared distributions]]></article-title>
<source><![CDATA[Psychol Rep]]></source>
<year>1965</year>
<volume>17</volume>
<page-range>159-165</page-range></nlm-citation>
</ref>
<ref id="B27">
<label>27</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Wright]]></surname>
<given-names><![CDATA[BD]]></given-names>
</name>
<name>
<surname><![CDATA[Stone]]></surname>
<given-names><![CDATA[MH]]></given-names>
</name>
</person-group>
<source><![CDATA[Best test design: Rasch measurement]]></source>
<year>1979</year>
<publisher-loc><![CDATA[Chicago^eIL IL]]></publisher-loc>
<publisher-name><![CDATA[MESA]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B28">
<label>28</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Fischer]]></surname>
<given-names><![CDATA[GH]]></given-names>
</name>
<name>
<surname><![CDATA[Molenaar]]></surname>
<given-names><![CDATA[IW]]></given-names>
</name>
</person-group>
<source><![CDATA[Rasch models: Foundations, recent developments, and applications]]></source>
<year>1995</year>
<publisher-loc><![CDATA[Nueva York^eNY NY]]></publisher-loc>
<publisher-name><![CDATA[Springer-Verlag]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B29">
<label>29</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Olea]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Ponsoda]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
</person-group>
<source><![CDATA[Tests adaptativos informatizados]]></source>
<year>2013</year>
<publisher-loc><![CDATA[Madrid ]]></publisher-loc>
<publisher-name><![CDATA[UNED]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B30">
<label>30</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Olea]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Abad]]></surname>
<given-names><![CDATA[FJ]]></given-names>
</name>
<name>
<surname><![CDATA[Ponsoda]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[eCAT-Listening: Design and psychometric properties of a computerized adaptive test on English Listening]]></article-title>
<source><![CDATA[Psicothema]]></source>
<year>2011</year>
<volume>23</volume>
<page-range>802-807</page-range></nlm-citation>
</ref>
<ref id="B31">
<label>31</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Samejima]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
</person-group>
<source><![CDATA[A new family of models for the multiple choice item]]></source>
<year>1979</year>
<publisher-loc><![CDATA[Knoxv'lle^eTN TN]]></publisher-loc>
<publisher-name><![CDATA[Universidad de Tennessee, Departamento de Psicología]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B32">
<label>32</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[San Martín]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[del Pino]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[De Boeck]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[IRT models for ability-based guessing]]></article-title>
<source><![CDATA[Appl Psychol Meas]]></source>
<year>2006</year>
<volume>30</volume>
<page-range>183-203</page-range></nlm-citation>
</ref>
<ref id="B33">
<label>33</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Bock]]></surname>
<given-names><![CDATA[RD]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Estimating item parameters and latent ability when responses are scored in two or more nominal categories]]></article-title>
<source><![CDATA[Psychometrika]]></source>
<year>1972</year>
<volume>37</volume>
<page-range>29-51</page-range></nlm-citation>
</ref>
<ref id="B34">
<label>34</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Thissen]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[Steinberg]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A response model for multiple choice items]]></article-title>
<source><![CDATA[Psychometrika]]></source>
<year>1984</year>
<volume>49</volume>
<page-range>501-519</page-range></nlm-citation>
</ref>
<ref id="B35">
<label>35</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Levine]]></surname>
<given-names><![CDATA[MV]]></given-names>
</name>
<name>
<surname><![CDATA[Drasgow]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[The relation between incorrect option choice and estimated ability]]></article-title>
<source><![CDATA[Educ Psychol Meas]]></source>
<year>1983</year>
<volume>43</volume>
<page-range>675-685</page-range></nlm-citation>
</ref>
<ref id="B36">
<label>36</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Thissen]]></surname>
<given-names><![CDATA[DM]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Information in wrong responses to the Raven Progressive Matrices]]></article-title>
<source><![CDATA[J Educ Meas]]></source>
<year>1976</year>
<volume>13</volume>
<page-range>201-214</page-range></nlm-citation>
</ref>
<ref id="B37">
<label>37</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Delgado-Maldonado]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[Sánchez-Mendiola]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Análisis del examen profesional de la Facultad de Medicina de la UNAM: Una experiencia de evaluación objetiva del aprendizaje con la teoría de respuesta al ítem]]></article-title>
<source><![CDATA[Inv Educ Med]]></source>
<year>2012</year>
<volume>1</volume>
<page-range>130-139</page-range></nlm-citation>
</ref>
<ref id="B38">
<label>38</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Reckase]]></surname>
<given-names><![CDATA[MD]]></given-names>
</name>
</person-group>
<source><![CDATA[Multidimensional item response theory]]></source>
<year>2009</year>
<publisher-loc><![CDATA[Nueva York^eNY NY]]></publisher-loc>
<publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B39">
<label>39</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Gibbons]]></surname>
<given-names><![CDATA[RD]]></given-names>
</name>
<name>
<surname><![CDATA[Hedeker]]></surname>
<given-names><![CDATA[DR]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Full-information item bi-factor analysis]]></article-title>
<source><![CDATA[Psychometrika]]></source>
<year>1992</year>
<volume>57</volume>
<page-range>423-436</page-range></nlm-citation>
</ref>
<ref id="B40">
<label>40</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rijmen]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Hierarchical factor item response theory models for PIRLS: Capturing clustering effects at multiple levels]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[von Dav'er]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[Hastedt]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<source><![CDATA[Issues and Methodologies in Large-Scale /Assessments]]></source>
<year>2011</year>
<volume>4</volume>
<page-range>59-74</page-range><publisher-loc><![CDATA[Hamburgo ]]></publisher-loc>
</nlm-citation>
</ref>
<ref id="B41">
<label>41</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Chen]]></surname>
<given-names><![CDATA[CT]]></given-names>
</name>
<name>
<surname><![CDATA[Wang]]></surname>
<given-names><![CDATA[WC]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Effects of ignoring item interaction on item parameter estimation and detection of interacting items]]></article-title>
<source><![CDATA[Appl Psychol Meas]]></source>
<year>2007</year>
<volume>31</volume>
<page-range>388-411</page-range></nlm-citation>
</ref>
<ref id="B42">
<label>42</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hoskens]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[De Boeck]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A parametric model for local dependence among test items]]></article-title>
<source><![CDATA[Psychol Methods]]></source>
<year>1997</year>
<volume>2</volume>
<page-range>261-277</page-range></nlm-citation>
</ref>
<ref id="B43">
<label>43</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Wainer]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[Kiely]]></surname>
<given-names><![CDATA[GL]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Item clusters and computerized adaptive testing: A case for testlets]]></article-title>
<source><![CDATA[J Educ Meas]]></source>
<year>1987</year>
<volume>24</volume>
<page-range>185-201</page-range></nlm-citation>
</ref>
<ref id="B44">
<label>44</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Wainer]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[Wang]]></surname>
<given-names><![CDATA[X]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Using a new statistical model for testlets to score TOEFL]]></article-title>
<source><![CDATA[J Educ Meas]]></source>
<year>2000</year>
<volume>37</volume>
<page-range>203-220</page-range></nlm-citation>
</ref>
<ref id="B45">
<label>45</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Cronbach]]></surname>
<given-names><![CDATA[LJ]]></given-names>
</name>
<name>
<surname><![CDATA[Gleser]]></surname>
<given-names><![CDATA[GC]]></given-names>
</name>
<name>
<surname><![CDATA[Nanda]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
</person-group>
<source><![CDATA[The dependability of behavioral measurements: Theory of generalizability for scores and profiles]]></source>
<year>1972</year>
<publisher-loc><![CDATA[Nueva York^eNY NY]]></publisher-loc>
<publisher-name><![CDATA[Wiley]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B46">
<label>46</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Brennan]]></surname>
<given-names><![CDATA[RL]]></given-names>
</name>
</person-group>
<source><![CDATA[Generalizability theory]]></source>
<year>2010</year>
<publisher-loc><![CDATA[Nueva York^eNY NY]]></publisher-loc>
<publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B47">
<label>47</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Lord]]></surname>
<given-names><![CDATA[FM]]></given-names>
</name>
</person-group>
<source><![CDATA[Applications of item response theory to practical testing problems]]></source>
<year>1980</year>
<publisher-loc><![CDATA[Mahwah^eNJ NJ]]></publisher-loc>
<publisher-name><![CDATA[Lawrence Erlbaum]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B48">
<label>48</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Takane]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[de Leeuw]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[On the relationship between item response theory and factor analysis of discretized variables]]></article-title>
<source><![CDATA[Psychome-trika]]></source>
<year>1987</year>
<volume>52</volume>
<page-range>393-408</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
