<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2007-5057</journal-id>
<journal-title><![CDATA[Investigación en educación médica]]></journal-title>
<abbrev-journal-title><![CDATA[Investigación educ. médica]]></abbrev-journal-title>
<issn>2007-5057</issn>
<publisher>
<publisher-name><![CDATA[Universidad Nacional Autónoma de México, Facultad de Medicina]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2007-50572012000300005</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Análisis del examen profesional de la Facultad de Medicina de la UNAM: Una experiencia de evaluación objetiva del aprendizaje con la teoría de respuesta al ítem]]></article-title>
<article-title xml:lang="en"><![CDATA[Analysis of the professional exam at UNAM Faculty of Medicine: An experience in objective assessment of learning with item response theory]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Delgado-Maldonado]]></surname>
<given-names><![CDATA[Laura]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Sánchez-Mendiola]]></surname>
<given-names><![CDATA[Melchor]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad Nacional de Educación a Distancia 1Facultad de Psicología ]]></institution>
<addr-line><![CDATA[Madrid ]]></addr-line>
<country>España</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad Nacional Autónoma de México Facultad de Medicina Secretaría de Educación Médica]]></institution>
<addr-line><![CDATA[México Distrito Federal]]></addr-line>
<country>México</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>09</month>
<year>2012</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>09</month>
<year>2012</year>
</pub-date>
<volume>1</volume>
<numero>3</numero>
<fpage>130</fpage>
<lpage>139</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://www.scielo.org.mx/scielo.php?script=sci_arttext&amp;pid=S2007-50572012000300005&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.mx/scielo.php?script=sci_abstract&amp;pid=S2007-50572012000300005&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.mx/scielo.php?script=sci_pdf&amp;pid=S2007-50572012000300005&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Introducción: El examen profesional es la evaluación sumativa de altas consecuencias, más importante de la carrera de médico cirujano. Una fuente de evidencia de validez del examen es el análisis psicométrico de los reactivos, para el que tradicionalmente se ha utilizado la Teoría Clásica de los Test (TCT), la cual tiene algunas desventajas, que la Teoría de Respuesta al Ítem (TRI) pretende resolver. El presente estudio reporta el análisis del Examen Profesional Teórico de la Facultad de Medicina de la UNAM con la TRI. Objetivo: Explorar los beneficios del uso de la TRI, para documentar evidencia de validez en un examen de altas consecuencias en educación médica. Método: Se efectuó el análisis psicométrico del Examen Profesional Teórico de la Facultad de Medicina de la UNAM, aplicado en 2008. La prueba consistió en un examen de opción múltiple acerca de seis áreas de conocimiento: Medicina interna, Pediatría, Gineco-obstetricia, Urgencias médicas, Cirugía y Medicina familiar, evaluadas con 420 reactivos de opción múltiple. Se calcularon confiabilidad, dificultad y discriminación con la TCT. Se utilizó el modelo de tres parámetros de la TRI. Con las dos aproximaciones se seleccionaron los mejores ítems, y se estimó la longitud de la prueba con la fórmula de Spearman-Brown. Resultados: El examen fue respondido por 882 sustentantes, tuvo un índice de dificultad de 0.55 y una confiabilidad de 0.93. Con el modelo de 3pl-TRI, el examen es informativo en niveles de habilidad cercanos al promedio en la escala theta. El parámetro de discriminación promedio (a) fue 0.67, el parámetro de dificultad (b) fue 1.21, y el parámetro de seudoadivinación (c) fue 0.18. Se encontró que es posible reducir el número de reactivos de la prueba, manteniendo una alta confiabilidad. La mayoría de los ítems en la prueba original (84%) tuvieron un buen ajuste al modelo 3pl-TRI, y en la versión acortada la gran mayoría (97%) tuvieron un ajuste similar. Discusión y conclusiones: El Examen Profesional Teórico de la Facultad de Medicina cubre los requisitos teóricos de número de reactivos y sustentantes, para aplicar el modelo de TRI. Se obtuvo evidencia de validez de constructo y un panorama psicométrico del instrumento, útil para la planeación de versiones subsecuentes. El examen puede reducirse en longitud haciéndolo más eficiente, sin perder precisión en la estimación de los niveles de habilidad de los sujetos ni validez de contenido.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[Introduction: The end-of-career Professional Exam is a high-stakes summative assessment done at UNAM's Faculty of Medicine in Mexico, to certify that undergraduate medical students have achieved the knowledge level required to enter practice as a general physician. One source of validity evidence is the exam's internal structure, studied with item analysis. Classical Measurement Theory (CMT) has traditionally been used for this purpose, but it has several disadvantages that Item Response Theory (IRT) intends to solve. This report describes the use of the IRT model in the analysis of the written Professional Exam at UNAM's Faculty of Medicine. Objective: To explore the benefits of using the IRT model to obtain validity evidence for a high-stakes achievement test in a medical school. Method: A psychometric analysis of the written Professional Exam at UNAM's Faculty of Medicine was performed in 2008. The test was a written 420-item multiple-choice question exam that covers Internal medicine, Pediatrics, Obstetrics and gynecology, Emergency medicine, Surgery and Family medicine. CMT elements were calculated: reliability, difficulty and discrimination. The three-parameter IRT model was used. With these calculations the best items were selected, and the length of the test was estimated with Spearman-Brown's prophecy formula. Results: The exam was taken by 882 medical students, had mean difficulty index of 0.55 and reliability of 0.93. With the 3pl-IRT model, it was found that the test was particularly informative in ability levels close to the mean in the theta scale. The average discrimination parameter (a) was 0.67, the difficulty parameter (b) was 1.21, and the seudo-guessing parameter (c) was 0.18. A shortened version of the test (250 items) was designed using the information obtained, maintaining a high reliability. A majority of the items in the original test (84%) had a good fit to the 3pl-IRT model, and in the shortened version almost all of them (97%) had an appropriate model fit. Discussion and conclusions: The written Professional Test at UNAM's Faculty of Medicine fulfills the conceptual requirements (item number, examinees' sample size) to apply the IRT model in its item analysis. This information augments the validity evidence of the exam's score inferences and interpretations, and provides a psychometric panorama of the instrument that is useful to plan subsequent versions of the exam. The exam can be reduced in length making it more efficient, without losing precision in the estimation of the subjects' ability level or content validity.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[Teoría de respuesta al ítem]]></kwd>
<kwd lng="es"><![CDATA[teoría clásica de los test]]></kwd>
<kwd lng="es"><![CDATA[evaluación sumativa]]></kwd>
<kwd lng="es"><![CDATA[preguntas de opción múltiple]]></kwd>
<kwd lng="es"><![CDATA[exámenes de altas consecuencias]]></kwd>
<kwd lng="es"><![CDATA[educación médica de pregrado]]></kwd>
<kwd lng="en"><![CDATA[Item response theory]]></kwd>
<kwd lng="en"><![CDATA[classical measurement theory]]></kwd>
<kwd lng="en"><![CDATA[summative assessment]]></kwd>
<kwd lng="en"><![CDATA[multiple-choice questions]]></kwd>
<kwd lng="en"><![CDATA[high-stakes assessment]]></kwd>
<kwd lng="en"><![CDATA[undergraduate medical education]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[  	    <p align="justify"><font face="verdana" size="4">Art&iacute;culos originales</font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="center"><font face="verdana" size="4"><b>An&aacute;lisis del examen profesional de la Facultad de Medicina de la UNAM: Una experiencia de evaluaci&oacute;n objetiva del aprendizaje con la teor&iacute;a de respuesta al &iacute;tem</b></font></p>  	    <p align="center"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="center"><font face="verdana" size="3"><b>Analysis of the professional exam at UNAM Faculty of Medicine: An experience in objective assessment of learning with item response theory</b></font></p>  	    <p align="center"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="center"><font face="verdana" size="2"><b>Laura Delgado&#45;Maldonado<sup>1</sup>, Melchor S&aacute;nchez&#45;Mendiola<sup>2</sup></b></font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><sup><i>1</i></sup><i>Facultad de Psicolog&iacute;a. Universidad Nacional de Educaci&oacute;n a Distancia. Espa&ntilde;a.</i></font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2"><i><sup>2</sup>Secretar&iacute;a de Educaci&oacute;n M&eacute;dica. Facultad de Medicina. Universidad Nacional Aut&oacute;noma de M&eacute;xico. M&eacute;xico D.F., M&eacute;xico.</i></font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Correspondencia:</b>    <br> 	Dr. Melchor S&aacute;nchez Mendiola.    <br> 	Secretar&iacute;a de Educaci&oacute;n M&eacute;dica. Edif. B, 3er Piso, Av. Universidad 3000, C.U.    <br> 	C.P. 04510. M&eacute;xico D.F., M&eacute;xico.    <br> 	Tel&eacute;fono: (5255) 5623 2448. Fax: (5255) 5616 2346.    <br> 	Correos electr&oacute;nicos: <a href="mailto:melchorsm@gmail.com">melchorsm@gmail.com</a>, <a href="mailto:melchors@liceaga.facmed.unam.mx">melchors@liceaga.facmed.unam.mx</a></font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2">Recepci&oacute;n 22 de febrero 2012.    ]]></body>
<body><![CDATA[<br> 	Aceptaci&oacute;n 28 de marzo 2012.</font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Resumen</b></font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Introducci&oacute;n:</b> El examen profesional es la evaluaci&oacute;n sumativa de altas consecuencias, m&aacute;s importante de la carrera de m&eacute;dico cirujano. Una fuente de evidencia de validez del examen es el an&aacute;lisis psicom&eacute;trico de los reactivos, para el que tradicionalmente se ha utilizado la Teor&iacute;a Cl&aacute;sica de los Test (TCT), la cual tiene algunas desventajas, que la Teor&iacute;a de Respuesta al &Iacute;tem (TRI) pretende resolver. El presente estudio reporta el an&aacute;lisis del Examen Profesional Te&oacute;rico de la Facultad de Medicina de la UNAM con la TRI.</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Objetivo:</b> Explorar los beneficios del uso de la TRI, para documentar evidencia de validez en un examen de altas consecuencias en educaci&oacute;n m&eacute;dica.</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>M&eacute;todo:</b> Se efectu&oacute; el an&aacute;lisis psicom&eacute;trico del Examen Profesional Te&oacute;rico de la Facultad de Medicina de la UNAM, aplicado en 2008. La prueba consisti&oacute; en un examen de opci&oacute;n m&uacute;ltiple acerca de seis &aacute;reas de conocimiento: Medicina interna, Pediatr&iacute;a, Gineco&#45;obstetricia, Urgencias m&eacute;dicas, Cirug&iacute;a y Medicina familiar, evaluadas con 420 reactivos de opci&oacute;n m&uacute;ltiple. Se calcularon confiabilidad, dificultad y discriminaci&oacute;n con la TCT. Se utiliz&oacute; el modelo de tres par&aacute;metros de la TRI. Con las dos aproximaciones se seleccionaron los mejores &iacute;tems, y se estim&oacute; la longitud de la prueba con la f&oacute;rmula de Spearman&#45;Brown.</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Resultados:</b> El examen fue respondido por 882 sustentantes, tuvo un &iacute;ndice de dificultad de 0.55 y una confiabilidad de 0.93. Con el modelo de 3pl&#45;TRI, el examen es informativo en niveles de habilidad cercanos al promedio en la escala theta. El par&aacute;metro de discriminaci&oacute;n promedio (a) fue 0.67, el par&aacute;metro de dificultad (b) fue 1.21, y el par&aacute;metro de seudoadivinaci&oacute;n (c) fue 0.18. Se encontr&oacute; que es posible reducir el n&uacute;mero de reactivos de la prueba, manteniendo una alta confiabilidad. La mayor&iacute;a de los &iacute;tems en la prueba original (84%) tuvieron un buen ajuste al modelo 3pl&#45;TRI, y en la versi&oacute;n acortada la gran mayor&iacute;a (97%) tuvieron un ajuste similar.</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Discusi&oacute;n y conclusiones:</b> El Examen Profesional Te&oacute;rico de la Facultad de Medicina cubre los requisitos te&oacute;ricos de n&uacute;mero de reactivos y sustentantes, para aplicar el modelo de TRI. Se obtuvo evidencia de validez de constructo y un panorama psicom&eacute;trico del instrumento, &uacute;til para la planeaci&oacute;n de versiones subsecuentes. El examen puede reducirse en longitud haci&eacute;ndolo m&aacute;s eficiente, sin perder precisi&oacute;n en la estimaci&oacute;n de los niveles de habilidad de los sujetos ni validez de contenido.</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Palabras clave:</b> Teor&iacute;a de respuesta al &iacute;tem; teor&iacute;a cl&aacute;sica de los test; evaluaci&oacute;n sumativa; preguntas de opci&oacute;n m&uacute;ltiple; ex&aacute;menes de altas consecuencias; educaci&oacute;n m&eacute;dica de pregrado.</font></p> 	    <p align="justify">&nbsp;</p> 	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2"><b>Abstract</b></font></p>     <p align="justify"><font face="verdana" size="2"><b>Introduction:</b> The end&#45;of&#45;career Professional Exam is a high&#45;stakes summative assessment done at UNAM's Faculty of Medicine in Mexico, to certify that undergraduate medical students have achieved the knowledge level required to enter practice as a general physician. One source of validity evidence is the exam's internal structure, studied with item analysis. Classical Measurement Theory (CMT) has traditionally been used for this purpose, but it has several disadvantages that Item Response Theory (IRT) intends to solve. This report describes the use of the IRT model in the analysis of the written Professional Exam at UNAM's Faculty of Medicine.</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Objective:</b> To explore the benefits of using the IRT model to obtain validity evidence for a high&#45;stakes achievement test in a medical school.</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Method:</b> A psychometric analysis of the written Professional Exam at UNAM's Faculty of Medicine was performed in 2008. The test was a written 420&#45;item multiple&#45;choice question exam that covers Internal medicine, Pediatrics, Obstetrics and gynecology, Emergency medicine, Surgery and Family medicine. CMT elements were calculated: reliability, difficulty and discrimination. The three&#45;parameter IRT model was used. With these calculations the best items were selected, and the length of the test was estimated with Spearman&#45;Brown's prophecy formula.</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Results:</b> The exam was taken by 882 medical students, had mean difficulty index of 0.55 and reliability of 0.93. With the 3pl&#45;IRT model, it was found that the test was particularly informative in ability levels close to the mean in the theta scale. The average discrimination parameter (a) was 0.67, the difficulty parameter (b) was 1.21, and the seudo&#45;guessing parameter (c) was 0.18. A shortened version of the test (250 items) was designed using the information obtained, maintaining a high reliability. A majority of the items in the original test (84%) had a good fit to the 3pl&#45;IRT model, and in the shortened version almost all of them (97%) had an appropriate model fit.</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Discussion and conclusions:</b> The written Professional Test at UNAM's Faculty of Medicine fulfills the conceptual requirements (item number, examinees' sample size) to apply the IRT model in its item analysis. This information augments the validity evidence of the exam's score inferences and interpretations, and provides a psychometric panorama of the instrument that is useful to plan subsequent versions of the exam. The exam can be reduced in length making it more efficient, without losing precision in the estimation of the subjects' ability level or content validity.</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Keywords:</b> Item response theory; classical measurement theory; summative assessment; multiple&#45;choice questions; high&#45;stakes assessment; undergraduate medical education.</font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Introducci&oacute;n</b></font></p>  	    <p align="justify"><font face="verdana" size="2">La formaci&oacute;n de m&eacute;dicos generales implica un largo periodo de instrucci&oacute;n, en el cual los estudiantes de medicina transitan por m&uacute;ltiples cursos, pr&aacute;cticas y actividades que contribuyen a la adquisici&oacute;n de un gran caudal de conocimientos, habilidades y destrezas necesarias para ejercer la medicina de manera independiente. Una de las principales responsabilidades de las instituciones educativas formadoras de profesionistas es el documentar, a trav&eacute;s de una evaluaci&oacute;n sumativa criterial, la competencia de sus graduados.<sup>1,2</sup> En algunos pa&iacute;ses existen instancias independientes, como es el caso del <i>National Board of Medical Examiners</i> en EUA, las cuales se encargan de desarrollar y aplicar estas pruebas de evaluaci&oacute;n, llamadas por algunos autores como "de altas consecuencias", por lo importante de los resultados para el sustentante y para la sociedad.<sup>2,3</sup></font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">En el caso de M&eacute;xico no existe una instancia de esta naturaleza, por lo que la responsabilidad de las evaluaciones sumativas de los m&eacute;dicos generales al final de su entrenamiento, recae en las escuelas y facultades de medicina en donde llevan a cabo sus estudios. La Direcci&oacute;n General de Profesiones de la Secretar&iacute;a de Educaci&oacute;n P&uacute;blica en M&eacute;xico es la instancia responsable de registrar el t&iacute;tulo del m&eacute;dico y de expedir la c&eacute;dula profesional correspondiente (documento legal que permite ejercer la medicina en nuestro pa&iacute;s), de tal manera que la responsabilidad de documentar de manera objetiva y justa que un aspirante a m&eacute;dico general posea las competencias necesarias para ejercer dicha profesi&oacute;n, se descarga en las Universidades que avalan sus programas educativos.<sup>4</sup> Por lo anterior, es aparente la importancia de los citados ex&aacute;menes para los educandos y la sociedad, ya que generalmente no hay otro filtro de control de calidad para permitir que el m&eacute;dico graduado ejerza su profesi&oacute;n.</font></p>  	    <p align="justify"><font face="verdana" size="2">La Facultad de Medicina de la UNAM es una de las instituciones formadoras de m&eacute;dicos generales con mayor tradici&oacute;n en Am&eacute;rica Latina, y durante su historia ha tenido diferentes modalidades de ex&aacute;menes de fin de la licenciatura. Desde hace muchos a&ntilde;os, el Examen Profesional se ha constituido en la evaluaci&oacute;n sumativa de fin de cursos para poder expedir el t&iacute;tulo de m&eacute;dico cirujano. Este examen se sustenta en el Reglamento General de Ex&aacute;menes de la UNAM,<sup>5</sup> y en las diversas opciones de titulaci&oacute;n que ofrece esta casa de estudios.<sup>6</sup> En el caso de la Facultad de Medicina, el Examen General de Conocimientos corresponde a la opci&oacute;n de titulaci&oacute;n B, que comprende la aprobaci&oacute;n de un examen escrito. Dicha prueba consiste en una exploraci&oacute;n general de los conocimientos del estudiante, de su capacidad para aplicarlos y de su criterio profesional.<sup>5,6</sup> El Examen Profesional tiene dos fases, una te&oacute;rica y una pr&aacute;ctica. La fase te&oacute;rica consiste en un examen escrito con preguntas de opci&oacute;n m&uacute;ltiple, y la fase pr&aacute;ctica tiene dos modalidades: examen oral tradicional ante un paciente real, y el Examen Cl&iacute;nico Objetivo Estructurado (ECOE) con m&uacute;ltiples estaciones estandarizadas.<sup>7</sup> Ambas fases est&aacute;n orientadas a evaluar el nivel de conocimientos, habilidades y destrezas para ejercer la medicina general de manera independiente en nuestro pa&iacute;s.</font></p>  	    <p align="justify"><font face="verdana" size="2">El concepto moderno de validez en los procesos de evaluaci&oacute;n en educaci&oacute;n, propone que toda la validez es de constructo, como modelo unitario, y que existen varias fuentes de la misma: contenido, proceso de respuesta, estructura interna, relaci&oacute;n con otras variables y consecuencias.<sup>8,9</sup> De tal manera que la validez es un concepto hol&iacute;stico que se alimenta de varios aspectos, el que nos ocupa en este estudio es la fuente de evidencia denominada de estructura interna, que se obtiene a trav&eacute;s del an&aacute;lisis psicom&eacute;trico de los resultados obtenidos con la aplicaci&oacute;n del instrumento.<sup>8,9</sup></font></p>  	    <p align="justify"><font face="verdana" size="2">Tradicionalmente se ha utilizado la <i>Teor&iacute;a Cl&aacute;sica de los Test</i> (TCT) para este tipo de an&aacute;lisis, pero en las &uacute;ltimas d&eacute;cadas el modelo de <i>Teor&iacute;a de Respuesta al &Iacute;tem</i> (TRI) ha surgido como una estrategia que aporta mayor informaci&oacute;n, y que subsana algunas de las limitaciones de la TCT. Debido a la importancia del Examen Profesional de la Facultad de Medicina de la UNAM, y en un af&aacute;n de mejorar la calidad del instrumento y las inferencias que de sus resultados se hagan, el objetivo del presente trabajo fue determinar los elementos informativos que aporta el an&aacute;lisis psicom&eacute;trico del instrumento considerando, adem&aacute;s del an&aacute;lisis cl&aacute;sico de los reactivos con TCT, la aproximaci&oacute;n con el modelo de tres par&aacute;metros de la TRI.</font></p>  	    <p align="justify"><font face="verdana" size="2">Se opt&oacute; por el modelo de tres par&aacute;metros, debido a que es el primer acercamiento de an&aacute;lisis con esta aproximaci&oacute;n te&oacute;rica en nuestro medio, y se consider&oacute; relevante conocer los valores de los par&aacute;metros de dificultad, discriminaci&oacute;n y seudoadivinaci&oacute;n para cada reactivo. A continuaci&oacute;n se describe el marco te&oacute;rico de la TRI, para ofrecer al lector una panor&aacute;mica de dicho modelo conceptual, en virtud de que los profesionales de la salud generalmente no est&aacute;n familiarizados con este m&eacute;todo de an&aacute;lisis.</font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Marco te&oacute;rico de la TRI</b></font></p>  	    <p align="justify"><font face="verdana" size="2">La TRI conocida inicialmente como <i>Teor&iacute;a del Rasgo Latente</i>, intenta dar un fundamento probabil&iacute;stico al problema de la medici&oacute;n de rasgos y constructos no observables. Esto significa que surge y se desarrolla como una necesidad de superar las limitaciones de la TCT.<sup>10,11</sup> La TRI debe su nombre a que, a diferencia de la TCT, se centra m&aacute;s en las propiedades de los &iacute;tems que en las propiedades globales de una prueba, es decir, considera al &iacute;tem como la unidad de an&aacute;lisis del test, en lugar de las puntuaciones globales del mismo, como lo hace la TCT.<sup>11,12</sup> Lo que permite observar los distintos modelos de la TRI como un cuerpo te&oacute;rico unificado, son los supuestos que le dan estructura y solidez, que a continuaci&oacute;n se mencionan:</font></p>  	    <blockquote> 		    <p align="justify"><font face="verdana" size="2">&bull; Asume de manera <i>a priori</i>, la existencia de un rasgo o aptitud latente del sujeto.</font></p>  		    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">&bull; Relaciona el rasgo que se est&aacute; midiendo con el rendimiento del sujeto, y lo describe a partir de la Curva Caracter&iacute;stica del &Iacute;tem (CCI), en la que se se&ntilde;ala la probabilidad de la respuesta en funci&oacute;n de la aptitud.<sup>11</sup><i><sup>,</sup></i><sup>13</sup></font></p> 	</blockquote>  	    <p align="justify"><font face="verdana" size="2">Seguidamente se describen los supuestos de los modelos de la TRI:<sup>11,14</sup></font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Unidimensionalidad</b></font></p>  	    <p align="justify"><font face="verdana" size="2">En los modelos unidimensionales de la TRI, se asume que existe un rasgo latente el cual es el responsable de la respuesta, que emite el sujeto ante el est&iacute;mulo que le demanda un reactivo. Basta con un solo rasgo para explicar los resultados de los sujetos y las relaciones entre los &iacute;tems. De lo contrario, se requerir&iacute;a un valor diferente para cada rasgo (&#952;<sub>1,</sub>&#952;<sub>2</sub>, ... &#952;<sub>n</sub>). Dicho en otras palabras, el rendimiento que un sujeto tenga en un &iacute;tem, depende del nivel que muestre en un solo rasgo o dimensi&oacute;n. Este principio tambi&eacute;n se aplica para la prueba en su conjunto, esto es, se espera que los &iacute;tems que conforman un test midan todos y cada uno de ellos, s&oacute;lo un rasgo o dimensi&oacute;n.<sup>11,14</sup></font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Independencia local</b></font></p>  	    <p align="justify"><font face="verdana" size="2">Es una premisa derivada de la unidimensionalidad. Plantea que la respuesta dada por el sujeto a un &iacute;tem es independiente a la que da a los subsiguientes, esto es, la respuesta a un reactivo s&oacute;lo depende de sus par&aacute;metros y de la habilidad del sujeto. Matem&aacute;ticamente se expresa como la probabilidad de acertar un n&uacute;mero determinado de reactivos es igual al producto de las probabilidades, de acertar correctamente cada reactivo de manera separada. Para verificar el supuesto de independencia local, usualmente se llevan a cabo los c&aacute;lculos de las probabilidades de acertar a los reactivos, considerando los patrones de respuesta del conjunto de &iacute;tems que contiene el test.<sup>11,14</sup></font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Invarianza</b></font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Esta propiedad se da en dos sentidos: por una parte en el conjunto de &iacute;tems ante diferentes niveles de habilidad o rasgos de los sujetos que los contestan, y por el otro, que se puede medir el nivel de rasgo de una persona a partir de conjuntos diferentes de &iacute;tems. Ello significa que se pueden estimar los par&aacute;metros de los &iacute;tems sin que &eacute;stos dependan de la muestra o poblaci&oacute;n que los respondieron, obteni&eacute;ndose la misma curva para el &iacute;tem, al margen del grupo de sujetos que lo haya contestado. Respecto a la invarianza de las personas, es posible determinar la habilidad de los sujetos que contestaron sin que la medida del rasgo, dependa de las caracter&iacute;sticas del test que les fue aplicado.<sup>11,15</sup></font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>El error de medici&oacute;n y la funci&oacute;n de informaci&oacute;n</b></font></p>  	    <p align="justify"><font face="verdana" size="2">En la TRI, el error de medici&oacute;n (error t&iacute;pico de estimaci&oacute;n) es diferente al estad&iacute;stico que se emplea en la TCT, y la diferencia fundamental radica en que se trata de una funci&oacute;n del rasgo (&#952;) y para cada nivel de rasgo o valor de &#952; existe un error de estimaci&oacute;n, siendo m&aacute;s preciso en algunos valores de &#952; que en otros, dado que se calcula la funci&oacute;n del error t&iacute;pico de estimaci&oacute;n para cada valor posible de &#952;. Adem&aacute;s, se obtiene la funci&oacute;n de informaci&oacute;n, la cual nos permite conocer los niveles de habilidad de los sustentantes estimados con mayor precisi&oacute;n y por ende, donde el error de medici&oacute;n es menor.<sup>11,12</sup></font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>El significado de los tres par&aacute;metros de la TRI</b></font></p>  	    <p align="justify"><font face="verdana" size="2">Este modelo toma en cuenta la habilidad de los sujetos y tres par&aacute;metros log&iacute;sticos (<b>a</b>=discriminaci&oacute;n, <b>b</b>=dificultad del reactivo y <b>c</b>=seudoadivinaci&oacute;n), para describir la funci&oacute;n de la respuesta al reactivo. Dicha funci&oacute;n de respuesta, tambi&eacute;n llamada CCI indica la probabilidad que tiene el sujeto de responder correctamente al reactivo, de acuerdo con su nivel de habilidad (&#952;).<sup>14,15</sup> El significado de cada uno de los par&aacute;metros se describe a continuaci&oacute;n:</font></p>  	    <blockquote> 		    <p align="justify"><font face="verdana" size="2">&bull; El valor del par&aacute;metro <b>a,</b> representa la discriminaci&oacute;n del &iacute;tem y es conocido como la pendiente de la curva. Es el punto fijo de inflexi&oacute;n de la curva cuando el sujeto tiene el 50% de probabilidad de responder correctamente al reactivo, es decir, cuando &#952;=<b>b</b>. Generalmente su valor oscila de 0 a 2.5, consider&aacute;ndose como discriminativos a aquellos &iacute;tems cuyo valor de <b>a</b> es pr&oacute;ximo o mayor a 1.    <br></font></p>  		    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">&bull; El &iacute;ndice de dificultad del reactivo o par&aacute;metro <b>b,</b> es el valor de &#952; para el cual P(&#952;)=0.5, esto es, cuando no hay aciertos al azar, la habilidad del sujeto y la dificultad del reactivo son iguales, por lo que la probabilidad es de 0.5. Entre mayor sea <b>b</b>, el reactivo ser&aacute; m&aacute;s dif&iacute;cil, esto es, la probabilidad de acertar el reactivo decrece cuando incrementa la dificultad del &iacute;tem. A&uacute;n cuando &#952; pueda estar definida en m&uacute;ltiples escalas, en la pr&aacute;ctica se emplea la escala t&iacute;pica con media cero, varianza uno y un rango de valores que oscilan entre &#45;3 y 3,<sup>15</sup> considerando un valor de <b>b</b>=0 como la dificultad promedio que puede asumir un reactivo, valores superiores a 2.5 como reactivos muy dif&iacute;ciles y menores a &#45;2.5, reactivos muy f&aacute;ciles.<sup>16    <br></sup></font></p>  		    <p align="justify"><font face="verdana" size="2">&bull; El par&aacute;metro <b>c</b> representa la probabilidad de que un sujeto con baja habilidad responda correctamente el reactivo, simplemente por adivinaci&oacute;n. La probabilidad de acertar por azar en realidad se considera que es la misma para todos los sujetos, independientemente de su nivel de rasgo. Sin embargo, se considera que son los sujetos con menor habilidad quienes recurrir&iacute;an al azar para tratar de tener &eacute;xito en la resoluci&oacute;n del reactivo. Es este tercer par&aacute;metro, lo que lo distingue de los modelos log&iacute;sticos de uno (que considera s&oacute;lo la dificultad del reactivo), y dos (que considera tanto la dificultad como la discriminaci&oacute;n del reactivo) par&aacute;metros de la TRI.<sup>11,14</sup></font></p> 	</blockquote>  	    <p align="justify"><font face="verdana" size="2">La expresi&oacute;n matem&aacute;tica del modelo de tres par&aacute;metros es la siguiente:</font></p>  	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/iem/v1n3/a5ec1.jpg"></font></p>  	    <p align="justify"><font face="verdana" size="2">En donde:</font></p>  	    <p align="justify"><font face="verdana" size="2">P(&#952;) = Probabilidad de acertar al reactivo a un nivel de rasgo &#952;.    <br> 	&#952; = Habilidad o rasgo del sujeto que contesta al &iacute;tem.    <br> 	e = Base de los logaritmos neperianos, cuyo valor es 2.718.    <br> 	D = Constante (D=1.7 o 1).    ]]></body>
<body><![CDATA[<br> 	a = &Iacute;ndice de discriminaci&oacute;n del reactivo.    <br> 	b = &Iacute;ndice de dificultad del reactivo.    <br> 	c = &Iacute;ndice de seudoadivinaci&oacute;n del reactivo.</font></p>  	    <p align="justify"><font face="verdana" size="2">En la CCI que describe la formulaci&oacute;n anterior, la probabilidad de tener &eacute;xito en la repuesta corresponde a la as&iacute;ntota inferior de la curva. A diferencia de los par&aacute;metros <b>a</b> y <b>b</b> que se tratan de par&aacute;metros libres, los valores de <b>c</b> van de 0&#45;1, aunque generalmente asuman valores entre 0.0 y 0.40, consider&aacute;ndose como inadecuados aquellos reactivos con un valor de <b>c</b> superior a 0.30 y como reactivos deseables, aquellos cuyo par&aacute;metro <b>c</b> sea igual o inferior a 0.20, prefiri&eacute;ndose los valores m&aacute;s bajos, dado que ello indicar&iacute;a que la probabilidad de que los sujetos cuya habilidad es baja acierten al reactivo es m&iacute;nima.</font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>M&eacute;todo</b></font></p>  	    <p align="justify"><font face="verdana" size="2">Los sustentantes que presentaron el Examen General de Conocimientos son alumnos que finalizaron el quinto a&ntilde;o del Plan &Uacute;nico de Estudios, de la carrera de M&eacute;dico Cirujano, en la Facultad de Medicina de la UNAM. Los estudiantes deben aprobar la fase te&oacute;rica y pr&aacute;ctica del Examen Profesional para poder ingresar al Servicio Social, y ser candidatos a obtener el t&iacute;tulo universitario de m&eacute;dico cirujano. La aplicaci&oacute;n del examen estuvo a cargo de la Secretar&iacute;a de Educaci&oacute;n M&eacute;dica de la Facultad de Medicina, efectu&aacute;ndose en el mes de enero de 2008, en las instalaciones de la misma Facultad.</font></p>  	    <p align="justify"><font face="verdana" size="2">El Examen Profesional Te&oacute;rico escrito ha tenido estructuras diferentes en el transcurso de los a&ntilde;os, en el momento que se realiz&oacute; el presente estudio estaba conformado por seis &aacute;reas de contenidos: Medicina interna, Pediatr&iacute;a, Gineco&#45;obstetricia, Urgencias m&eacute;dicas, Cirug&iacute;a y Medicina familiar. El instrumento se estructur&oacute; con 420 reactivos, distribuidos en las seis &aacute;reas de conocimientos anteriormente se&ntilde;aladas. Los reactivos tuvieron el formato de opci&oacute;n m&uacute;ltiple con cinco opciones de respuesta, de las cuales s&oacute;lo una era la correcta. La prueba se aplic&oacute; en condiciones estandarizadas para todos los sustentantes, con papel y l&aacute;piz. Los resultados del examen se colectaron en hojas de lector &oacute;ptico, que fueron capturadas para generar los datos utilizados en el an&aacute;lisis psicom&eacute;trico.</font></p>  	    <p align="justify"><font face="verdana" size="2">Para el an&aacute;lisis de los resultados obtenidos con el instrumento, se utilizaron los dos modelos: el de TCT con el programa <i>Iteman</i> versi&oacute;n 4 (<i>Assessment Systems Corporation</i><b>&reg;</b>, Minnesota, EUA), y el de TRI con el modelo log&iacute;stico de tres par&aacute;metros, con el programa BILOG&#45;MG 3.<sup>17</sup> Se consider&oacute; para la estimaci&oacute;n de la habilidad de los sustentantes, el m&eacute;todo de estimaci&oacute;n m&aacute;xima verosimilitud. El esquema de los m&eacute;todos de an&aacute;lisis se describe en la <a href="#f1">Figura 1</a>.</font></p>  	    <p align="center"><font face="verdana" size="2"><a name="f1"></a></font></p>  	    ]]></body>
<body><![CDATA[<p align="center"><font face="verdana" size="2"><img src="/img/revistas/iem/v1n3/a5f1.jpg"></font></p>  	    <p align="justify"><font face="verdana" size="2">En un ejercicio de integraci&oacute;n de la informaci&oacute;n obtenida a partir de estas dos aproximaciones, se seleccionaron los mejores reactivos en t&eacute;rminos de sus cualidades m&eacute;tricas y que atendieran al constructo medido para los distintos contenidos del examen, estim&aacute;ndose la longitud de la prueba, a fin de conservar la misma confiabilidad del instrumento en una versi&oacute;n reducida del examen. La secuencia de acciones realizada se esquematiza en la <a href="#f2">Figura 2</a>.</font></p>  	    <p align="center"><font face="verdana" size="2"><a name="f2"></a></font></p>  	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/iem/v1n3/a5f2.jpg"></font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2">Para la estimaci&oacute;n de la longitud de la prueba se utiliz&oacute; la f&oacute;rmula de la profec&iacute;a de Spearman&#45;Brown:<sup>18</sup></font></p>  	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/iem/v1n3/a5ec2.jpg"></font></p>  	    <p align="justify"><font face="verdana" size="2">En donde:</font></p>  	    <p align="justify"><font face="verdana" size="2">&#961; <i>xx<sup>1</sup></i> = Confiabilidad obtenida en el c&aacute;lculo original.</font></p>  	    <p align="justify"><font face="verdana" size="2">&#961; <i>k</i> = Confiabilidad deseada.</font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2"><i>k</i> = Proporci&oacute;n o n&uacute;mero de veces que debe ser acortado o alargado el test, para alcanzar la confiabilidad deseada.</font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Resultados</b></font></p>  	    <p align="justify"><font face="verdana" size="2">El examen profesional te&oacute;rico de la Facultad de Medicina de la UNAM analizado tuvo lugar en las instalaciones de la instituci&oacute;n en el mes de enero de 2008, y el n&uacute;mero de sustentantes que contest&oacute; el examen en esa ocasi&oacute;n fue de 882.</font></p>  	    <p align="justify"><font face="verdana" size="2">Respecto al conjunto global de la prueba, se encontr&oacute; que el promedio de dificultad cl&aacute;sica fue de 54.95% de aciertos y su confiabilidad medida con el coeficiente de Cronbach tuvo un &#945;=0.93. El <i>alpha</i> de Cronbach calculado para cada subtest de la prueba o &aacute;rea de conocimiento, tuvo un valor adecuado, a saber: Medicina interna (&#945;=0.73), Pediatr&iacute;a (&#945;=0.69), Gineco&#45;obstetricia (&#945;=0.74), Urgencias m&eacute;dicas (&#945;=0.76), Cirug&iacute;a (&#945;=0.72) y Medicina familiar (&#945;=0.64). Los resultados globales de la prueba con la TCT, se presentan en la <a href="#t1">Tabla 1</a>.</font></p>  	    <p align="center"><font face="verdana" size="2"><a name="t1"></a></font></p>  	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/iem/v1n3/a5t1.jpg"></font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Par&aacute;metros obtenidos con el an&aacute;lisis de TRI</b></font></p>  	    <p align="justify"><font face="verdana" size="2">De acuerdo con la calibraci&oacute;n del examen con el modelo de tres par&aacute;metros, a continuaci&oacute;n se presentan los valores de los par&aacute;metros de discriminaci&oacute;n, dificultad y seudoadivinaci&oacute;n. Respecto a la distribuci&oacute;n del par&aacute;metro <b>a</b>, se observ&oacute; una concentraci&oacute;n en reactivos cuyo valor se encuentra alrededor de 0.5, esto es, m&aacute;s del 55% de ellos tuvo un valor de discriminaci&oacute;n igual o superior a 0.5. En lo concerniente a la distribuci&oacute;n del par&aacute;metro <b>b</b>, se destaca que aun cuando se encontr&oacute; una tendencia a que la distribuci&oacute;n sea uniforme en el rango de &#45;2.0 a 2.0, cerca del 70% de los reactivos tiene una dificultad entre &#45;3 y 3. Respecto al par&aacute;metro de seudoadivinaci&oacute;n, se encontr&oacute; una mayor concentraci&oacute;n en valores iguales o menores a 0.20 (aproximadamente el 70%), lo cual es de esperarse, dada la cantidad de alternativas que tiene cada reactivo (1/k=1/5=0.20). Adem&aacute;s, s&oacute;lo el 0.47% de los reactivos tuvo un valor no deseable en este par&aacute;metro (de m&aacute;s de 0.30).</font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Para tener un mayor acercamiento respecto a cada una de las &aacute;reas del examen, en la <a href="/img/revistas/iem/v1n3/a5t2.jpg" target="_blank">Tabla 2</a> se aprecian los descriptivos de los tres par&aacute;metros en cada una de ellas. En dicha tabla se observa que todas las &aacute;reas tienen valores promedios de discriminaci&oacute;n adecuados, destacando el &aacute;rea de Urgencias m&eacute;dicas, cuyo valor promedio de discriminaci&oacute;n es el m&aacute;s alto, aunque tambi&eacute;n la dispersi&oacute;n es la mayor. Este par&aacute;metro tiene su referente en la teor&iacute;a cl&aacute;sica, y es el coeficiente de correlaci&oacute;n punto&#45;biserial. Las medias de las correlaciones puntobiseriales por &aacute;rea de conocimiento fueron: Medicina interna (0.17), Pediatr&iacute;a (0.15), Gineco&#45;obstetricia (0.17), Urgencias m&eacute;dicas (0.19), Cirug&iacute;a (0.17) y Medicina familiar (0.13).</font></p>  	    <p align="justify"><font face="verdana" size="2">El par&aacute;metro de dificultad es un poco m&aacute;s alejado del par&aacute;metro cl&aacute;sico de dificultad, que b&aacute;sicamente lo definimos en este espacio como la proporci&oacute;n de sujetos que contestaron correctamente al reactivo, en tanto que para la dificultad del &aacute;rea, se establece como el valor promedio del porcentaje de aciertos del conjunto de reactivos que constituyen el subtest. Esta diferencia tiene implicaciones respecto al nivel de habilidad de los sustentantes, por ejemplo, dos sujetos que contestaron correctamente el mismo n&uacute;mero de reactivos, en el par&aacute;metro cl&aacute;sico de dificultad el nivel de dominio ser&iacute;a el mismo, pero en el modelo de tres par&aacute;metros de la TRI, la habilidad estimada puede ser radicalmente diferente, dados los valores de discriminaci&oacute;n y seudoadivinaci&oacute;n de los reactivos. Regresando a la dificultad cl&aacute;sica de las &aacute;reas, se observaron los siguientes valores: Medicina interna (57.6%), Pediatr&iacute;a (55.0%), Gineco&#45;obstetricia (47.9%), Urgencias m&eacute;dicas (60.9%), Cirug&iacute;a (60.1%) y Medicina familiar (48.1%).</font></p>  	    <p align="justify"><font face="verdana" size="2">Finalmente, la media del valor del par&aacute;metro de seudoadivinaci&oacute;n para las cuatro &aacute;reas es cercana a cero y con una dispersi&oacute;n muy baja, particularmente en el caso del &aacute;rea de Medicina familiar. Este par&aacute;metro no tiene referente directo con la teor&iacute;a cl&aacute;sica, como ya se se&ntilde;al&oacute; anteriormente.</font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Funci&oacute;n de informaci&oacute;n</b></font></p>  	    <p align="justify"><font face="verdana" size="2">Una seria desventaja de la TMC es asumir que el error de medici&oacute;n es el mismo para toda la poblaci&oacute;n de estudiantes. Es aqu&iacute;, donde la funci&oacute;n de informaci&oacute;n obtenida con la TRI adquiere un papel trascendental en el an&aacute;lisis, ya que &eacute;sta nos permite conocer el grado de precisi&oacute;n que tienen las &aacute;reas a diferentes valores de habilidad de los sustentantes. A continuaci&oacute;n, en el resto de la secci&oacute;n de "Resultados", se utilizar&aacute;n los datos de la prueba acortada, ya que como se argument&oacute; previamente no se pierde precisi&oacute;n en la estimaci&oacute;n del rasgo.</font></p>  	    <p align="justify"><font face="verdana" size="2">En la <a href="#f3">Figura 3</a> se observan las CCT o Funci&oacute;n de Informaci&oacute;n, de cada &aacute;rea de conocimiento, con los datos de la prueba acortada.</font></p>  	    <p align="center"><font face="verdana" size="2"><a name="f3"></a></font></p>  	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/iem/v1n3/a5f3.jpg"></font></p>  	    <p align="justify"><font face="verdana" size="2">Las &aacute;reas cuyos reactivos tienen un promedio de discriminaci&oacute;n mayor fueron Cirug&iacute;a y Urgencias M&eacute;dicas, que son particularmente informativas en niveles de habilidad pr&oacute;ximos a &#45;1.3, de hecho, es en este valor donde la prueba alcanza su nivel m&aacute;ximo de precisi&oacute;n. Por otra parte, se observa que el &aacute;rea de Medicina familiar es la menos informativa de las seis &aacute;reas de conocimiento que conforman la prueba.</font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Con base en los resultados obtenidos, se observ&oacute; que el examen es particularmente informativo en niveles de rasgo cercanos al promedio (cero). Ello implica, que el nivel de precisi&oacute;n con el cual se est&aacute;n estimando los valores de habilidad promedios, particularmente en el intervalo de &#45;0.5 a 0.5 y por ende, el error de medici&oacute;n son los m&aacute;s peque&ntilde;os en este intervalo (<a href="#f4">Figura 4</a>).</font></p>  	    <p align="center"><font face="verdana" size="2"><a name="f4"></a></font></p>  	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/iem/v1n3/a5f4.jpg"></font></p>  	    <p align="justify"><font face="verdana" size="2">En la <a href="#t3">Tabla 3</a>, se muestran los coeficientes de correlaci&oacute;n de Pearson entre las distintas &aacute;reas de conocimiento que conformaron el examen acortado, observ&aacute;ndose los valores de correlaci&oacute;n moderados, lo cual permite vislumbrarlos como constructos relativamente independientes entre s&iacute;.</font></p>  	    <p align="center"><font face="verdana" size="2"><a name="t3"></a></font></p>  	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/iem/v1n3/a5t3.jpg"></font></p>  	    <p align="justify"><font face="verdana" size="2">A partir de los resultados del an&aacute;lisis y selecci&oacute;n de reactivos, se encontr&oacute; que inicialmente era posible reducir el n&uacute;mero de reactivos que conformaban la prueba a 250, manteniendo la misma confiabilidad global que la longitud original con &#945;=0.93 (<a href="#f5">Figura 5</a>), as&iacute; como una confiabilidad aceptable en las &aacute;reas de conocimiento exploradas.</font></p>  	    <p align="center"><font face="verdana" size="2"><a name="f5"></a></font></p>  	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/iem/v1n3/a5f5.jpg"></font></p>  	    <p align="justify"><font face="verdana" size="2">Asimismo, en las dos versiones de la prueba, original y acortada, el examen es particularmente informativo en niveles de habilidad bajos y cercanos al promedio (cero), para los distintos subtest que lo constituyen (lo que implica que el error de medida es menos en estos niveles de habilidad). Por otra parte, en la versi&oacute;n acortada del instrumento, en general, hay una mejor&iacute;a en la discriminaci&oacute;n de los reactivos que la constituyen (el promedio de este par&aacute;metro pas&oacute; de 0.67 a 0.74). Por otro lado, los valores de la dificultad mejoraron sensiblemente al excluirse &iacute;tems con valores de dificultad extremos (el promedio de dificultad pas&oacute; de 1.21 a 0.39), en tanto que los valores del par&aacute;metro <b>c</b> quedaron muy similares en ambas versiones de la prueba (0.18 en la versi&oacute;n extendida y 0.19 en la versi&oacute;n acortada), siendo en ambos casos adecuado. Finalmente, 244 de los 250 reactivos que conforman la prueba acortada, proporcionalmente tienen un mejor ajuste al modelo de 3pl, que los de la prueba extensa (97% y 84%, respectivamente).</font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Discusi&oacute;n y conclusiones</b></font></p>  	    <p align="justify"><font face="verdana" size="2">El presente trabajo describe una experiencia de an&aacute;lisis psicom&eacute;trico con la TRI en el Examen Profesional Te&oacute;rico de la Facultad de Medicina de la UNAM, una prueba sumativa de altas consecuencias, que se aplica al final de la carrera de m&eacute;dico cirujano. Hasta donde pudieron identificar los autores, se trata de uno de los primeros reportes en la literatura publicada disponible sobre el uso de la TRI en ex&aacute;menes sumativos en escuelas de medicina, en nuestro medio. El an&aacute;lisis muestra las diversas aristas de informaci&oacute;n que pueden obtenerse con el uso de esta familia de modelos matem&aacute;ticos, que no es posible definir con el modelo de TCT. El uso de la TRI en este reporte provey&oacute; de una serie de elementos a los dise&ntilde;adores y usuarios de los resultados del examen, que contribuyeron a la mejor&iacute;a de calidad del instrumento e incremento de la validez de las interpretaciones de los resultados. Por otra parte, la informaci&oacute;n obtenida con esta metodolog&iacute;a ayud&oacute; a seleccionar los reactivos con mejores caracter&iacute;sticas psicom&eacute;tricas, as&iacute; como a reducir la longitud de la prueba de manera sustancial manteniendo una confiabilidad adecuada. Casi la totalidad de los reactivos del examen acortado se ajustaron al modelo propuesto.</font></p>  	    <p align="justify"><font face="verdana" size="2">La TRI ha sido extensamente utilizada en las &uacute;ltimas d&eacute;cadas en diversos escenarios educativos, y se han escrito m&uacute;ltiples libros y revisiones sobre el tema, algunos dirigidos a la evaluaci&oacute;n en ciencias de la salud.<sup>11,19&#45;23</sup> A pesar de las extraordinarias propiedades de los modelos psicom&eacute;tricos de TRI, que pueden contribuir a resolver los profundos problemas de la TCT como son su dependencia de la muestra y la confusi&oacute;n de los resultados con el instrumento, por diversas razones no se han utilizado de manera m&aacute;s amplia en las escuelas de medicina e instituciones que realizan evaluaciones del aprendizaje en ciencias de la salud, a pesar de que est&aacute;n disponibles programas de c&oacute;mputo capaces de realizar los c&aacute;lculos requeridos.<sup>11,24</sup> Algunas de estas razones son los or&iacute;genes y evoluci&oacute;n hist&oacute;rica de dichos modelos, su complejidad matem&aacute;tica y lo estricto de las premisas que deben satisfacerse para que sean aplicables y produzcan resultados apropiados, como son la unidimensionalidad y lo grande de los tama&ntilde;os muestrales. Se requieren aproximadamente 200 sujetos para utilizar el modelo de TRI de un par&aacute;metro, 500 sujetos para el de dos par&aacute;metros y hasta 1 000 o m&aacute;s para el de tres par&aacute;metros.<sup>10,11,25</sup> La Facultad de Medicina de la UNAM es la escuela de medicina m&aacute;s grande de M&eacute;xico, con aproximadamente 16 000 estudiantes, 7 000 de la licenciatura de m&eacute;dico cirujano y m&aacute;s de 9 000 residentes,<sup>26</sup> lo que la coloca en el rango de tama&ntilde;o de muestra apropiado para utilizar la TRI en sus evaluaciones de aprendizaje. En este trabajo con una muestra de 882 estudiantes se logr&oacute; satisfacer los requerimientos conceptuales para el uso de la TRI, con la mayor&iacute;a de los reactivos seleccionados ajust&aacute;ndose al modelo de tres par&aacute;metros. Es importante hacer notar que la TRI no debe aplicarse en grupos peque&ntilde;os de sujetos, ya que los resultados ser&iacute;an cuestionables.</font></p>  	    <p align="justify"><font face="verdana" size="2">La informaci&oacute;n proporcionada por el an&aacute;lisis del examen de la Facultad de Medicina de la UNAM, considerando el conjunto global de la prueba es muy informativa a niveles de habilidad cercanas al promedio. Cuando se observan los resultados considerando las &aacute;reas de conocimiento, en algunas de ellas el nivel de precisi&oacute;n es mayor a niveles de dominio bajos, en particular en el &aacute;rea de Urgencias m&eacute;dicas, donde si bien su valor de confiabilidad es el m&aacute;s alto, su precisi&oacute;n es m&aacute;s certera en los niveles de habilidad en torno a &#45;1. Estos niveles de precisi&oacute;n en la estimaci&oacute;n de rasgos bajos o promedios de dominio se deben fundamentalmente a que los reactivos de las distintas &aacute;reas del examen tienen en promedio, valores altos de &iacute;ndice de dificultad y de discriminaci&oacute;n bajos o moderados. Por otra parte, la constante de que los valores del par&aacute;metro de seudoadivinaci&oacute;n sean bajos en las &aacute;reas de conocimiento, permite observar que la posibilidad de que sujetos con bajo nivel de dominio acrediten el examen por simple adivinaci&oacute;n o azar sea virtualmente imposible. Es necesario se&ntilde;alar, la conveniencia de que esta prueba contenga reactivos que permitan estimar de una manera m&aacute;s precisa niveles de dominio altos, particularmente si se considera que se trata de un examen de egreso en donde se busca medir con mayor precisi&oacute;n a la mayor parte de la poblaci&oacute;n que sustenta la prueba, con la finalidad de obtener su t&iacute;tulo profesional.<sup>10,11</sup></font></p>  	    <p align="justify"><font face="verdana" size="2">Una de las ventajas de la TRI sobre la TCT es la informaci&oacute;n que se obtiene del Error Est&aacute;ndar de Medici&oacute;n (EEM), ya que en la TCT, el EEM tradicional representa una banda de error que es la misma para todos los sustentantes, y en la TRI el EEM se computa para cada valor de &#952;. Lo anterior hace posible, que en la TRI sea pueda evaluar qu&eacute; tan confiable es la medici&oacute;n para cada punto en la distribuci&oacute;n de resultados.<sup>10,11</sup> En este trabajo se encontr&oacute; que el EEM es menor en los niveles promedio de habilidad, y mayor en los extremos, lo que coadyuva a tener mayor precisi&oacute;n de la medici&oacute;n en las &aacute;reas m&aacute;s potencialmente cercanas al punto de corte.</font></p>  	    <p align="justify"><font face="verdana" size="2">Uno de los alcances del presente trabajo es mostrar la relevancia de emplear estrategias de an&aacute;lisis innovadoras en el campo de la educaci&oacute;n. En nuestro pa&iacute;s es de trascendental importancia mejorar la calidad de la educaci&oacute;n a todos los niveles, y la evaluaci&oacute;n con pruebas estandarizadas realizadas de manera profesional es un componente fundamental de esta estrategia.<sup>27</sup> Encontramos pocos trabajos publicados del uso de la TRI en evaluaci&oacute;n del aprendizaje en nuestro pa&iacute;s.<sup>27&#45;30</sup> Los trabajos publicados en la literatura arbitrada en M&eacute;xico se refieren a ex&aacute;menes de ingreso a la universidad, y ex&aacute;menes para evaluaci&oacute;n del aprendizaje en educaci&oacute;n b&aacute;sica y media superior.<sup>28,30</sup> Es importante incrementar la profesionalizaci&oacute;n en medici&oacute;n educativa de los grupos de trabajo que laboran en las facultades y escuelas de medicina, para lograr darle a la evaluaci&oacute;n del aprendizaje el lugar preponderante que se merece. La magnitud de la responsabilidad que las universidades, Consejos de certificaci&oacute;n de especialistas e instituciones de atenci&oacute;n a la salud, tienen para documentar de manera v&aacute;lida y confiable, que los m&eacute;dicos generales y especialistas que se grad&uacute;an y obtienen el certificado y c&eacute;dula profesional, debe apreciarse en su justa dimensi&oacute;n. La sociedad espera y merece que las instancias correspondientes documenten realmente, que los profesionales de la salud poseen las competencias requeridas para una pr&aacute;ctica efectiva y segura.</font></p>  	    <p align="justify"><font face="verdana" size="2">Una de las conclusiones importantes de este trabajo es que los modelos de TCT y TRI, si bien tienen diferencias substanciales, en la pr&aacute;ctica se pueden utilizar de manera complementaria para lograr una pr&aacute;ctica de evaluaci&oacute;n educativa m&aacute;s profesional y eficaz, ya que cada uno tiene virtudes y limitaciones que debemos ponderar de acuerdo a la situaci&oacute;n de evaluaci&oacute;n espec&iacute;fica.<sup>31&#45;33</sup> De manera particular, el modelo de TRI permite analizar de una manera m&aacute;s integral los &iacute;tems que componen un test, permitiendo seleccionar aquellos que muestren mejores par&aacute;metros en cuanto a los valores de dificultad, discriminaci&oacute;n y seudoadivinaci&oacute;n y, con un menor n&uacute;mero de &iacute;tems, determinar la habilidad de los examinados. Adem&aacute;s, permite identificar los reactivos que proporcionen mayor informaci&oacute;n de los niveles de rasgo en los que se tenga particular inter&eacute;s. Con esto, se logran seleccionar a priori los reactivos cuyo error de medici&oacute;n sea menor en los niveles de rasgo que se pretenden medir y as&iacute; conformar la prueba m&aacute;s precisa a esos valores de dominio.</font></p>  	    <p align="justify"><font face="verdana" size="2">El Examen Profesional Te&oacute;rico de la Facultad de Medicina era muy extenso, con las consecuencias que esto implica, por lo que el disminuir su longitud, con fundamentos t&eacute;cnicos, fue uno de los objetivos del presente trabajo. Con frecuencia el n&uacute;mero de reactivos que conforman los ex&aacute;menes en las escuelas de medicina es determinado por la tradici&oacute;n, por la dificultad de dise&ntilde;ar e implementar ex&aacute;menes muy extensos, y por las limitaciones de tiempo de los estudiantes y profesores. Es deseable realizar un esfuerzo por informar este tipo de decisiones educativas con la mejor evidencia cient&iacute;fica disponible, y no hacer ex&aacute;menes m&aacute;s largos y dif&iacute;ciles de lo que es educativamente necesario, algunos autores sugieren que pruebas de m&aacute;s de 300 &iacute;tems pueden ser innecesariamente largas y costosas.<sup>34,35</sup> En nuestro trabajo se encontr&oacute; que el examen era susceptible de reducirse en longitud, obteni&eacute;ndose o incluso mejorando la precisi&oacute;n en la estimaci&oacute;n de los niveles de habilidad de los sujetos. Existen varias ventajas de realizar una prueba de menor longitud, que mejoran la eficiencia del instrumento: disminuci&oacute;n de cansancio y desgaste por parte de los sustentantes al enfrentarse a un examen m&aacute;s corto, ahorro de recursos (de tiempo y econ&oacute;micos) en el dise&ntilde;o y aplicaci&oacute;n de una prueba con menor n&uacute;mero de &iacute;tems, ingreso a la prueba de reactivos nuevos con fines de conocer su calidad m&eacute;trica, con el objetivo de crear y nutrir un banco de reactivos calibrados y con un amplio repertorio para medir distintos niveles de habilidad, particularmente en el rasgo de inter&eacute;s. Por lo anterior se sugiere trabajar un banco de reactivos de manera permanente, con &iacute;tems calibrados y que cubran el constructo a evaluar, para estar en condiciones de aplicar instrumentos de evaluaci&oacute;n que identifiquen apropiadamente las habilidades necesarias en los sustentantes.</font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2"><b>Contribuci&oacute;n de los autores</b></font></p>  	    <p align="justify"><font face="verdana" size="2">LDM y MSM participaron en el dise&ntilde;o, colecci&oacute;n de los datos, b&uacute;squeda bibliogr&aacute;fica y redacci&oacute;n del documento. LDM realiz&oacute; el an&aacute;lisis psicom&eacute;trico de los datos.</font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Financiamiento</b></font></p>  	    <p align="justify"><font face="verdana" size="2">Ninguno</font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Conflicto de intereses</b></font></p>  	    <p align="justify"><font face="verdana" size="2">Los autores declaran no tener ning&uacute;n conflicto de intereses.</font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Presentaciones previas</b></font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Trabajo oral en las Jornadas de Educaci&oacute;n M&eacute;dica, Facultad de Medicina de la UNAM.</font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Bibliograf&iacute;a</b></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">1. Downing SM, Yudkowsky R. Introduction to Assessment in the Health Professions. In: Downing SM, Yudkowsky (Editors). Assessment in Health Professions Education. New York, NY. Rout&#45;ledge. 2009. 1&#45;21.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582249&pid=S2007-5057201200030000500001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">2. Clauser BE, Margolis MJ, Case SM. Testing for Licensure and Certification in the Professions. In: Brennan RL (Editor). Educational Measurement. National Council on Measurement in Education and American Council on Education. 4th Ed. Westport, CT. Praeger Publishers. 2006. 701&#45;731.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582251&pid=S2007-5057201200030000500002&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <p align="justify"><font face="verdana" size="2">3. Consultado el 20 de febrero de 2012. <a href="http://www.nbme.org" target="_blank">http://www.nbme.org</a></font></p>  	    <p align="justify"><font face="verdana" size="2">4. Consultado el 22 de febrero de 2012. <a href="http://www.sep.gob.mx/es/sep1/Nivel_Licenciatura" target="_blank">http://www.sep.gob.mx/es/sep1/Nivel&#95;Licenciatura</a></font></p>  	    <p align="justify"><font face="verdana" size="2">5. Consultado el 7 de enero de 2012. <a href="https://www.dgae.unam.mx/normativ/legislacion/regexa97/regexa97.html" target="_blank">https://www.dgae.unam.mx/normativ/legislacion/regexa97/regexa97.html</a></font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">6. Consultado el 7 de enero de 2012. <a href="https://www.dgae.unam.mx/pdfs/opcionestitu2011.pdf" target="_blank">https://www.dgae.unam.mx/pdfs/opcionestitu2011.pdf</a></font></p>  	    <p align="justify"><font face="verdana" size="2">7. Consultado el 20 de marzo de 2012. <a href="http://sem.facmed.unam.mx/?q=node/18" target="_blank">http://sem.facmed.unam.mx/?q&#61;node/18</a></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">8. Downing SM. Validity: on the meaningful interpretation of assessment data. Med Educ 2003;37:830&#45;837.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582258&pid=S2007-5057201200030000500003&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">9. Kane MT. Validation. In: Brennan RL (Editor). Educational Measurement. National Council on Measurement in Education and American Council on Education. 4th Ed. Westport, CT. Praeger Publishers. 2006. 17&#45;64.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582260&pid=S2007-5057201200030000500004&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">10. De Champlain AF. A primer on classical test theory and item response theory for assessments in medical education. Med Educ 2010;44(1):109&#45;117.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582262&pid=S2007-5057201200030000500005&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">11. Downing SM. Item response theory: applications of modern test theory in medical education. Med Educ 2003;37(8):739&#45;745.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582264&pid=S2007-5057201200030000500006&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">12. Mart&iacute;nez Arias R. Psicometr&iacute;a: teor&iacute;a de los test psicol&oacute;gicos y educativos. Espa&ntilde;a. S&iacute;ntesis. 2005. 237&#45;328.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582266&pid=S2007-5057201200030000500007&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">13. Borsboom D, Mellenbergh G. Why psychometrics is not pathological. Theory &amp; Psychology 2004;14(1):105&#45;120.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582268&pid=S2007-5057201200030000500008&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">14. Baker FB. The Basics of Item Response Theory. 2<sup>nd</sup> Ed. USA. ERIC Clearinghouse on Assessment and Evaluation. 2001. 1&#45;896.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582270&pid=S2007-5057201200030000500009&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">15. Ponsoda V, Olea J, Revuelta J. Teor&iacute;a de la Respuesta al &Iacute;tem. En: Psicometr&iacute;a I. Facultad de Psicolog&iacute;a, UAM. Madrid: Espa&ntilde;a. Ediciones de la Universidad Aut&oacute;noma de Madrid. 1998. 1&#45;23.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582272&pid=S2007-5057201200030000500010&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">16. Osterlind SJ. Constructing Test Items: Multiple&#45;Choice, Constructed&#45;Response, Performance and Other Formats. 2nd Edition. Boston/Dordrecht/London. Kluwer Academic Publishers. 1998. 1&#45;339.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582274&pid=S2007-5057201200030000500011&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">17. Consultado el 20 de marzo de 2012. <a href="http://assess.com/" target="_blank">http://assess.com/</a></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">18. Spearman C. Correlation calculated with faulty data. British Journal of Psychology 1910;3:271&#45;295.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582277&pid=S2007-5057201200030000500012&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">19. Hambleton RK, Swaminathan H, Rogers HJ. Fundamentals of Item Response Theory. Measurement Methods for the Social Science. Newbury Park, California. Sage Publications. 1991. 1&#45;184.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582279&pid=S2007-5057201200030000500013&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">20. Barbero M. Desarrollos recientes de los modelos psicom&eacute;tricos de la teor&iacute;a de respuesta a los &iacute;tems. Psicothema 1999;11(1):195&#45;210.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582281&pid=S2007-5057201200030000500014&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">21. Chang C, Reeve B. Item response theory and its applications to patient&#45;reported outcomes measurement. Evaluation &amp; the Health Professions 2005;28(3):264&#45;282.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582283&pid=S2007-5057201200030000500015&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">22. Mu&ntilde;iz J. Las teor&iacute;as de los tests: teor&iacute;a cl&aacute;sica y teor&iacute;a de respuesta a los &iacute;tems. Papeles del Psic&oacute;logo 2010;31(1):57&#45;66.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582285&pid=S2007-5057201200030000500016&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">23. Mu&ntilde;iz J, Hambleton RK. Medio siglo de Teor&iacute;a de Respuesta a los &Iacute;tems. Anuario de Psicolog&iacute;a 1992;52:41&#45;66.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582287&pid=S2007-5057201200030000500017&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">24. Abal FJP, Lozzia GS, Aguerri ME, et al. La escasa aplicaci&oacute;n de la teor&iacute;a de respuesta al &iacute;tem en tests de ejecuci&oacute;n t&iacute;pica. Revista Colombiana de Psicolog&iacute;a 2010;19(1):111&#45;122.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582289&pid=S2007-5057201200030000500018&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">25. Harris D. An NCME Instructional Module on Comparison of 1&#45;, 2&#45;, and 3&#45; Parameter IRT Models. Educational Measurement: Issues and Practice 1989;8(1):35&#45;41.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582291&pid=S2007-5057201200030000500019&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">26. S&aacute;nchez&#45;Mendiola M, Durante&#45;Montiel I, Morales&#45;L&oacute;pez S, et al. Plan de Estudios 2010 de la Facultad de Medicina de la Universidad Nacional Aut&oacute;noma de M&eacute;xico. Gaceta M&eacute;dica de M&eacute;xico 2011;147(2):152&#45;158.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582293&pid=S2007-5057201200030000500020&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">27. Mart&iacute;nez Rizo F. Evaluaci&oacute;n educativa y pruebas estandarizadas. Elementos para enriquecer el debate. Revista de la Educaci&oacute;n Superior 2001;30(120):71&#45;85.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582295&pid=S2007-5057201200030000500021&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">28. Backhoff E, Tirado F, Larrazolo N. Ponderaci&oacute;n diferencial de reactivos para mejorar la validez de una prueba de ingreso a la universidad. Revista Electr&oacute;nica de Investigaci&oacute;n Educativa 2001;3(1):1&#45;10.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582297&pid=S2007-5057201200030000500022&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">29. Backhoff E, S&aacute;nchez A, Pe&oacute;n M, et al. Dise&ntilde;o y desarrollo de los ex&aacute;menes de la calidad y el logro educativos. Revista Mexicana de Investigaci&oacute;n Educativa 2006;11(29):617&#45;638.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582299&pid=S2007-5057201200030000500023&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">30. Hidalgo R. Teor&iacute;a de respuesta al &iacute;tem: una aplicaci&oacute;n educativa. Eureka 2008;22:20&#45;31.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582301&pid=S2007-5057201200030000500024&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">31. Hambleton R, Jones R. An NCME Instructional Module on Comparison of Classical Test Theory and Item Response Theory and Their Applications to Test Development. Educational Measurement: Issues and Practice 1993;12(3):38&#45;47.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582303&pid=S2007-5057201200030000500025&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">32. Manzi J, San Mart&iacute;n E. La necesaria complementariedad entre teor&iacute;a cl&aacute;sica de la medici&oacute;n (TCM) y teor&iacute;a de respuesta al &iacute;tem (TRI): aspectos conceptuales y aplicaciones. Estudios P&uacute;blicos 2003;90:145&#45;183.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582305&pid=S2007-5057201200030000500026&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">33. Burton RF. Can item response theory help us improve our tests? Med Educ 2004;38:338&#45;339.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582307&pid=S2007-5057201200030000500027&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">34. Burton RF. Sampling knowledge and understanding: how long should a test be? Assessment &amp; Evaluation in Higher Education 2006;31(5):569&#45;582.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582309&pid=S2007-5057201200030000500028&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">35. S&aacute;nchez&#45;Mendiola M. Educaci&oacute;n m&eacute;dica basada en evidencias: &iquest;Ser o no ser? Inv Ed Med 2012;1(2):82&#45;89.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=4582311&pid=S2007-5057201200030000500029&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>      ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Downing]]></surname>
<given-names><![CDATA[SM]]></given-names>
</name>
<name>
<surname><![CDATA[Yudkowsky]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Introduction to Assessment in the Health Professions]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Downing]]></surname>
<given-names><![CDATA[SM]]></given-names>
</name>
<name>
<surname><![CDATA[Yudkowsky]]></surname>
</name>
</person-group>
<source><![CDATA[Assessment in Health Professions Education]]></source>
<year>2009</year>
<page-range>1-21</page-range><publisher-loc><![CDATA[New York^eNY NY]]></publisher-loc>
<publisher-name><![CDATA[Rout-ledge]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Clauser]]></surname>
<given-names><![CDATA[BE]]></given-names>
</name>
<name>
<surname><![CDATA[Margolis]]></surname>
<given-names><![CDATA[MJ]]></given-names>
</name>
<name>
<surname><![CDATA[Case]]></surname>
<given-names><![CDATA[SM]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Testing for Licensure and Certification in the Professions]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Brennan]]></surname>
<given-names><![CDATA[RL]]></given-names>
</name>
</person-group>
<source><![CDATA[Educational Measurement: National Council on Measurement in Education and American Council on Education]]></source>
<year>2006</year>
<edition>4</edition>
<page-range>701-731</page-range><publisher-loc><![CDATA[Westport^eCT CT]]></publisher-loc>
<publisher-name><![CDATA[Praeger Publishers]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B3">
<label>8</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Downing]]></surname>
<given-names><![CDATA[SM]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Validity: on the meaningful interpretation of assessment data]]></article-title>
<source><![CDATA[Med Educ]]></source>
<year>2003</year>
<volume>37</volume>
<page-range>830-837</page-range></nlm-citation>
</ref>
<ref id="B4">
<label>9</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kane]]></surname>
<given-names><![CDATA[MT]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Validation]]></article-title>
<person-group person-group-type="editor">
<name>
<surname><![CDATA[Brennan]]></surname>
<given-names><![CDATA[RL]]></given-names>
</name>
</person-group>
<source><![CDATA[Educational Measurement: National Council on Measurement in Education and American Council on Education]]></source>
<year>2006</year>
<edition>4</edition>
<page-range>17-64</page-range><publisher-loc><![CDATA[Westport^eCT CT]]></publisher-loc>
<publisher-name><![CDATA[Praeger Publishers]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B5">
<label>10</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[De Champlain]]></surname>
<given-names><![CDATA[AF]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A primer on classical test theory and item response theory for assessments in medical education]]></article-title>
<source><![CDATA[Med Educ]]></source>
<year>2010</year>
<volume>44</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>109-117</page-range></nlm-citation>
</ref>
<ref id="B6">
<label>11</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Downing]]></surname>
<given-names><![CDATA[SM]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Item response theory: applications of modern test theory in medical education]]></article-title>
<source><![CDATA[Med Educ]]></source>
<year>2003</year>
<volume>37</volume>
<numero>8</numero>
<issue>8</issue>
<page-range>739-745</page-range></nlm-citation>
</ref>
<ref id="B7">
<label>12</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Martínez Arias]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<source><![CDATA[Psicometría: teoría de los test psicológicos y educativos]]></source>
<year>2005</year>
<page-range>237-328</page-range><publisher-name><![CDATA[Síntesis]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B8">
<label>13</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Borsboom]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
<name>
<surname><![CDATA[Mellenbergh]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Why psychometrics is not pathological]]></article-title>
<source><![CDATA[Theory & Psychology]]></source>
<year>2004</year>
<volume>14</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>105-120</page-range></nlm-citation>
</ref>
<ref id="B9">
<label>14</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Baker]]></surname>
<given-names><![CDATA[FB]]></given-names>
</name>
</person-group>
<source><![CDATA[The Basics of Item Response Theory]]></source>
<year>2001</year>
<edition>2</edition>
<page-range>1-896</page-range><publisher-name><![CDATA[ERIC Clearinghouse on Assessment and Evaluation]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B10">
<label>15</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ponsoda]]></surname>
<given-names><![CDATA[V]]></given-names>
</name>
<name>
<surname><![CDATA[Olea]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Revuelta]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Teoría de la Respuesta al Ítem]]></article-title>
<collab>UAM^dFacultad de Psicología</collab>
<source><![CDATA[Psicometría I]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B11">
<label>16</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Osterlind]]></surname>
<given-names><![CDATA[SJ]]></given-names>
</name>
</person-group>
<source><![CDATA[Constructing Test Items: Multiple-Choice, Constructed-Response, Performance and Other Formats]]></source>
<year>1998</year>
<edition>2</edition>
<page-range>1-339</page-range><publisher-loc><![CDATA[BostonDordrechtLondon ]]></publisher-loc>
<publisher-name><![CDATA[Kluwer Academic Publishers]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B12">
<label>18</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Spearman]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Correlation calculated with faulty data]]></article-title>
<source><![CDATA[British Journal of Psychology]]></source>
<year>1910</year>
<volume>3</volume>
<page-range>271-295</page-range></nlm-citation>
</ref>
<ref id="B13">
<label>19</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hambleton]]></surname>
<given-names><![CDATA[RK]]></given-names>
</name>
<name>
<surname><![CDATA[Swaminathan]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[Rogers]]></surname>
<given-names><![CDATA[HJ]]></given-names>
</name>
</person-group>
<source><![CDATA[Fundamentals of Item Response Theory: Measurement Methods for the Social Science]]></source>
<year>1991</year>
<page-range>1-184</page-range><publisher-loc><![CDATA[Newbury Park^eCalifornia California]]></publisher-loc>
<publisher-name><![CDATA[Sage Publications]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B14">
<label>20</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Barbero]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Desarrollos recientes de los modelos psicométricos de la teoría de respuesta a los ítems]]></article-title>
<source><![CDATA[Psicothema]]></source>
<year>1999</year>
<volume>11</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>195-210</page-range></nlm-citation>
</ref>
<ref id="B15">
<label>21</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Chang]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[Reeve]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Item response theory and its applications to patient-reported outcomes measurement]]></article-title>
<source><![CDATA[Evaluation & the Health Professions]]></source>
<year>2005</year>
<volume>28</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>264-282</page-range></nlm-citation>
</ref>
<ref id="B16">
<label>22</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Muñiz]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Las teorías de los tests: teoría clásica y teoría de respuesta a los ítems]]></article-title>
<source><![CDATA[Papeles del Psicólogo]]></source>
<year>2010</year>
<volume>31</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>57-66</page-range></nlm-citation>
</ref>
<ref id="B17">
<label>23</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Muñiz]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Hambleton]]></surname>
<given-names><![CDATA[RK]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Medio siglo de Teoría de Respuesta a los Ítems]]></article-title>
<source><![CDATA[Anuario de Psicología]]></source>
<year>1992</year>
<volume>52</volume>
<page-range>41-66</page-range></nlm-citation>
</ref>
<ref id="B18">
<label>24</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Abal]]></surname>
<given-names><![CDATA[FJP]]></given-names>
</name>
<name>
<surname><![CDATA[Lozzia]]></surname>
<given-names><![CDATA[GS]]></given-names>
</name>
<name>
<surname><![CDATA[Aguerri]]></surname>
<given-names><![CDATA[ME]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[La escasa aplicación de la teoría de respuesta al ítem en tests de ejecución típica]]></article-title>
<source><![CDATA[Revista Colombiana de Psicología]]></source>
<year>2010</year>
<volume>19</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>111-122</page-range></nlm-citation>
</ref>
<ref id="B19">
<label>25</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Harris]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[An NCME Instructional Module on Comparison of 1-, 2-, and 3- Parameter IRT Models]]></article-title>
<source><![CDATA[Educational Measurement: Issues and Practice]]></source>
<year>1989</year>
<volume>8</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>35-41</page-range></nlm-citation>
</ref>
<ref id="B20">
<label>26</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Sánchez-Mendiola]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[Durante-Montiel]]></surname>
<given-names><![CDATA[I]]></given-names>
</name>
<name>
<surname><![CDATA[Morales-López]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Plan de Estudios 2010 de la Facultad de Medicina de la Universidad Nacional Autónoma de México]]></article-title>
<source><![CDATA[Gaceta Médica de México]]></source>
<year>2011</year>
<volume>147</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>152-158</page-range></nlm-citation>
</ref>
<ref id="B21">
<label>27</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Martínez Rizo]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Evaluación educativa y pruebas estandarizadas: Elementos para enriquecer el debate]]></article-title>
<source><![CDATA[Revista de la Educación Superior]]></source>
<year>2001</year>
<volume>30</volume>
<numero>120</numero>
<issue>120</issue>
<page-range>71-85</page-range></nlm-citation>
</ref>
<ref id="B22">
<label>28</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Backhoff]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[Tirado]]></surname>
<given-names><![CDATA[F]]></given-names>
</name>
<name>
<surname><![CDATA[Larrazolo]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Ponderación diferencial de reactivos para mejorar la validez de una prueba de ingreso a la universidad]]></article-title>
<source><![CDATA[Revista Electrónica de Investigación Educativa]]></source>
<year>2001</year>
<volume>3</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>1-10</page-range></nlm-citation>
</ref>
<ref id="B23">
<label>29</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Backhoff]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[Sánchez]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Peón]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Diseño y desarrollo de los exámenes de la calidad y el logro educativos]]></article-title>
<source><![CDATA[Revista Mexicana de Investigación Educativa]]></source>
<year>2006</year>
<volume>11</volume>
<numero>29</numero>
<issue>29</issue>
<page-range>617-638</page-range></nlm-citation>
</ref>
<ref id="B24">
<label>30</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hidalgo]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Teoría de respuesta al ítem: una aplicación educativa]]></article-title>
<source><![CDATA[Eureka]]></source>
<year>2008</year>
<volume>22</volume>
<page-range>20-31</page-range></nlm-citation>
</ref>
<ref id="B25">
<label>31</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hambleton]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Jones]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[An NCME Instructional Module on Comparison of Classical Test Theory and Item Response Theory and Their Applications to Test Development]]></article-title>
<source><![CDATA[Educational Measurement: Issues and Practice]]></source>
<year>1993</year>
<volume>12</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>38-47</page-range></nlm-citation>
</ref>
<ref id="B26">
<label>32</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Manzi]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[San Martín]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[La necesaria complementariedad entre teoría clásica de la medición (TCM) y teoría de respuesta al ítem (TRI): aspectos conceptuales y aplicaciones]]></article-title>
<source><![CDATA[Estudios Públicos]]></source>
<year>2003</year>
<volume>90</volume>
<page-range>145-183</page-range></nlm-citation>
</ref>
<ref id="B27">
<label>33</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Burton]]></surname>
<given-names><![CDATA[RF]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Can item response theory help us improve our tests]]></article-title>
<source><![CDATA[Med Educ]]></source>
<year>2004</year>
<volume>38</volume>
<page-range>338-339</page-range></nlm-citation>
</ref>
<ref id="B28">
<label>34</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Burton]]></surname>
<given-names><![CDATA[RF]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Sampling knowledge and understanding: how long should a test be?]]></article-title>
<source><![CDATA[Assessment & Evaluation in Higher Education]]></source>
<year>2006</year>
<volume>31</volume>
<numero>5</numero>
<issue>5</issue>
<page-range>569-582</page-range></nlm-citation>
</ref>
<ref id="B29">
<label>35</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Sánchez-Mendiola]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Educación médica basada en evidencias: ¿Ser o no ser?]]></article-title>
<source><![CDATA[Inv Ed Med]]></source>
<year>2012</year>
<volume>1</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>82-89</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
