1. Introducción
La identificación temprana de las alteraciones en el desarrollo infantil es esencial para el bienestar de los niños y sus familias, pues permite que se proporcione un diagnóstico adecuado y una pronta intervención en aquellos que presenten alguna alteración1. Para quien las recibe, dichas intervenciones están asociadas con una mejor funcionalidad en la vida adulta en múltiples esferas2, además de que presentan una relación costo-beneficio muy alta3.
La comparación de las características clínicas de cada prueba es importante para auxiliar en la elección del instrumento más adecuado en la evaluación del desarrollo. Además, resulta importante comparar la calidad de reporte y el riesgo de sesgo de las mismas, puesto que los reportes de resultados de exámenes diagnóstico o de tamiz sesgados pueden dar como resultado la adopción generalizada de pruebas que produzcan una clasificación de riesgo imprecisa, y por tanto llevar al personal de salud a tomar decisiones de referencia, diagnóstico o tratamiento, incorrectas4.
En una revisión sistemática y análisis comparativo de la literatura, realizados en 2012 por Romo-Pardo y colaboradores, se encontraron 13 pruebas de tamiz creadas y validadas en América para la identificación oportuna de problemas en el desarrollo infantil, pero ninguna con datos publicados en revistas científicas para México (excepto Denver-II) (4. En los últimos años se ha creado un número importante de pruebas de tamiz, algunas de las cuales ya se aplican a la población menor de 5 años en México, y cuya información sobre validación y propiedades no se encuentra publicada en revistas indizadas. Tampoco se ha realizado una comparación entre las mismas.
Con base en lo anterior, el objetivo del presente artículo fue comparar la calidad del reporte de validación publicado y el riesgo de sesgo entre las pruebas de tamiz desarrolladas y validadas en México.
2. Métodos
2.1. Búsqueda y análisis
Dado que parte de la información sobre las pruebas de México no está disponible en motores de búsqueda de revistas científicas, durante octubre de 2015 se realizó una búsqueda exhaustiva de herramientas de escrutinio para el desarrollo infantil en menores de 5 años, desarrolladas y validadas en México, desde 1980 a la fecha. Se llevó a cabo una estrategia simple utilizando los términos "neurodesarrollo" o "desarrollo infantil" y "tamiz", así como los términos "child development" y "screening", en PubMed/MEDLINE, Scopus, Web Of Science, EMBASE, EBSCO, Google Scholar, LiLACS y SciELO limitando los resultados a pruebas realizadas en México.
Mediante las distintas búsquedas, la referencia cruzada documental y de preguntar a expertos en el tema, se identificaron siete pruebas de tamiz elaboradas en México para evaluar el neurodesarrollo. Con el nombre de las pruebas, se realizó una búsqueda exhaustiva de publicaciones que reportaran la validación de las mismas. Además de las fuentes consultadas previamente, se investigó en la literatura gris. Para el análisis, se incluyeron solamente aquellas pruebas en las cuales se encontró validación.
2.2. Instrumentos utilizados para la evaluación de las pruebas
2.2.1. STARD
Los estándares para reportar la precisión diagnóstica (STARD, por sus siglas en inglés) 5,6 fueron diseñados con el objetivo de mejorar la calidad de reporte en los estudios de precisión diagnóstica. Consisten en una lista de cotejo de 25 ítems y un diagrama de flujo que informa sobre el método de selección de los pacientes, el orden de realización de las pruebas y el número de pacientes que deben evaluarse mediante la prueba índice y la prueba de referencia. Evalúa que las publicaciones proporcionen información suficiente que permita detectar el sesgo potencial en un estudio y juzgar la potencial generalización y aplicabilidad de los resultados.
2.2.2. QUADAS
La herramienta de calidad de la evaluación de los estudios de precisión diagnóstica en revisiones sistematizadas (QUADAS, por sus siglas en inglés)7 fue desarrollada para auxiliar en la evaluación del riesgo de sesgo de las publicaciones de precisión diagnóstica. Fue elaborada basándose en tres exámenes de pruebas existentes y un proceso con metodología Delphi con la participación de un grupo de nueve expertos. Consta de una lista de 14 ítems cualitativos que incluye las características de los pacientes, el estándar de referencia, el sesgo de progresión de la enfermedad, el sesgo de verificación, el sesgo de revisión, el sesgo de revisión clínica, el sesgo de incorporación, la prueba de ejecución y los resultados indeterminados. Estos ítems deben ser calificados mediante la respuesta "sí", si se considera que el estudio analizado cuenta con las características descritas en cada ítem; "no", si no cumple con las características; o "poco claro", si el texto no contiene la información suficiente para establecer un juicio.
2.2.3. QUADAS-2
El instrumento QUADAS-28 se diseñó con el objetivo de evaluar el riesgo de sesgo en los estudios de precisión diagnóstica. Consta de un cuestionario estructurado con preguntas abiertas agrupadas en cuatro dominios, que incluyen la selección de pacientes, la prueba índice, el estándar de referencia y el tiempo transcurrido entre la prueba índice y el estándar de referencia. La herramienta debe ser completada en cuatro fases: la primera pretende establecer la pregunta de revisión; la segunda, desarrollar una guía específica de revisión; posteriormente, evaluar el diagrama de flujo publicado o, en caso de no haber sido publicado, realizar uno con los datos proporcionados; y, finalmente, establecer un juicio de sesgo y aplicabilidad. Cada dominio se evalúa en términos del riesgo de sesgo y los tres primeros también son evaluados en términos de preocupaciones con respecto a la aplicabilidad. Para ayudar a establecer un juicio sobre el riesgo de sesgo, se incluyen preguntas de señalización. Esta herramienta permite realizar una presentación tabular para cada estudio evaluado, calificando cada ítem como bajo riesgo, alto riesgo o riesgo poco claro.
2.3. Procedimiento de la evaluación
El análisis se efectuó en fases. En una primera fase, cada uno de los autores evaluó, por separado y de forma independiente, la calidad del reporte de validación, mediante el uso de la herramienta STARD6, y el riesgo de sesgo en estudios, mediante las herramientas QUADAS7 y QUADAS-28. Los resultados de dicha evaluación, incluyendo flujogramas y listas de cotejo, fueron recolectados utilizando los formatos desarrollados para cada instrumento. En una segunda fase, se compararon los formatos de evaluación de cada uno de los autores. Las discrepancias fueron resueltas por consenso. Se produjo una evaluación final que fue vaciada en los formatos antes mencionados y transformada para su presentación gráfica.
3. Resultados
3.1. Identificación de las pruebas de tamiz
Se identificaron siete pruebas de tamiz de alteraciones en el neurodesarrollo creadas en México: la Escala de Desarrollo Integral del Niño9, la Evaluación del Neurodesarrollo del Neonato (EVANENE)10, la Valoración Neuroconductual del Desarrollo del Lactante (VANEDELA)11, Evaluación del Desarrollo Infantil (EDI)12, Prueba de Tamiz del Neurodesarrollo infantil (PTNI)13, Cartillas de Vigilancia para identificar alteraciones en el Desarrollo del Lactante (CVDL)14 e Indicadores de riesgo del Perfil de Conductas de Desarrollo (INDIPCD-R)15.
Todos las publicaciones que se encontraron en los motores de búsqueda fueron relacionadas con la prueba EDI16-18, con excepción de una relacionada con NPED (Neuropediatric Development) (19, la cual fue excluida ya que evaluaba un instrumento desarrollado en Cuba y no tenía un diseño de validación concurrente. El resto fue localizado en publicaciones científicas no indizadas ni indexadas (INDIPCD-R15, CVDL20)), en páginas web (PTNI21)), o como libros, manuales, protocolos institucionales de investigación o tesis de grado (EVANENE22, VANEDELA23, EDI16-18, PTNI21)).
Tres contaban con artículos de validación publicados, una contaba con datos de la validación publicados en línea y otra como reporte de tesis. Finalmente, se incluyeron cinco pruebas para ser evaluadas. Se excluyeron de este estudio la Escala de Desarrollo Integral del Niño, por no encontrar datos sobre su validación, y EVANENE, por el mismo motivo, ya que se localizó solamente una tesis de validación de la misma pero como instrumento de tamiz de daño cerebral.
3.2. Características generales de las pruebas evaluadas
Las características generales de las pruebas evaluadas se describen en la Tabla 1. Se encontró una gran variedad de rango de edades evaluadas. EDI es la prueba que evalúa el rango de edad más amplio (1-59 meses). La mayoría de las pruebas utiliza la observación directa como modalidad de evaluación excepto EDI, que tiene una modalidad de evaluación mixta: observación directa/interrogatorio dirigido. Ninguna utiliza la modalidad exclusiva de interrogatorio a través del llenado de un cuestionario por los padres. Las áreas evaluadas muestran una gran variabilidad, aunque en general se ajustan a las áreas recomendadas por la literatura: motora, lenguaje, adaptativo o cognitivo, personal o social24,25.
Solamente INDIPCD-R, EDI y VANEDELA presentan la evaluación de signos neurológicos. Los sistemas de calificación utilizados difieren ampliamente, pero están adecuadamente descritos. Lo mismo se puede afirmar de los criterios de anormalidad, con excepción de los del INDIPCD-R, cuya definición publicada resulta confusa ya que no es claro cómo se compara el puntaje obtenido con el del estándar de oro. Las propiedades de las pruebas de tamiz reportadas en los estudios de validación revisados se encuentran resumidas en la Tabla 2.
VANEDELA: Valoración Neuroconductual del Desarrollo del Lactante; EDI: Evaluación del Desarrollo Infantil; PTNI: Prueba de Tamiz del Neurodesarrollo Infantil; CVDL: Cartillas de Vigilancia para identificar alteraciones en el Desarrollo del Lactante; INDIPCD-R: Indicadores de riesgo del Perfil de Conductas de Desarrollo Revisado; VPP: valor predictivo positivo; VPN: valor predictivo negativo; m: meses; INP: Instituto Nacional de Pediatría; UAM-X: Universidad Autónoma Metropolitana plantel Xochimilco; DE: desviaciones estándar; IDB-2: Inventario de Desarrollo de Battelle 2ª. ed. en español; CTD: cociente toral de desarrollo; EEG: Examen evolutivo de Gessell; CDD: cociente de desarrollo del dominio; PCD-R: perfil de conductas del desarrollo; CENDI: centro de desarrollo infantil.
Los tamaños de muestra para realizar las validaciones variaron. El más amplio fue el reportado por la PTNI. La selección de la muestra también varió, ya que se encontraron dos pruebas que se validaron en poblaciones provenientes de instituciones de salud (VANEDELA e INDIPCD-R), dos que obtuvieron su muestra en poblaciones específicas (PTNI en rural y CVDL en urbana) y una que presentó una selección de muestra intencionadamente balanceada en cuanto a características demográficas y factores de riesgo biológico (EDI).
El estándar de oro utilizado en la validación también fue diferente para las diversas pruebas: tres pruebas utilizaron una prueba diagnóstica del neurodesarrollo, como el Examen Evolutivo de Gessell (EEG)26 o el Inventario de Desarrollo de Battelle-2 (IDB-2)27 (VANEDELA, EDI, CVDL). Una prueba utilizó la prueba diagnóstica de la cual deriva (PCD-R)28,29. Otra prueba utilizó como indicador proxy una serie de medidas de estado nutricional, anemia y crecimiento, a solas y como puntaje compuesto (PTNI).
Todas las pruebas reportaron valores de sensibilidad y especificidad así como valores predictivos positivos (VPP) y negativos (VPN) adecuados con lo recomendado por la literatura24, aunque hubo pruebas que presentaron una amplia variación, dependiendo del grupo de edad evaluado (VANEDELA) o del estándar de oro utilizado (PTNI). En algunos rangos de edad fueron demasiado bajos para ser utilizados. Tres pruebas no describieron intervalos de confianza de sus datos (VANEDELA, PTNI, CVDL).
3.3. Resultados de la evaluación de la calidad del reporte
En la Tabla 3 se muestra la lista de cotejo de la herramienta STARD. Ninguna de las pruebas cumplió con la totalidad de los ítems a reportar. Las más completas en su descripción de métodos fueron VANEDELA y EDI. Las áreas en las que se encontraron más pruebas con datos faltantes o incompletos fueron las referentes a la descripción del procedimiento de muestreo y selección de pacientes (VANEDELA, PTNI, CVDL, INDIPCD-R), los métodos mediante los cuales se describieron los datos faltantes y los casos que se perdieron al seguimiento (todas), la descripción de los participantes y el flujograma del estudio (PTNI, CVDL, INDIPCD-R, EDI) y los métodos establecidos para medir la reproducibilidad de la prueba (INDIPCD-R).
STARD: Standards for Reporting of Diagnostic Accuracy; VANEDELA: Valoración Neuroconductual del Desarrollo del Lactante; EDI: Evaluación del Desarrollo Infantil; PTNI: Prueba de Tamiz del Neurodesarrollo Infantil; CVDL: Cartillas de Vigilancia para identificar alteraciones en el Desarrollo del Lactante; INDIPCD-R: Indicadores de riesgo del Perfil de Conductas de Desarrollo Revisado.
3.4. Resultados de la evaluación del riesgo de sesgo
La Tabla 4 muestra los resultados de la aplicación de la herramienta de evaluación de riesgo de sesgo QUADAS. Ninguna prueba cumplió al 100% los criterios evaluados. Solo una prueba evaluó un espectro de pacientes representativo de la población (EDI). Ninguna reportó manejo de resultados no interpretados, abandono del estudio u otras pérdidas de casos. Los resultados de la evaluación QUADAS-2 se muestran el Tabla 5 y son una valoración cualitativa final que representa el consenso de la opinión de los autores sobre qué tanto riesgo de sesgo presenta cada una de las pruebas. Debido a la validación mediante el estándar de oro proxy, la PTNI presenta un alto riesgo de sesgo con respecto a su estándar de referencia (peso para la edad, talla para la edad, anemia y estimulación temprana que no es independiente a la prueba). La INDIPCD-R presenta un alto riesgo de sesgo de su prueba índice y estándar de oro ya que se valida contra sí misma. Al tratarse de muestras por conveniencia, sin ningún tipo de ajuste, todas las pruebas presentan un alto riesgo de sesgo con respecto a la selección de sus pacientes. La que menos riesgo tuvo fue EDI ya que, intencionalmente, balanceó los grupos evaluados.
VANEDELA: Valoración Neuroconductual del Desarrollo del Lactante; EDI: Evaluación del Desarrollo Infantil; PTNI: Prueba de Tamiz del Neurodesarrollo Infantil; CVDL: Cartillas de Vigilancia para identificar alteraciones en el Desarrollo del Lactante; INDIPCD-R: Indicadores de riesgo del Perfil de Conductas de Desarrollo Revisado.
VANEDELA: Valoración Neuroconductual del Desarrollo del Lactante; EDI: Evaluación del Desarrollo Infantil; PTNI: Prueba de Tamiz del Neurodesarrollo Infantil; CVDL: Cartillas de Vigilancia para identificar alteraciones en el Desarrollo del Lactante; INDIPCD-R: Indicadores de riesgo del Perfil de Conductas de Desarrollo Revisado.
4. Discusión
En previas revisiones4 y reportes14,15 es repetitivo el comentario sobre las escasas o nulas menciones de pruebas mexicanas en la literatura, así como la dificultad de encontrar las validaciones de pruebas latinoamericanas. El escaso número de resultados obtenido al realizar búsquedas sencillas limitando los resultados a México podría explicarse por dos factores: el primero sería el bajo nivel de visibilidad de las revistas latinoamericanas, ya que muchas no se encuentran indexadas e indizadas, y por tanto no aparecen en los motores de búsqueda30. El segundo, por una mezcla entre un probable "temor" a las publicaciones internacionales y un efecto de "malinchismo" hacia las nacionales31, que dificulta la decisión de iniciar el laborioso proceso de transformación de textos de tesis de grado en artículos científicos32.
Como no existe una prueba de tamiz del desarrollo ideal, se puede decir que las características generales de las pruebas las hacen adecuadas para su uso en México. Antes de considerar los aspectos de la calidad de validación, la decisión de utilizar una sobre otra debe considerar su flexibilidad de uso24. En este sentido, el rango de edades evaluadas, la variedad en modalidades de evaluación y la sencillez del sistema visual de calificación por "semáforo" favorecen a la prueba EDI.
Ningún estudio se encuentra libre de fallas en la calidad de su reporte. El más completo fue el reporte de VANEDELA, muy amplio y completo al ser una tesis de 180 páginas. Si bien se encuentran casi todos los datos requeridos por STARD para valorar la confiabilidad de los datos reportados, hay aspectos metodológicos que limitan su validez externa, como el tamaño de muestra pequeño de cada uno de los grupos etarios evaluados y el proceso de reclutamiento de la muestra, que fue por conveniencia en una población urbana proveniente de ambientes clínico-hospitalarios. Otros reportes de validación, como el del INDIPCD-R, omiten datos importantes para poder evaluar su validez, lo que dificulta su evaluación objetiva. Una posible solución a este fenómeno podría ser el extender el uso de las herramientas de evaluación utilizadas en este artículo como una lista de cotejo guía para garantizar que los escritos científicos estén completos antes de publicarse33.
No existe publicación científica que esté libre de sesgos; sin embargo, existen procedimientos para reducirlos. Los resultados de las dos evaluaciones finales (QUADAS y QUADAS-2) muestran que, si bien los datos de sensibilidad y especificidad son, a grosso modo, similares entre las pruebas comparadas, la validez de estos datos está comprometida en distintos grados. Algunas de las publicaciones evaluadas omiten datos básicos, como las medidas de dispersión de datos o precisión de la medición, y otras comprometen el procedimiento de validación concurrente al comparar la prueba contra sí misma o una medición proxy. Otras pruebas, como VANEDELA, también presentan alto riesgo de sesgo por lo pequeño de la muestra.
De manera similar a lo concluido en revisiones comparativas de pruebas de tamiz del desarrollo realizadas en otras partes del mundo34, se encontró que de entre las pruebas para tamiz del neurodesarrollo creadas en México no hay ninguna que sea perfecta. La más flexible en su aplicación y con menor riesgo de sesgo en sus resultados de validación fue la prueba EDI.
Las pruebas de tamiz del neurodesarrollo, creadas y validadas en México, son, en general, adecuadas para su uso, aunque presentan calidades de reporte de publicación y riesgo de sesgo variables, y ninguna es perfecta. La prueba con mejor calidad de reporte de validación es VANEDELA, seguida de EDI, y la de menor riesgo de sesgo en los datos publicados es la prueba EDI. Se requerirá de un estudio comparativo entre las pruebas de tamiz contra el estándar de oro para poder establecer cuál de ellas es la que tiene las mejores propiedades.
Financiamiento
Este trabajo no contó con financiamiento alguno.