Introducción
El desempeño clinimétrico o psicométrico de los instrumentos de medición en salud es característico de cada población, es decir, presenta variaciones importantes y esto puede limitar la utilidad en algunos contextos.1
En el año 2009, Jones et al. publicaron la escala de evaluación de la EPOC, en inglés COPD Assessment Test o CAT. Éste es un instrumento de ocho preguntas para evaluar la calidad de vida en este grupo de pacientes y mostró alta consistencia interna, alfa de Cronbach de 0.88 y estructura unidimensional.2
Se ha informado un buen desempeño clinimétrico para la CAT en diferentes poblaciones. Por ejemplo, Gupta et al. realizaron una revisión sistemática de los estudios disponibles desde la introducción del instrumento hasta el año 2013 y hallaron consistencia interna con valores entre 0.85 y 0.98 y aceptables coeficientes en la exploración de la validez (convergente, discriminante y predictiva).3 Por otra parte, Weldam et al. revisaron las escalas para evaluar la calidad de vida en pacientes con EPOC e informaron un único estudio que probó la estructura interna unidimensional para la CAT mediante análisis Rasch.4
Dado el adecuado desempeño que mostró la CAT en la versión inglesa se realizaron traducciones a otros idiomas.5-14 Sin embargo, la consistencia interna y la dimensionalidad de la CAT no han sido evaluadas en pacientes de habla hispana. Por una parte, la consistencia interna de la CAT ha sido exageradamente alta en algunas investigaciones, sin que se prestara atención a ello.3-5 De la misma forma, no se ha informado la omega de McDonald como una medida más apropiada de la confiabilidad de una escala de medición en salud cuando el valor de los coeficientes para cada ítem en el análisis de factores es lo suficientemente heterogéneo.15 Y por otra, no se puede garantizar la dimensionalidad de un instrumento a partir de una única investigación.2,4 La estructura interna de los instrumentos de mediciones en salud se deben evaluar repetidamente en diferentes poblaciones.1 Sin duda, los hallazgos del presente estudio ayudarán a decidir el uso de la CAT en estudios clínicos y epidemiológicos en lengua castellana.
El objetivo del presente estudio fue conocer la confiabilidad y dimensional de la CAT en una muestra de pacientes en la ciudad de Santa Marta, Colombia.
Material y método
La presente es una investigación clinimétrica, es decir, un estudio metodológico o de evaluación de instrumento de tamización, diagnóstico o gradación clínica. Esta investigación contó con la revisión y aprobación de un comité de ética en investigación. Los participantes firmaron consentimiento informado en consonancia con la legislación colombiana para la investigación con personas y la Declaración de Helsinki.
Este estudio se realizó en Santa Marta, Colombia, una ciudad a nivel del mar en la costa Caribe colombiana, con una población aproximada de 450,000 habitantes. Se tomó una muestra consecutiva de 292 pacientes con diagnóstico de EPOC evaluado durante el año 2016 en la Clínica Marcaribe, el Hospital Universitario Fernando Troconis y Respire Instituto para el cuidado respiratorio. Este tamaño de muestra permite satisfactoriamente el cálculo de la consistencia interna y realizar análisis factorial exploratorio (AFE) y confirmatorio (AFC).16 Las edades de los participantes se observaron entre 49 y 95 años, con una media de 73.5 años (DE = 8.7). En relación con el sexo, hicieron parte de la investigación 180 hombres (61.6%) y 112 mujeres (38.4%).
Los participantes se clasificaron según la guía GOLD (Global Initiative for Chronic Obstructive Lung Diseases) y diligenciaron la CAT. La clasificación GOLD que gradúa la severidad de la EPOC en cuatro categorías de A, B, C y D, a partir de una valoración multidimensional.17 Como antes se anotó, este instrumento se compone de ocho preguntas sencillas que se responden entre dos y tres minutos. Esta escala cuantifica la severidad de la tos, la presencia de flemas, la opresión torácica, la falta de aire durante el esfuerzo, la actividad doméstica, la sensación de seguridad al salir del hogar, la calidad del sueño y el nivel de energía. Cada punto brinda seis opciones de respuesta que se califican de cero a cinco, de menor a mayor severidad, por lo tanto las puntuaciones totales se ubican en el rango entre cero y cuarenta.2
Al inicio del estudio se llevó a cabo una prueba piloto con diez pacientes para explorar la comprensión de cada una de las preguntas y hacer ajustes en la redacción sin variar sentido lingüístico de ellas.18 Los participantes completaron la CAT con la ayuda del familiar acompañante. La autoadministración y la administración como entrevista de esta escala muestran rendimientos clinimétricos similares.19
Para conocer la consistencia interna se calcularon los coeficientes de alfa de Cronbach20 y omega de McDonald.21 La validez nomológica se estableció con el coeficiente de correlación de Spearman (rs), que aplica para correlaciones con datos ordinales, como la clasificación GOLD usada en el presente estudio.22 Valores de rs iguales o superiores a 0.30 se tomaron como punto de corte para aceptar una buena validez nomológica del instrumento, independientemente del valor de probabilidad. Se realizó una prueba de validez discriminante al comparar (media y desviación estándar) de las puntuaciones en la CAT según los cuatro grupos que determina la guía GOLD (A, B, C y D). Para esto se calculó la homogeneidad de la varianza con la prueba de Levene y la prueba F de ANOVA. Además se realizaron múltiples comparaciones post hoc con la prueba de Tukey.
Para conocer la posibilidad de realizar AFE y AFC se calculó el coeficiente de esfericidad de Bartlett23 y la prueba de adecuación de la muestra de Kaiser Meyer Olkin, KMO.24 Estos coeficientes indican la presencia de un factor latente en un conjunto de preguntas. Los análisis factoriales se realizaron con el método de máxima verosimilitud. Se observaron comunalidades y coeficientes en la matriz y la bondad del ajuste en el AFC se analizó con la prueba de la χ2 de Satorra-Bentler, con grados de libertad (gl) y valor de probabilidad (p), el RMSEA (Root Mean Square Error of Approximation, raíz del cuadrado media del error de aproximación) e intervalo de confianza del 90% (IC 90%), el CFI (Comparative Fit Index, índice comparativo de ajuste), el índice de Tucker-Lewis (TLI) y el SMSR (Standardized Mean Square Residual, residuo cuadrado promedio estandarizado). Para χ2 de Satorra-Bentler se acepta favorable si el valor de probabilidad es mayor a 5%, para RMSEA y SMSR si son menores de 0.06, para CFI y TLI valores son superiores 0.89 y para SMSR si es menor de 0.05. Estas pruebas se llevaron a cabo con los programas estadísticos SPSS25 y STATA.26
Resultados
Las puntuaciones en la CAT se observaron entre 0 y 38, media = 14.4 (DE = 8.1). La consistencia interna fue 0.71 tanto para alfa de Cronbach como para omega de McDonald. Para la validez nomológica estos pacientes, según la clasificación GOLD se distribuyeron así: 28 pacientes (9.6%) grado A; 128 (43.8%) grado B; 108 (37.0%) grado C; y 28 (9.6%) grado D. La correlación entre las puntuaciones en la CAT y la gradación GOLD mostró coeficiente rs de 0.25.
Para la validez discriminante, se encontró que el grupo GOLD A mostró una media en la puntuación en la CAT de 12.3 (DE = 8.4), el GOLD B de 12.5 (DE = 7.1), el GOLD C de 16.1 (7.8) y el GOLD D de 18.1 (DE = 9.8). La varianza fue homogénea en los cuatro grupos (estadísticos de Levene = 2.2; gl = 3, p = 0.08). En general, la ANOVA mostró diferencias significativas entre los grupos (F = 7.7; gl = 3; p < 0.001). Sin embargo, la prueba de Tukey no mostró diferencias significativas entre los grupos, entre GOLD A, GOLD B y GOLD C con valor de p = 0.07 y entre GOLD C y GOLD D, el valor de p = 0.43.
En el análisis factorial se observó un χ2 de 451.3; grados de libertad = 28 y valor de p = 0.001 y el coeficiente KMO fue 0.73. El AFE mostró dos dimensiones: la primera con valor propio (Eigen value) de 2.75 que explicó el 34.4% de la varianza; y la segunda, con valor de propio de 1.44 responsable del 18.0% de la varianza total. Las comunalidades y matriz de coeficientes se presentan en la Tabla 1.
* Una o más comunalidades presentaron comunalidades superiores a 1 cuando se consideraron las interacciones. Esta solución se debe interpretar con mucha precaución.
En el AFC los indicadores de ajustes de bondad fueron pobres, tanto para la solución unidimensional (χ2 = 126.1; gl = 20; p = 0.001; RMSEA = 0.13; IC 90% 0.11-0.15; CFI = 0.75 y TLI = 0.66, y SMSR = 0.08), como para la bidimensional (χ2 = 37.0; gl = 19; p = 0.001; RMSEA = 0.06; IC 90% 0.03-0,08; CFI = 0.96 y TLI = 0.94, y SMSR = 0.04).
Discusión
El desempeño clinimétrico de los instrumentos de medición en salud es ampliamente variable.1 En la presente investigación se observó un aceptable valor de consistencia interna para la CAT, medida con dos coeficientes para afrontar las limitaciones propias del alfa de Cronbach.27 Este valor fue muy inferior a lo que se observó en estudios precedentes, con excepción de la versión en gallego que mostró un idéntico coeficiente.2-4,6-9 Cabe señalar que la consistencia interna según los objetivos de la medición es adecuada en valores entre 0.70 y 0.95.1,15 La CAT ha mostrado valores superiores a 0.95 en varias investigaciones, lo que sugiere en la CAT la existencia de redundancia o alta colinealidad entre algunas preguntas que parten de ella. Para mejorar esto se debe eliminar uno o más de los ítems que conforman la misma.15
Estudios previos no han evaluado la validez nomológica de la CAT con la correlación de Spearman. Y los hallazgos en el presente estudio ponen en cuestionamiento la eventual utilidad clínica de la CAT como indicador de calidad de vida en paciente con EPOC. Esto se corrobora con los estadísticos que mostraron que la validez discriminante de las puntuaciones en los distintos grupos según la clasificación GOLD, es pobre cuando se aplican estadísticos más robustos como la prueba de Tukey que realiza múltiples comparaciones entre los grupos; esto es similar a lo que informaron Pothirat et al., observaron que no hubo diferencia estadísticamente significativa en las puntuación de la CAT según la gradación GOLD (A, B, C y D).10
Para garantizar la validez de los instrumentos como la CAT es indispensable observar indicadores favorables en distintas poblaciones y con diferentes aproximaciones metodológicas.1,18 En el presente estudio, la estructura interna de la CAT con una única dimensión fue insatisfactoria. En el AFE el ítem 1 (tos) y el ítem 2 (flema) se comportan con un factor independiente; no obstante, el ajuste del modelo no fue adecuado como era de esperar porque para que un factor se acepte como tal debe tener por lo menos tres preguntas que miden dicha dimensión.28 No es posible comparación alguna dado que los estudios previos se conformaron con otras pruebas de validez menos robustas que las que se infiere a partir de un AFC.2-5
Es importante revisar de manera asidua el rendimiento clinométrico de los instrumentos que se usan en salud como la CAT da la inestabilidad frecuente en los mismos, el comportamiento cambia ampliamente según la población. Los hallazgos sugieren que es limitada la utilidad de la CAT en la evaluación clínica de la calidad de vida en pacientes con EPOC.1,28 De tal suerte que las investigaciones que realicen mediciones de calidad de vida con la CAT en pacientes con EPOC, es posible que presenten una pobre validez interna y, en consecuencia, se deben interpretar las conclusiones del estudio con extrema precaución.29
El principal aporte de esta investigación es mostrar el desempeño clinimétrico de la CAT en español, informar una segunda estimación de consistencia interna y realizar el primer AFE y AFC. Asimismo, destaca la importancia de probar la confiabilidad y la validez de los instrumentos de medición en salud con múltiples aproximaciones estadísticas.30 Sin embargo, esta investigación tiene la limitación propia de los estudios clinimétricos que son difícilmente generalizables, con independencia del tipo de muestreo realizado.1,15,28,30
Conclusiones
Se concluye que la CAT muestra aceptable consistencia interna en pacientes con EPOC de Santa Marta, Colombia. No obstante, la estructura unidimensional originalmente propuesta presenta un ajuste muy deficiente y la validez nomológica y discriminante es pobre. Es necesario corroborar estos hallazgos en otras poblaciones para realizar las modificaciones pertinentes para las preguntas que hacen parte del instrumento.