“ Una imagen vale más que mil palabras ”
(Dicho popular)
Antecedentes
Los gráficos en los artículos médicos son una pieza didáctica fundamental. Su uso se ha difundido prácticamente en todos los artículos. En muchas ocasiones, cuando se presentan estudios de investigación en sesiones clínicas, no se incluye todo el estudio y se prefiere mostrar un gráfico. Esto se debe a que un gráfico puede incluir una gran cantidad de información y esta, en general, es más fácil de leer y recordar.
Sin embargo, un gráfico no apropiado puede provocar o inducir una mala interpretación de los resultados. Peor aún, los gráficos pueden ser usados para persuadir a los profesionales de la salud hacia conclusiones incorrectas, casi siempre con fines comerciales. En este artículo abordaremos los principales tipos de gráficos que pueden ser utilizados para enriquecer el apartado de resultados. Mediante diferentes ejemplos de gráficos profundizaremos los temas abordados con anterioridad en los artículos de esta misma serie.
De la misma manera que ilustramos el uso adecuado e inadecuado de gráficos, en especial en los estudios de pruebas diagnósticas,1 también mostraremos algunos errores que pudieran llevar a una mala interpretación o sugerir resultados que no es factible sustentar por el estudio.
Empezaremos por dar una breve guía para la elaboración adecuada de gráficos: un gráfico adecuado es aquel que se explica por sí mismo, gracias a las anotaciones de sus distintas partes: el título, ejes, pies de página, colores, escala, unidades de medición, abreviaturas (que deben ser aclaradas en la misma gráfica, aunque hubiesen sido referidas en el texto) y pruebas estadísticas empleadas.2
Es necesario que el título sea explícito, aun sin leer el resto del artículo. El eje de la X se debe reservar para la o las variables independientes, mientras que el eje de la Y se aconseja para la variable dependiente. En los ejes es importante aclarar las unidades de medición. El pie de página puede complementar la explicación de alguno de los apartados anteriores.
Los colores no deben ser contrastantes, así como tampoco deberían sugerir que un grupo es mejor que otro. En la mayoría de las revistas se solicita o se prefiere que sean en blanco y negro o en colores neutros.
La escala de las unidades de medición debe ser equidistante, si esto no es posible, se debe de mencionar claramente el ajuste de la escala.
En general, al igual que cuando se decide utilizar una prueba estadística, la selección del gráfico adecuado depende de la escala de medición de las variables, así como del número de grupos de comparación.3,4 Por lo tanto, al igual que la prueba estadística, es necesario elegir correctamente el gráfico para evitar resaltar diferencias, asociaciones o efectos donde no los hay.
La selección del gráfico apropiado
Identificar la escala de medición de las variables por graficar
Como ya habíamos mencionado en otros artículos de esta misma serie, en medicina y para fines prácticos solo se consideran los tipos de variables siguientes:
Las variables cuantitativas (identificadas con el símbolo #) se clasifican en dos dependiendo de su tipo de distribución: en cuantitativas de distribución normal (#DN) y cuantitativas de libre distribución (#LD).
Las cualitativas nominales casi siempre contienen dos dimensiones (presente/ausente) y serán identificadas con el símbolo +/-.
Las cualitativas ordinales reflejan un orden jerárquico, por ejemplo: grado de ascitis (leve, moderada o grave). Estas las podemos identificar como +/++/+++.
Variables de tiempo-persona. Estas variables se encuentran compuestas por una variable cuantitativa (tiempo al desarrollo del desenlace) y una variable cualitativa (desarrollo o no del desenlace de interés). Estas variables son utilizadas en los análisis de supervivencia, con el fin de expresar el tiempo al desarrollo del desenlace. Estas serán referidas con el ícono: #/+/-.
Identificar el tipo de variable dependiente y de las independientes
Las variables dependientes o de resultado pueden ser #DN, #LD, +/- o #/+/-.
Una vez que se conocen los tipos de variables y el objetivo, la manera de selección de los gráficos se sintetiza en el Cuadro 1.
Tipo de variable independiente (X) | Tipo de variable dependiente (Y) | ||||
Cuantitativa #DN | Cuantitativa #LD |
Cualitativa +/- |
Ordinal +/++/+++ |
Tiempo persona #/+ |
|
Univariado | Barras de error simples | Cajas y bigotes | Circular o barras | Circular o barras | Curvas de supervivencia |
Bivariado #DN | Dispersión | Dispersión gráfico de líneas | Barras de error agrupadas | Barras de error agrupadas | No aplica |
Bivariado #LD | Dispersión | Dispersión | Cajas y bigotes | Cajas y bigotes Gráfico de líneas | No aplica |
Bivariado +/- | Barras de error agrupadas. Gráfico de bosque | Cajas y bigotes | Gráfico de bosque (RM, RR, RAR, con IC 95 %) | Gráfico de bosque (RM, RR, RAR, con IC 95 %) | Curvas de Sobrevida Gráfico de bosque (HR con IC 95 %) |
Multivariado | Dispersión | Dispersión | Gráfico de bosque | Curvas de supervivencia |
RM = razón de momios, RR = riesgo relativo, RAR = reducción absoluta del riesgo.
Tipos de gráficos
1. Gráficos descriptivos (univariado)
1.1. Barras de error
Este gráfico se usa para ilustrar el resultado de las variables cuantitativas con distribución normal (#DN). La medida de tendencia central que se usa es el promedio y las medidas de dispersión pueden ser:
Error estandarizado (EE).
Desviación estándar (DE).
Intervalo de confianza de 95 % (IC 95 %), véase Figura 1.
En cada uno de los gráficos dependiendo de la medida de dispersión se muestran resultados distintos. Se usan los EE o el IC 95 % para mostrar la dispersión alrededor de la media y los gráficos que usan DE se ocupan para mostrar la dispersión de la población.
1.2. Gráfico de cajas y bigotes
Este gráfico se usa para ilustrar a las variables cuantitativas con distribución libre #LD. La medida de tendencia central en este caso es la mediana y las medidas de dispersión es el intervalo o rango intercuartilar (RIC), determinado por los datos incluidos entre el percentil 25 (P25) y el percentil 75 (P75) y qué, por lo tanto, incluyen 50 % de los datos analizados. Otros elementos que deben ser incluidos aquí son los valores máximos y mínimos que marcan los extremos donde terminan los “bigotes” del gráfico (Figura 2).
En la Figura 2 es posible observar la variable edad, la cual muestra que la mediana de edad de los participantes corresponde a 42 años y se aprecian los percentiles 25 y 75, que también son llamados rango intercuartilar (RIC 25-75 %), de 28 y 56 años.
1.3. Gráfico de violín
Este tipo de gráfico permite visualizar la forma como se distribuyen los valores de una variable cuantitativa de distribución libre; es una combinación entre un diagrama de densidad girado y un diagrama de cajas y bigotes, colocados uno sobre el otro. Este gráfico es útil cuando la cantidad de datos por presentar es grande, lo cual dificulta mostrar observaciones individuales. Las gráficas de violín son una forma conveniente de representar los datos de una variable cuantitativa, ya que en ocasiones el gráfico de cajas no permite identificar algunas características de la dispersión de los valores.
En la Figura 3 se muestra la distribución de la edad entre sujetos que presentaron neumonía y los que no; la escala (variable cuantitativa) se identifica en el eje de las Y y las categorías en el eje de las X. La sombra de color muestra el ancho de la densidad de los valores y las líneas sólidas los valores de la mediana, percentiles 25 y 75.
1.4. Gráfico circular, barras y barras agrupadas
Estos gráficos son usados para la representación de variables de tipo cualitativo (nominales, ordinales).
1.4.1. Gráfico de sectores o circular
El gráfico de sectores o circular se usa para resumir una sola variable, consiste en un círculo que se divide en fragmentos; se presentan tantos fragmentos como categorías tiene la variable, tales fragmentos representan la parte proporcional a la frecuencia relativa o absoluta de cada uno de los atributos de la variable.
Para este tipo de gráficas se recomienda que existan más de dos categorías y no incorporar porciones menores de 1 % o, en su caso, agruparlas con otras de similar proporción. Las variables pueden ordenarse de mayor a menor en sentido de las manecillas del reloj o en caso de variables ordinales por la jerarquía de estas variables.
En la Figura 4 mostramos la frecuencia de sujetos hospitalizados por cada una de las instituciones de salud de asistencia en México.
1.4.2. Gráfico de barras simple o histograma de frecuencias
El gráfico de barras simple o histograma de frecuencias, de forma similar al gráfico circular, resume las frecuencias de una variable de tipo cualitativo, cada barra representa a cada una de las categorías de la variable, la longitud de cada barra es proporcional a la cantidad que representa, pueden ser valores absolutos (frecuencias) o relativos (porcentajes); el ancho de las barras es arbitrario y debe ser igual para cada una de las barras, estas pueden ser usadas de forma vertical u horizontal; de forma habitual, el eje de la Y representa a la frecuencia o porcentaje de la condición de interés y en el eje de la X se muestran las diferentes categorías; si estas son ordinales, tendremos que ordenarlas de mayor a menor jerarquía.
En la Figura 5 mostramos la frecuencia de sujetos hospitalizados por cada una de las instituciones de salud de asistencia.
1.4.3. Gráfico de barras agrupadas
El gráfico de barras agrupadas se usa para mostrar las frecuencias en distintas categorías, contrastando entre dos o más grupos; en este caso se prefiere el reporte de valores relativos (porcentaje), en caso de usar valores absolutos. Los grupos en comparación deben incluir la misma cantidad de sujetos, el límite superior del eje Y para valores relativos debe ser de 100 % para no magnificar las diferencias entre los grupos; se usa un código de color para cada una de las categorías de los grupos y debe ser igual entre ellos. En el ejemplo se muestra la frecuencia de muertes, comparada con la de los sujetos vivos hospitalizados por el tiempo de institución de asistencia (Figura 6).
1.4.4. Gráfico de líneas o diagrama de líneas
El gráfico de líneas se usa, al igual que el gráfico de barras, para mostrar la frecuencia de una variable, con la diferencia que en el gráfico de líneas el valor se establece con un punto que representa el valor, absoluto o relativo, para cada categoría, estos se conectan en una línea consecutiva con la intención de mostrar la diferencia entre los distintos momentos en el tiempo (gráficos de serie de tiempo); estos se usan con mayor frecuencia con variables ordinales. Su principal objetivo es mostrar diferencias en la frecuencia de los datos. En el eje de las X se presentan las categorías (por ejemplo, meses del año); en el eje de las Y se presenta la unidad de medición, relativa o absoluta. Cada uno de los puntos representa la frecuencia que corresponde a la categoría y estos puntos están unidos por segmentos lineales consecutivos. Cuando se pretende comparar el comportamiento de las muertes por alguna enfermedad, a través del tiempo, se prefiere el gráfico de líneas ( Figura 7).
1.5. Gráficos de supervivencia
Los gráficos de tiempo-persona o de supervivencia son utilizados en estudios en donde la variable de principal es el tiempo en el desarrollo de un desenlace. Se usan cuando el investigador está interesado en estimar el tiempo, libre del desenlace, que aporta cada individuo al estudio.5 Como su nombre lo indica, se utiliza principalmente para analizar mortalidad, sin embargo, también puede ser usado para desenlaces de otro tipo, por ejemplo, tiempo para desarrollar sordera o cualquier variable dicotómica.
El gráfico que se debe utilizar en estas situaciones es el gráfico de supervivencia o curvas de Kaplan-Meier.6 Este gráfico se considera un híbrido, ya que se combinan las variables cualitativas (mortalidad, sordera, tiempo a alergia) con la variable tiempo en el eje de las X.
Para utilizar pertinentemente estos gráficos se deben cumplir los siguientes requisitos (también llamados supuestos):
Los gráficos deben iniciar en 100 %, es decir, el total de los pacientes no tiene el desenlace.
Se debe conocer por lo menos 50 % del destino de los pacientes, es decir, se pueden tener valores censurados. Un dato censurado puede ser tanto un paciente que se perdió en el seguimiento o un paciente que no ha regresado a su visita, pero aún continua activo. Por esta razón se requiere que por lo menos la mitad de la población haya sido evaluada y se conozca su desenlace. Por ello se prefiere reportar la mediana de supervivencia sobre la media de supervivencia, la cual podría tener sesgo de detección por no tener un seguimiento completo.7,8
La variable tiempo debe iniciar en el mismo punto en todos los pacientes. Pudiendo tener distribución normal o libre distribución.
En la Figura 8 aparece 100 % en el eje de las Y, en este ejemplo aparecen los datos censurados, que son los sujetos que no desarrollaron el evento (muerte o curación, etcétera), pero que cuando fueron vistos por el investigador se encontraban vivos. Cada línea hacia abajo significa que uno o varios pacientes (en porcentaje) llegaron al evento. La línea que atraviesa 0.5 (o 50 %), representa el tiempo en el cual 50 % de los pacientes llegó al evento. En este ejemplo, 50 % de los pacientes del grupo 1 en estudio murió a los 130 meses. Este gráfico permite, además, comparar grupos, como lo muestra la Figura 8.
2. Gráficos que muestran relación de dos variables (análisis bivariado)
2.1. Diagrama de correlación-dispersión
Para evaluar visualmente la relación espacial entre dos variables se requiere que ambas sean cuantitativas o, al menos, una ordinal. La variable dependiente se coloca en el eje de las Y. La correlación es un paso previo a la realización de una regresión lineal.
La manera gráfica de representar una correlación es mediante los diagramas de dispersión. Recordamos que los supuestos de estas pruebas fueron explicados previamente.9 Para ejemplificar una correlación retomaremos el estudio de González-Díaz et al.10 El objetivo de este estudio fue evaluar la relación entre niveles séricos de vitamina D, volumen espiratorio forzado en el primer segundo (VEF1), control de asma, estado nutricional y calidad de vida. Al observar la Figura 9 podemos apreciar un coeficiente de correlación de Pearson de 0.028 (p = 0.248). El signo positivo de esta correlación implica que VEF1 aumenta a mayor concentración de vitamina D; sin embargo, dado que esta correlación no es estadísticamente significativa, no hay relación entre una y otra variable. El modelo multivariado de este gráfico lo veremos más adelante.
2.2. Comparación de dos variables cuantitativas de distribución normal agrupadas: barras de error
El gráfico de barras de error nos permite comparar visualmente dos variables cuantitativas con distribución normal (DN). Como vimos previamente, se utiliza el promedio y medidas de dispersión como la desviación estándar, el EE o el IC 95 %. Si bien, cualquiera de estas tres medidas de dispersión puede ser útil, se prefieren los gráficos con IC 95 % ya que tienen implícito el valor de p (Z de alfa de 1.96). En la Figura 10 ejemplificamos los gráficos de una diferencia de medias, la cual no fue estadísticamente significativa (p > 0.05). El uso de gráficos con IC 95 % permite observar que los intervalos se tocan entre los grupos de hombres y mujeres, por lo que no hay diferencias entre los grupos o que las diferencias se deben al azar.
2.3. Comparación de dos variables cuantitativas de libre distribución agrupadas: gráficos de caja y bigote
Como se mencionó, cuando queremos comparar visualmente dos o tres grupos en los cuales la variable dependiente es cuantitativa de distribución libre (#LD), se utilizan los gráficos de caja y bigotes.11 Estos gráficos también permiten comparar dos, tres o más medianas, respectivamente, ya sea que provengan de una variable ordinal o de una variable cuantitativa con libre distribución. En estos gráficos, el lector tiene que centrar su atención en la mediana de ambos grupos buscando las diferencias (Figura 11). En el ejemplo encontramos que los pacientes con rinitis alérgica (RA) tienen menos fracción espiratoria de óxido nítrico que los pacientes con rinitis no alérgica (RNA). Para evaluar si las diferencias son estadísticamente significativas se requiere agregar el valor de p, el cual debe ser obtenido con la prueba de U de Mann-Whitney. En este caso se encontró un valor de p < 0.05, por lo cual se concluye que existen diferencias entre los grupos.
2.4. Comparación de dos variables cualitativas en dos grupos
El gráfico de bosque (por su nombre en inglés, forest plot) es un gráfico utilizado para mostrar estimaciones de estudio individuales, la estimación agrupada y el intervalo de confianza de manera sencilla para representar los resultados de la comparación de dos variables cualitativas (+/-). Si bien estos gráficos se usan en estudios como los metaanálisis, actualmente también son usados para ilustrar una razón de momios (odds ratio en inglés), riesgo relativo (RR) o híbrido de riesgo (HR) o una diferencia de medias, en diseños de cohortes o estudios transversales.12 Para conocer la anatomía del gráfico de bosque y sus detalles sugerimos al lector consultar el artículo de metaanálisis de esta misma serie.12
En este gráfico (Figura 12) se presenta el análisis de riesgo a la presencia de neumonía en la población pediátrica con diagnóstico de COVID 19; el análisis se expresa en el riesgo para cada una de las variables en el eje de las Y (edad < 1 años, edad de uno a tres años, inmunosupresión, obesidad o diabetes), por separado, los valores superiores a 1 representan el incremento en el riesgo para la presencia de neumonía en población pediátrica, mientras que los valores inferiores a 1 representan disminución en el riesgo para la presencia de neumonía en población pediátrica. Si las líneas que representan el intervalo de confianza a 95 % cruzan la línea de efecto nulo (valor de 1), esa variable carece de relevancia clínico puesto que puede ser un factor que incremente el riesgo o proteja para la presencia del desenlace en este caso neumonía.
3. Gráficos que muestran comparaciones y efectos múltiples (análisis multivariado)
3.1. Gráficos para modelos de variables múltiples con desenlace cuantitativo
Como se mencionó en la comparación de dos variables cuantitativas en el punto 2.1, el gráfico ideal para ilustrar este punto es el de dispersión. Cuando se pretende contrastar más variables se usa el modelo de regresión lineal y se ilustra con el mismo gráfico de dispersión.
Siguiendo el ejemplo anterior, si los autores hubieran determinado los factores predictores de VEF1 considerando distintas variables como edad, sexo, talla y vitamina D, habrían requerido realizar un análisis de regresión lineal múltiple para evaluar el efecto de las distintas variables predictoras, ya que mediante una correlación solo hubiera sido posible considerar la relación de dos variables a la vez. El gráfico de dispersión también puede ser usado para ilustrar los modelos de regresión lineal múltiple. A diferencia de una correlación, en este, el eje de las X corresponde a la suma de las diferentes variables independientes incluidas en el modelo, como observamos en la Figura 13.
En esta figura es posible observar el coeficiente de determinación, R2 = 0.32, dicho valor implica que el conjunto de las variables (vitamina D, edad, sexo y talla) explican 32 % de la varianza de VEF1. En el eje de las Y se observa la variable dependiente (VEF1) y en el eje de las X es posible observar el valor predicho de la regresión, que corresponde a la suma de las variables independientes (vitamina D, edad, sexo y talla).
3.2. Gráficos para modelos de variables múltiples con desenlace cualitativo
Las ilustraciones preferidas para los modelos de regresión logística múltiple, donde el desenlace siempre es cualitativo, son los gráficos de bosque. En estos, en lugar de incluir los valores de los pacientes, se agregan los valores de beta y el error estandarizada de los valores de beta obtenidos en el análisis de regresión.
3.3. Gráficos para modelos de variables múltiples con desenlace híbrido “tiempo-persona”
Para graficar el resultado de los riesgos proporcionales de Cox se utilizan los gráficos de supervivencia.13 La diferencia con el modelo de Kaplan-Meier es que en los gráficos de los modelos multivariados de los análisis de supervivencia no contienen el valor de los datos censurados.
Otra forma de graficar los resultados de los análisis de supervivencia ajustados por otras variables es graficar el HR obtenido en estos modelos de Cox usando el gráfico de bosque.
En la Figura 14 es posible observar un gráfico de riesgos proporcionales de Cox; en el eje de las Y es posible observar la probabilidad de supervivencia y el eje de las X corresponde al tiempo. A la semana 50, la posibilidad de supervivencia fue de 80 %.
Impertinencia del gráfico
De acuerdo con la Real Academia Española, impertinente se define como “que no viene al caso o que molesta de palabra o de obra”, por lo tanto, la impertinencia del gráfico sería el uso de un tipo de gráfico que no corresponde a la escala de medición de la variable que se está analizando. También la impertinencia del gráfico se presenta cuando hay una transgresión ética por el uso intencionado, o no, de técnicas que tienen el potencial de alterar la comprensión del lector acerca de la información que se expone.14,15 Las razones por las cuales se cometen estas transgresiones son variadas, desde el deseo de engañar a la audiencia, falta de experiencia en la creación de visualizaciones gráficas de datos, hasta la falta de familiaridad con herramientas estadísticas.16 Algunas técnicas usadas comúnmente y que provocan un entendimiento equivocado por parte del lector son la manipulación de escalas y de ejes, la no representación de la dispersión de los datos, la presentación incompleta de datos y el uso de gráficos en tercera dimensión o con perspectiva
Manipulación de escalas o ejes
La impresión que tiene el lector de un gráfico va a variar dependiendo de la escala que se utilice en el eje de la variable dependiente y de la independiente. Las Figuras 15A y 15B representan el promedio final del índice de masa corporal (IMC) de seis grupos que recibieron distintos tratamientos para promover disminución de peso.17 La primera impresión que el lector tiene en el Gráfico A es que los grupos 4, 5 y 6 finalizaron el estudio con valores de IMC significativamente inferiores a los de los grupos 2 y 3. Cuando observamos la Figura B esta diferencia tan pronunciada no puede ser identificada dado que el eje de la variable dependiente (Y) no está manipulada al iniciar en 0 en lugar de 24.5 como en la Figura A. Adicionalmente, los gráficos de barras, también llamados histogramas de frecuencia, son inadecuados para representar variables continuas; estos gráficos son más adecuados para representar variables categóricas.
Omisión de los datos de dispersión
Reportar la media o la mediana de una variable no da un panorama completo de los datos, dado que muchas distribuciones de datos pueden llevar a una misma media o mediana; es indispensable proporcionar la representación completa de los datos. Las conclusiones a las que llegará el lector serán muy distintas si solo se proporciona la medida de resumen (media o mediana), a diferencia de cuando además se presenta su correspondiente medida de dispersión (desviación estándar, rango intercuartilar). A manera de ejemplo, se presentan las Figuras 16A y 16B; en la Figura 16A se muestran incorrectamente los datos en un histograma de frecuencias sin la dispersión de los datos; en contraste, la Figura 16B es un gráfico de caja y bigotes, el cual representa de mejor manera los valores obtenidos del IMC.
Las conclusiones a las que llegaría el lector al observar una u otra gráfica serán distintas por el hecho de presentar o no las medidas de dispersión. Por ejemplo, en la Figura 16A se observa que los grupos 1 y 6 tienen los mejores resultados seguido de los tratamientos 2 y 5, después el 3 y en último lugar el 4; aunque las diferencias entre los grupos no son muy marcadas. Cuando se agrega la dispersión de los datos al gráfico, la manera en la que se interpretan los resultados es diferente: por ejemplo, se logra identificar que al grupo 4 le va mucho peor de lo que parece en la Figura 16A ya que hubo participantes que terminaron el estudio con un IMC cercano al 40; o los grupos 1 y 6, que en el Figura 16A parecen iguales, se ven distintos cuando se incorpora la desviación estándar, ya que en el grupo 1 hubo sujetos con IMC por debajo de 20, a diferencia del grupo 6 en el cual no se observaron datos de IMC tan exitosos.
Omisión de datos
En los estudios de seguimiento donde se comparan dos o más grupos, es posible que al inicio de las intervenciones haya grandes diferencias entre los grupos, pero con el paso del tiempo las diferencias vayan siendo menos relevantes hasta perder significación clínica o estadística. Cuando en un gráfico se muestra solamente el periodo del seguimiento en el que se observan diferencias significativas entre los grupos, y se deja fuera del gráfico la parte del seguimiento donde se pierde la significación de las diferencias entre los grupos (como se observa en las Figuras 17A y 17B), se estará haciendo fraude al solo representar la parte del seguimiento que le conviene mostrar al investigador
Conclusión
La selección del tipo de gráfico es tan importante como la elección de la prueba estadística. Conocer el tipo de variable, el número de grupos, así como el objetivo permitirá seleccionar de modo adecuado el gráfico pertinente. En un artículo, los gráficos son fundamentales para ilustrar y enriquecer los resultados de un trabajo de investigación. Los gráficos son susceptibles de ser manipulados consciente o inconscientemente, por lo que es responsabilidad de los lectores su correcta interpretación.