Pertinencia e impertinencia de los gráficos en la investigación clínica

Rivas-Ruiz, Rodolfo; Roy-García, Ivonne; Pérez-Rodríguez, Marcela; Berea, Ricardo; Moreno-Palacios, Jorge; Moreno-Noguez, Moisés; Palacios-Cruz, Lino; Ureña-Wong, Kingston Rodolfo; Rivas-Ruiz, Rodolfo; Roy-García, Ivonne; Pérez-Rodríguez, Marcela; Berea, Ricardo; Moreno-Palacios, Jorge; Moreno-Noguez, Moisés; Palacios-Cruz, Lino; Ureña-Wong, Kingston Rodolfo

doi:10.29262/ram.v67i4.854

Services on Demand

Journal

Article

Indicators

Cited by SciELO
Access statistics

Revista alergia México

On-line version ISSN 2448-9190

Rev. alerg. Méx. vol.67 n.4 Ciudad de México Oct./Dec. 2020 Epub June 02, 2021

https://doi.org/10.29262/ram.v67i4.854

Metodología de la Investigación

Pertinencia e impertinencia de los gráficos en la investigación clínica

The relevance and irrelevance of charts in clinical research

Rodolfo Rivas-Ruiz¹
http://orcid.org/0000-0002-5967-7222

Ivonne Roy-García¹^*
http://orcid.org/0000-0002-1859-3866

Marcela Pérez-Rodríguez¹
http://orcid.org/0000-0003-3417-3201

Ricardo Berea¹
http://orcid.org/0000-0001-7322-859X

Jorge Moreno-Palacios²
http://orcid.org/0000-0001-9994-4922

Moisés Moreno-Noguez³
http://orcid.org/0000-0002-8436-7015

Lino Palacios-Cruz⁴
http://orcid.org/0000-0001-9533-2996

Kingston Rodolfo Ureña-Wong⁵
http://orcid.org/0000-0003-2408-0714

^¹Instituto Mexicano del Seguro Social, Coordinación de Investigación en Salud, División de Desarrollo de la Investigación, Ciudad de México, México.

^²Instituto Mexicano del Seguro Social, Centro Médico Nacional Siglo XXI, Hospital de Especialidades, Servicio de Urología, Ciudad de México, México.

^³Instituto Mexicano del Seguro Social, Unidad de Medicina Familiar 52, Estado de México, México.

^⁴Instituto Nacional de Psiquiatría Dr. Ramón de la Fuente, Subdirección de Investigaciones Clínicas, Ciudad de México, México

^⁵Asociación para Evitar la Ceguera en México, Ciudad de México, México

Resumen

Los gráficos constituyen una ayuda visual que usan los artículos para resaltar los resultados de una investigación. Estos permiten ilustrar los resultados con el fin de hacerlos más claros. Los gráficos, al igual que las pruebas estadísticas, se seleccionan a partir del objetivo del estudio, de los tipos de variable y de los análisis estadísticos que se desee ilustrar. Algunos de los gráficos más usados en la práctica clínica son los histogramas de frecuencia que ilustran las variables cualitativas o frecuencias, los gráficos de error se usan para variables cuantitativas con distribución normal, el gráfico de cajas o gráfico de violín para variables cuantitativas de libre distribución y las curvas de supervivencia para las variables que incluyen la variable tiempo/persona. Estos mismos gráficos pueden ser usados para ilustrar las comparaciones entre maniobras y desenlace dependiendo del tipo de variable que se analice. Cuando se comparan dos grupos y la variable dependiente es dicotómica se usan gráficos de bosque. Para los modelos multivariados los gráficos dependen del tipo de análisis, en el caso de la regresión logística se utilizan gráficos de árbol y para la regresión lineal, de dispersión; y para los riesgos proporcionales de Cox, gráficos de supervivencia. Si bien los gráficos son de gran utilidad, mal utilizados pueden mostrar diferencias donde no las hay, provocando una errónea interpretación de los estudios. En este artículo complementaremos con ejemplos los temas abordados con anterioridad en los artículos de esta misma serie.

Palabras clave: Estadística; Gráficos; Métodos

Abstract

Charts are a visual aid that is used in articles in order to highlight the results of an investigation. They allow illustrating the results with the purpose of making them clearer. Charts, just like statistical tests, are selected based on the objective of the study, the types of variable, and the statistical analyzes to be illustrated. Some of the most commonly used charts in clinical practice are frequency histograms, which illustrate qualitative variables or frequencies; also error charts, that are used for normally distributed quantitative variables; box plots or violin plots are used for distribution-free quantitative variables, and survival curves are for variables that include the person-time variable. The aforementioned charts can be used to illustrate the comparisons between maneuvers and outcome depending on the type of variable that is being analyzed. When two groups are compared and the dependent variable is dichotomous, forest plots are used; for multivariate models, the chart depends on the type of analysis. As for logistic regression and linear regression, tree diagrams are used; and scatter plots are used for linear regression. Survival plots are used for Cox proportional hazards. Although charts can be very useful, if they are misused, they can show differences where there are none, which leads to a misinterpretation of the studies. In this article, we will use examples to complement the topics that were previously addressed in the articles of this series.

Key words: Statistics; Charts; Methods

“ Una imagen vale más que mil palabras ”

(Dicho popular)

Antecedentes

Los gráficos en los artículos médicos son una pieza didáctica fundamental. Su uso se ha difundido prácticamente en todos los artículos. En muchas ocasiones, cuando se presentan estudios de investigación en sesiones clínicas, no se incluye todo el estudio y se prefiere mostrar un gráfico. Esto se debe a que un gráfico puede incluir una gran cantidad de información y esta, en general, es más fácil de leer y recordar.

Sin embargo, un gráfico no apropiado puede provocar o inducir una mala interpretación de los resultados. Peor aún, los gráficos pueden ser usados para persuadir a los profesionales de la salud hacia conclusiones incorrectas, casi siempre con fines comerciales. En este artículo abordaremos los principales tipos de gráficos que pueden ser utilizados para enriquecer el apartado de resultados. Mediante diferentes ejemplos de gráficos profundizaremos los temas abordados con anterioridad en los artículos de esta misma serie.

De la misma manera que ilustramos el uso adecuado e inadecuado de gráficos, en especial en los estudios de pruebas diagnósticas,¹ también mostraremos algunos errores que pudieran llevar a una mala interpretación o sugerir resultados que no es factible sustentar por el estudio.

Empezaremos por dar una breve guía para la elaboración adecuada de gráficos: un gráfico adecuado es aquel que se explica por sí mismo, gracias a las anotaciones de sus distintas partes: el título, ejes, pies de página, colores, escala, unidades de medición, abreviaturas (que deben ser aclaradas en la misma gráfica, aunque hubiesen sido referidas en el texto) y pruebas estadísticas empleadas.²

Es necesario que el título sea explícito, aun sin leer el resto del artículo. El eje de la X se debe reservar para la o las variables independientes, mientras que el eje de la Y se aconseja para la variable dependiente. En los ejes es importante aclarar las unidades de medición. El pie de página puede complementar la explicación de alguno de los apartados anteriores.

Los colores no deben ser contrastantes, así como tampoco deberían sugerir que un grupo es mejor que otro. En la mayoría de las revistas se solicita o se prefiere que sean en blanco y negro o en colores neutros.

La escala de las unidades de medición debe ser equidistante, si esto no es posible, se debe de mencionar claramente el ajuste de la escala.

En general, al igual que cuando se decide utilizar una prueba estadística, la selección del gráfico adecuado depende de la escala de medición de las variables, así como del número de grupos de comparación.³^,⁴ Por lo tanto, al igual que la prueba estadística, es necesario elegir correctamente el gráfico para evitar resaltar diferencias, asociaciones o efectos donde no los hay.

La selección del gráfico apropiado

Identificar la escala de medición de las variables por graficar

Como ya habíamos mencionado en otros artículos de esta misma serie, en medicina y para fines prácticos solo se consideran los tipos de variables siguientes:

Las variables cuantitativas (identificadas con el símbolo #) se clasifican en dos dependiendo de su tipo de distribución: en cuantitativas de distribución normal (#DN) y cuantitativas de libre distribución (#LD).
Las cualitativas nominales casi siempre contienen dos dimensiones (presente/ausente) y serán identificadas con el símbolo +/-.
Las cualitativas ordinales reflejan un orden jerárquico, por ejemplo: grado de ascitis (leve, moderada o grave). Estas las podemos identificar como +/++/+++.
Variables de tiempo-persona. Estas variables se encuentran compuestas por una variable cuantitativa (tiempo al desarrollo del desenlace) y una variable cualitativa (desarrollo o no del desenlace de interés). Estas variables son utilizadas en los análisis de supervivencia, con el fin de expresar el tiempo al desarrollo del desenlace. Estas serán referidas con el ícono: #/+/-.

Identificar el análisis que se pretende ilustrar

Análisis descriptivo (univariado).
Comparación de dos o más grupos (análisis bivariado).
Comparación de dos o más grupos donde se consideran o se ajusten los resultados por otras variables probablemente modificadoras de efecto (análisis multivariado).

Identificar el tipo de variable dependiente y de las independientes

Las variables dependientes o de resultado pueden ser #DN, #LD, +/- o #/+/-.

Una vez que se conocen los tipos de variables y el objetivo, la manera de selección de los gráficos se sintetiza en el Cuadro 1.

Cuadro 1. Pertinencia del gráfico según la variable y el tipo de análisis

Tipo de variable independiente (X)	Tipo de variable dependiente (Y)
Tipo de variable independiente (X)	Cuantitativa #DN	Cuantitativa #LD	Cualitativa +/-	Ordinal +/++/+++	Tiempo persona #/+
Univariado	Barras de error simples	Cajas y bigotes	Circular o barras	Circular o barras	Curvas de supervivencia
Bivariado #DN	Dispersión	Dispersión gráfico de líneas	Barras de error agrupadas	Barras de error agrupadas	No aplica
Bivariado #LD	Dispersión	Dispersión	Cajas y bigotes	Cajas y bigotes Gráfico de líneas	No aplica
Bivariado +/-	Barras de error agrupadas. Gráfico de bosque	Cajas y bigotes	Gráfico de bosque (RM, RR, RAR, con IC 95 %)	Gráfico de bosque (RM, RR, RAR, con IC 95 %)	Curvas de Sobrevida Gráfico de bosque (HR con IC 95 %)
Multivariado	Dispersión	Dispersión	Gráfico de bosque		Curvas de supervivencia

RM = razón de momios, RR = riesgo relativo, RAR = reducción absoluta del riesgo.

Tipos de gráficos

1. Gráficos descriptivos (univariado)

1.1. Barras de error

Este gráfico se usa para ilustrar el resultado de las variables cuantitativas con distribución normal (#DN). La medida de tendencia central que se usa es el promedio y las medidas de dispersión pueden ser:

Error estandarizado (EE).
Desviación estándar (DE).
Intervalo de confianza de 95 % (IC 95 %), véase Figura 1.

Figura 1. Ejemplo de gráfico de barras de error para variables cuantitativas con distribución normal. Promedio junto con su medida de dispersión: a) error estandarizado (EE), b) desviación estándar (DE), c) intervalo de confianza (IC).

En cada uno de los gráficos dependiendo de la medida de dispersión se muestran resultados distintos. Se usan los EE o el IC 95 % para mostrar la dispersión alrededor de la media y los gráficos que usan DE se ocupan para mostrar la dispersión de la población.

1.2. Gráfico de cajas y bigotes

Este gráfico se usa para ilustrar a las variables cuantitativas con distribución libre #LD. La medida de tendencia central en este caso es la mediana y las medidas de dispersión es el intervalo o rango intercuartilar (RIC), determinado por los datos incluidos entre el percentil 25 (P25) y el percentil 75 (P75) y qué, por lo tanto, incluyen 50 % de los datos analizados. Otros elementos que deben ser incluidos aquí son los valores máximos y mínimos que marcan los extremos donde terminan los “bigotes” del gráfico (Figura 2).

Figura 2. Gráfico de cajas y bigotes para variables cuantitativas de libre distribución.

En la Figura 2 es posible observar la variable edad, la cual muestra que la mediana de edad de los participantes corresponde a 42 años y se aprecian los percentiles 25 y 75, que también son llamados rango intercuartilar (RIC 25-75 %), de 28 y 56 años.

1.3. Gráfico de violín

Este tipo de gráfico permite visualizar la forma como se distribuyen los valores de una variable cuantitativa de distribución libre; es una combinación entre un diagrama de densidad girado y un diagrama de cajas y bigotes, colocados uno sobre el otro. Este gráfico es útil cuando la cantidad de datos por presentar es grande, lo cual dificulta mostrar observaciones individuales. Las gráficas de violín son una forma conveniente de representar los datos de una variable cuantitativa, ya que en ocasiones el gráfico de cajas no permite identificar algunas características de la dispersión de los valores.

En la Figura 3 se muestra la distribución de la edad entre sujetos que presentaron neumonía y los que no; la escala (variable cuantitativa) se identifica en el eje de las Y y las categorías en el eje de las X. La sombra de color muestra el ancho de la densidad de los valores y las líneas sólidas los valores de la mediana, percentiles 25 y 75.

Figura 3. Gráfico de violín para variables cuantitativas de libre distribución.

1.4. Gráfico circular, barras y barras agrupadas

Estos gráficos son usados para la representación de variables de tipo cualitativo (nominales, ordinales).

1.4.1. Gráfico de sectores o circular

El gráfico de sectores o circular se usa para resumir una sola variable, consiste en un círculo que se divide en fragmentos; se presentan tantos fragmentos como categorías tiene la variable, tales fragmentos representan la parte proporcional a la frecuencia relativa o absoluta de cada uno de los atributos de la variable.

Para este tipo de gráficas se recomienda que existan más de dos categorías y no incorporar porciones menores de 1 % o, en su caso, agruparlas con otras de similar proporción. Las variables pueden ordenarse de mayor a menor en sentido de las manecillas del reloj o en caso de variables ordinales por la jerarquía de estas variables.

En la Figura 4 mostramos la frecuencia de sujetos hospitalizados por cada una de las instituciones de salud de asistencia en México.

Figura 4. Gráfico circular para variables cualitativas.

1.4.2. Gráfico de barras simple o histograma de frecuencias

El gráfico de barras simple o histograma de frecuencias, de forma similar al gráfico circular, resume las frecuencias de una variable de tipo cualitativo, cada barra representa a cada una de las categorías de la variable, la longitud de cada barra es proporcional a la cantidad que representa, pueden ser valores absolutos (frecuencias) o relativos (porcentajes); el ancho de las barras es arbitrario y debe ser igual para cada una de las barras, estas pueden ser usadas de forma vertical u horizontal; de forma habitual, el eje de la Y representa a la frecuencia o porcentaje de la condición de interés y en el eje de la X se muestran las diferentes categorías; si estas son ordinales, tendremos que ordenarlas de mayor a menor jerarquía.

En la Figura 5 mostramos la frecuencia de sujetos hospitalizados por cada una de las instituciones de salud de asistencia.

Figura 5. Ejemplo de histograma de frecuencias para comparar los porcentajes de un evento.

1.4.3. Gráfico de barras agrupadas

El gráfico de barras agrupadas se usa para mostrar las frecuencias en distintas categorías, contrastando entre dos o más grupos; en este caso se prefiere el reporte de valores relativos (porcentaje), en caso de usar valores absolutos. Los grupos en comparación deben incluir la misma cantidad de sujetos, el límite superior del eje Y para valores relativos debe ser de 100 % para no magnificar las diferencias entre los grupos; se usa un código de color para cada una de las categorías de los grupos y debe ser igual entre ellos. En el ejemplo se muestra la frecuencia de muertes, comparada con la de los sujetos vivos hospitalizados por el tiempo de institución de asistencia (Figura 6).

Figura 6. Ejemplo de gráfico de barras agrupadas para comparar los porcentajes de un evento en un mismo grupo.

1.4.4. Gráfico de líneas o diagrama de líneas

El gráfico de líneas se usa, al igual que el gráfico de barras, para mostrar la frecuencia de una variable, con la diferencia que en el gráfico de líneas el valor se establece con un punto que representa el valor, absoluto o relativo, para cada categoría, estos se conectan en una línea consecutiva con la intención de mostrar la diferencia entre los distintos momentos en el tiempo (gráficos de serie de tiempo); estos se usan con mayor frecuencia con variables ordinales. Su principal objetivo es mostrar diferencias en la frecuencia de los datos. En el eje de las X se presentan las categorías (por ejemplo, meses del año); en el eje de las Y se presenta la unidad de medición, relativa o absoluta. Cada uno de los puntos representa la frecuencia que corresponde a la categoría y estos puntos están unidos por segmentos lineales consecutivos. Cuando se pretende comparar el comportamiento de las muertes por alguna enfermedad, a través del tiempo, se prefiere el gráfico de líneas ( Figura 7).

Figura 7. Ejemplo de un gráfico de líneas donde se muestra la prevalencia de las defunciones de forma mensual durante 9 meses.

1.5. Gráficos de supervivencia

Los gráficos de tiempo-persona o de supervivencia son utilizados en estudios en donde la variable de principal es el tiempo en el desarrollo de un desenlace. Se usan cuando el investigador está interesado en estimar el tiempo, libre del desenlace, que aporta cada individuo al estudio.⁵ Como su nombre lo indica, se utiliza principalmente para analizar mortalidad, sin embargo, también puede ser usado para desenlaces de otro tipo, por ejemplo, tiempo para desarrollar sordera o cualquier variable dicotómica.

El gráfico que se debe utilizar en estas situaciones es el gráfico de supervivencia o curvas de Kaplan-Meier.⁶ Este gráfico se considera un híbrido, ya que se combinan las variables cualitativas (mortalidad, sordera, tiempo a alergia) con la variable tiempo en el eje de las X.

Para utilizar pertinentemente estos gráficos se deben cumplir los siguientes requisitos (también llamados supuestos):

Los gráficos deben iniciar en 100 %, es decir, el total de los pacientes no tiene el desenlace.
Se debe conocer por lo menos 50 % del destino de los pacientes, es decir, se pueden tener valores censurados. Un dato censurado puede ser tanto un paciente que se perdió en el seguimiento o un paciente que no ha regresado a su visita, pero aún continua activo. Por esta razón se requiere que por lo menos la mitad de la población haya sido evaluada y se conozca su desenlace. Por ello se prefiere reportar la mediana de supervivencia sobre la media de supervivencia, la cual podría tener sesgo de detección por no tener un seguimiento completo.⁷^,⁸
La variable tiempo debe iniciar en el mismo punto en todos los pacientes. Pudiendo tener distribución normal o libre distribución.

En la Figura 8 aparece 100 % en el eje de las Y, en este ejemplo aparecen los datos censurados, que son los sujetos que no desarrollaron el evento (muerte o curación, etcétera), pero que cuando fueron vistos por el investigador se encontraban vivos. Cada línea hacia abajo significa que uno o varios pacientes (en porcentaje) llegaron al evento. La línea que atraviesa 0.5 (o 50 %), representa el tiempo en el cual 50 % de los pacientes llegó al evento. En este ejemplo, 50 % de los pacientes del grupo 1 en estudio murió a los 130 meses. Este gráfico permite, además, comparar grupos, como lo muestra la Figura 8.

Figura 8. Gráfico de supervivencia donde se ilustran los eventos, los datos censurados y la mediana de supervivencia.

2. Gráficos que muestran relación de dos variables (análisis bivariado)

2.1. Diagrama de correlación-dispersión

Para evaluar visualmente la relación espacial entre dos variables se requiere que ambas sean cuantitativas o, al menos, una ordinal. La variable dependiente se coloca en el eje de las Y. La correlación es un paso previo a la realización de una regresión lineal.

La manera gráfica de representar una correlación es mediante los diagramas de dispersión. Recordamos que los supuestos de estas pruebas fueron explicados previamente.⁹ Para ejemplificar una correlación retomaremos el estudio de González-Díaz et al.¹⁰ El objetivo de este estudio fue evaluar la relación entre niveles séricos de vitamina D, volumen espiratorio forzado en el primer segundo (VEF1), control de asma, estado nutricional y calidad de vida. Al observar la Figura 9 podemos apreciar un coeficiente de correlación de Pearson de 0.028 (p = 0.248). El signo positivo de esta correlación implica que VEF1 aumenta a mayor concentración de vitamina D; sin embargo, dado que esta correlación no es estadísticamente significativa, no hay relación entre una y otra variable. El modelo multivariado de este gráfico lo veremos más adelante.

Figura 9. Gráfico de dispersión donde se ejemplifica la falta de correlación entre dos variables cuantitativas con distribución normal.

2.2. Comparación de dos variables cuantitativas de distribución normal agrupadas: barras de error

El gráfico de barras de error nos permite comparar visualmente dos variables cuantitativas con distribución normal (DN). Como vimos previamente, se utiliza el promedio y medidas de dispersión como la desviación estándar, el EE o el IC 95 %. Si bien, cualquiera de estas tres medidas de dispersión puede ser útil, se prefieren los gráficos con IC 95 % ya que tienen implícito el valor de p (Z de alfa de 1.96). En la Figura 10 ejemplificamos los gráficos de una diferencia de medias, la cual no fue estadísticamente significativa (p > 0.05). El uso de gráficos con IC 95 % permite observar que los intervalos se tocan entre los grupos de hombres y mujeres, por lo que no hay diferencias entre los grupos o que las diferencias se deben al azar.

Figura 10. Ejemplo de gráfico de barras de error para variables cuantitativas con distribución normal con comparación de dos o más variables cuantitativas con distribución normal. IC 95 % = intervalo de Confianza de 95 %.

2.3. Comparación de dos variables cuantitativas de libre distribución agrupadas: gráficos de caja y bigote

Como se mencionó, cuando queremos comparar visualmente dos o tres grupos en los cuales la variable dependiente es cuantitativa de distribución libre (#LD), se utilizan los gráficos de caja y bigotes.¹¹ Estos gráficos también permiten comparar dos, tres o más medianas, respectivamente, ya sea que provengan de una variable ordinal o de una variable cuantitativa con libre distribución. En estos gráficos, el lector tiene que centrar su atención en la mediana de ambos grupos buscando las diferencias (Figura 11). En el ejemplo encontramos que los pacientes con rinitis alérgica (RA) tienen menos fracción espiratoria de óxido nítrico que los pacientes con rinitis no alérgica (RNA). Para evaluar si las diferencias son estadísticamente significativas se requiere agregar el valor de p, el cual debe ser obtenido con la prueba de U de Mann-Whitney. En este caso se encontró un valor de p < 0.05, por lo cual se concluye que existen diferencias entre los grupos.

Figura 11. Ejemplo de un gráfico de Cajas donde se comparan dos tipos de rinitis versus la fracción espiratoria del óxido nítrico (FeNO ppb) para variables cuantitativas de libre distribución.

2.4. Comparación de dos variables cualitativas en dos grupos

El gráfico de bosque (por su nombre en inglés, forest plot) es un gráfico utilizado para mostrar estimaciones de estudio individuales, la estimación agrupada y el intervalo de confianza de manera sencilla para representar los resultados de la comparación de dos variables cualitativas (+/-). Si bien estos gráficos se usan en estudios como los metaanálisis, actualmente también son usados para ilustrar una razón de momios (odds ratio en inglés), riesgo relativo (RR) o híbrido de riesgo (HR) o una diferencia de medias, en diseños de cohortes o estudios transversales.¹² Para conocer la anatomía del gráfico de bosque y sus detalles sugerimos al lector consultar el artículo de metaanálisis de esta misma serie.¹²

En este gráfico (Figura 12) se presenta el análisis de riesgo a la presencia de neumonía en la población pediátrica con diagnóstico de COVID 19; el análisis se expresa en el riesgo para cada una de las variables en el eje de las Y (edad < 1 años, edad de uno a tres años, inmunosupresión, obesidad o diabetes), por separado, los valores superiores a 1 representan el incremento en el riesgo para la presencia de neumonía en población pediátrica, mientras que los valores inferiores a 1 representan disminución en el riesgo para la presencia de neumonía en población pediátrica. Si las líneas que representan el intervalo de confianza a 95 % cruzan la línea de efecto nulo (valor de 1), esa variable carece de relevancia clínico puesto que puede ser un factor que incremente el riesgo o proteja para la presencia del desenlace en este caso neumonía.

Figura 12. Ejemplo de gráfico de árbol bivariado. Riesgo asociado con neumonía en población pediátrica con COVID 19. Análisis bivariado

3. Gráficos que muestran comparaciones y efectos múltiples (análisis multivariado)

3.1. Gráficos para modelos de variables múltiples con desenlace cuantitativo

Como se mencionó en la comparación de dos variables cuantitativas en el punto 2.1, el gráfico ideal para ilustrar este punto es el de dispersión. Cuando se pretende contrastar más variables se usa el modelo de regresión lineal y se ilustra con el mismo gráfico de dispersión.

Siguiendo el ejemplo anterior, si los autores hubieran determinado los factores predictores de VEF1 considerando distintas variables como edad, sexo, talla y vitamina D, habrían requerido realizar un análisis de regresión lineal múltiple para evaluar el efecto de las distintas variables predictoras, ya que mediante una correlación solo hubiera sido posible considerar la relación de dos variables a la vez. El gráfico de dispersión también puede ser usado para ilustrar los modelos de regresión lineal múltiple. A diferencia de una correlación, en este, el eje de las X corresponde a la suma de las diferentes variables independientes incluidas en el modelo, como observamos en la Figura 13.

Figura 13. Gráfico de dispersión donde se ilustra una regresión lineal múltiple. En el eje de las Y se muestra la variable dependiente(VEF1) y en las X se muestra el modelo ajustado de vitamina D, edad, sexo y talla.

En esta figura es posible observar el coeficiente de determinación, R² = 0.32, dicho valor implica que el conjunto de las variables (vitamina D, edad, sexo y talla) explican 32 % de la varianza de VEF1. En el eje de las Y se observa la variable dependiente (VEF1) y en el eje de las X es posible observar el valor predicho de la regresión, que corresponde a la suma de las variables independientes (vitamina D, edad, sexo y talla).

3.2. Gráficos para modelos de variables múltiples con desenlace cualitativo

Las ilustraciones preferidas para los modelos de regresión logística múltiple, donde el desenlace siempre es cualitativo, son los gráficos de bosque. En estos, en lugar de incluir los valores de los pacientes, se agregan los valores de beta y el error estandarizada de los valores de beta obtenidos en el análisis de regresión.

3.3. Gráficos para modelos de variables múltiples con desenlace híbrido “tiempo-persona”

Para graficar el resultado de los riesgos proporcionales de Cox se utilizan los gráficos de supervivencia.¹³ La diferencia con el modelo de Kaplan-Meier es que en los gráficos de los modelos multivariados de los análisis de supervivencia no contienen el valor de los datos censurados.

Otra forma de graficar los resultados de los análisis de supervivencia ajustados por otras variables es graficar el HR obtenido en estos modelos de Cox usando el gráfico de bosque.

En la Figura 14 es posible observar un gráfico de riesgos proporcionales de Cox; en el eje de las Y es posible observar la probabilidad de supervivencia y el eje de las X corresponde al tiempo. A la semana 50, la posibilidad de supervivencia fue de 80 %.

Figura 14. Gráfico de riesgos proporcionales de Cox, a diferencia del gráfico de Kaplan-Meier este gráfico no contiene los datos censurados.

Impertinencia del gráfico

De acuerdo con la Real Academia Española, impertinente se define como “que no viene al caso o que molesta de palabra o de obra”, por lo tanto, la impertinencia del gráfico sería el uso de un tipo de gráfico que no corresponde a la escala de medición de la variable que se está analizando. También la impertinencia del gráfico se presenta cuando hay una transgresión ética por el uso intencionado, o no, de técnicas que tienen el potencial de alterar la comprensión del lector acerca de la información que se expone.¹⁴^,¹⁵ Las razones por las cuales se cometen estas transgresiones son variadas, desde el deseo de engañar a la audiencia, falta de experiencia en la creación de visualizaciones gráficas de datos, hasta la falta de familiaridad con herramientas estadísticas.¹⁶ Algunas técnicas usadas comúnmente y que provocan un entendimiento equivocado por parte del lector son la manipulación de escalas y de ejes, la no representación de la dispersión de los datos, la presentación incompleta de datos y el uso de gráficos en tercera dimensión o con perspectiva

Manipulación de escalas o ejes

La impresión que tiene el lector de un gráfico va a variar dependiendo de la escala que se utilice en el eje de la variable dependiente y de la independiente. Las Figuras 15A y 15B representan el promedio final del índice de masa corporal (IMC) de seis grupos que recibieron distintos tratamientos para promover disminución de peso.¹⁷ La primera impresión que el lector tiene en el Gráfico A es que los grupos 4, 5 y 6 finalizaron el estudio con valores de IMC significativamente inferiores a los de los grupos 2 y 3. Cuando observamos la Figura B esta diferencia tan pronunciada no puede ser identificada dado que el eje de la variable dependiente (Y) no está manipulada al iniciar en 0 en lugar de 24.5 como en la Figura A. Adicionalmente, los gráficos de barras, también llamados histogramas de frecuencia, son inadecuados para representar variables continuas; estos gráficos son más adecuados para representar variables categóricas.

Figura 15. Ejemplo de la manipulación de escalas o ejes. Representa los valores para la media del IMC final de los participantes en distintas escalas para el eje de las Y. A) Media del IMC final de los participantes. B)Media del IMC final de los participantes.

Omisión de los datos de dispersión

Reportar la media o la mediana de una variable no da un panorama completo de los datos, dado que muchas distribuciones de datos pueden llevar a una misma media o mediana; es indispensable proporcionar la representación completa de los datos. Las conclusiones a las que llegará el lector serán muy distintas si solo se proporciona la medida de resumen (media o mediana), a diferencia de cuando además se presenta su correspondiente medida de dispersión (desviación estándar, rango intercuartilar). A manera de ejemplo, se presentan las Figuras 16A y 16B; en la Figura 16A se muestran incorrectamente los datos en un histograma de frecuencias sin la dispersión de los datos; en contraste, la Figura 16B es un gráfico de caja y bigotes, el cual representa de mejor manera los valores obtenidos del IMC.

Figura 16. Ejemplo de la omisión de los datos de dispersión. A) Histograma de frecuencia del IMC final de los participantes. Se presenta la medida de resumen (media) del IMC final de los participantes para cada uno de los grupos de tratamiento, el cual se representa con la parte alta de cada una de las barras del histograma de frecuencia.
B) Diagrama de cajas y bigotes del IMC final de los participantes. Presenta la mediana del IMC final de los participantes para cada uno de los grupos de tratamiento, así como el valor mínimo, percentil 25, percentil 75 y valor máximo para cada uno de los grupos de tratamiento.

Las conclusiones a las que llegaría el lector al observar una u otra gráfica serán distintas por el hecho de presentar o no las medidas de dispersión. Por ejemplo, en la Figura 16A se observa que los grupos 1 y 6 tienen los mejores resultados seguido de los tratamientos 2 y 5, después el 3 y en último lugar el 4; aunque las diferencias entre los grupos no son muy marcadas. Cuando se agrega la dispersión de los datos al gráfico, la manera en la que se interpretan los resultados es diferente: por ejemplo, se logra identificar que al grupo 4 le va mucho peor de lo que parece en la Figura 16A ya que hubo participantes que terminaron el estudio con un IMC cercano al 40; o los grupos 1 y 6, que en el Figura 16A parecen iguales, se ven distintos cuando se incorpora la desviación estándar, ya que en el grupo 1 hubo sujetos con IMC por debajo de 20, a diferencia del grupo 6 en el cual no se observaron datos de IMC tan exitosos.

Omisión de datos

En los estudios de seguimiento donde se comparan dos o más grupos, es posible que al inicio de las intervenciones haya grandes diferencias entre los grupos, pero con el paso del tiempo las diferencias vayan siendo menos relevantes hasta perder significación clínica o estadística. Cuando en un gráfico se muestra solamente el periodo del seguimiento en el que se observan diferencias significativas entre los grupos, y se deja fuera del gráfico la parte del seguimiento donde se pierde la significación de las diferencias entre los grupos (como se observa en las Figuras 17A y 17B), se estará haciendo fraude al solo representar la parte del seguimiento que le conviene mostrar al investigador

Figura 17. A) Se representan las cifras de glucosa de ayuno durante el seguimiento de seis meses, mostrando la diferencia (menores cifras) entre los grupos experimental y control durante los primeros seis meses. B) Se observa que después de los primeros seis meses entre el mes 7 y 12 los valores de glucosa son similares en ambos grupos (experimental y control). En caso de presentar solo la gráfica A se consideraría un fraude, puesto que en el seguimiento los valores de ambos grupos durante el tiempo completo de seguimiento (12 meses) no mostraron diferencias entre los grupos.

Conclusión

La selección del tipo de gráfico es tan importante como la elección de la prueba estadística. Conocer el tipo de variable, el número de grupos, así como el objetivo permitirá seleccionar de modo adecuado el gráfico pertinente. En un artículo, los gráficos son fundamentales para ilustrar y enriquecer los resultados de un trabajo de investigación. Los gráficos son susceptibles de ser manipulados consciente o inconscientemente, por lo que es responsabilidad de los lectores su correcta interpretación.

Agradecimientos

Al doctor Miguel Ángel Villasís Keever, por sus aportaciones que permitieron mejorar este escrito.

Referencias

1. Rendón-Macías ME, Valenzuela M, Villasís-Keever MÁ. Sesgos en los estudios de pruebas de diagnóstico: implicación en la estimación de la sensibilidad y especificidad. Rev Alerg Mex. 2020;67(2):165-173. DOI: 10.29262/ram.v67i2.771 [ Links ]

2. Rendón-Macías ME, Villasís-Keever MÁ, Miranda-Novales MG. Estadística descriptiva. Rev Alerg Mex. 2016;63(4):397-407. DOI: 10.29262/ram.v63i4.230 [ Links ]

3. Flores-Ruiz E, Miranda-Novales MG, Villasís-Keever MÁ. El protocolo de investigación VI: cómo elegir la prueba estadística adecuada. Rev Alerg Mex. 2017;64(3):364-370. DOI: 10.29262/ram.v64i3.304 [ Links ]

4. Flores-Ruiz E, Mirando-Novales MG, Villasís-Keever MÁ. El protocolo de investigación VI: cómo elegir la prueba estadística adecuada. Estadística inferencial. Rev Alerg Mex. 2017;64(3):364-370. DOI: 10.29262/ram.v64i3.304 [ Links ]

5. Talavera JO, Rivas-Ruiz R. Investigación clínica IV. Pertinencia de la prueba estadística. Rev Med Inst Mex Seguro Soc. 2011;49(4):401-405. [ Links ]

6. Peacock JL, Peacock PJ. Oxford Handbook of Medical Statistis. Primera edición. Reino Unido: Oxford University Press; 2011 [ Links ]

7. Rivas-Ruiz R, Pérez-Rodríguez M, Palacios L, Talavera JO. Investigación clínica XXI. Del juicio clínico al análisis de supervivencia. Rev Med Inst Mex Seguro Soc. 2014;52(3):308-315. Disponible en: https://www.medigraphic.com/pdfs/imss/im-2014/im143o.pdf [ Links ]

8. Talavera JO, Roy-García I, Palacios-Cruz L, Rivas-Ruiz R, Hoyo I, Pérez-Rodríguez M. De vuelta a la clínica. Métodos I. Diseños de investigación. Mayor calidad de información, mayor certeza a la respuesta. Gac Med Mex. 2019;155(4):399-405. Disponible en: https://www.medigraphic.com/pdfs/gaceta/gm-2019/gm194k.pdf [ Links ]

9. Roy-García I, Rivas-Ruiz R, Pérez-Rodríguez M, Palacios-Cruz L. Correlación: no toda correlación implica causalidad. Rev Alerg Mex. 2019;66(3):354-360. DOI: 10.29262/ram.v66i3.651.PMID:31606019 [ Links ]

10. González-Díaz SN, Arias-Cruz A, Villarreal-Pérez JZ, Sánchez-Guerra D, Monge-Ortega OP. Evaluation of vitamin D serum levels in asthmatic adults and their relationship with asthma control. Ver Alerg Mex. 2018;65(4):362-371. DOI: 10.29262/ram.v65i4.386 [ Links ]

11. Rivas-Ruiz R, Moreno-Palacios J, Talavera JO. Investigación clínica XVI. Diferencias de medianas con la U de Mann-Whitney. Rev Med Inst Mex Seguro Soc. 2013;51(4):414-419. Disponible en: https://www.redalyc.org/pdf/4577/457745490011.pdf [ Links ]

12. Villasís-Keever MÁ, Rendón-Macías ME, García H, Miranda-Novales MG, Escamilla-Núñez A. Systematic review and meta-analysis as a support tools for research and clinical practice. Rev Alerg Mex. 2020;67(1):62-72. DOI: 10.29262/ram.v67i1.733.PMID:32447868 [ Links ]

13. Cox DR. Regression models and life-tables. J R Statist Soc B. 1972;34(2):187-220. Disponible en: https://www.jstor.org/stable/2985181 [ Links ]

14. Monmonier MS. How to lie with maps. EE. UU.: University of Chicago Press; 1991. [ Links ]

15. Tufte ER. The visual display of quantitative information. EE. UU.: GraphicsPress; 1983. [ Links ]

16. Pandey AV, Rall K, Satterthwaite ML, Nov O, Bertini E. How deceptive are deceptive visualizations? An empirical analysis of common distortion techniques. En: Proceedings of the 33rd Annual ACM Conference on Human Factors in Computing Systems. EE. UU.: Association for Computing Machinery; 2015. [ Links ]

17. Ferreira-Hermosillo A, Roy-García I, Rivas-Ruiz R, Palacios-Butchard JJ, Mercado M, Talavera JO. Height and weight progression patterns in Mexican children aged between 6 and 12 years and differences with Ramos-Galván growth charts 40 yearslater. Gac Med Mex. 2020;156(2):117-123. DOI: 10.24875/GMM.M20000349 [ Links ]

Este artículo debe citarse como: Rivas-Ruiz R, Roy-García IA, Pérez-Rodríguez M, Berea R, Moreno-Palacios J, Palacios-Cruz L, et al. Pertinencia e impertinencia de los gráficos en investigación clínica. Rev Alerg Mex. 2020;67(4):381-396

Abreviaturas y siglas

DE,	desviación estándar
DN,	distribución normal
EE,	error estandarizado
FeNO,	fracción espiratoria del óxido nítrico
HR,	híbrido de riesgo
IC 95 %,	intervalo de confianza de 95 %
IMC,	índice de masa corporal
LD,	distribución libre
P25,	percentil 25
P75,	percentil 75
RA,	rinitis alérgica
RAR,	reducción absoluta del riesgo
RIC,	rango intercuartilar
RM,	razón de momios
RNA,	rinitis no alérgica
RR,	riesgo relativo

Recibido: 11 de Julio de 2020; Aprobado: 01 de Agosto de 2020

^*Correspondencia: Ivonne Roy-García. ivonne3316@gmail.com

Este es un artículo publicado en acceso abierto bajo una licencia Creative Commons