ANTECEDENTES
El valor de p (P value en inglés) es el método más empleado para estimar la significación estadística en una prueba de hipótesis y en la mayor parte de las investigaciones científicas, desde la t de Student y la χ2 hasta el análisis de regresión; sin embargo, se ha suscitado una discusión debido a su mal uso, por ignorancia o conflicto de intereses. Ronald Fisher propuso los límites entre la significación y la falta de significación basándola en la probabilidad (P), y estableciendo arbitrariamente su límite con el valor de p = 0.05; donde p significa la probabilidad de obtener un hallazgo de interés por casualidad.1 También se ha criticado por qué no consideran la importancia y relevancia del efecto observado. 2
El objetivo de este estudio fue: describir el estado actual del concepto del valor de p y la significación estadística (NHST: Null Hypothesis Significance Testing, por sus siglas en inglés), especificar los problemas más importantes y puntualizar las soluciones propuestas para una mejor utilización de los conceptos.
METODOLOGÍA
Revisión narrativa de la bibliografía, llevada a cabo entre 2018 y 2019, en la que se seleccionaron artículos publicados de 2005 a 2019 en PubMed y Google Académico, que incluyeran las palabras clave: “NHST”, “P value” y “Statistical significance”, utilizando OR como término booleano, mediante la revisión narrativa con análisis manual (desplegando artículos relacionados y citas).
Se tomaron en cuenta artículos de revistas y blogs que analizan la metodología de NHST y el valor de p, mediante artículos originales, revisiones, editoriales, cartas al editor y artículos de opinión.
RESULTADOS
La búsqueda global arrojó 1411 artículos: 875 de PubMed y 536 de Google Scholar. Se excluyeron 817 por duplicación, 155 sin acceso completo y 414 ensayos clínicos (sin metodología estadística). Los 25 artículos restantes fueron el motivo de análisis de la revisión. Figura 1
DISCUSIÓN
El valor de p es la probabilidad de observar un parámetro hipotético (por ejemplo: una razón de posibilidades), tan extremo como el observado debido solo al azar y que varía entre 0-1. Se interpreta de tres maneras: 1) p ≤ 0.05: indica fuerte evidencia contra la hipótesis nula ([H0] podría ser rechazada), 2) > 0.05: sugiere débil evidencia contra la H0 (podría fallar el rechazo de hipótesis nula) y 3) valores de p cercanos al límite son marginales. 3 Se realiza a través de la NHST (Null Hypothesis Significance Testing), mediante pruebas de inferencia estadística (t de Student, ANOVA, χ2, correlación de Pearson, etc.).
La definición es clara y precisa, pero las interpretaciones incorrectas siguen siendo abundantes y repetidas, por ejemplo, Nuzzo4 señala que 89% de los estudios publicados en 2011 informaron el valor p sin proporcionar ningún modelo de estimación, tamaño del efecto o potencia estadística, y otras publicaciones indican el mal empleo de dichos valores. 5-7
Los valores de p siempre se han criticado, algunos autores señalan que son como el vestido nuevo del emperador4 (con innegables inconvenientes) o como los mosquitos (incómodos y difíciles de ahuyentar), 7 incluso se ha comparado a la falacia del valor de p con la fábula del “zorro de Esopo”, por ser un índice generalizado, incomprendido, mal interpretado y calculado. 3
En la actualizad se utiliza un híbrido, que considera las pruebas de significación estadística de Neyman-Pearson (hipótesis alternativa, error tipo I y II, y potencia), y se informa el valor de p aceptado o rechazado (Fisher), según sea el caso. Esto ha creado confusión, perpetuada por libros y revistas médicas, y ha permitido que los resultados salgan a la luz publicados con el término: “estadísticamente significativo”, “p <0.05” o “p >0.05”. 8
Prestigiosos autores critican el mal uso de los valores de p en investigaciones biomédicas y en la ciencia en general. 4-9 Incluso la revista Basic and Applied Social Psychology prohibió en 20015 el uso de pruebas de hipótesis: 5
Existen varias interpretaciones erróneas, también llamadas falacias, del valor de p;3,4,10 un autor señala 1211 otro 25, 12 pero las cuatro más mencionadas son:
La “falacia de la probabilidad inversa” es la falsa creencia que el valor de p se refiere a la probabilidad de tener una hipótesis nula (H0) verdadera.
-
La “falacia de las probabilidades contra el azar” señala que el valor de p es la probabilidad de obtener el resultado por azar.
Ambas están relacionadas al confundir la probabilidad del resultado, asumiendo que la hipótesis nula es cierta. Las pruebas de significación estadística no ofrecen información de la probabilidad de la hipótesis nula.
La “falacia del tamaño del efecto” vincula la significación estadística con la magnitud del efecto. Así, los valores pequeños de p se interpretan como efectos grandes. Sin embargo, no informan la magnitud de un efecto.
La “falacia de la significación clínica o práctica” asocia el valor de p con la importancia clínica de un hallazgo. No obstante, el resultado estadísticamente significativo no indica que sea importante desde el punto de vista clínico.
También se ha indicado que algunos resultados en investigaciones son probablemente falsos y su reproductibilidad es mínima, por ejemplo, Ioannidis13señaló que de 49 estudios de investigación clínica originales, muy citados en tres revistas de alto impacto, 56% no pudieron reproducirse.
También existen autores a favor de las interpretaciones: 14,15 señalan que el valor de p es un instrumento y su falla depende de quién lo usa, o que los valores son “el patrón de referencia” de la validez estadística. La aparición de la llamada crisis de replicación, encabezada por Nuzzo (2014), 4 indica que el valor de p no es tan confiable ni tan objetivo como suponen la mayoría de los científicos. Por su parte, Baker16 describió, en una encuesta con 1576 expertos de reproducibilidad de la investigación, que más de 70% de los autores no puede reproducir los experimentos del otro, y más de 50% no pude reproducir ni sus propios experimentos.
Ante esta situación, la Asociación Estadounidense de Estadística (ASA), en 2016, 6 tomó cartas en el asunto publicando una serie de principios:
Los valores de p pueden indicar hasta qué punto son incompatibles los datos con un modelo estadístico específico.
Los valores de p no miden la probabilidad de que la hipótesis estudiada sea verdadera o que los datos se originaron el azar.
Las conclusiones científicas y las decisiones empresariales o políticas no deberían basarse solo en el hecho de que el valor de p sobrepase un umbral específico.
Realizar una inferencia apropiada requiere un informe completo y transparente.
El valor de p o la significación estadística no miden el tamaño de un efecto ni la importancia de un resultado.
Por sí mismo, el valor de p no proporciona ninguna evidencia en relación con algún modelo o hipótesis.
Aunque estos principios fueron descritos anteriormente, representaron un parteaguas para que la asociación señalara los defectos y aunque no proporcionaron sugerencias para mejorar estas condiciones, repercutieron para que diversos investigadores se interesaran en el tema, y en octubre de 2017, la misma ASA favoreció el Simposio de Inferencia Estadística, una reunión de dos días que sentó las bases para la publicación de un número especial de la prestigiosa revista The American Statistician, 17 que para la fecha de consulta (30 de abril de 2020) tenía 170,045 vistas y 278 citas (5.3 citas por semana).
Enseguida se citan las principales sugerencias para disminuir los errores del valor de p y la significación estadística que propusieron los 43 autores en ese número7 y otros habían postulado anteriormente:18,19-21
Sustituir el umbral de p = 0.05 por p = 0.005 y referir los valores entre 0.05 y 0.005 como sugerentes.
Asesorarse de expertos en estadística para interpretar los resultados de una investigación científica.
Reiterar la importancia clínica del estudio y proporcionar enunciados claros y explícitos de la(s) pregunta(s) de investigación y la(s) hipótesis(s) que se comprobarán.
Detallar la metodología del análisis estadístico (justificación del tamaño de la muestra y razones del empleo de métodos estadísticos). Si utilizan NHST y valores de p deberán justificar su aplicación.
Incitar a los revisores y consejos editoriales de las revistas para no permitir el uso de la frase “estadísticamente significativo” o “significativo”.
Recalcar que los resúmenes contengan resultados con valores numéricos (tasas, porcentajes, proporciones) de los efectos demostrados.
Informar valores de p precisos (no menores de 0.05 o 0.01), incluso exactos, por ejemplo 0.002, utilizando índices de evidencia adicionales: IC95%, riesgo relativo, razón de momios (odds ratio), tamaño del efecto o potencia, y métodos bayesianos.
Posteriormente, otros autores sugirieron recomendaciones semejantes. 22,23 Algunas revistas cambiaron sus directrices para los informes estadísticos. New England Journal of Medicine24 publicó en julio de 2019 que deben reemplazarse los valores de p con estimaciones de efectos o asociación con IC95%. Y la revista Pediatric Anesthesia25 sugirió reportar los valores de p con IC95% y eliminar el concepto de “significación estadística”.
CONCLUSIONES
El concepto del valor de p no es simple, tiene varias falacias y malas interpretaciones que deben tomarse en cuenta para evitarlas en lo posible. Además, cualquier declaración asociada con el valor de p debe considerarse con precaución.
Recomendaciones
No usar los términos: “estadísticamente significativo” o “significativo”.
Sustituir el umbral de significación estadística de 0.05 por 0.005, y referirse a los valores p = 0.05 y p = 0.005 como sugerentes.
Informar valores de p precisos (no menores de 0.05 o 0.01) o exactos.
Utilizar en conjunto con el valor de p las pruebas que incluyen IC95%, riesgo relativo, razón de momios (odds ratio), tamaño del efecto o potencia, y métodos bayesianos.