SciELO - Scientific Electronic Library Online

 
vol.33 número80La paulatina adopción de ORCID para la mejora de la identidad digital de las revistas científicas españolas en acceso abiertoBibliotecas universitarias y proyección social: diferencias y extremos en América Latina índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

Links relacionados

  • No hay artículos similaresSimilares en SciELO

Compartir


Investigación bibliotecológica

versión On-line ISSN 2448-8321versión impresa ISSN 0187-358X

Investig. bibl vol.33 no.80 México jul./sep. 2019  Epub 21-Abr-2020

https://doi.org/10.22201/iibi.24488321xe.2019.80.58000 

Artículos

Proporción y distribución de erratas en publicaciones científicas

Proportion and distribution of errata in scientific publications

Juan Antonio Pichardo-Corpus* 

Guillermo Contreras-Nuño** 

José Antonio de la Peña*** 

*Conacyt-Consorcio Centromet, juan.pichardo@centromet.mx

** Faculty of Nuclear Sciences and Physical Engineering, Czech Technical University in Prague, República Checa, jgcn@mail.cern.ch

*** Instituto de Matemáticas, Universidad Nacional Autónoma de México, jap@matem.unam.mx


Resumen

Los errores son parte del proceso en la investigación científica. Las correcciones a estos errores se hacen normalmente en artículos llamados, entre otros nombres, errata o erratum. La investigación sobre estas erratas ha sido, en áreas de investigación y revistas, muy específica. Así, en este artículo estudiamos la tasa de erratas en las veintisiete áreas de investigación definidas en la base de datos Scopus. Nos enfocamos en el periodo 2003-2017 para analizar la distribución de las veintisiete áreas en cuartiles, de acuerdo con el porcentaje de erratas. En paralelo, analizamos la tendencia de esos porcentajes por cada área durante el periodo señalado. Encontramos que esas equivocaciones son útiles como un indicador de diferencias notables entre áreas del conocimiento. Con información de la Web of Science, nos enfocamos en cuatro áreas del conocimiento, particularmente en la proporción de erratas por revista. Encontramos que la mayoría de éstas no tienen erratas publicadas, que en general la correlación entre el factor de impacto y el porcentaje de aquéllas no es significativa y que la distribución de esos por revista se ajusta bien a una distribución log-normal.

Palabras clave: Indicador; Tendencia; Factor de Impacto; Distribución Log-Normal

Abstract

Mistakes are part of the scientific process. Correction of these errors is done in specific articles called, among other names, erratum. The available investigation on errata has been done in very specific areas of research and journals. Therefore in this paper we study the rate of errata in the 27 areas defined by Scopus. We focused on the 2003-2017 period for a more detailed view of its characteristics. We analyze the distribution of the areas in quartiles of the percentage of errata. At the same time, we tested the errata trend of the 27 areas in the studied period. We found that errata are useful as a notable indicator to highlight differences across the areas of knowledge.

With information from Web of Science we looked closely four areas of knowledge, focusing on the rate of errata per journal. We acknowledged most journals do not have published errata, the correlation between percentage of errata and impact factor is not significative and the distribution of the percentage of errata by journals in four areas is not normal with the best fit being a log-normal.

Keywords: Indicator; Trend; Impact Factor; Log-normal Distribution

Introducción

La máxima “Errar es humano, pero perseverar en el error es diabólico”, atribuida a Séneca, ha sido adoptada por la ciencia. Un artículo científico es una invitación a discutir y contrastar abiertamente los pensamientos y resultados de la investigación. La cuidadosa exposición de los supuestos y las razones para usarlos desencadenan la propuesta de nuevas ideas en un proceso continuo de correcciones y mejoras (Niiniluoto, 2015). En este contexto, las teorías pueden reemplazarse, en algunos casos, por otras más generales, sin perder su validez para los casos particulares para los que fueron creadas y, por lo tanto, sin ser necesariamente consideradas erróneas. Algo similar sucede con los datos experimentales, que son reemplazados por datos más precisos, sin que se les considere erróneos, incluso si la nueva precisión nos permite extraer conclusiones diferentes que con los datos menos precisos.

Con el objetivo de hacer ese proceso efectivo, los errores son evitados lo mayormente posible, y cuando ocurren deben ser corregidos. Desde el punto de vista bibliográfico, este último paso corresponde a la publicación de errata o erratum, las cuales tienen como propósito corregir errores identificados en publicaciones previas (Nature, 2006).

Aun cuando esto es parte fundamental del proceso de investigación científica, no hay mucha investigación sobre este tema. La mayoría de la investigación se ha hecho sobre el papel de las erratas cuando un artículo es retirado. Por ejemplo, Teixeira y Bornemann-Cimenti (2016: 1) observaron que hay artículos retirados que continúan siendo citados después de ser dados de baja de las revistas. Aunque unos años antes, Budd et al. (1999) reportaron que, aparentemente, este comportamiento no depende de la razón por la que el artículo fue retirado. En esa dirección, las razones para retirar un artículo son variadas, pero una de las principales es la mala conducta en la investigación (Wager y Williams, 2011), mientras que menos de la mitad de los artículos que son retirados se debe a errores sin intención (ibíd.).

Otro acercamiento al estudio de las erratas es su relación con el factor de impacto de la revista en la que se publican. Hauptman et al. (2014: 1) encontraron una correlación positiva (0.8) entre revistas de alto impacto en ciencias médicas y el porcentaje de erratas publicadas por la revista. Como pasa con los artículos retirados, los artículos con equivocaciones siguen siendo citados, pero ésta no es citada, además, la tasa de citas para esos artículos puede no disminuir después de publicada la errata (Thomsen y Resnik, 1995).

De manera similar a las razones para retirar un artículo, las correspondientes para publicar una errata son muy variadas y dependen del área del conocimiento. Otro elemento importante sobre el análisis de las equivocaciones es que cada revista tiene una manera particular de reportarlas (Hauptman et al., 2014), lo cual dificulta su análisis. Por su parte, la publicación electrónica también tiene sus propias particularidades, ya que cada revista implementa de manera diferente los métodos para en- contrar las erratas asociadas a un artículo y, en algunas ocasiones, este proceso de búsqueda es muy complicado (Poworoznek, 2003).

La mayor parte de las investigaciones sobre equivocaciones se ha hecho en áreas del conocimiento muy específicas, un estudio detallado en química (Chirico et al., 2013) mostró que, alrededor de un tercio de las publicaciones analizadas, tenían algún error, aunque la mayoría no eran graves. Sin embargo, no es claro si esta proporción u otras son representativas de la ciencia (Allison et al., 2016).

Por otra parte, Chirico et al. (2013) también mostraron que hay revistas que no tienen publicada ni una sola errata, y no es claro si hay otro proceso mediante el cual se corrijan los posibles errores.

En esta investigación exploramos el uso de información bibliométrica sobre erratas, como una herramienta complementaria que permita diferenciar áreas de investigación, así como algunas características propias de las revistas. En ese sentido, abordamos la investigación desde dos acercamientos: uno global, sobre los porcentajes de aquéllas por área de investigación, y otro más particular, sobre los porcentajes por revista en cuatro áreas.

En el segundo apartado presentamos las fuentes de los datos que utilizamos, así como una descripción general de su obtención, manejo y análisis.

Desde una perspectiva global, en el tercer apartado presentamos la fracción de erratas y su evolución en un periodo de dieciséis años, para las veintisiete áreas en que se dividen las publicaciones científicas, en la base de datos Scopus. Con esta información, tenemos un primer acercamiento a la caracterización de las áreas del conocimiento con base en las erratas.

De acuerdo con la agrupación anterior, en el cuarto apartado, sobre erratas, revistas y factor de impacto, indagamos cuatro áreas del conocimiento, revisando la frecuencia de erratas por revista, su distribución dentro de cada área y la correlación del factor de impacto con el porcentaje de desaciertos.

Nuestros resultados dejan abiertas preguntas que presentamos en la discusión (quinto apartado) y finalizamos con las conclusiones. En los anexos presentamos los métodos y resultados de carácter más técnico.

Datos y métodos generales

Los datos fueron obtenidos de dos bases de datos: Scopus y Web of Science (WoS). A continuación se detalla el proceso de la adquisición. Para tener una visión general del uso de las erratas en las áreas de investigación y su variación temporal, usamos las veintisiete áreas en que se dividen las publicaciones científicas en Scopus. En adelante cuando hagamos referencia a estas áreas, sólo escribiremos “las áreas”. En esta base, cada área tiene una clave (Cuadro 1), así como etiquetas para el tipo de documento: artículo (article), errata (erratum), entre otros. Para los primeros análisis obtuvimos datos de Scopus del año 2015, pero los resultados que presentamos corresponden a datos actualizados hasta enero de 2018.

Usando la búsqueda avanzada de Scopus, seleccionamos cada área con el campo llamado SUBJAREA. Con ello realizamos una consulta para el número total de publicaciones en cada año, así como el subconjunto de documentos marcados como artículo (ar) o errata (er) por cada área. Usamos las siguientes estructuras de búsqueda:

  • PUBYEAR>2002 AND PUBYEAR<2018 AND SUBJAREA(X) AND (LIMIT-TO(DOCTYPE,”ar”)),

  • PUBYEAR>2002 AND PUBYEAR<2018 AND SUBJAREA(X) AND (LIMIT-TO(DOCTYPE,”er”)),

donde X es una de las 27 claves. Para cada consulta usamos el comando “Analizar los resultados de búsqueda” y obtuvimos los datos por año.

La principal razón en usar Scopuspara el análisis inicial fue la facilidad para obtener los datos, dada la división de las publicaciones científicas en veintisiete áreas, esto permite tener datos suficientemente desagregados y los tipos de documentos de manera inmediata por cada una de esas áreas. Aunque hay un equivalente con las clasificaciones en Incites, es más laborioso obtener todos los tipos de documentos por cada área, y en algunos casos no es posible. Directamente de la WoS sólo se tienen dos divisiones: una de 151 áreas y otra de 252 categorías. El periodo de tiempo seleccionado (2003- 2017) responde a dos cosas: la cantidad de artículos y erratas publicados es suficientemente grande para considerar los resultados independientes de fluctuaciones temporales; y refleja las prácticas actuales sobre el proceso para publicar aquéllas.

Con los datos de Scopus hicimos una caracterización de las áreas del conocimiento, basándonos en la distribución del porcentaje del número total de erratas respecto del de los artículos publicados en el periodo. De aquí selec- cionamos cuatro áreas: Computer Science (COMP), Mathematics (MATH), Physics and Astronomy (PHYS) y Multidisciplinary (MULT). Una por cada cuartil, para saber si los resultados que habíamos encontrado dependían de la base de datos seleccionada, para ello usamos la información de WoS.

Con base en las cuatro áreas seleccionadas, obtuvimos información adicional de WoS para analizar la distribución de las erratas en cada área, pero ahora considerando las revistas. La razón para cambiar de Scopus a WoS en este último análisis obedece a dos cosas: obtener el listado de todas las revistas por área y sus respectivas erratas, así como el factor de impacto de las revistas. Esto último para comparar el factor de impacto con el porcentaje de erratas.

Para obtener la información de WoS usamos la búsqueda avanzada y la hicimos en la colección principal de WoS. Establecimos el mismo periodo que en la búsqueda de Scopus: 2013-2017. Aunque en WoS hay una nomenclatura distinta a la de Scopus, estas áreas son fáciles de identificar, sólo hay dos diferencias importantes, PHYS en WoS sólo es Physics, no incluye Astronomía, y MULT no está como área de investigación, sino como una categoría, llamada Multidisciplinary Sciences. Usamos la siguiente estructura de búsqueda por cada área:

  • SU=”Computer science”

  • Índices=SCI-EXPANDED, SSCI, A&HCI, CPCI-S, CPCI-SSH, BKCI-S, BKCI-SSH, ESCI.

  • Periodo de tiempo=2003-2017

En el caso de MULT hay que cambiar SU por WC. Luego, por cada área filtramos los tipos de documentos, artículo (article) y corrección (correction). Este último es el equivalente a errata (erratum) en Scopus. Finalmente, usamos el comando: “Analizar resultados” para obtener los datos por año y por revista. De manera similar a los datos de Scopus, para los primeros análisis obtuvimos datos de WoS, en el año 2015, pero los resultados que presentamos corresponden a datos actualizados hasta enero de 2018. Finalmente, usamos la clasificación del factor de impacto por revista (JIF, por sus siglas en inglés) del reporte de citas (JCR) correspondiente al año 2017.

Todo el manejo de los datos, así como los cálculos y figuras los realizamos en R (R, 2017), usando las librerías que se detallan en los anexos. De manera general, los métodos se dividen en dos partes:

  • 1. Análisis de información de Scopus:

    • a) Obtención de datos.

    • b) Asignación del número de erratas al número de artículos por cada área.

    • c) Cálculo del porcentaje de erratas por área y de estadísticos básicos.

    • d) Representación de la información en gráficas por cuartiles y por año.

    • e) Evaluación de tendencia en las variaciones temporales.

    • f) Selección de cuatro áreas para la comparación con WoS.

  • 2. Análisis de información de WoS:

    • a) Obtención de datos.

    • b) Asignación del número de erratas al número de artículos por cada área.

    • c) Comparación del porcentaje de erratas entre Scopus y WoS con las cuatro áreas seleccionadas.

    • d) Asignación del número de erratas al número de artículos por cada revista.

    • e) Análisis de la distribución de los porcentajes de erratas por revista en cada una de las cuatro áreas.

    • f) Cálculo de la correlación entre el JIF y el porcentaje de erratas.

Erratas en las áreas del conocimiento

El Cuadro 1 contiene las veintisiete áreas de investigación científica que maneja Scopus, así como el número total de artículos y erratas en cada área durante el periodo 2003-2017, también contiene el porcentaje de erratas respecto del número de artículos. Cabe recordar que las áreas no son exclusivas, y un artículo o revista pueden pertenecer a más de un área.

Cuadro 1 Áreas en Scopus. Por cada área se muestra el número total de publicaciones, etiquetadas como artículos, así como el de erratas, y el porcentaje de erratas respecto del número de artículos, en el periodo 2003-2017. 

Área (key) Artículos Erratas %
Agricultural and Biological Sciences (AGRI) 2, 165,451 20, 909 0. 9 7
Arts and Humanities (ARTS) 817, 438 4, 689 0. 57
Biochemistry, Genetics and Molecular Biology (BIOC) 321, 2548 46, 252 1. 44
Business, Management and Accounting (BUSI) 576, 903 2, 318 0. 40
Chemical Engineering (CENG) 1, 163, 917 7, 246 0. 62
Chemistry (CHEM) 2, 512, 790 19, 019 0. 76
Computer Science (COMP) 1, 270,163 4, 869 0. 38
Decision Sciences (DECI) 206, 730 1, 126 0. 54
Dentistry (DENT) 146, 717 1, 281 0. 87
Earth and Planetary Sciences (EART) 1, 148, 401 8, 150 0. 71
Economics, Econometrics and Finance (ECON) 410, 021 2, 098 0. 51
Energy (ENER) 639, 351 2, 704 0. 42
Engineering (ENGI) 3, 489, 315 13, 679 0. 39
Environmental Science (ENVI) 1, 310, 011 9, 152 0. 70
Health Professions (HEAL) 284, 251 3, 502 1. 23
Immunology and Microbiology (IMMU) 776, 157 10, 984 1. 42
Materials Science (MATE) 2, 426, 032 13, 147 0. 54
Mathematics (MATH) 1, 350, 285 8, 152 0. 60
Medicine (MEDI) 6, 377, 620 84, 271 1. 32
Multidisciplinary (MULT) 282, 614 5, 888 2. 08
Neuroscience (NEUR) 659, 464 8, 729 1. 32
Nursing (NURS) 401, 304 4, 370 1. 09
Pharmacology, Toxicology and Pharmaceutics (PHAR) 854, 274 9, 167 1. 07
Physics and Astronomy (PHYS) 2, 909, 387 24, 920 0. 86
Psychology (PSYC) 588, 551 5, 179 0. 88
Social Sciences (SOCI) 1, 782, 699 10, 550 0. 59
Veterinary (VETE) 242, 110 1, 836 0. 76

Fuente: Elaboración propia.

Los resultados totales del periodo 2003-2017 mostrados en el Cuadro 1, permiten ver diferencias claras entre las áreas que publican más y menos erratas, el porcentaje más alto (2.08 por ciento) corresponde al área Multidisciplinaria (MULT); mientras que el más bajo (0.38 por ciento) corresponde a Ciencias de la Computación (COMP). La media del periodo es 0.85 por ciento, y la mediana 0.75, el primer cuartil está en 0.55 por ciento y el tercero en 1.08. Así que, una primera tasa promedio de erratas, para artículos científicos, estaría alrededor del 0.8 por ciento.

Una aproximación inicial para usar las erratas como un posible indicador de las diferencias entre las áreas, con base en el porcentaje de erratas (Cuadro 1) y los indicadores estadísticos mencionados en el párrafo anterior, se presenta en la Gráfica 1, en la que dividimos las áreas en cuartiles:

Fuente: Elaboración propia.

Gráfica 1 Evolución temporal del porcentaje de erratas en cada área por año, en el periodo 2003-2017. Las áreas se dividen en cuartiles del porcentaje promedio de erratas del periodo y siguen un orden decreciente. 

La Gráfica 1 permite ver que las áreas con más erratas (Q4) se clasifiquen en ciencias biológicas y de la salud (BIOC, HEAL, IMMU, MEDI, NEUR, NURS), más el área multidisciplinar que se encuentra en el mismo cuartil. Además, el resto de las áreas dentro de las ciencias biológicas y de la salud (AGRI, DENT, PHAR, PSYC, VETE) se encuentran en el tercer cuartil (Q3).

Mientras que las áreas de tecnología y ciencias de la ingeniería (ENGI, ENER, MATE, COMP) están el cuartil más bajo (Q1). Sólo la ingeniería química (CENG) está en Q2. El resto de las áreas en Q1 son de ciencias sociales y humanidades (BUSI, DECI, ECON). Mientras que las ciencias exactas y naturales (PHYS, CHEM, MATH) se encuentran en los porcentajes intermedios. Esto es, las erratas permiten agrupar las áreas de investigación como tradicionalmente se han clasificado, lo cual refleja las prácticas científicas de publicación de erratas.

Aunque esa primera clasificación sólo está basada en el porcentaje promedio de los quince años, la Gráfica 1 también refleja que la mayoría de las áreas muestran una evolución temporal más o menos constante, esto es, su porcentaje no cambia demasiado en el tiempo. Para evaluar esto, hicimos una prueba estadística (Cox-Stuart) que permite diferenciar las variaciones aleatorias de una posible tendencia, ya sea creciente o decreciente (los detalles de la prueba se hallan en el Anexo 1). Los resultados indican que sólo en siete áreas se considera que las variaciones no sean aleatorias. En seis: ARTS, BUSI, CENG, ENER, ENGI y MATE, la tendencia es creciente, aunque, como se observa en la figura 1, salvo ARTS, las otras cinco se estabilizan en los últimos años, es decir, ya no aumenta el porcentaje. Y sólo HEAL mostró una tendencia decreciente, aunque también en los últimos años se estabiliza. Por lo tanto, podemos decir que los promedios de las veintisiete áreas, en el periodo analizado, son suficientemente estables.

Comparación entre Scopus y WoS

Las observaciones anteriores implican que la información sobre erratas se puede usar para identificar diferencias en las prácticas científicas de las áreas. Antes de continuar con ese argumento, indagaremos sobre la independencia, respecto de la base de datos, del comportamiento que observamos. Para ello, en la Gráfica 2 comparamos cuatro áreas del conocimiento de Scopus con su correspondiente más cercano en WoS.

Fuente: Elaboración propia.

Gráfica 2 Comparación entre Scopus y WoS del porcentaje de erratas en cada área, por año, en el periodo 2003-2017. 

Tomando en cuenta que las áreas no son definidas exactamente de la misma manera en las dos bases de datos y que las diferencias son esperadas, las tendencias cualitativas son muy parecidas entre las dos bases de datos. La diferencia más grande se ve en MULT, entre los años 2014 y 2016, donde en WoS hay prácticamente el doble de erratas que en Scopus. La razón es que en 2014 se empezaron a contabilizar las erratas de la revista PLOS ONE en WoS, mientras que en Scopus esta revista no está en la categoría MULT y el 65 por ciento de las erratas emitidas por PLOS ONE y registradas en WoS fueron en 2014 y 2015. Una vez entendido el origen de esa diferencia, la comparación entre Scopus y WoS nos da confianza sobre los patrones observados en los datos del Cuadro 1, esto es, que no son un artefacto de la base de datos elegida.

Erratas, revistas y factor de impacto

Los resultados y observaciones de la sección anterior sugieren mirar más de cerca las áreas y, en particular, las revistas que emiten las erratas correspondientes a las cuatro áreas que usamos en la sección anterior.

El número de revistas activas (publicando artículos) durante el periodo 2003- 2017 en WoS fue 6,719 en COMP, 5,329 en MATH, 2,974 en PHYS y 683 en MULT. Sorpresivamente para nosotros, el número de revistas con al menos una errata fue 458,661, 424 y 94, respectivamente; para un porcentaje de revistas sin una sola errata de 93.18, 87.59, 85.74 y 86.23 por ciento, respectivamente.

No es claro cuál es el origen de esos números. Algunas revistas cambian de nombre y sólo mantienen uno por un tiempo corto. Otras sólo tienen un periodo de vigencia corto. Algunas tienen características más particulares, como la revista Acta Numérica en MATH, que publica un solo número al año. Pero, teniendo en cuenta estos casos, el número de revistas sin erratas registradas en WoS es muy grande. Las erratas son esperadas, por lo que la idea de una revista que no publica con erratas es extraña.

Distribución de las erratas por revistas

¿Cuál es la distribución de erratas por revista en un área? Si seleccionamos una revista A con más artículos publicados que una revista B, podemos esperar más erratas en A que en B. Si suponemos que la fracción de erratas respecto del número total de artículos en cada revista es parecida, entonces esa fracción debería ser casi una constante entre las revistas o, siendo más flexibles, una distribución normal podría ajustarse bien a los datos.

Para analizar la distribución, seleccionamos revistas con al menos una errata y calculamos el porcentaje de erratas respecto del número de artículos. Luego, seleccionamos un subconjunto de revistas con al menos cien publi caciones en el periodo. Esto para evitar valores atípicos ingenuos, es decir, revistas con un porcentaje alto de erratas, debido a un número muy pequeño de publicaciones. El número de revistas con al menos una errata y cien publicaciones es 417 en COMP, 598 en MATH, 387 en PHYS y 69 en MULT.

La Gráfica 3 muestra la densidad estimada (Anexo 2) del porcentaje de erratas por revistas en cada área. Es claro que la distribución del porcentaje de erratas no sigue una distribución normal.

La densidad estimada es un acercamiento inicial a la distribución de los datos, lo cual permite descartar posibles distribuciones, sin embargo, no nos dice cuál es la distribución. Para ello usamos los métodos descritos en el Anexo 2. Encontramos que las distribuciones se ajustan a una log-normal.

Como la distribución del porcentaje de erratas por revista no es normal, el promedio por área no es representativo de los porcentajes de las revistas en cada área (Cuadro 2). Y no sólo eso, las diferencias entre los mínimos y los máximos son hasta tres órdenes de magnitud. Por lo tanto, la tasa promedio (0.8 por ciento) que mencionamos en el tercer apartado debe tomarse con cautela.

Fuente: Elaboración propia.

Gráfica 3 Densidades estimadas del porcentaje de erratas por revista en cada área. 

Cuadro 2 Estadísticos básicos de los porcentajes de erratas por revista en cada área. 

Área Mínimo Q1 Mediana Promedio Q3 Máximo
MULT 0. 068 0. 336 0. 767 1. 667 1. 771 10. 002
PHYS 0. 032 0. 354 0. 610 0. 859 0. 949 11. 277
MATH 0. 040 0. 389 0. 670 0. 802 1. 023 4. 429
COMP 0. 003 0. 297 0. 470 0. 576 0. 739 4. 412

Fuente: Elaboración propia.

Erratas y factor de impacto

Con el objetivo de saber si el porcentaje de erratas está correlacionado con el JIF, calculamos el estadístico de Spearman para comparar si el orden en el que aparecen las revistas en el JCR es similar al que se presenta con el porcentaje de erratas.

A cada revista, en cada una de las áreas, se le asignó su JIF. Después de la asignación quedaron menos revistas que en la sección anterior, 53 en MULT, 336 en PHYS, 541 en MATH y 368 en COMP, esto debido a que hay revistas con erratas, pero que no están en el JCR. Sobre estos conjuntos realizamos el cálculo de las correlaciones. Los resultados se muestran en el Cuadro 3.

Cuadro 3 Correlaciones entre los porcentajes de erratas por revista y su JIF. Para el total de revistas por área y para los veinte artículos con el JIF más alto en cada área p20

Área p p20
MULT 0. 313 0. 488
PHYS 0. 336 0. 584
MATH 0. 119 0. 172
COMP -0. 052 -0. 337

Fuente: Elaboración propia.

Discusión

Los porcentajes promedios mostrados en el Cuadro 1 nos permitieron ver las diferencias entre áreas de investigación en el número de erratas publicadas. Estas diferencias son aún mayores entre revistas. Recordemos que el porcentaje de publicaciones sin erratas fue mayor al 85 por ciento en las cuatro áreas, lo cual no necesariamente implica que en ese gran porcentaje de revistas no hay errores. Por ejemplo, Linton (2013) analizó 107 artículos del área de ingeniería, materiales y ciencias de la computación, y encontró errores en un tercio de esos artículos, los cuales no tenían una errata publicada por la revista. Cabe señalar que esas áreas son las que aparecen con los porcentajes de erratas más bajos (Gráfica 1).

La pregunta básica es ¿existen otros mecanismos mediante los cuales las revistas corrijan los errores? De acuerdo con Allison et al. (2016)), no es claro que esos mecanismos existan, al menos no en el área de medicina. Ellos identificaron seis problemas relacionados con la ausencia de erratas:

  • 1) Los editores suelen ser incapaces o reacios a tomar medidas rápidas y apropiadas relacionadas con los errores.

  • 2) No siempre está claro a dónde enviar las observaciones sobre posibles errores.

  • 3) Las revistas que reconocían errores e invalidaban una investigación eran reacias a retirar los artículos.

  • 4) Las revistas cobran a los autores por corregir los errores.

  • 5) No existe un mecanismo estándar para solicitar los datos, en crudo, asociados a una investigación.

  • 6) Las expresiones informales de preocupación sobre algún error son pasadas por alto (Allison et al., 2016: 28-29).

Con base en los resultados de Linton (2013) y Chirico et al. (2013), los problemas reportados por Allison et al. (2016) irían más allá del área médica y ser la razón por la que la mayoría de las revistas no tienen erratas, al menos en los registros de las bases de datos que usamos. La demanda de una política consistente de corrección entre las revistas es válida (Linton, 2013), porque aun cuando tales políticas existen, no siempre se siguen (Teixeira, 2016).

Si las erratas no son reportadas, ¿qué afectaciones conlleva para la ciencia? La discusión se mueve hacia consideraciones éticas, esto es, se puede considerar la ausencia de erratas como un indicador potencial de irresponsabilidad y mala conducta en el proceso de publicación científica (Teixeira, 2016). Aunque la perspectiva ética va más allá de los alcances de este artículo, cabe mencionarla, ya que abre otra ventana de investigación: las implicaciones de no tener ninguna errata sobre el desarrollo del conocimiento y la ciencia, incluida una posible pérdida de credibilidad.

Por su parte, la correlación entre el porcentaje de erratas con el factor de impacto no es tan fuerte como el de investigaciones anteriores (Hauptman et al., 2014). En nuestro caso, la correlación más alta se encuentra en 0.58, en el top 20 de las revistas de física. Mientras que en el área de ciencias de la computación la correlación es negativa, p=-0.05 y p20=-0.33. En esa dirección, es importante entender el significado de publicar una errata en las diferentes áreas de investigación, ya que la correlación negativa con el factor de impacto puede indicar que en esas áreas es mal visto publicar erratas, o correlaciones cercanas a cero que las erratas no son importantes.

También conviene señalar los alcances de las fuentes de datos. Aunque Scopus y WoS son un buen punto de partida para los análisis, tienen ciertas limitaciones. Por ejemplo, Scopus tiene algunos artículos retirados catalogados en el campo de erratum, aunque tiene un campo específico para las retractaciones. Por otra parte, hay revistas en WoS que no tienen asociada una errata, sin embargo, cuando revisamos la página web de las quince revistas que más publican en el área de Física, encontramos que la revista en el lugar número 13 no tiene registrada ni una errata en WoS, pero en la página web de la revista sí tiene erratas publicadas. Entonces, los registros etiquetados como errata en estas bases de datos son un indicador potencial, no una certeza.

Conclusiones

Los errores son parte inevitable de la investigación. Entonces, es importante comprender los mecanismos que usa la ciencia para corregirse a sí misma.

Uno de estos mecanismos es la publicación de erratas. Hemos encontrado que, dada su importancia, hay pocos trabajos de investigación sobre este tema. En este artículo, desde el punto de vista bibliométrico, hemos brindado una mirada más cercana a este tema.

Una visión global del número de erratas en todas las áreas de investigación nos reveló tendencias generales, pero también diferencias en lo particular, lo que sugiere que las erratas serían un indicador útil de algunos aspectos relacionados con la práctica científica. En efecto, las áreas de ciencias biológicas y de la salud tienen los porcentajes más altos de erratas, mientras que las áreas de tecnología y ciencias de la ingeniería los más bajos.

Asimismo mostramos que la distribución del porcentaje de erratas por revista, en cuatro áreas, se ajusta bien a una log-normal, lo que implica que las diferencias entre las revistas que publican menos erratas y las que más publican es muy grande, hasta más de tres órdenes de magnitud. Sobre las correlaciones entre el porcentaje de erratas por revista y el factor de impacto, es claro que en cada área son muy distintas. En este sentido, abogamos por más investigación relacionada con las erratas para entender esas diferencias.

Por otra parte, también es necesario mejorar las bases de datos, no sólo en los registros de las propias revistas, sino en la diferenciación de los errores, esto es, recomendamos mejorar las herramientas de búsqueda para identificar erratas, incluyendo la distinción entre los errores de los autores en el proceso científico y los inherentes al proceso editorial.

Creemos que el estudio de las erratas es importante, pues la práctica científica y la comunicación de sus resultados se basan en un concepto de confianza. Para mantener y nutrir esta confianza, debemos prestar atención a que “errar es humano, pero perseverar en el error es diabólico”.

Referencias

Allison, D.B., A.W. Brown, B.J. George y K.A. Kaiser. 2016. “Reproducibility: A tragedy of errors”. Nature 530 (7588): 27-29. [ Links ]

Budd, J. M., M. Sievert, T. R. Schultz y C. Scoville. 1999. “Effects of article retraction on citation and practice in medicine”. Bulletin of the Medical Library Association 87 (4): 437-443. [ Links ]

Chen, Y. C. 2017. “A tutorial on kernel density estimation and recent advances”. Biostatistics & Epidemiology 1 (1): 161-187. [ Links ]

Chirico, R. D., M. Frenkel, J. W. Magee, V. Diky, C. D. Muzny, A. F. Kazakov, K. Kroenlein, I. Abdulagatov, G. R. Hardin, W. E. Acree Jr., J. F. Brenneke, P. L. Brown, P. T. Cummings, T. W. de Loos, D. G. Friend, A. R. H. Goodwin, L. D. Hansen, W. M. Haynes, N. Koga, A. Mandelis, K. N. Marsh, P. M. Mathias, Clare McCabe, J. P. O’Connell, A. Pádua, V. Rives, C. Schick, J. P. M. Trusler, S. Vyazovkin, R. D. Weir y J. Wu. 2013. “Improvement of quality in publication of experimental thermophysical property data: Challenges, assessment tools, global implementation, and online support”. Journal of Chemical & Engineering Data 58 (10): 2699-2716. [ Links ]

Delignette-Muller, M. L. y C. Dutang. 2015. “fitdistrplus: An R package for fitting distributions”. Journal of Statistical Software 1, no. 1: 1-34. [ Links ]

Hauptman, Paul J., Eric S. Armbrecht, John T. Chibnall, Camelia Guild, Jeremy P. Timm y Michael W. Rich. 2014. “Errata in medical publications”. The American Journal of Medicine 127 (8): 779-785. [ Links ]

Linton, J.D. 2013. “All journals need to correct errors”. Nature 504 (7478): 33. [ Links ]

Mateus, Ayana y Frederico Caeiro. 2014. “An R implementation of several randomness tests”. Edited by T. E. Simos, Z. Kalogiratou and T. Monovasilis. AIP Conference Proceedings. 531-534. [ Links ]

Nature. 2006. “Correction or retraction?” (editorial). Nature 444: 123-124. [ Links ]

Niiniluoto, Ilkka. 2015. “Scientific Progress”. In by Edward N. Zalta, ed., The Stanford Encyclopedia of Philosophy. Stanford: Stanford University, Metaphysics Research Lab. [ Links ]

Poworoznek, E. L. 2003. “Linking of errata: Current practices in online physical sciences journals”. Journal of the American Society for Information Science and Technology 54 (12): 1153-1159. [ Links ]

R. Core Team. 2017. R: A Language and Environment for Statistical Computing. Manual, Vien: R Foundation for Statistical Computing. [ Links ]

Sprent, P. y N. Smeeton. 2007. Applied nonparametric statistical methods. Boca Raton: Chapman and Hall/CRC. [ Links ]

Teixeira da Silva, Jaime A. 2016. “An error is an error... is an erratum: The ethics of not correcting errors in the science literature”. Publishing Research Quarterly 32, no. 3: 220-226. [ Links ]

Teixeira da Silva, Jaime A. y Helmar Bornemann-Cimenti. 2016. “Why do some retracted papers continue to be cited?” Scientometrics 110 (1): 1-6. [ Links ]

Thomsen, M. y D. Resnik. 1995. “The Effectiveness of the erratum in avoiding error propagation in Physics”. Science and Engineering Ethics 1: 231-240. [ Links ]

Wager, Elizabeth y Peter Williams. 2011. “Why and how do journals retract articles? An analysis of Medline retractions 1988-2008”. Journal of Medical Ethics 37 (9): 567-570. [ Links ]

Para citar este texto:

Pichardo-Corpus, Juan Antonio, Guillermo Contreras-Nuño y José Antonio de la Peña. 2019. “Proporción y distribución de erratas en publicaciones científicas”. Investigación Bibliotecológica: archivonomía, bibliotecología e información 33 (80): 97-116. http://dx.doi.org/10.22201/iibi.24488321xe.2019.80.58000

Anexos

1. Análisis de tendencias

Para cuantificar la posible existencia de una tendencia en la evolución temporal, mostrada en la Gráfica 1, aplicamos una prueba de Cox-Stuart (Sprent y Smeeton, 2007: 98), con un nivel de significancia de 5 por ciento a cada área. Donde la hipótesis nula es H0 no hay tendencia y la hipótesis H1 hay una tendencia alternativa . Para el cálculo, usamos la función cox.stuart. test implementada en la librería randtests de R (Mateus y Caeiro, 2014). El Cuadro 4 muestra los p-valores en cada área:

Cuadro 4 Resultados de la prueba de Cox-Stuart. Se resaltan, en negritas, las áreas para las que se acepta la hipótesis alternativa. 

Área p-valor Área p-valor
AGRI 0. 453 HEAL 0. 016
ARTS 0. 016 IMMU 1. 000
BIOC 0. 453 MATE 0. 016
BUSI 0. 016 MATH 0. 125
CENG 0. 016 MEDI 1. 000
CHEM 0. 125 MULT 0. 125
COMP 1. 000 NEUR 1. 000
DECI 0. 453 NURS 1. 000
DENT 1. 000 PHAR 0. 125
EART 1. 000 PHYS 0. 125
ECON 1. 000 PSYC 0. 125
ENER 0. 016 SOCI 0. 125
ENGI 0. 016 VETE 1. 000
ENVI 1. 000

Fuente: Elaboración propia.

2. Distribuciones y ajustes

La densidad estimada mostrada en la Gráfica 3 la hicimos usando la función density de R, dejando los parámetros por defecto. Cabe señalar que este método para estimar la densidad es muy robusto y ampliamente usando (Chen, 2017). De la Gráfica 3 es claro que la distribución no es una normal, esto fue confirmado usando la prueba de Shapiro. Los p-valores fueron 1.94x10-23, 1.79x10-23, 1.51x10-30 2.49x10-11 para COMP, MATH, PHYS y MULT, respectivamente.

El ajuste a las distribuciones lo hicimos usando el método de máxima verosimilitud, para ello usamos el paquete FITDISTRPLUS en R (Delignette-Muller y Dutang, 2015). Por cada área hicimos lo siguiente: con la función descdist obtuvimos una primera aproximación a las posibles distribuciones. Con base en ello, seleccionamos las distribuciones log-normal, Gamma y Weibull. Enseguida calculamos los ajustes con cada distribución usando la función fitdist. Finalmente, comparamos las tres distribuciones para determinar cuál era un mejor ajuste.

En la comparación, realizamos una prueba de hipótesis, donde la hipótesis nula es H0:los datos pueden venir de la distribución evaluada y la hipótesis H1:los datos no vienen de la distribución evaluada alternativa es .

Los resultados arrojaron que las distribuciones Gamma y Weibull no podían rechazarse como posibles distribuciones para COMP y MATH, pero sí en PHYS y MULT, la única que no podía rechazarse en los cuatro casos fue log-normal.

Recordamos que, una variable aleatoria positiva X está distribuida de acuerdo a una log-normal, si el logaritmo de está distribuido normalmente, esto es, In(X)~N(µ,σ) donde µ y σ son la media y la desviación estándar. Entonces, la función de densidad de probabilidad log-normal para una variable aleatoria positivaX se expresa como

fXx=1x σ2π e-1nx-µ22 σ2.

En la Gráfica 4 se muestran las cuatro áreas y su ajuste con log-normal. Dejamos las figuras como aparecen por defecto, para cualquier posible reproducción.

Fuente: Elaboración propia.

Gráfica 4 Ajuste con log-normal a las distribuciones de los porcentajes de erratas por revista. CDF es la función de distribución acumulada y data son los porcentajes. Los parámetros en los ajustes son en MULT, en PHYS, en MATH y en COMP. 

Recibido: 07 de Agosto de 2018; Aprobado: 09 de Enero de 2019

Creative Commons License Este es un artículo publicado en acceso abierto bajo una licencia Creative Commons