INTRODUCCIÓN
Planteamiento
Las universidades divulgan su producción científica a través de portales institucionales donde presentan de forma visual los datos de las publicaciones de sus investigadores, a menudo aportando indicadores de impacto y de acceso abierto. Los portales de investigación son las plataformas mediante las cuales las universidades difunden su producción científica. Las publicaciones de las que son autores los investigadores de una institución se denominan producción científica. Los datos bibliográficos y los perfiles de autor de los portales proceden de fuentes internas y externas. La información se integra de forma automatizada y manual y se revisa por los servicios de apoyo a la investigación encargados de la gestión de los portales que, con frecuencia, son los sistemas bibliotecarios.
La integración de datos se realiza partiendo de los sistemas de gestión curricular de la institución (Current Research Information Systems, CRIS) y de las bases de datos bibliográficas que disponen de información sobre producción científica y de los perfiles de autor, como Web of Science, Scopus y Dialnet. Los perfiles de autor son los datos de identificación, producción científica y citas correspondientes a un investigador, disponibles en un portal o plataforma especializada.
Los identificadores persistentes son códigos normalizados asignados de forma única a una persona, entidad o publicación. Las bases de datos emplean identificadores propios de autores, como el identificador ResearcherID de Web of Science; además de identificadores abiertos de autor, como Open Researcher and Contributor ID (ORCID); e identificadores únicos de publicaciones, especialmente Digital Object Identifier (DOI).
Los portales institucionales de producción científica difunden la investigación publicada realizada en una universidad (Calderón-Rehecho, 2017). Estos no sustituyen a los CRIS ni a los repositorios institucionales, sino que son un canal desde donde se promocionan las publicaciones generadas por el personal investigador de la institución. Los portales asumen una función de transparencia en la divulgación de la producción científica, por lo que deben asegurar que contienen toda la investigación de la universidad y que sus datos son fiables.
La integración de datos externos puede realizarse mediante una Interfaz de Programación de Aplicaciones (por sus siglas en inglés, API), que es una tecnología que facilita la incorporación de la información bibliográfica desde una fuente externa. Web of Science (en adelante, WoS) y Scopus disponen de sus propias API que permiten extraer los datos particulares de investigadores y publicaciones. La importación requiere de identificadores como ResearcherID en WoS o AuthorID en Scopus. En el caso de que las fuentes externas aporten datos erróneos o ignoren información publicada, estas carencias se reflejarán en los portales institucionales si no se realizan revisiones constantes.
La Universidad de Salamanca (USAL), como muchas otras, divulga las publicaciones de sus miembros a través del Portal de la Investigación, disponible en <https://produccioncientifica.usal.es/>, que agrega la información de las publicaciones desde bases de datos como Dialnet, Scopus y WoS. Esta investigación ha analizado la consistencia de los datos de los investigadores de la USAL disponibles en WoS. La metodología ha permitido incrementar la visibilidad de la producción científica realmente generada en la universidad, ya que se detectaron inconsistencias, se eliminaron ambigüedades y se asignaron las autorías correctas a publicaciones mal identificadas.
Objetivos
El objetivo general de la investigación fue evaluar la consistencia de la información que se extrae de las bases de datos bibliográficas que funcionan como las fuentes de recolección de información para los portales institucionales. El objetivo general se concretó en tres específicos, todos ellos centrados en WoS como fuente de datos de producción científica para su integración en el Portal de la Investigación de la Universidad de Salamanca (Portal USAL):
Objetivo específico 1: examinar la correspondencia entre las publicaciones de investigadores de la Universidad de Salamanca que deberían ofrecerse en WoS y las que realmente se les asignan.
Objetivo específico 2: identificar las discrepancias de WoS en la descripción y la asignación de publicaciones de investigadores de la Universidad de Salamanca.
Objetivo específico 3: desarrollar un procedimiento autónomo para la extracción de datos desde WoS que enriquezca los contenidos del Portal USAL.
La hipótesis de la que se partió consistió en la necesidad de revisar la cantidad y la calidad de la información que se obtiene desde WoS (objetivo 1 y objetivo 2), para aprovechar su valor como fuente de datos para los portales institucionales (objetivo 3).
Revisión bibliográfica
El tema principal de la investigación fue la calidad de los datos bibliográficos procedentes de bases de datos como Web of Science como fuentes para la importación automática en portales institucionales de producción científica (Birkle et al., 2020). Aunque la literatura académica ha abordado tangencialmente este tema y otros aspectos relacionados, como el uso de las API, las tecnologías para la extracción de datos, la utilidad de los identificadores persistentes y el análisis de varios tipos de inconsistencias en las grandes bases de datos bibliográficas, aún hay una escasez de estudios sobre la calidad de los datos de WoS en lo que respecta a la producción científica de una universidad específica, por lo que este artículo contribuirá a la investigación sobre este tema. En el caso de la Universidad de Salamanca, ya se ha analizado la producción científica indexada en Scopus con un enfoque descriptivo y cuantitativo (Medina et al., 2024).
Las principales bases de datos que contienen información bibliográfica y de autorías ofrecen una API para recuperar publicaciones. Velez-Estevez et al. (2023) realizaron un exhaustivo estudio sobre las tendencias de las API en bibliometría y establecieron una taxonomía y un análisis comparativo de las API bibliográficas, con cada vez más presencia en los contextos bibliométricos, como señalan Torres-Salinas y Arroyo-Machado (2022), quienes también aportaron una completa relación de API de fuentes bibliográficas. Por su parte, Moral-Muñoz et al. (2020) seleccionaron y describieron programas que habilitaron la extracción automática de datos de plataformas como WoS, Scopus y Google Scholar.
La fiabilidad de los datos de WoS ha sido parcialmente estudiada por varios autores, por ejemplo, Olivas-Ávila y Musi-Lechuga (2014) cuestionaron la validez de la información registrada en WoS en autores españoles del ámbito de la psicología. Por otra parte, Zhu, Hu, y Liu (2019) detectaron la asignación incorrecta del mismo DOI en diferentes trabajos tanto en Scopus como en WoS y propusieron soluciones. Krauskopf y Salgado (2023) analizaron la omisión del DOI en WoS en múltiples artículos de investigadores chilenos. Donner (2017) identificó la calidad de la asignación de los tipos de documentos en WoS, mientras que Wang y Waltman (2016) centraron su investigación en los sistemas de clasificación de revistas de WoS y Scopus. Lazonder y Janssen (2022), estudiaron la calidad de las citas en WoS, mientras que Penteado Filho y Fonseca Júnior (2017) examinaron errores en las filiaciones.
Adicionalmente, Franceschini, Maisano y Mastrogiacomo (2016) realizaron un amplio estudio que permitió tipificar los errores contenidos en Scopus y en WoS, aportando una comparación detallada de ambas bases de datos. Boudry y Durand-Barthez (2020) analizaron el uso de los identificadores ORCID y ResearcherID de autores de su institución en redes académicas.
Los identificadores únicos persistentes son materia de estudio en múltiples investigaciones (Cujba, 2019; Santos y Maimone, 2023). La variedad de identificadores de autor está ampliamente desarrollada en la bibliografía especializada (Borrego, 2014; Mering, 2017; Craft, 2020), aunque solo un número limitado de estudios se ha posicionado en torno al control de la producción científica a través de identificadores como ResearcherID de WoS, Author ID de Scopus y, sobre todo, ORCID. Mallery (2016) ha indicado que el código de autor ORCID es de uso generalizado por su carácter universal e independiente. Harrison y Harrison (2016) señalaron la obligación de los investigadores de crear y mantener múltiples perfiles e identificadores de autor para estar presentes en las plataformas de impacto y difusión de la producción científica.
La función de las bibliotecas como centros de apoyo a la investigación y a la difusión de la producción científica de las universidades ha sido ampliamente desarrollada en la bibliografía profesional. El contexto teórico se presenta en estudios como los de Jubb (2016), Hoffman (2016) y Tran y Chan (2020). Asimismo, la evolución de los perfiles profesionales ha sido analizada por Davis y Saunders (2020), Iribarren-Maestro (2018) y otros autores que han defendido la actuación de las bibliotecas en el control de los identificadores de autores de una institución (Sandberg y Jin, 2016; Craft, 2020; Silva y Guimarães, 2023).
METODOLOGÍA
Diseño metodológico
La metodología se define como mixta, en términos de Hernández-Sampieri y Mendoza Torres (2018), ya que se obtuvieron y analizaron datos procedentes de diferentes técnicas de investigación que se interpretaron de forma conjunta. Se trató de una investigación cuantitativa con diseño no experimental transversal correlacional, ya que se ha trabajado con un análisis de datos tratados estadísticamente, recolectados en un único momento y que sirvieron para establecer relaciones. Igualmente, se ha realizado un estudio de caso cualitativo. La combinación de técnicas cuantitativas y cualitativas determina la metodología empleada como mixta.
El estudio de caso cualitativo analizó los datos de WoS correspondientes a la Universidad de Salamanca. El estudio correlacional se diseñó para conocer la relación entre los datos de WoS y los del portal de la producción científica de la Universidad de Salamanca. La investigación no experimental transversal de tipo correlacional o causal consistió en la recolección de datos en una fecha determinada y en el posterior análisis de las relaciones entre los datos estudiados. La fecha de extracción de datos fue el 23 de julio de 2023. La tabulación y el análisis de datos se realizó entre julio y octubre de 2023. El informe de resultados se obtuvo en noviembre de 2023. La aplicación práctica de la metodología, en cuanto a la corrección de errores detectados, se inició en febrero de 2024.
Desarrollo de la investigación
Se diseñó un procedimiento semiautomatizado para la obtención y el análisis de los datos que se estructuró en cinco fases: 1. Obtención de los datos del Portal USAL; 2. Obtención de los datos de WoS; 3. Análisis de los datos y generación de archivos Excel; 4. Análisis manual de una muestra con incidencias; y 5. Nueva consulta a la API de WoS con los identificadores de la muestra seleccionada con incidencias específicas. Se partió de los datos disponibles en el Portal USAL, de los que se seleccionaron únicamente las publicaciones con DOI y con autores de la USAL. Los datos brutos se conservan para posteriores verificaciones y la posibilidad de difusión en acceso abierto en repositorios de datos. LaFigura 1 esquematiza las fases y los procesos realizados.
Los datos fueron tabulados tipificando los resultados y comparando los datos de cada registro del Portal USAL con los obtenidos en la consulta a la API de WoS. Se organizaron en cuatro categorías: a) DOI no existe, b) DOI y ResearcherID (RID) coinciden, c) incidencia por identificadores no coincidentes o ausentes, y d) errores menores. El archivo principal con los datos obtenidos mostró a los autores con alguna información que requería revisión (Tabla 1).
Tabla 1 Ejemplo del archivo de autores con algún dato que corregir
| PORTAL_ID | ALIASFIRMA | RID | O_CLAIM | W_DOCs | W_DOIs | W_RID | W_CLAIM | W_FIRMA | RESULTADO | PUBLICACIONES |
| 107673 | Lozano, E. | TRUE | Lozano, Elisa | Incidencia_RID | 34 | |||||
| 57640 | Franco, M. | D-1752-2011 | TRUE | 157 | 113 | Orden_excedido | 2 | |||
| 57640 | Franco, M. | D-1752-2011 | TRUE | 157 | 113 | D-1752-2011 | TRUE | Martin-Carrasco, Manuel | En_diferente_orden | 4 |
| 57640 | Franco-Martín, M. | D-1752-2011 | TRUE | 157 | 113 | D-1752-2011 | TRUE | Franco-Martin, Manuel | Correcto | 82 |
| 57640 | Franco-Martín, M.A. | D-1752-2011 | TRUE | 157 | 113 | IKV-9682-2023 | FALSE | Franco-Martin, Manuel A. | Incidencia_RID | 3 |
| 57642 | Orfao, A. | B-5801-2017 | TRUE | 963 | 607 | Orden_excedido | 6 | |||
| 57642 | Orfao, A. | B-5801-2017 | TRUE | 963 | 607 | B-5801-2017 | TRUE | Orfao, Alberto | En_diferente_orden | 6 |
| 57642 | Orfao, A. | B-5801-2017 | TRUE | 963 | 607 | B-5801-2017 | TRUE | Orfao, Alberto | Correcto | 539 |
| 57642 | Orfao, J.A. | B-5801-2017 | TRUE | 963 | 607 | FALSE | Alberto Orfao, Jose | Incidencia_RID | 1 | |
| 57642 | Orfao, A. | B-5801-2017 | TRUE | 963 | 607 | FALSE | Orfao, Alberto | Incidencia_RID | 137 |
Fuente: elaboración de los autores (2024)
El análisis manual se aplicó a una muestra de los autores con incidencias RID obtenidas automáticamente en las fases anteriores. Los autores se dividieron en dos grupos dependiendo de si disponían o no de identificador RID definido en el Portal USAL. Cada grupo se subdividió en otros dos, uno con los autores con un único RID en WoS en todas sus publicaciones y otro con los autores que tenían más de uno. Se seleccionó un 20 % de cada uno de los grupos descritos, descartando a los autores con menos de cinco publicaciones. Las incidencias en las que el RID hallado en WoS no coincidía con el del Portal USAL se clasificaron en cuatro posibles estados:
ResearcherID correcto en WoS con inconsistencias en el Portal USAL (no definido o diferente).
ResearcherID de perfil duplicado del autor en WoS.
ResearcherID de otro investigador.
Ambigüedad en la identificación del perfil del autor.
Posteriormente, se realizó una nueva consulta a la API de WoS con los identificadores ResearcherID de la muestra seleccionada cuyas incidencias fueron clasificadas dentro de los estados 1 o 2, ya que, en ambos casos, eran ResearcherID de investigadores de la USAL, aunque en el estado 2 su producción apareciera dispersa en WoS. De esta forma, se obtuvieron de WoS las publicaciones con DOI y se comprobó si existían o no en el Portal USAL.
PRESENTACIÓN Y ANÁLISIS DE RESULTADOS
La metodología habilitó la obtención de identificadores ResearcherID que no estaban definidos en el Portal USAL, así como la verificación de los existentes. También se hallaron investigadores con múltiples perfiles en WoS, de los cuales bien eran perfiles duplicados o de otro autor. Se localizaron publicaciones diferentes identificadas con el mismo DOI, las cuales fueron excluidas del análisis. Los resultados afectaban al 59 % (2631) del personal investigador de la USAL y al 41 % (38 773) de su producción científica. De los investigadores seleccionados, el 45 % (1 196) tenía un identificador ResearcherID en el Portal USAL (Tabla 2).
Tabla 2 Datos del Portal de la Investigación USAL
| Portal de la Investigación USAL | Totales | Seleccionados | |
| Publicaciones | Totales | 94 717 | 38 773 |
| Con DOI repetido | 466 | 0 | |
| Investigadores | Totales | 4 446 | 2 631 |
| Con ResearcherID | 1 246 | 1 196 | |
Fuente: elaboración de los autores (2024)
Localización de publicaciones
El estudio mostró que el 20 % de las publicaciones no existía en WoS por pertenecer a revistas no indexadas en esta base de datos. El 35 % tenía algún autor sin RID en el Portal USAL. El 45 % eran publicaciones con todos sus autores USAL con RID definido en el Portal USAL, de ellas el 33 % presentó incidencias RID debido a alguna de las siguientes causas: el RID en el Portal USAL era obsoleto, el autor en WoS estaba duplicado, la publicación estaba mal imputada o porque había discrepancias en el orden de las firmas (Figura 2).
Uso de identificadores
El 13 % de los investigadores no disponía de publicaciones en WoS. Entre los investigadores sin el identificador ResearcherID en el Portal USAL, el 52 % tenía todas sus publicaciones en WoS con el mismo identificador, por tanto, podrían extraerse automáticamente para ser incorporados en el Portal USAL. De los investigadores con el identificador ResearcherID en el Portal USAL únicamente el 28 % no presentaba incidencias, en el otro 72 % había discrepancias entre los datos externos de WoS y los internos del Portal USAL (Tabla 3).
Tabla 3 Datos de investigadores del Portal USAL analizados
| Investigadores | % | |
| Sin publicaciones en WoS | 344 | 13 % |
| Con publicaciones en WoS. Con RID en Portal USAL | 1 115 | 42 % |
| Con publicaciones en WoS. Sin RID en Portal USAL | 1 172 | 45 % |
| Total | 2 631 | 100 |
| Investigadores. Con publicaciones en WoS. Con RID en Portal USAL | % | |
| Sin incidencias | 316 | 28 % |
| Con incidencias RID. Solo un RID en WoS | 351 | 31 % |
| Con incidencias RID. Varios RID en WoS | 407 | 37 % |
| Otras incidencias | 41 | 4 % |
| Total | 1 115 | 100 |
| Investigadores. Con publicaciones en WoS. Sin RID en Portal USAL | % | |
| Con incidencias RID. Solo un RID en WoS | 610 | 52 % |
| Con incidencias RID. Varios RID en WoS | 554 | 47 % |
| Otras incidencias | 8 | 1 % |
| Total | 1 172 | 100 |
Fuente: elaboración de los autores (2024)
En consonancia con el objetivo específico 2 de esta investigación, el estudio mostró que en el 72 % de los investigadores del Portal USAL con publicaciones en WoS e identificador RID en el Portal USAL había discrepancias entre ambas plataformas, ya fuera por identificación incorrecta de autorías, por duplicación de identificadores de un mismo autor o por la asignación de publicaciones a investigadores que no habían participado en estas.
Los resultados del análisis de los datos de los investigadores pueden desagregarse para mostrar las diferencias entre las incidencias de investigadores con o sin RID en el Portal USAL (Figura 3).
Nuevas publicaciones localizadas
Un resultado significativo de la investigación fue la detección de la producción científica de la USAL en WoS que todavía no estaba incorporada en el portal institucional. Esto incrementaría en 11.1 % las publicaciones en el Portal USAL procedentes de WoS (Tabla 4).
Tabla 4 Publicaciones USAL halladas en WoS
| Publicaciones con DOI halladas en WoS | Total | % |
| Documentos con DOI de investigadores USAL hallados en WoS | 34 757 | 100 % |
| Presentes en Portal USAL | 30 900 | 88.9 % |
| No presentes en Portal USAL | 3 857 | 11.1 % |
Fuente: elaboración de los autores (2024)
El estudio localizó publicaciones en WoS que aún no estaban incorporadas al Portal USAL e, igualmente, identificó publicaciones que no aparecían correctamente ligadas a la Universidad de Salamanca.
Tipos de incidencias
El estudio manual singularizado realizado en la cuarta fase de la investigación clasificó los identificadores ResearcherID de los investigadores de la USAL encontrados en WoS que presentaban incidencias. El número de autores con incidencias RID fue de 1 922 (Tabla 3), de los cuales se revisaron 385, correspondiente al 20% del total. Se hallaron 761 identificadores RID -que es un número superior al de investigadores de la muestra- porque un mismo investigador puede disponer de varios ResearcherID. Los datos de la muestra pueden extrapolarse al total de los investigadores USAL con publicaciones en WoS (2 287) (Tabla 5).
Tabla 5 Incidencias en ResearcherID en la muestra
| Incidencias en la muestra | RID | Investigadores de la
muestra afectados |
Extrapolación de
los investigadores con publicaciones en WoS |
|
| Totales | 761 | 385 | % | 2287 |
| 1. RID correcto en WoS. No informado o erróneo en el Portal USAL | 262 | 262 | 68.05 % | 57.19 % |
| 2. RID de perfil duplicado en WoS | 312 | 208 | 54.03 % | 45.40 % |
| 3. RID de otro investigador | 161 | 87 | 22.60 % | 18.99 % |
| 4. Ambigüedad en la identificación | 26 | 9 | 2.34 % | 1.96 % |
Fuente: elaboración de los autores (2024)
El estudio habilitó la identificación de diferencias en la fuente de datos y la estimación de las incidencias, relacionadas al objetivo específico 1 de la investigación, entre las que destacan la creación de nuevos ResearcherID (45.40 %), aunque ya existieran perfiles anteriores verificados por los investigadores, así como la asignación incorrecta de documentos a autores a partir de sus apellidos o sus filiaciones institucionales (18.99 %).
Incremento de publicaciones en el portal institucional
El análisis de los identificadores RID de los 385 investigadores de la muestra aportó 574 nuevos RID que no estaban disponibles en el Portal USAL. Una segunda consulta a la API de WoS con los nuevos RID posibilitó localizar 6 301 publicaciones con DOI, de las cuales 1 360 no estaban en el Portal USAL. La extrapolación de estos datos permitió deducir que el volumen de publicaciones con DOI existentes se incrementaría en torno al 17.51 %. Los datos desagregados de los tipos de incidencias ofrecen una comparación entre las inconsistencias correspondientes a los autores con o sin RID en el Portal USAL, lo cual desarrolla el objetivo específico 3 de esta investigación (Figura 4).
DISCUSIÓN
La investigación encontró que existen investigaciones de autores de la Universidad de Salamanca publicadas en revistas indexadas en WoS que no están asignadas a la USAL. El número de publicaciones procedentes de WoS podría incrementarse en un 17.51 %, con esto podemos afirmar que una revisión de los datos de origen es necesaria. Los hallazgos de esta investigación detectaron problemas similares a los señalados por Olivas-Ávila y Musi-Lechuga (2014) en torno a la necesidad de implementar medidas que garanticen la precisión de ResearcherID, así como a los percibidos por Boudry y Durand-Barthez (2020) en relación con la dificultad para encontrar información de la producción científica de los investigadores debido a los cambios, las similitudes y las diferencias en la asignación de los nombres y afiliación de los autores.
El estudio determina que hay un número significativo de diferencias en relación con los datos propios de la USAL que requieren de un proceso de revisión por parte de los investigadores o por los gestores de los portales de producción científica. La investigación se ha realizado con una intención eminentemente práctica para diseñar un método que localizara errores en WoS y en el portal institucional para protocolizar el control de calidad con el cual corregir las inconsistencias encontradas. Esta investigación es replicable en cualquier universidad que mantenga un portal propio de producción científica. Este estudio ha mostrado la necesidad de verificar la consistencia de la información procedente de plataformas externas.
A su vez, una importante aportación de esta investigación ha sido la programación de la extracción de los datos, con scripts en Python para la descarga, la integración y el análisis de datos, útiles para la importación y la exportación de información bibliográfica. El procedimiento puede emplearse con cualquier base de datos bibliográfica que use identificadores persistentes de autores y de documentos y que, además, proporcione una API para consultar sus datos.
Web of Science es un recurso útil para la ingesta de datos en los portales institucionales que requiere de un procedimiento como el utilizado en esta investigación para garantizar la consistencia de los datos de autores y publicaciones. Por tanto, sigue siendo necesario que plataformas como WoS supervisen la calidad de la información que ofrecen, ya que se ha demostrado que el control de los sistemas de identificación facilitará las actividades de monitorización e integración de los resultados de investigación en portales institucionales. Consideramos que, igualmente, la revisión de la calidad de los datos de la producción científica de las universidades es responsabilidad de las bibliotecas o departamentos que dan mantenimiento a los portales institucionales de producción científica. La investigación también corrobora la apreciación de Krauskopf y Salgado (2023) sobre la responsabilidad compartida de los gestores de revistas en lo que respecta a la exactitud y coherencia de los datos publicados.
CONCLUSIONES Y RECOMENDACIONES
El objetivo general del estudio fue evaluar la consistencia de fuentes de datos externas, tomando el caso de WoS, para integrar sus contenidos en portales institucionales, concretamente en el Portal de la Investigación de la Universidad de Salamanca. La investigación evidencia que el Portal USAL incrementaría sus contenidos en un 17.51 % con la detección de nuevos identificadores ResearcherID de WoS y resolviendo las incidencias halladas en ambas plataformas, tanto en WoS como en el Portal USAL. La conclusión general es que, para garantizar que los perfiles de investigadores en portales institucionales de producción científica sean correctos, se requiere la revisión y resolución de inconsistencias procedentes de las fuentes externas integradas.
La investigación permite afirmar que es necesario administrar los portales de forma autónoma, revisando los datos cosechados mediante API o exportaciones. Se propone que una vez localizada la información que debe modificarse, las universidades establezcan canales de comunicación entre sus investigadores y los gestores de identificadores persistentes, como ResearcherID, y que dispongan de procedimientos de revisión para conseguir que toda la producción científica esté identificada y correctamente asignada, que todos los autores tengan un único identificador y que su producción esté reunida bajo el mismo perfil de autor. De esta manera, la presencia y el impacto de los investigadores en el ecosistema científico será mayor y su producción no estará dispersa a causa de inconsistencias y ambigüedades en la identificación de sus publicaciones.










nueva página del texto (beta)







