Introducción
La inteligencia artificial (IA) es una disciplina que desde su creación se ha utilizado para resolver algunas de las problemáticas que aquejan a las sociedades. Su desarrollo, aplicación y evolución en áreas como la medicina, la economía, la política, la ingeniería o el medio ambiente, constituyen algunos ejemplos de su impacto en la vida cotidiana. Aunque no de forma tan avanzada, como en los ámbitos anteriormente descritos, su implementación en algunos de los procesos que se llevan a cabo en los archivos sonoros y audiovisuales comienza a ser visible.
Los archivos han tenido cambios disruptivos que han afectado sus procesos documentales; de ellos, destacan la digitalización de los documentos sonoros y la creación de documentos de origen digital, lo cual derivó en el creciente incremento de objetos digitales.
La transformación de los archivos sonoros ha ido a la par tanto del avance tecnológico, como del incremento de grandes volúmenes de datos que hacen más complejos y lentos los procesos de preservación. Estas condiciones conllevan a considerar que la utilización de algoritmos inteligentes en estos repositorios no se puede postergar más. "Desde principios del siglo XIX, nuestra capacidad de generación de datos nunca había sido tan intensa y constante. Cada año se produce más información digital que el anterior. El uso y manejo de grandes volúmenes de información digital es un signo contemporáneo" (Rodríguez, 2020: IX).
En este contexto, el uso de la IA dentro de estos archivos cobra especial relevancia debido a que los sistemas inteligentes trabajan con datos, los necesitan para realizar las tareas establecidas con éxito. Tomando en cuenta esto, los archivos sonoros digitales constituyen un nicho favorable para los algoritmos inteligentes debido a la gran cantidad de datos que almacenan.
Actualmente es posible diseñar sistemas inteligentes que permitan hacer más eficientes las tareas que se llevan a cabo y los servicios que se ofrecen en los archivos sonoros digitales. El objetivo de este artículo es determinar la forma en cómo se ha comenzado a utilizar la IA para mejorar los procesos documentales en los archivos sonoros de medios públicos, con lo cual se evidenciará cómo su uso comienza a extenderse a través de los procesos documentales que intervienen en el ciclo de vida por medio de los cuales transitan los objetos digitales.
Metodología
Para el desarrollo de esta investigación se realizó una revisión detallada de literatura científica con la finalidad de localizar archivos digitales sonoros de medios públicos que utilizan algoritmos de IA dentro de sus procesos documentales. Esta búsqueda ayudó a identificar 5 archivos pioneros en el uso de sistemas inteligentes para la automatización de algunas tareas de preservación sonora. Se trata del sistema de radiodifusión Nippon Hoso Kyokai, el archivo de la Radio y Televisión Suiza, el archivo del Instituto Holandés de Imagen y Sonido, el archivo de Radio Televisión Española y el archivo de Radio Televisión Nacional de Colombia. Además, se realizó una entrevista con la responsable de Proyectos del Fondo Documental de Radio Televisión Española. Con ello, fue posible observar experiencias de uso de la IA en ciertos procesos documentales que intervienen en el ciclo documental.
Presentación y análisis de resultados
Los objetos digitales
Los objetos digitales son "documentos cuyo origen es sólo digital, es decir, que no tienen un equivalente en formato analógico o bien que no han sido digitalizados de un soporte analógico" (Rodríguez, 2016: 198), su contenido se almacena en plataformas digitales para su conservación y acceso.
El uso popularizado de computadoras y dispositivos móviles, así como las variadas aplicaciones y softwares para la grabación y edición de audio propician un incremento constante de este tipo de documentos.
La llegada de la era digital avivó la creación de espacios en donde es posible garantizar la preservación tanto de los documentos de origen digital como de los digitalizados. Con la aparición del disco compacto en 1980, iniciaron las primeras reflexiones en relación con la preservación digital de documentos sonoros. Hasta hace algunos años los archivos no estaban preparados para el almacenamiento y gestión de estos documentos, la tecnología digital trajo consigo nuevos desafíos (Rodríguez, 2016).
La digitalización, como una tarea cada vez más constante dentro de los archivos, y el aumento de la producción de los objetos digitales, han contribuido con el incremento diario del acervo. Esta es sin duda una de las razones por las cuales las instituciones responsables del resguardo de la memoria sonora se han visto en la necesidad de contar con almacenamientos cada vez más robustos que permitan el resguardo y la preservación de este tipo de documentos.
De este modo es como surgen los archivos sonoros digitales, los cuales cuentan con tecnología para el almacenamiento masivo digital.
Archivos digitales sonoros
Debido al incremento de los objetos digitales, actualmente se considera que "todo archivo que haya emprendido procesos de digitalización [o que resguarde objetos digitales] tarde o temprano estará ante la definición y puesta en marcha de un archivo o repositorio digital" (Rodríguez, 2016: 215).
Se recomienda que los archivos sonoros cuenten con Sistemas de Gestión y Almacenamiento Masivo Digital. La Asociación Internacional de Archivos Sonoros y Audiovisuales (IASA) los define como aquellos sistemas que "están basados en las tecnologías de la información y la comunicación (TIC), los cuales están completamente automatizados y diseñados para almacenar, administrar, mantener, distribuir y preservar un complejo conjunto de objetos digitales" (IASA, 2006: 54).
En gran medida, con estos sistemas se han establecido las bases con las que operan los archivos que resguardan colecciones digitales. El advenimiento de este tipo de objetos transformó las tareas y los procesos principales que se llevan a cabo para garantizar la preservación de los documentos: identificación, ingreso, inventario, catalogación, almacenamiento y difusión.
Los archivos digitales sonoros tienen el reto de garantizar la preservación de uno de los documentos más frágiles y vulnerables con los que cuenta la humanidad. El riesgo de pérdida del contenido digital es muy alto, de ahí que se requiera la transferencia constante de estos objetos a la par del avance tecnológico.
Es en las instituciones en donde recae la responsabilidad de que el contenido de los objetos digitales no se pierda y que, en consecuencia, se garantice su acceso para la posteridad. Por eso es prioritario realizar acciones para asegurar el ciclo de vida de los objetos sonoros digitales.
El ciclo de vida de los objetos sonoros digitales
De acuerdo con Wilson et al. (2006), De Jong (2016) y Rodríguez (2017), los documentos sonoros digitales tienen un ciclo de vida, el cual se desarrolla en cuatro etapas, desde que se producen hasta que se utilizan y son aprovechados (Figura 1).
La Figura 1 muestra el ciclo de vida del documento sonoro digital. La creación de documentos se refiere a la producción del material sonoro. La ingesta y evaluación tienen que ver con verificar la integridad de los materiales digitales. La curaduría, conservación y almacenamiento se relaciona con garantizar la permanencia del documento en el almacenamiento digital. El acceso, uso y reúso es la etapa a partir de la cual un paquete de información se transforma en un nuevo set de datos (Rodríguez, 2017).
El ciclo de vida está determinado por el flujo de trabajo que se desarrolla dentro de los archivos sonoros digitales, es decir, por los procesos documentales, que consisten en un conjunto de operaciones y técnicas para administrar el flujo de los objetos digitales.
Conocer estos procesos es de utilidad para tener una idea clara sobre cómo es que se realiza la gestión de los documentos sonoros digitales en los archivos con el fin de garantizar su preservación. Con base en lo anterior, se comienza a vislumbrar de qué manera la IA puede contribuir para mejorar estos procesos, ya que, por ejemplo, "la adopción de soluciones de inteligencia artificial en distintas áreas de una cadena de radio y televisión es una magnífica oportunidad para beneficiar las tareas propias de los archivos" (Bazán, 2020: 128).
En la Figura 2 se hace alusión a los procesos documentales que se llevan a cabo en los archivos sonoros de acuerdo con las etapas que conforman el ciclo de vida de los documentos sonoros digitales.
Una vez enunciados los procesos documentales y, considerando que la optimización de la gestión documental sirve para mejorar la eficacia de dichos procesos, se advierte cómo se están utilizando algoritmos inteligentes dentro algunos archivos sonoros para asegurar la preservación de sus objetos digitales.
La IA se define como una herramienta que "se basa en algoritmos que resuelven problemas. Estos algoritmos son de muy distinto tipo: algunos realizan búsquedas, otros siguen algún tipo de razonamiento, otros aprenden, algunos siguen reglas lógicas, mientras que otros se basan en probabilidades" (Oribe, 2017: 91).
A continuación, presentamos cómo la IA se está utilizando en algunos de los procesos documentales de los archivos sonoros digitales, de acuerdo con las etapas del ciclo de vida del documento digital.
Creación de documento
La IA ha tenido un avance en los últimos años en cuanto a la creación de documentos sonoros digitales. Algunas estaciones de radio comienzan a utilizar sistemas inteligentes para la creación de contenido automatizado. Las radiodifusoras han visto "en la aplicación e inclusión de algoritmos de IA oportunidades creativas durante la producción de los programas, lo cual ayuda a transmitir información a los espectadores de forma rápida, precisa y automática" (ITU-R, 2019: 1).
Un ejemplo de esto es la creación de programas de noticias del sistema de radiodifusión pública de Japón, Nippon Hoso Kyokai (NHK). Ellos han experimentado con la realización de programas noticiosos, de radio y televisión, a través de un locutor de IA.
La voz con la que el locutor lee las noticias tiene un tempo más suave y más fácil de entender que una voz humana normal. Para lograr tal voz, la IA se entrenó en funciones de voz contextuales utilizando un gran volumen de guiones de noticias y discursos de locutores. El uso del discurso de los locutores, que encarna la experiencia en anunciar, como datos de entrenamiento, da como resultado una voz sintetizada que tiene un tono noticioso natural (NHK, 2018).
Los archivos sonoros digitales que crean contenido podrán explorar el uso de las herramientas con IA que ya existen para generar producciones automáticas con el acervo que resguardan y así hacer difusión de éste. Incluso, aquellos archivos que sólo resguardan los documentos sonoros han de estar atentos porque es probable que en un futuro este tipo de objetos digitales forme parte de sus colecciones.
Ingesta y evaluación
Parte de los procesos documentales que se desarrollan en esta etapa son la recepción, revisión, filtro e inventario de los objetos digitales que se van a almacenar en el archivo.
En lo referente a la revisión de los documentos digitales, es posible desarrollar algoritmos de revisión de calidad para identificar defectos específicos en los archivos digitales (Rezzonico, s/f).
Para el documentalista hacer el registro y revisión de todos los documentos sonoros digitales que ingresan día a día implica mucho tiempo, incluso en algunos casos podrían ser años de trabajo. En este sentido, la ventaja que ofrecen los algoritmos es que pueden detectar fallas de una manera más rápida y con mayor precisión.
En el archivo de la Radio y Televisión Suiza ya se han desarrollado algoritmos de control de calidad para identificar defectos específicos de los archivos digitales. "El control de calidad manual de 4 000 archivos digitales supondría años de trabajo. En lugar de eso, una interfaz permite a los humanos examinar los resultados de los algoritmos de modo más rápido" (Rezzonico, s/f).
Otro ejemplo se observa "en el Instituto Holandés de Imagen y Sonido, donde, ya no se analiza manualmente ningún contenido salvo que realmente sea estrictamente necesario hacerlo" (V. Bazán, comunicación personal, 15 de junio de 2021).
Curaduría, conservación y almacenamiento
Dentro de estas tres etapas podemos encontrar los procesos de organización y catalogación de los documentos sonoros digitales, pero también lo referente al mantenimiento de los sistemas de gestión y almacenamiento masivo digital.
Los archivos digitales sonoros se comienzan a beneficiar con el uso de algoritmos inteligentes para la catalogación. Este proceso documental es una de las tareas más arduas que se realiza en un archivo, pues la extracción de palabras clave de un documento y su descripción son fundamentales para garantizar su posterior recuperación. Con el incremento de objetos digitales, esta labor se vuelve más lenta y compleja.
En este sentido, Cariani y Oives (2020) reconocen que para encontrar información en las colecciones es necesario describirlas y catalogarlas, pero la catalogación humana es demasiado lenta dado el volumen del material que se agrega constantemente, por ello, es importante advertir que hay una gran oportunidad para utilizar aprendizaje automático y sistemas inteligentes para ayudar a crear metadatos que mejoren la visibilidad de los documentos sonoros digitales.
Actualmente hay algoritmos que transcriben de voz a texto, extraen palabras clave y categorizan el contenido, reduciendo los errores y el tiempo que tiene que disponer un catalogador para cada uno de los documentos con los que trabaja.
Los futuros procesos de generación automática de metadatos en los archivos se fundamentarán en tres tecnologías complementarias: visión artificial, tecnologías del habla y procesamiento del lenguaje natural. La aplicación de estas tecnologías permitirá alcanzar un nivel de detalle en el análisis hasta ahora impensable (Bazán, et al., 2020: 323).
En el archivo de Radio y Televisión Suiza se han comenzado a desarrollar sistemas inteligentes para la catalogación automática de sus documentos. "Ante la falta de metadatos sobre el contenido, hemos creado un equipo de desarrollo durante los últimos dos años y medio que utiliza tecnologías de inteligencia artificial para realizar la extracción automática de metadatos" (Rezzonico, s/f).
Por otro lado, el archivo de Radio Televisión Española también está haciendo uso de sistemas para la catalogación automática:
En RTVE ya tenemos un desarrollo inteligente que permite descargar todos los días los programas que se emiten en directo y generar automáticamente los metadatos. La forma en la que participa el documentalista es en supervisar el contenido que la máquina ha generado (V. Bazán, comunicación personal, 15 de junio de 2021).
En América Latina, el archivo que también ha creado desarrollos inteligentes para este proceso documental es el que pertenece a Radio Televisión Nacional de Colombia.
La experiencia que han tenido hasta el momento les permite afirmar que "con la catalogación automática, se obtiene un mayor detalle en precisión sobre los segmentos de voz para los diferentes locutores, así como la precisión de los segmentos de música" (Ramírez y Murillo, 2020: 146).
Acceso, uso y reúso
De las propuestas que se están generando en el trabajo colaborativo entre los archivistas y los desarrolladores de sistemas inteligentes, la que ha causado más impacto es la que tiene que ver con el acceso.
"El intento ha sido desarrollar sistemas de interacción humano-computadoras inteligentes y eficientes, que permitan al usuario acceder a grandes cantidades de información heterogénea" (Avrithis, et al., 2002: 1). Sobre esto, Carrive (2019) enfatiza que con la aparición de tecnologías inteligentes se facilita la búsqueda de información y, por lo tanto, se mejora el servicio a los usuarios.
En la actualidad, sin tecnología inteligente se vuelve complicado optimizar el acceso dada la cantidad de documentos que ingresan a este tipo de archivos, por eso "es necesario y fundamental desarrollar herramientas multidisciplinarias con el objeto de presentar las últimas tecnologías que permitan superar este rezago para darle una respuesta oportuna a los requerimientos de la ciudadanía" (Ramírez y Murillo, 2020: 141). Además, "actualmente los grandes centros de información en el mundo reportan un rezago entre la cantidad de información generada y la cantidad de información procesada y puesta al servicio público" (Ramírez y Murillo, 2020: 141).
Para tratar de resolver esta problemática, la radiodifusora NHK ha desarrollado un sistema de búsqueda de información que es "revolucionario porque puede manejar el gran volumen de recursos que posee la emisora, con lo cual se hace eficaz buscar el documento deseado" (Mochizuki, 2018).
Ejemplos como el anterior dan cuenta del interés que se tiene en los archivos sonoros digitales por crear sistemas que permitan hacer una búsqueda rápida en todo el acervo y que logren recuperar la información lo más cercana posible a lo que el usuario necesita. La IA sirve para "encontrar gemas ocultas, programas y contenido que de otra manera no se verían de nuevo o se pasarían por alto. [Además] podemos utilizar la velocidad de las máquinas para ayudarnos, ya que la mirada de una computadora es mucho más rápida que la nuestra" (Altón, citado en Cowlishaw, 2019).
Con relación al reúso de los documentos sonoros digitales, hoy en día se cuenta con tecnologías inteligentes que permiten reutilizar el contenido del acervo para, a partir de esa información, generar un objeto digital nuevo.
La BBC de Londres está utilizando algoritmos inteligentes para reutilizar algunos de los documentos que resguarda y crear, a partir de ellos, nuevos objetos digitales. Lo que hicieron fue "producir una hora de programación, seleccionada del archivo de la BBC de forma automática, utilizando herramientas de machine learning. Crear un programa con un mínimo de intervención humana fue un proyecto ambicioso y sin precedentes" (Cowlishaw, 2019).
Una vez presentados algunos ejemplos sobre cómo la IA está contribuyendo para mejorar los procesos documentales que se gestan dentro de las cuatro etapas del ciclo de vida de los documentos sonoros digitales, se propone un modelo (Figura 3) que transparente cómo es que los sistemas inteligentes podrían intervenir en las cuatro etapas.
Como lo podemos visualizar, cuando se incluyen algoritmos de inteligencia artificial, el ciclo de vida de los documentos digitales sonoros se vuelve más rápido y dinámico porque acelera el tiempo de ejecución de los procesos documentales. Además, se obtienen resultados en tiempo real. Al ser un ciclo no acaba porque, a partir de las recomendaciones automáticas, se generan nuevos contenidos y vuelve a comenzar el proceso.
Discusión
Tal como se ha mostrado, algunos de los involucrados en la gestión de los archivos sonoros y audiovisuales ven en los algoritmos inteligentes una gran oportunidad para perfeccionar los procesos documentales del ciclo de vida de los documentos sonoros digitales.
El futuro de la IA en los archivos sonoros depende de aprender a integrarla en los trabajos sustanciales de preservación, ya que su uso favorecerá a quienes laboran en estos archivos y su impacto será en beneficio de la sociedad.
Sin duda, esto es un trabajo que requiere de mucho tiempo, sobre todo para poder entrenar a los algoritmos, lo sabemos; no obstante, aspiramos a que los agentes que intervienen en las tareas de los archivos digitales sonoros, así como los desarrolladores de las tecnologías inteligentes puedan tener un panorama completo sobre cómo la IA es totalmente aplicable a todo el conjunto de procesos que se gestan para la preservación de los documentos sonoros digitales.
Visualizar y promover acciones para que el archivo digital sonoro se optimice con IA se va a volver cada vez más necesario. En esta investigación se develó el uso de la IA para optimizar un proceso documental en específico, lo cual sin duda es un gran avance, pero es insuficiente si se considera que la visión a futuro y la tendencia natural de los archivos digitales sonoros, dado el volumen de datos que almacenan, es integrar sistemas inteligentes en todos los procesos documentales.
Debido a que diariamente se está generando por diversas vías información sonora, hay una "importancia de que los archivos y las bibliotecas colaboren con expertos de la comunidad de IA, dado que es un desafío mejorar el acceso a las colecciones digitales que están en constante crecimiento" (Cariani y Oives, 2020: 101).
Sin duda se necesita que haya un trabajo colegiado y multidisciplinar en donde se involucren tanto a archivistas y bibliotecarios, como a ingenieros, informáticos y matemáticos.
Desde las décadas de 1970-1980 los ingenieros, principalmente, han trabajado intensamente en el desarrollo de técnicas y algoritmos para la categorización e identificación de datos. Inicialmente fue con el tratamiento de textos con el fin de clasificar automáticamente documentos, para pasar posteriormente al tratamiento de sonido e imágenes en sus diferentes formatos (Gil, Díaz y Rodríguez, 2019: 12).
Este trabajo en conjunto brindará beneficios tanto para los desarrolladores de la IA como para los responsables de los archivos, ya que:
La comunidad de IA necesita buenos conjuntos de datos. La comunidad de archivos tiene conjuntos de datos que deben de mejorarse. Al trabajar juntos, los conjuntos de datos se pueden mejorar mejorando la calidad de los metadatos y haciendo que el conjunto de datos sea más viable para el análisis (Cariani y Oives, 2020: 102).
Por lo anterior, se deben construir relaciones sólidas y recíprocas entre los responsables de los archivos digitales sonoros y los encargados de los desarrollos de sistemas inteligentes debido, entre otras cosas, a que "los archivistas son expertos en la recopilación y el análisis de datos de una manera que los científicos informáticos no lo son, y esto coloca a los archivos en una posición única para la colaboración" (Cecchine, 2021).
Los archivos sonoros con visión de futuro tendrían que estar formando colaboraciones multidisciplinarias para ampliar los límites de su uso, ya que "deben de estar pensados para que sean resilientes, inclusivos y abiertos, para ello se requiere experimentación y colaboración entre instituciones de la memoria y múltiples disciplinas científicas" (Bocyte y Oomen, 2020).
De tal forma que este cambio profundo por el que atraviesan los archivos digitales sonoros ha de ir a la par del avance tecnológico, pues "deben de estar a la vanguardia de su propio futuro para que puedan dirigir, guiar y no perder. Las vastas masas de información en los archivos proporcionan una excelente plataforma para la explotación de la inteligencia artificial" (Hegedus, 2020: 57).
Consideraciones Finales
El resultado de este artículo evidencia que los archivos sonoros presentados están usando herramientas de inteligencia artificial para la automatización en la creación de documentos, en el control de calidad, en la catalogación y en la búsqueda de información. Sin embargo, es evidente que hay un campo muy rico aún por explorar sobre las aportaciones que pueden tener los sistemas inteligentes dentro de los archivos digitales sonoros, lo cierto es que ya hay un avance considerable con relación a su uso, tanto en archivos de Europa, Asia y América, y eso puede dar pie a que otros se motiven a estudiar la viabilidad de implementar algoritmos de IA para garantizar la preservación de los objetos digitales que resguardan día a día.
Algunas consideraciones finales para el uso de la IA en un archivo sonoro digital son las siguientes:
Es necesario reconocer, dentro del archivo digital, que hay un apuro por optimizar los procesos documentales.
Dejar a un lado la resistencia al cambio sobre la forma en la que se ha estado trabajando con el archivo.
Adentrarse en el conocimiento sobre los desarrollos inteligentes que se están llevando a cabo en los archivos sonoros digitales del mundo.
Comenzar a crear redes de conocimiento que vinculen a los archivistas con los expertos en IA a fin de explorar las posibilidades de uso en el archivo digital sonoro.
Incentivar el uso de recursos públicos para la incorporación de la IA en la preservación del patrimonio sonoro.