Introducción
La representación temática del contenido facilita la visibilidad, recuperación y acceso de los documentos a través de internet. En el caso de las noticias, la recuperabilidad se expresa a través de la consulta de los usuarios en la web o apps y, no menos importante, en la reutilización de los propios medios, sus editores y periodistas (Sobak y Pharo, 2017: 739).
Los teóricos que han estudiado la representación del contenido a través de la indización destacan cómo se orienta cada vez más hacia grupos de usuarios específicos (Hjørland, 2017: 59). En el ámbito de la edición y publicación en la web, la indización se ha especializado y enriquecido a la optimización para buscadores o SEO (Search Engine Optimization). Al respecto, la investigación bibliotecológica especializada es escasa y, todavía más, tratándose de los contenidos audiovisuales (Arlitsch, OBrien y Rossmann, 2013).
Curran (2004) señaló que el SEO influye positivamente en la publicación web a través de la manipulación de elementos utilizados por los buscadores para determinar su relevancia, y propuso la realización de una extensa investigación sobre palabras y términos clave para determinar cuáles son usados en títulos y descripciones. Luego, Curran (2004) y Raisinghani (2005) destacaron que existen oportunidades de mejora para aportar mayor puntaje a la evaluación de los sitios web; por ejemplo, el uso de palabras clave en el código. Tanto Curran como Raisinghani convergen con las recomendaciones de Zhang y Dimitroff (2005), quienes identificaron que al optimizar las etiquetas semánticas se alcanzan posiciones más relevantes en la búsqueda. Descubrieron que este fenómeno se repetía en sitios donde las páginas clave o descriptores temáticos aparecían en las etiquetas de título y en el cuerpo del texto.
Por otro lado, Sen (2005) desarrolló un modelo teórico para comparar los efectos del SEO con las estrategias de posicionamiento pagado versus el tráfico orgánico o natural de audiencia y Zing y Lin (2006: 519-529) reconocieron que, aunque el SEO estaba resultando de gran interés en la industria publicitaria, no ocurría lo mismo en el ámbito de la investigación científica y académica; menos en la industria televisiva. Más tarde, Malaga (2007: 68-82) estructuró una concepción sobre la planificación del SEO para incrementar la relevancia y la visibilidad.
El impacto del SEO ha sido tal que, en 2009, la British Broadcasting Company (BBC) desarrolló una posición laboral de especialista en SEO Periodismo y, en 2011, Los Angeles Times instituyó al SEO Chief (Ellis, 2011). Por su parte, para Stabiner (2011) y Bakker (2012), el SEO se puede comprender como un proceso que sirve a los editores web para crear y ajustar los encabezados o los textos de las noticias a fin de mejorar su posicionamiento.
Spyridou y Veglis (2012) aportan que las organizaciones periodísticas, entre otras actividades, redefinen y modifican sus procesos de producción alrededor del SEO para mejorar posicionamiento y tráfico, asunto que luego validaron Giomelakis y Veglis (2016) al concluir que existe una clara correlación entre resultados y optimización. Gonzalo, Codina y Rovira (2015) añaden que las tendencias se enfocan en dos aspectos relacionados con los usuarios: a) perfil del usuario y b) la intención temática de la búsqueda.
El campo de contribución de la bibliotecología y los estudios de la información en el enriquecimiento de la representación temática de los contenidos en la web tiene claras oportunidades en lo que se refiere a la investigación, la elaboración de diagnósticos y el diseño de intervenciones para la mejora continua y la innovación. Texto, audio, video y animaciones conforman un discurso que, por su formato, demanda de un análisis documental especializado donde se consideren aspectos específicos como el visionado, el análisis del contenido, la elaboración del resumen, los descriptores temáticos con perspectiva semántica para el SEO, así como el etiquetado. En el caso de los noticieros televisivos en la web es necesario realizar un esfuerzo adicional, pues si bien existe un cuerpo de texto que acompaña al recurso multimedia, en realidad la mayor parte del contenido enriquecido se encuentra justo en dicho elemento. De ahí la utilidad de un modelo de representación y recuperación temática (Engerer, 2017: 661).
En Noruega, un estudio realizado en una televisora muestra las dificultades en la indización de contenidos televisivos de Norwegian Broadcasting Corporation. Los principales hallazgos revelan una indización incompleta, inconsistente y desigual (Sobak y Pharo, 2017: 739). En México, poco se conoce sobre estos y otros aspectos especializados en el discurso de los noticieros televisivos en la web. Por ello, se tomó como punto de partida el diagnóstico sobre el uso de métodos, técnicas o herramientas de representación temática en televisoras. Posteriormente se diseñó un modelo basado en experiencias de indización, con perspectiva bibliotecológica, que se probó en un entorno de negocio real para observar el efecto en el tráfico de usuarios.
Metodología
Se acudió al método conocido como Investigación-Acción (Action Research) que Comfort (1985) y Kemmis, McTaggart y Nixon (2014) han estudiado, analizado y sistematizado. Su perspectiva fue tomada como punto de partida para construir la metodología, considerando las cinco etapas que guiaron el presente estudio. Los autores mencionados retoman el desarrollo atribuido a Lewin (1948) en la psicología social, seguido entre otros por Checkland (1981) y Checkland y Holwell (1998), cuyas principales contribuciones facilitaron la revisión del método con el rigor apropiado en la aplicación de la teoría de los sistemas de información y comunicación. Baskerville y Wood-Harper (1996: 235-246) describen la Investigación-Acción como un acercamiento científico basado en diagnósticos, intervenciones y generación de aprendizajes para construir un modelo cíclico que consta de cinco fases: diagnóstico, modelo metodológico, diseño de la intervención para probar el modelo, la implementación y evaluación correspondientes, así como la formulación de aprendizajes.
Diagnóstico
Para realizar el diagnóstico se establecieron criterios de análisis de la publicación de los noticieros en la web, considerando la interfaz del usuario y el código fuente de contenidos. El diagnóstico se realizó entre febrero y abril de 2015 en 14 televisoras mexicanas: Aprende Televisión Educativa, CNN en español, Canal Once, Efekto TV, Excélsior TV, Foro TV/Televisa, Fuerza Informativa Azteca, Milenio Noticias, MVS Noticias, Noticieros Televisa, Proyecto 40, Telefórmula, Televisión Metropolitana Canal 22 y TV UNAM.
Análisis de la interfaz de usuario. Se revisaron y analizaron las páginas web para identificar presencia o ausencia de metadatos de representación temática para el posicionamiento, la visibilidad y la recuperabilidad: título del noticiero, fecha y horario del noticiero, fecha y hora de posteo, conductores, síntesis del noticiero, palabras clave, nombres propios, temas relacionados, extensión de contenido en redes sociales, el noticiero en versión completa está disponible en vivo o bajo demanda, publicación de guion, escaleta, transcripciones, traducciones o subtítulos y publicación de fragmentos del noticiero bajo demanda.
Hallazgos del diagnóstico en la interfaz de usuario. Las televisoras cuentan con gestores de contenido preparados para asignar, de manera automática, título del noticiero, fecha del noticiero, horario de transmisión, fecha y hora de posteo y conductores. El 34 % no incluye una síntesis que exprese el tema, 86 % no contiene palabras clave o nombres propios como etiquetas complementarias, 79 % no agrega etiquetas sobre temas relacionados, 14 % no añade herramientas para compartir el contenido en redes sociales y 21 % no ofrece los noticieros en vivo o bajo demanda. En el 100 % está ausente la publicación de guiones o escaletas o trascripciones. Sólo un 7 % no ofrece fragmentos de los noticieros.
Análisis del código fuente. Por cada televisora o entidad productora se llevó a cabo la inspección del código fuente de las publicaciones de los noticieros disponibles, en vivo o bajo demanda, así como en cinco clips de video. Se tomaron en consideración los siguientes rasgos: densidad de palabras clave, etiqueta TITLE, etiquetas meta, etiquetas H1 y H2, análisis de palabras clave de la competencia, selección de palabras clave por estacionalidad, variantes idiomáticas y concatenaciones, etiquetado controlado y social, optimización de imágenes, metadescripciones, uso de microdatos y URL.
Hallazgos del diagnóstico del código fuente. Sólo 14 % presentó textos donde la densidad de las palabras clave superó el 15 %, colocándolas dentro del rango. Sin embargo, ninguna presentó una densidad mayor al 30 %. Es decir, los editores web publican “resúmenes periodísticos” pero carecen de elementos semánticos suficientes para establecer el tema. En 71 % el código fuente no contiene palabras clave en la etiqueta <TITLE>, 57 % no suma enunciados que describan el tema y, en el 43 % restante, incorporan textos periodísticos con baja densidad de palabras clave (no obstante que sí lo hacen). El 100 % de las televisoras utilizan etiquetas <H1>, es decir, que colocan al menos un título en la página web, pero no siempre incluye alguna palabra clave temática. Por otra parte, ninguna utiliza las etiquetas <H2> para elaborar epígrafes, subtítulos o subsecciones en el cuerpo de los resúmenes periodísticos. Asimismo, no aprovechan la oportunidad de estudiar las palabras clave empleadas por sus competidores. En todos los casos se identificó la ausencia del uso de palabras clave seleccionadas por temporalidad; se agregan temas populares (trending topics) aunque este recurso no es capitalizado. También hay ausencia en el uso de variantes idiomáticas y concatenaciones.
Un 57 % de las televisoras ejecuta el proceso de asignar etiquetas; no obstante, se deduce la carencia de una estrategia clara para hacerlo, con base en la creación de listas, repertorios, vocabularios o taxonomías. Con un trabajo más estructurado destacan Efekto TV y Televisa que emplean palabras clave con un sentido más cercano a la indización temática. Sólo en el 21 % de los contenidos se encontró que las imágenes fijas o la primera imagen del reproductor de video no están optimizadas. En el 79 % de las televisoras no se identificó el uso de metadescripciones (uso de etiqueta <META = DESCRIPTION) para mejorar la descripción temática del contenido, a través de un resumen estructurado. Sólo aparece presente con un mayor grado de consistencia en Noticieros Televisa, Foro TV y Efekto TV. Este último caso sobresale porque utiliza una etiqueta específica: <META = ABSTRACT>. En el 100 % de las televisoras se identificó ausencia de microdatos mostrados en los snippets de las páginas de resultados arrojadas por motores de búsqueda. Por último, en el 71 % de las televisoras (10 casos) no se registran palabras clave en las URL.
Propuesta de modelo metodológico
Una vez realizado el diagnóstico, en coincidencia con los trabajos de Serrano-Cobos (2015: 11), Malaga (2007: 72), Giomelakis y Veglis (2016, 22-33), así como Codina et al. (2016: 7), se presenta la propuesta de un modelo de representación temática de los noticieros en la web (Figura 1), tomando como base los factores esenciales para incrementar el valor de la optimización para buscadores (SEO).
Con base en la aplicación de análisis y tratamiento documental del video, la recuperación de otros insumos de la creación del noticiero y aspectos semánticos on-site relevantes para SEO
Fuente: Soto-Hernández (2017: 94) con base en Malaga (2007), Soto-Hernández (2009), Soto-Hernández y Naumis-Peña (2014) y Serrano-Cobos (2015)
El modelo es una aportación planteada desde la bibliotecología y los estudios de la información hacia el sector periodístico en la web. Tiene como objetivos los siguientes:
Aplicar un modelo de análisis y tratamiento documental del video para refinar la representación temática (Soto-Hernández, 2009; Soto-Hernández y Naumis-Peña, 2014).
Incrementar la relevancia de los contenidos digitales para los motores de búsqueda; su visibilidad, posicionamiento y acceso.
Aprovechar el valor semántico en la web (Serrano-Cobos, 2015: 11).
Facilitar la representación y recuperación temática mejorando la experiencia del usuario.
Contribuir a la productividad.
En el modelo se incorporan los procedimientos técnicos del análisis y tratamiento documental del video: visionado, análisis de contenido, resumen, descripción temática y etiquetado. Cada uno de los aspectos semánticos más relevantes presentes en el modelo fueron explicitados en detalle y se presenta aquí la densidad de palabras clave como ejemplo.
Representa el número de repeticiones en el cuerpo de un texto (no del total del sitio web).
A través de la densidad de palabras clave, los motores de búsqueda determinan cuál es el tema principal o aboutness del contenido (Yablo, 2014: 1). Se recomienda utilizar todas las palabras de un mismo campo semántico incluyendo sinónimos, antónimos, variantes y formas verbales. De este modo aumenta la densidad, sin necesidad de incrementar las repeticiones.
Es importante equilibrar la densidad de las palabras clave, así como su distribución en todos los espacios donde se puede aumentar la relevancia. De otro modo, el abuso puede ser interpretado por los motores de búsqueda como una mala práctica (spam), e incluso, ganarse una penalización en la evaluación de relevancia total del SEO.
De acuerdo con Soto-Hernández (2009: 101), el tratamiento documental del video engloba procedimientos y operaciones que son clave en la representación y recuperación temática de contenidos audiovisuales. Con este proceso técnico se busca satisfacer las demandas de la distribución, comercialización y visibilidad de los noticieros televisivos a través de un esquema multiplataforma (televisión, web desktop, web mobile, OTT como Netflix, app o medios sociales).
No obstante, las nuevas condiciones del contexto económico, social, empresarial, laboral y técnico, así como la velocidad de la obsolescencia tecnológica, han provocado la incorporación de profesiones emergentes. El etiquetado que pudieran realizar los lectores de las noticias tampoco es una solución. Por lo tanto, hay consenso en que las etiquetas generadas socialmente tienen problemas de calidad asociados con el uso de palabras no declaradas, polisemia, sinonimia y falta de jerarquía (Guy y Tonkin, 2006; Matusiak, 2006; Lu, Park y Hu, 2010), y la falta de distinción sobre a qué tipo corresponde una etiqueta (Springer et al., 2008: 18). En el caso aún de la indización de imágenes fijas, los problemas existentes para indizar textos se multiplican (Matusiak, 2006: 294), debido a la riqueza semántica y la ambigüedad de la imagen (Melgar et al., 2017: 350).
Cuando las empresas televisoras decidieron difundir contenidos en la web, surgió la necesidad de incorporar otro perfil profesional conocido como editor web cuyos objetivos y competencias son una obra en progreso. Éste es responsable de asegurar la ejecución de tareas que van desde la preparación de los materiales hasta otras vinculadas con el análisis de contenido.
El otro perfil profesional de reciente incorporación en las televisoras que publican noticieros en la web es el SEO manager, a cargo de supervisar que cada contenido digital, como un sitio web, cuente con elementos que los motores de búsqueda exigen a través de sus algoritmos para alcanzar la mejor posición posible en las páginas de resultados.
Cabe preguntarse cuál es el lugar del bibliotecario, el profesional de la información, en este panorama (Arlitsch, OBrien y Rossmann, 2013: 177-188), pues de las diferentes operaciones que deben realizar el editor web y el SEO manager hay algunas que, explícitamente, corresponden al ámbito de los procedimientos del campo bibliotecológico. La ejecución guarda apenas una distancia sutil pero relevante (Soto-Hernández, 2017: 101).
Para lograr que la representación temática se genere de forma efectiva, se proponen operaciones que proceden de la tradición bibliotecológica y de los estudios de la información, para los fines de recuperación, incremento de visibilidad, mejora en el posicionamiento en motores de búsqueda, experiencia de usuario y aumento en los indicadores de tráfico: resumen (no periodístico), descripción temática a través de palabras claves y etiquetado.
Las palabras clave son producto del análisis del contenido del video periodístico y extraídas de sus elementos textuales, expresados en el discurso del noticiero o del guion de una nota, reportaje, entrevista, etcétera. A diferencia de la indización especializada que se conoce en la bibliotecología, tratándose de documentos científicos, no resulta tan sencilla la extracción de palabras clave desde el título del noticiero (v. g. “CNN con Carmen Aristegui”) o de una noticia (v. g. “SSPCDMX aplicará operativo vial en Viaducto Tlalpan por obras”). Como lo señala Naumis-Peña (2007: 105), lo ideal es que sean representativas de los contenidos documentales y, en este sentido, cuando la extracción e indización se puede realizar por asignación y con participación humana, resultará más significativa.
En un artículo reciente se argumenta que las técnicas de inteligencia artificial no son lo suficientemente maduras para resolver el problema de la indización multimedia conceptualmente y no serán capaces de reemplazar a los indizadores humanos en el futuro previsible (MacFarlane, 2016: 180). El principal destinatario de las palabras clave es el motor de búsqueda y se persigue que haya la mayor congruencia entre el significado que están representando y la infinita gama de posibilidades cognitivas en una consulta efectuada por un usuario.
Diseño de la intervención para aplicar el modelo
Tomando como base los datos arrojados por el diagnóstico y el modelo de representación y recuperación propuesto en el apartado anterior, se estableció contacto con las 14 televisoras analizadas. A todas se les propuso un programa de intervención. Finalmente, sólo una de las empresas aceptó que se ejecutara el proyecto; se reserva el nombre o marca de la organización por acuerdo de confidencialidad. Enseguida se presentan el caso y las acciones ejecutadas.
Reto
Contrarrestar el efecto negativo en los principales indicadores de tráfico web que en febrero de 2015 disminuyeron 45 % (la aparición de Netflix y otro de tipo de programación fija) con respecto al año inmediato anterior, en la plataforma web y web mobile (web en dispositivos móviles).
Objetivos
Diseñar una estrategia organizacional de tipo editorial y operativa para la representación temática.
Implementar la estrategia de forma experimental en un ambiente de pruebas.
Evaluar el impacto.
Documentar aprendizajes.
La implementación. Etapas
Establecimiento de un comité de trabajo.
Diseño de la estrategia e indicadores.
Implementación en un ambiente de pruebas.
Análisis de datos.
Formulación de aprendizajes.
Acciones
Creación de comité de trabajo / Mayo, 2015.
Diseño de la estrategia / Mayo, 2015.
Análisis / Junio, 2015.
Establecimiento de indicadores / Junio, 2015.
Implementación en ambiente de pruebas / Julio-diciembre, 2015.
Análisis de datos / Enero-febrero, 2016.
Formulación de aprendizajes / Marzo, 2016.
Resultados esperados
Frenar la caída del tráfico web y, de ser posible, incrementar los indicadores de desempeño.
Indicadores observados: usuarios únicos absolutos, páginas vistas, videos vistos, tiempo de permanencia, perfiles demográficos.
La ejecución del experimento se realizó en cinco noticieros que figuran dentro del portal web de la empresa. La intervención se aplicó en dos noticieros mientras que los otros tres sirvieron como medio de control, y se llevó a cabo de septiembre a noviembre de 2015.
Evaluación de los resultados
Al concluir la intervención se procedió a la recolección, acopio y análisis de los datos relacionados con los indicadores clave de tráfico web establecidos. Los resultados se describen en la serie de figuras que aparecen a continuación. Como se aprecia en la Figura 2, al repunte de usuarios únicos absolutos que se presentó en febrero de 2015 siguió una caída constante que llegó a su nivel más bajo en julio, coincidiendo con el auge de Netflix y otros servicios que ofrecen programación fija. En febrero inició la etapa de implementación de la nueva estrategia de representación temática. Con las medidas, se logró un pico en la curva hacia octubre. Para noviembre, había comenzado a presentarse un comportamiento más estable con una ligera recuperación en diciembre, aun cuando la temporada navideña suele tener un impacto negativo en los indicadores de tráfico web. No se pagó campaña de impulso.
La Figura 3 expone el comportamiento que tuvieron los cinco noticieros que produce la empresa estudio de caso en el indicador de usuarios únicos absolutos. Sólo en los noticieros 4 y 5 (en los que se aplicó la política de representación) hubo un incremento notable. La diferencia parece sobresaliente en web desktop y web mobile; esto se debe a que la estrategia no se implementó en la app. En la Figura 4, en correspondencia, el número de páginas vistas también aumentó como resultado del experimento.
La Figura 5 expresa la distribución del consumo de video según plataforma. Hubo crecimiento en los noticieros 4 y 5 por encima de los demás. En la Figura 6 se observa el tiempo de permanencia realizando una actividad (clicks, recorrer la página, activar un reproductor de video); el incremento estuvo por arriba de la media comercial que ronda el 1.5 minutos en los noticieros donde se implementó la política de representación temática.
En la Figura 7 se presenta el perfil demográfico de los usuarios. Se incorporó a niños y adultos mayores, lo que significa se alcanzó al llamado target comercial 4+ o familiar con el que, por cierto, antes no contaban. Esto aplica para los noticieros 4 y 5 en los que se realizó la intervención.
Formulación de aprendizajes
En la empresa estudio de caso se identificaron grandes dificultades para encontrar editores web con formación específica, profesionalizados y disponibles para llevar a cabo las tareas periodísticas y las de representación temática con rigor y efectividad. Ninguno de los editores web participantes en el proceso cuenta con algún tipo de entrenamiento especializado en bibliotecología o gestión de información, o bien, en posicionamiento en motores de búsqueda desde una perspectiva semántica.
Conclusiones y recomendaciones
La televisión y la web están inmersas en la convergencia digital en el que se generan diversidad de expresiones creativas y donde se combinan estructuras, géneros, lenguajes y concepciones artísticas y periodísticas para satisfacer las necesidades de los usuarios, los anunciantes y el modelo de negocio.
Al probar el modelo propuesto para la representación de los noticieros en un entorno de negocio real, incluso en condiciones de estrechez presupuestal, se identificó el potencial que puede tener la contribución de la bibliotecología y los estudios de la información. Se pudo constatar que la metodología propuesta fue efectiva en un periodo breve de implementación.
Entre los hallazgos hay dos muy relevantes. El primero de ellos es que las prácticas de optimización para buscadores (SEO) se complementan y enriquecen con la representación temática resultado del tratamiento documental. El valor de la publicación digital en la que se difunden los noticieros televisivos incrementa cuanto más claro es el tema para los motores de búsqueda. Debería ser un objetivo el dotar de mayor recuperabilidad a la publicación web para desempeñar mejor sus funciones de comunicación social y, en su caso, los retos y metas comerciales de negocio que hacen posible la producción y distribución. Hay aquí una amalgama que se convierte en una vía de investigación, innovación y desarrollo para la disciplina bibliotecológica y los estudios de la información.
El segundo hallazgo está relacionado con las nuevas competencias profesionales que se requieren para gestionar el tratamiento documental como una innovación aplicada al sector industrial de la información en el entorno web. Hay demanda de recursos humanos preparados para realizar operaciones transaccionales, analíticas y estratégicas. En una era donde la visibilidad cobra un valor comercial, social, político, jurídico, histórico y cultural de enorme relevancia, hay un lugar importante para el bibliotecólogo como profesionista y para el investigador especializado.
Finalmente, el modelo muestra que el análisis documental y la representación temática y su aplicación al SEO del noticiero televisivo en la web requieren que el personal se actualice y profesionalice, traslapando su perfil con el del editor web en lo particular y con el de los profesionales de las industrias creativas en lo general (Mietzner y Kamprath, 2013: 280-294). Es decir, para el recurso humano implica diseñar y estructurar la publicación considerando la relevancia lingüística y semántica para mejorar la representación, recuperación, posicionamiento en los motores de búsqueda y experiencia de usuario.
En tanto que la información sea un elemento constitutivo del mercado y la recuperabilidad facilite el acceso a los usuarios o la recomendación para usarla, habrá necesidad de crear nuevas soluciones para posicionar los documentos y contenidos, con la finalidad de ponerlos en contacto con las personas.