Introducción
El objetivo general de este trabajo es determinar metodologías y estrategias para procesar un corpus lingüístico de la lengua general, con la finalidad de obtener los términos especializados de una disciplina y los términos compartidos en varias disciplinas con la finalidad de separarlos automáticamente de la masa de unidades léxicas de la lengua general. Este tipo de trabajo permite obtener términos y esclarecer posteriormente su significado, conocer los usos en los textos donde aparecen y utilizarlos en la construcción de lenguajes documentales.
¿Es el lenguaje de la ciencia un lenguaje secreto? En un periódico digital de Murcia, España, se presenta un trabajo sobre difusión de la ciencia titulado El lenguaje secreto de la ciencia, cuya autora sostiene que "desde el álgebra hasta la geometría pasando por la aerodinámica, las matemáticas están presentes en todas las ramas científicas y son básicas en nuestra vida diaria" (Moreno, 2011: s. pág.), otorgando así a las matemáticas la secrecía del lenguaje porque permea las ciencias en general. La investigación sobre matemáticas básicas que presenta justifica esta aseveración y le otorga garantía a través, entre otros, del caso de Manuel Saorín, catedrático de matemáticas y grupo de excelencia, quien afirma: "Sacar dinero de un cajero o mandar un correo electrónico no sería posible sin el álgebra" (Moreno, 2011: s. pág.). Sin duda, no se refiere a la claridad del lenguaje utilizado en las ciencias a través del uso de términos para transferir información, pero se observa una posición de complacencia acerca de un lenguaje escondido en otros de las ciencias.
Hay que reflexionar, pues, sobre el hecho de que en la actualidad la humanidad cuenta con valiosos recursos y nuevas tecnologías para obtener y difundir la información, entre los que destacan las telecomunicaciones, la radio, la televisión, la telefonía y la transmisión de datos, el libro digital interactivo, entre otros; de entre todos estos recursos sobresalen el Internet y las redes sociales como Facebook y Twitter. Con el Internet los seres humanos pueden tener acceso al conocimiento global desde teléfonos, tabletas, computadoras fijas o portátiles, televisores, etcétera.
Este acceso ha sido posible desde hace ya muchos años, ¿pero entonces? ¿Cómo es que las ciencias, las técnicas y el conocimiento se incrementan y difunden con amplitud, sin que la población mundial lo haya aprovechado para incrementar su bienestar? La respuesta es que hay un tipo de analfabetismo funcional 1 que no permite a buena parte de los seres humanos decodificar el significado de muchos de los mensajes de difusión científica, aunado al uso de términos desconocidos por la población, lo cual debe contrarrestarse con acciones como las propuestas por López-Barajas (2009) respecto a la alfabetización virtual.
En esencia el problema se hace patente cuando la población requiere entender las palabras, frases u oraciones de los textos de difusión científica para poder interpretarlos en cuanto a su significado y no lo logran. Por lo mismo no se pueden beneficiar del conocimiento científico y tecnológico; esto produce que a la mayoría de las personas el código de las ciencias les resulte opaco, oscuro, ajeno, y refuercen su idea de que el lenguaje de la ciencia es casi un lenguaje secreto.
Lo anterior en realidad es muy normal porque en una comunicación científica las personas deben poseer los elementos básicos para codificar, transmitir, decodificar e interpretar los significados científicos o técnicos, y quienes no poseen estos elementos quedan excluidos automáticamente de la comunicación especializada que sostienen emisores y receptores de la ciencia y de la tecnología, como puede consultarse en El proceso de comunicación de Sánchez González (2010).
El problema es que la ausencia de claridad parecería repetirse en los textos de difusión que participan en la conformación de los corpus lingüísticos de la lengua general. El Corpus del Español Mexicano Contemporáneo, 1921-1974 (CEMC) es utilizado como base para desarrollar el presente estudio; en esta obra se integraron textos de difusión científica y textos de educación formal a nivel licenciatura, en los cuales aparecen términos del lenguaje especializado que se rescatan de la masa del corpus para analizar. En este trabajo no se tratarán aspectos semánticos de los términos, únicamente la metodología para aislarlos del corpus de la lengua general.
El enfoque sobre la comunicación y otros aspectos del texto
La Bibliotecología e Información actualmente consideran, entre otras cosas, que para ayudar a los usuarios a acceder a la información, el punto de partida es dejar claro que la idea principal de la comunicación de un mensaje de difusión de conocimiento es que se entienda su significado, con lo cual es necesario observar lo que ocurre con el signo lingüístico y sus componentes: significante, referente y significado, para que exista una comunicación efectiva.
Cuando se pretende trabajar con textos, como ocurre en general en la Bibliotecología e Información, es necesario establecer que existen varios aspectos inherentes a la necesidad de comunicar algo, como lo aclaran autores como Luis Fernando Lara (1977, 1984, 1996, 1999, 2001; y Jetta Zahn, 1973), Ana María Cardero García (1998; 2003; 2004; 2005 y 2009) y Catalina Naumis Peña (1997; 1999; 2000 y 2003) en México, al igual que especialistas internacionales como Juan Carlos Sager (1993), Juana Marinkovich (2008), Rosa Estopà (1998), Rita Temmerman (2000) y su teoría sociocognitiva de la terminología, María Teresa Cabré y Rosa Estopà (2002) y María Teresa Cabré (1999a, 1999b, 2002), con sus dos propuestas sobre la Teoría de las puertas y la Teoría Comunicativa de la Terminología (TCT). Estos especialistas argumentan que hay que tomar en cuenta el contexto en que se hace uso de una unidad léxica y su correlación con el resto de la lengua para entender su significado verdadero, el cual a su vez está marcado por el consenso común de los hablantes.
Si se consideran pertinentes las propuestas teóricas de estos especialistas, habría que recurrir también a la sociolingüística respecto al contexto de situación, campo, tenor y modo (Halliday, 1979) y a la sociología cuantitativa urbana o variacionismo, 2 que señala la posición socioeconómica del hablante así como su formación cultural. Con esto se aclarará que el acto comunicativo del lenguaje científico comprende las circunstancias espaciales y temporales en que se desarrolla y esto obliga a que, al estudiar el objeto llamado texto, se tome en cuenta también al contexto lingüístico, que se refiere a los factores vinculados a la producción de un enunciado; este mismo contexto afecta la interpretación, la adecuación y el significado del mensaje (por medio de la gramática, la sintaxis, el léxico y el contexto). También hay que tomar en cuenta al contexto o situación extralingüística, que es el conjunto de los partícipes potenciales en la comunicación, tales como el lugar, tipo de registro y momento en que se concreta un acto lingüístico.
El estudio y mantenimiento de registros lingüísticos es sumamente importante para esclarecer los términos, pues incluye el conjunto de variables contextuales y sociolingüísticas que condicionan el modo en que una lengua es usada en un contexto socioeconómico concreto. Es decir, al analizar un registro lingüístico se define si lo comunicado está ubicado con un uso de la lengua estándar, no-estándar, culta, subculta o pertenece a una comunicación formal o informal, entre otras situaciones, como se estableció en la estratificación del Corpus del Español Mexicano Contemporáneo, 1921-1974 (CEMC) (Lara y Ham Chande, 1979: 7-39), del cual se obtuvieron los resultados que utilizamos en la elaboración de este artículo.
En este mismo sentido, cuando se analizan textos científicos es importante indicar que la ciencia es un tipo de comunicación basada en registros de uso y situaciones formales donde el emisor selecciona los recursos lingüísticos adecuados, en los registros especializados, destinados a un receptor cuyo nexo común es el interés en una actividad especializada o profesional específica. Estas características ayudan a diferenciarlo e identificarlo de los registros pertenecientes a otros contextos socioculturales como el estudiado en este caso. Las situaciones profesionales se caracterizan por utilizar un vocabulario técnico propio del área de interés y el uso de expresiones con un significado especial. Los mensajes que se transmiten son regularmente por escrito. Sin embargo, los autores científicos en la vida real no pueden comunicar su mensaje tal como lo propone Wüster (2003) en la Teoría General de la Terminología (TGT), esto es, con las unidades terminológicas exclusivas de su disciplina, ya que también necesitan usar unidades léxicas de la lengua general e incluso unidades léxicas especializadas que se emplean en otras disciplinas.
Hay aspectos importantes a tomar en cuenta cuando se selecciona a un autor para analizar las unidades léxicas usadas en una de sus obras o textos, pues éste en realidad funge como una autoridad digna de ser seguida y respetada, por lo cual hay que seleccionar a uno productivo y de los más citados en su campo. También hay que considerar otros aspectos, como su lugar de nacimiento, estrato socioeconómico, vivencias individuales, cultura, ideología, religión, postura política, tradición verbal, idioma, formación profesional, investigaciones previas individuales y en equipo, experiencia, libertad de expresión, intereses individuales, actualización, especialización científica y el tipo de documentos o textos que produce, pues pueden ser de tan distinta índole como los siguientes: cartas, comunicados, informes, tesis, reportes de investigación, artículos, libros, ponencias, dictámenes, normas, leyes, reglamentos o documentos de divulgación.
Para situar la producción de los términos que se quieren analizar documentalmente es necesario identificar el tipo de documento o texto científico, definir si proviene de una autoridad en la materia, si corresponde a una comunicación oral o escrita, si fue elaborado con premura o fue preparado con tiempo o si fue un tema libre o dirigido, por mencionar algunos aspectos. También hay que considerar el uso de las expresiones especializadas porque en general los autores científicos son meticulosos en la elección de las unidades léxicas que utilizan en sus textos, con la finalidad de disminuir al mínimo las ambigüedades en la comunicación científica y técnica. Sin embargo, un autor puede tener o no éxito al seleccionar las palabras más precisas para conseguir su objetivo comunicativo, pues en su mente puede haber infinidad de razonamientos que guían la elección de las unidades léxicas y de las unidades terminológicas de su discurso, como pudieran ser la situación misma de la elaboración del discurso, el idioma en que se produce y el uso correcto de nomenclaturas, nombres propios, abreviaturas, acrónimos, siglas, expresiones fijas, claves, contraseñas, conceptos, números escritos y en cifras, símbolos, fórmulas, convenciones, etc., lo cual favorece o no la materialización de una unidad terminológica en los textos especializados.
Como se puede ver hay una gran cantidad de factores que pueden influir en la selección de unidades léxicas y terminológicas por parte de un autor, pues además hay formas simples, sintagmas, expresiones fijas o frases terminológicas pluriverbales, y a todo esto se puede añadir otro tipo de información, de mayores proporciones, que se hace presente frecuentemente en los textos académicos, técnicos y especializados. Esta información es el uso de citas y transcripciones, que se estudian para identificar la existencia de una gran cantidad de menciones de lo que otros han dicho, ya sea en forma de pensamientos o de comprobaciones científicas (Cunha, 2004). Estos datos muchas veces aparecen en el idioma original en que se produjeron, como el latín, el griego, el inglés, el francés, etc., y aparecen acompañados del aparato crítico correspondiente.
El análisis de contenido
Es oportuno situarnos en la idea de que, para solucionar los problemas científicos, tanto las ciencias como las técnicas en sus búsquedas del conocimiento utilizan el método de análisis para efectuar sus investigaciones, y que en cada disciplina o campo del conocimiento humano se utiliza un tipo de análisis particular y coherente con ella. Para la Bibliotecología e Información hay algunas técnicas que resultan dignas de ser tomadas en cuenta por usar métodos afines y/o complementarios de análisis. Por supuesto que hay infinidad de disciplinas de las que se pudiera tomar conocimiento útil para esta materia, pero en los hechos tradicionalmente existen áreas cercanas que complementan el conocimiento correspondiente, tales como la Lingüística, la Lingüística Aplicada en todas sus vertientes y la Computación, entre muchas más.
En estas disciplinas se desarrollan análisis que son susceptibles de ser utilizados en estudios multidisciplinarios, por ejemplo: análisis de contenido, análisis del discurso, análisis gramatical, análisis cualitativo, análisis cuantitativo, análisis de definiciones analíticas, análisis de fraseología contrastiva, análisis lexicológico, análisis de documentos, análisis de las relaciones conceptuales, análisis de textos, análisis de unidades sintagmáticas, análisis y diseño de corpus lingüísticos, análisis de términos y por último el método del análisis documental de contenido usado para transferir información.
En la introducción del libro La ciencia del texto: un enfoque interdisciplinario, Teun A. Van Dijk explica cómo el análisis del discurso se estudia desde diferentes disciplinas científicas y qué tanto existe una "conexión transversal" interdisciplinaria. Van Dijk parte del supuesto de que en el uso de la lengua, la comunicación y la interacción se producen a través de textos o discursos. La lingüística estudia una parte del uso de la lengua, pero otras ciencias también lo hacen: la sociolingüística, la comunicación, la psicología cognitiva, la pedagogía, la jurisprudencia, la ciencia política, la sociología y, por supuesto, la bibliotecología. Las relaciones textuales o discursivas se dan entre distintos tipos de textos, las estructuras textuales subyacentes, sus diferentes condiciones y funciones, los contenidos y los efectos que producen en los hablantes (Van Dijk, 1992: 9-10).
Los distintos tipos de textos, las relaciones entre ellos y con la sociedad tienen conexiones de diversa índole que se analizan desde puntos de vista distintos, de acuerdo al campo disciplinario desde donde se realice. Las ciencias del texto se interesan por profundizar en las propiedades y características comunes del uso de la lengua en el espectro de disciplinas que abarcan las ciencias sociales y humanas.
El área de análisis y sistematización de la información que integra la disciplina Bibliotecología e Información se concreta a describir los tipos de textos, los datos y los contenidos informativos que lleven a su localización en los sistemas. Sin embargo, la utilización de procesos comunes con otras disciplinas es innegable, entre ellos el análisis terminológico y lexicográfico usado en este trabajo.
La documentación en la lexicografía
El análisis documental como lo presenta Rubio Liniers (2004) también se aplica en la lexicografía, pues es parte del proceso para elaborar diccionarios; de hecho, como también lo destaca Gómez González-Jover (2005), es el método imprescindible para representar el contenido de los documentos que conforman el corpus donde se incluyen las unidades lexicográficas definidas en el diccionario. La representación de los contenidos que se lleva a cabo permite la consulta y recuperación por diferentes puntos de acceso; además, casi siempre se pueden generar, con la información resultante de este tipo de análisis, nuevos productos para satisfacer las necesidades de información léxica, como son las concordancias, datos estadísticos, índices y diccionarios.
El análisis documental de contenido ayuda a la decodificación de los mensajes y a la recuperación de la información pertinente para los usuarios del sistema documental del proyecto Diccionario del español de México (DEM). 3 Lo anterior se sustenta en que el autor ya hizo su mensaje y está contenido en un soporte documental, por lo general en textos escritos que pertenecen a una especialidad. Por lo tanto, corresponde a los centros informativos hacer que los contenidos de esos documentos, como pueden ser los candidatos a términos, sean de fácil consulta y recuperación por parte de sus usuarios.
La elaboración del DEM está sustentada en la Lingüística de Corpus, misma que establece pautas para mantener y ofrecer una gran capacidad y versatilidad en el manejo de la información contenida. Al igual que cualquier otro sistema de información, la Lingüística de Corpus define las entradas y puntos de acceso que se deben incluir. Aunque existen en estos días corpus de tipo multimodal (voz, imagen, texto, etc.), los corpus utilizados hasta hace poco tiempo por las ciencias y las técnicas tienen como objetivo, de manera general, analizar bajo sus distintas modalidades y características las palabras o unidades léxicas contenidas en textos de lengua general o de lenguajes especializados, y en el caso estudiado está aplicado a sustentar comunicaciones de difusión científica.
El proceso documental en la lexicografía básicamente requiere cumplir ciertas etapas para aplicarse, como las siguientes:
Actividades de planeación, como el establecimiento de metas, objetivos, organización y metodologías a implementar.
Se establece como comienzo del proceso propiamente dicho la selección y adquisición de los documentos. Para el caso de las grabaciones con informantes, se les transcribe.
Se efectúa el tratamiento documental en el aspecto externo, que implica preparar físicamente el material y así obtener el archivo correspondiente para analizarlo posteriormente.
Se procede a efectuar la descripción bibliográfica del documento, resaltando los puntos de acceso que permitirán su identificación en relación con los otros documentos. Para los textos impresos se efectúa su descripción, que incluye: autor, título, pie de imprenta y descripción física del material. Aunado a esto, en la lexicografía se incluyen datos externos al documento de interés para la sociolingüística, la pragmática y la semiótica; estos datos en general corresponden a la unidad de comunicación analizada, en la que se destaca al emisor, la situación en que se generó la comunicación y el canal utilizado en la misma. También se añade un contexto extralingüístico o registro de habla, con el que se puede identificar la formalidad o informalidad con la que se escribieron los documentos, también si el texto fue destinado a una audiencia general o a una especializada. De estos registros en su conjunto dependerá la posterior identificación situacional y temática respecto al uso de las unidades léxicas, en consecuencia esto ayudará a que los usuarios del sistema asignen significado a las unidades léxicas de la información recuperada.
Respecto al texto o contexto estrictamente lingüístico, los textos escritos en una disciplina científica en general deberán contar con los componentes del signo lingüístico (significante, significado y referente), siendo el texto más pequeño el equivalente a un párrafo separado por un punto y aparte, o un ítem. Los textos se analizan por medio de programas y algoritmos previamente determinados con el fin de obtener la información contenida en el documento. En general, del análisis se extraen las formas gráficas de las palabras o unidades léxicas, tal y como se encuentran en los textos del lenguaje natural, ya sean del lenguaje común o de lenguajes especializados.
En la Bibliotecología e Información, cuando se indiza con lenguaje natural el término es aislado de su contexto. El método de trabajo es el análisis textual 4 del documento científico, para después efectuar el análisis documental de contenido, teniendo como principal objetivo la indización por lenguaje natural; aquí se aprovecha el mismo texto para extraer los términos de indización. Derivado de esto se obtienen las listas de significantes o unidades léxicas, separadas de sus significados y referentes; de esta forma queda fragmentado el signo lingüístico, lo que produce que al usuario se le complique la recuperación de la información que necesita y por eso requiere ser apoyado en sus búsquedas.
A diferencia de este método, cuando en la lexicografía se extraen términos para conformar corpus lingüísticos se obtienen distintas listas, que pueden ser de palabras simples o compuestas, con su categoría gramatical, por su morfología, según su estructura interna, según su número de sílabas, o también como colocaciones, unidades fraseológicas, sintagmas compuestos, enunciados fraseológicos, palabras significativas, palabras clave, palabras vacías, tecnicismos, neologismos o candidatos a términos.
De manera general, las unidades léxicas que se obtienen de la Lingüística de Corpus están acompañadas de datos cuantitativos (rango y frecuencia) y se puede reconocer el ámbito de su origen mediante el registro de su uso, esto si principalmente pertenecen a los lenguajes especializados.
Exclusión terminológica mediante subconjuntos del lenguaje general
Cuando se busca extraer candidatos a términos de textos generales o especializados, resulta de la mayor utilidad tener en cuenta la información previa que existe sobre el léxico en general proveniente de estudios métricos de la información, como la informetría, la bibliometría, la cienciometría y la lexicometría, así como los cortes de Luhn y la obtención de pesos TF-IDF (Blázquez, 2013), esto con el objetivo de hacer filtros para excluir la lengua común y recuperar especialmente los candidatos a términos.
Por otra parte, en este artículo se plantea que además de los indicadores enunciados arriba se pueden usar otros muy parecidos basados en el lenguaje natural para excluir subconjuntos del lenguaje general, entre ellos el vocabulario fundamental (parecido al índice de mayor frecuencia y al modelo de Zipf), el léxico común (basado en el índice de dispersión) y la lista de palabras gramaticales (equivalente a las palabras vacías), con el objeto de aislar al máximo las unidades especializadas que se buscan en el texto. Es decir, se puede reutilizar el conocimiento lexicográfico, en este caso el producido por el proyecto Diccionario del español de México (DEM) y su Corpus del Español Mexicano Contemporáneo, 1921-1974 (19), con el objeto de simplificar la información que se pretende analizar.
En estas páginas se utilizan algunos resultados del análisis de contenido efectuado en el CEMC, el cual se estructuró con cerca de dos millones de palabras etiquetadas gramaticalmente; de este corpus se obtuvo a su vez un producto lexicográfico, que es propiamente un índice estadístico de lenguaje natural con información léxica, gramatical, sociolingüística, registros de uso de la lengua y datos cuantitativos denominado Diccionario estadístico del español de México (22).
Los resultados obtenidos del DEEM respecto a las palabras vacías, mayor dispersión y mayor frecuencia fueron los siguientes:
Unidades léxicas gramaticales o palabras vacías. Son principalmente artículos, preposiciones, interjecciones, pronombres, etc. Equivalen a 292 lemas que son el 51.60 % del total de información del corpus. Este es el tercer grupo de términos que se excluyen cuando se busca extraer términos científicos y técnicos.
Las unidades léxicas con mayor dispersión o léxico común (Anguiano Peña, 2013a). Estas unidades son 994 lemas distintos que correspondieron al 67.57 % del total de la información del corpus. Cuando se hace la búsqueda de términos especializados, este tipo de unidades léxicas suelen separase del análisis de contenido documental.
Las unidades léxicas con la mayor frecuencia o vocabulario fundamental, las cuales presentó Lara (2007). En este rubro hay que considerar que fue a partir de estudios de lexicometría, informetría, el modelo de Zipf (Zipf, 1949), entre otros, como ha sido posible comprender que existe un fenómeno económico en el uso del lenguaje, denominado del "menor esfuerzo", que básicamente describe cómo es que el ser humano utiliza una enorme cantidad de palabras gráficas que corresponden a una muy pequeña cantidad de lemas, lo que da por resultado que haya un número muy reducido de unidades léxicas con una frecuencia muy elevada. Siguiendo este razonamiento se comprende que el vocabulario fundamental o el de mayor índice de frecuencia sea el más usado en los textos y discursos, como en el CEMC en el que apenas 861 lemas tienen el 75 % del total de información del corpus. Se sugiere que este tipo de unidades léxicas también sean eliminadas.
En la Figura 1 y la Tabla 1 se muestran los resultados obtenidos sobre estos tres rubros, con lo que se explica su exclusión del análisis por significar un drástico ahorro.
Concepto | Palabras gráficas | % respecto al total |
---|---|---|
Palabras vacía o gramaticales | 975 921 | 51.60561 |
Mayor dispersión o léxico común | 1 277 637 | 67.57303 |
Mayor frecuencia o vocabulario fundamental | 1 418 293 | 75 |
Las tres propuestas juntas | 1 490 699 | 78.83653 |
Fuente: Elaboración de Gilberto Anguiano Peña para su investigación de doctorado (2015)
Como se puede observar, los tres subgrupos integrados no son la suma de ellos mismos, esto porque hay unidades léxicas que se repiten en dos subgrupos o incluso en los tres. Si se considerara que en conjunto pueden alcanzar hasta un 78.83 % del total de la información analizada, resulta entonces de interés para la recuperación de información elaborar filtros con la información del lenguaje general antes del análisis de contenido, con lo que se ahorraría cerca del 80% de la recuperación de los candidatos a términos (esto coincide con lo calculado en otros estudios de recuperación de información). Para hacer más eficiente el trabajo de recuperar términos científicos y técnicos, además, se establece un mínimo de apariciones válidas de las unidades léxicas para evitar la filtración de aquéllas con muy baja frecuencia, ya que pueden aparecer términos cuyo significado no tiene una garantía literaria.
Proceso documental para desambiguar significado y definir el uso de los candidatos a términos
La forma que se plantea en este trabajo para recuperar el texto de interés para los usuarios es que una vez que se obtenga el índice de significantes, equivalentes a la lista de candidatos a ser unidades terminológicas, se proceda a simplificarlas y lematizarlas; después hay que recuperar cada unidad por el registro de uso temático al que pertenece el o los documentos analizados donde se documentó, lo cual se convertiría en la práctica en algo parecido a señalar el léxico disponible del texto. 5 Con esto se ayudará al usuario "a desambiguar el significado y a encontrar el uso adecuado de ciertas voces" (Estopà, 1998: 360) y podrá solicitar posteriormente al sistema de recuperación de información el referente que más se acerque al que busca, simplificándose las búsquedas al mínimo. Sin embargo, y no obstante cualquier esfuerzo, el verdadero significado será siempre una interpretación del lector.
Al igual que en el proceso de la indización en la bibliotecología, los candidatos a términos o palabras clave pueden ser adecuados a un lenguaje controlado para mejorar la recuperación del contenido; esto se puede efectuar mediante la utilización de encabezamientos de materia o tesauros. Se realiza así la conversión de palabras del lenguaje natural obtenido de la indización a expresiones y conceptos de un lenguaje controlado.
Al final del proceso documental se difunde la información para hacerla llegar a los usuarios con el objeto de que se apropien de la misma. Para el caso de los proyectos lexicográficos se cuenta con distintos productos informativos derivados del análisis documental, que son destinados a los usuarios internos y externos. Estos pueden estar por separado o en conjunto como un sistema. Los componentes pueden ser la base de datos de las concordancias, parecidos a los KWIC (Key Word in Context), la información cuantitativa, los ficheros documentales, el propio diccionario que se elabora o las distintas interfaces generadas para consultar la información lexicográfica.
Pues bien, como parte de los resultados del largo proceso de análisis documental de contenido de corte lexicográfico de los textos, lo que se espera obtener al concluir la indización o clasificación por lenguaje natural es una lista de unidades léxicas significantes de la lengua general, pero también de las ciencias y de las técnicas con base en la presencia en textos relacionados con este ámbito de trabajo.
El aprovechamiento de las marcas de uso provenientes de la documentación lexicográfica
Fue con base en los resultados del DEEM que resultó posible conformar otra base de datos, el Modelo sociolingüístico del léxico del español usado en México (Anguiano Peña, 2006); después de asignar a las unidades léxicas del DEEM una indización semiautomatizada se pudo conseguir la suma de los resultados parciales que mostraba la anterior base y, una vez con los datos completos, se pudieron identificar los resultados totales de las unidades léxicas utilizadas en el lenguaje general usado en México por medio de sus registros sociolingüísticos (Tabla 2).
Propuesta para acotar los candidatos a términos
Para la búsqueda y recuperación de información especializada se propone eliminar, previamente al análisis de contenido documental de textos generales y especializados, los siguientes datos provenientes de los datos cuantitativos y de las marcas de uso del lenguaje general:
Las unidades léxicas de mayor frecuencia.
Las unidades léxicas de mayor dispersión.
Las unidades léxicas pertenecientes al grupo de las palabras vacías.
Las unidades léxicas que sean de la lengua no estándar.
Las unidades léxicas que sean de la lengua subculta.
Si se eliminan del análisis las unidades enlistadas de tipo cuantitativo y sociolingüístico se podrá economizar sustancialmente en la recuperación de la información de candidatos a términos, pero lo importante es que después de obtener la lista de tales elementos se podrán comparar los registros de uso de la lengua que ya existen en este mismo Modelo sociolingüístico del léxico del español de México, comparación que ayudaría tanto a los usuarios de la información como a los profesionales de la Bibliotecología e Información en la reconstrucción del significado del signo lingüístico y la elaboración de un lenguaje controlado.
En esta nueva confrontación se podrán encontrar candidatos a términos que son exclusivos de uso de una disciplina, con lo que confirmarían primero que son palabras clave y, después de la validación de un experto, podrían llegar a ser términos en sentido estricto. Derivado de esto podrán reconocerse los candidatos que tienen uso en dos o más disciplinas, lo que indicaría que son términos en sentido lato y que incluso tienen polisemia, de forma que para la lexicografía son tecnicismos. También se podrá encontrar que existen candidatos que pertenecen a las ciencias pero también a las técnicas, con lo que podrían considerarse también tecnicismos, pero que pueden llevar la marca "Científ." en los diccionarios, es decir, que pertenecen al lenguaje científico.
Lo que también se propone en este artículo es la reutilización de los procesos lexicográficos para diferenciar las unidades léxicas y extraerlas mediante el análisis de contenido de los textos especializados, esto al utilizar las marcas de uso o registros de habla, como lo planteó Josette Rey-Debove (1971) cuando consideró tres aspectos fundamentales para lograr esta meta:
El conjunto de palabras (unidades léxicas) que pertenecen a una lengua o idioma.
La información sociolingüística de las unidades léxicas.
Las marcas de uso consensuadas por la propia comunidad de hablantes.
Al incorporar estos lineamientos en el análisis de la información se busca que sean las mismas unidades léxicas de la lengua general, identificadas por consenso, las que por contraste con el lenguaje especializado sirvan para clasificar primero los tecnicismos 6 y, por comportarse éstos de forma muy parecida a las unidades terminológicas, también se puedan designar los candidatos a términos.
La búsqueda de unidades terminológicas en los textos
Para obtener términos especializados con la ayuda de un corpus de la lengua general como el Modelo citado, primero se separan los candidatos a términos que tienen un registro de habla relacionado con un texto especializado. En esta etapa del proceso de la búsqueda de términos es normal encontrar, en los listados producidos por el análisis automatizado, unidades léxicas que pertenecen al uso de una disciplina en sus distintos niveles de comunicación, aunque todas estas unidades pertenezcan a la lengua estándar, a la lengua culta y a una ciencia o técnica. Esto mismo significa que en el análisis de contenido se pueden obtener las siguientes unidades léxicas de un texto general o científico: 1. unidades que pertenecen a la lengua general; 2. unidades que pertenecen al estilo de la disciplina analizada; 3. candidatos a términos en sentido lato y 4. candidatos a términos en sentido estricto, como lo muestra la Figura 2:
Para ahondar en lo planteado en el anterior párrafo, a continuación se explica con más detalle lo referente a las unidades a encontrar en los textos:
Unidades léxicas que pertenecen al lenguaje general y que aparecen en textos de las ciencias y las técnicas, pero que también son identificadas sociolingüísticamente como pertenecientes a la lengua general estándar, la lengua no estándar, la lengua subculta y a la lengua culta, es decir, que no son exclusivas de las ciencias ni de las técnicas. Se recomienda excluirlas del listado de candidatos a términos.
Unidades léxicas que corresponden al estilo de redacción característico de la disciplina que se analiza. Estas unidades son en general unidades léxicas pertenecientes a la tradición verbal de la disciplina, frases fijas y locuciones. Su aparición corresponde a un índice de frecuencia muy bajo respecto a un texto analizado; sin embargo, son características de ciertas disciplinas científicas por lo cual no es oportuno eliminarlas por anticipado del análisis de contenido. Aquí podemos encontrar locuciones, unidades fraseológicas, latinismos, etcétera.
Unidades léxicas especializadas o tecnicismos. Son de uso y significado propio de la disciplina a la que corresponde el texto analizado, si bien pueden tener un mismo significante en la lengua general e incluso en otras disciplinas, es decir, pueden llegar a tener sinónimos. Este tipo de unidades léxicas son registradas en los diccionarios de lengua general, 7 y de hecho estas unidades son los términos en sentido lato. 8 Las formas de palabras gráficas, tal y como aparecen en el texto original, por lo general son pocas: femenino, masculino, singular y plural; tienen un índice de frecuencia en la lengua común muy bajo en el análisis de contenido documental, pero ya como unidades léxicas lematizadas (palabras agrupadas bajo su forma canónica) adquieren un porcentaje por demás elevado respecto del total de la muestra analizada; en otras palabras, un reducido número de unidades léxicas se agrupan en una cantidad elevada de lemas. En cuanto a su índice de dispersión en el DEEM, se observó que aunque pueden estar concentradas por su uso en una disciplina, puede ocurrir que también tengan apariciones en otras disciplinas de las ciencias, de las técnicas o pertenezcan al lenguaje científico, que abarca ambas áreas del conocimiento. Se les puede reconocer entre otras cosas porque aun teniendo un significante conocido, tienen un significado distinto al de la lengua natural, por eso el lector común no entiende su significado y le resulta un tanto secreto. Estas unidades pueden presentarse en una forma simple o como una forma pluriverbal, como sintagmas, frases hechas o como unidades fraseológicas.
Los candidatos a ser unidades terminológicas de la disciplina analizada. Éstos son muy parecidos en su comportamiento documental a los tecnicismos pero no tienen sinónimos y presuponen un significado unívoco. Estas unidades pertenecen a la lengua estándar, son de la lengua culta, son usadas exclusivamente en las ciencias o las técnicas, tienen un registro de habla que hace que se sitúen en una forma de comunicación formal y son usadas exclusivamente en un lenguaje especializado, por lo que no tienen significado ni equivalencia en la lengua común. Estos candidatos pueden tener la forma de unidades léxicas simples o unidades compuestas por varias palabras. Los candidatos pueden en principio ser considerados como palabras clave; después de ser validados por un especialista de la información pueden llegar a formar parte del lenguaje documental, y en el mejor de los casos pueden ser términos en sentido estricto 9 de alguna disciplina. Su frecuencia de aparición es baja en el análisis de textos pero cuando se agrupan las unidades léxicas, en relación al total del análisis, resultan tener un porcentaje elevado de lemas. Carecen de dispersión pues sus datos están concentrados en una sola disciplina.
Al considerar todo lo anterior, también se puede esperar que en cualquier análisis documental de contenido de un texto, ya sea general o de la ciencia o de la tecnología, y teniendo en cuenta lo propuesto por Cardero (2004: 37), lo más probable es que las unidades léxicas analizadas de un texto científico o técnico tengan características que se presentan en la Tabla 3 en lo que concierne al significante, el significado y al tipo de comunicación al que pertenecen.
A pesar de la coexistencia de unidades léxicas y unidades terminológicas en un texto científico, es posible diferenciarlas si se verifica su registro de habla, constatando si está ubicado en una forma de comunicación o en un texto que pertenezca exclusivamente a un lenguaje especializado; es decir, si se constata que son producto de una comunicación formal utilizada por los especialistas de alguna disciplina para asegurarse una comunicación efectiva entre ellos.
Como se puede observar en la descripción del proceso llevado a cabo y descrito en los párrafo anteriores, las unidades léxicas analizadas parten de un estudio empírico desarrollado por la lexicografía, el cual muestra que con los textos provenientes del lenguaje especializado ocurre algo parecido a lo que pasa con cualquier texto de lengua general, pues ambos tipos de textos están compuestos, en mayor o en menor proporción, con unidades léxicas del lenguaje general y no sólo de unidades especializadas de las ciencias o de las técnicas. Aunque parezca ser lo contrario, estas diferencias son en verdad útiles en la recuperación de la información, pues los términos que se pretenden extraer de los textos no son propios de la lengua común.
Ejemplo del tipo de análisis efectuado con el Modelo
Siguiendo los pasos propuestos en este mismo artículo y haciendo el aislamiento de los lemas correspondientes a las ciencias y a las técnicas contenidos en el Modelo, se consiguieron los siguientes resultados (Gráfica 1):
Esta gráfica se desprende de 30 899 lemas de uso general en la lengua. Para obtener del corpus el 15.76 % de términos de uso exclusivo en la ciencia, que corresponden a 4 871 lemas, y el 5.09 % relacionado con 1 574 lemas en técnicas, se restringieron los lemas dos veces (véase inciso 4 del apartado "La búsqueda de unidades terminológicas en los textos"). Primero, los 30 899 lemas generales se redujeron a 16 296 lemas generales en el ámbito de las ciencias y las técnicas; de esta última agrupación se extrajeron los lemas exclusivos de las ciencias y de las técnicas. Los 6 450 lemas usados exclusivamente en estas áreas alcanzaron el 20.85 % del total de lemas del corpus.
Consideraciones finales
El Modelo expuesto aquí, u otros recursos lexicográficos con similares características, pueden ser útiles en un futuro cercano para la indización asistida por computadora o como corpus monitores respecto a nuevos análisis de textos o corpus especializados. Su utilización facilitaría la rápida generación de listas de significantes candidatos a términos, los cuales además de ser útiles para representar y recuperar el contenido del texto original, también serán de gran valía en la etapa del desarrollo del lenguaje controlado cuando se trabajen los términos, unitérminos, encabezamientos de materia o descriptores que conformen la terminología de alguna disciplina analizada de esta forma.
Hay que considerar asimismo que el lenguaje natural y el lenguaje especializado están en constante evolución, de lo que resulta consecuente que existan dificultades para controlar y recuperar los lenguajes especializados y sus terminologías, pero por esto mismo se hace más necesaria la presencia y el desarrollo de la Bibliotecología e Información con el fin de que ayuden a los usuarios y a los lectores a decodificar el lenguaje de la ciencia.