Computación y Sistemas
versión On-line ISSN 2007-9737versión impresa ISSN 1405-5546
Comp. y Sist. vol.14 no.2 Ciudad de México oct./dic. 2010
Un método independiente del idioma para responder preguntas de definición
An Independent Language Method for Answer Definition Questions
Claudia Denicia Carral, Luis Villaseñor Pineda, Manuel Montes y Gómez
Laboratorio de Tecnologías del Lenguaje, Coordinación de Ciencias Computacionales, Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE). Tonatzintla, Puebla, México. Email:,,
Artículo recibido en Junio 6, 2007.
Aceptado en Abril 17, 2009.
Este trabajo describe un método para responder preguntas de definición basado exclusivamente en patrones léxicos brindando con ello independencia sobre el idioma. El método aplica dos pasos de minería de texto. El primer paso se enfoca en el descubrimiento de un conjunto de patrones léxicos superficiales a partir de ejemplos de definiciones recuperados de la Web. Posteriormente, se usan los patrones descubiertos para extraer una colección de pares conceptodescripción de una colección de documentos dada. El segundo paso de minería se aplica para determinar la respuesta más adecuada para cierta pregunta específica. Los resultados experimentales se obtuvieron con datos del foro CLEF 2005 y 2006 en tareas monolingües para el español, francés e italiano. Dichos resultados demuestran la pertinencia del método alcanzando altas precisiones para los tres idiomas.
Palabras clave: H. Sistemas de Información, H.3 Almacenamiento y Recuperación de Información, H.3.4 Sistemas y Software, Sistemas de Búsqueda de Respuestas, Preguntas de Definición.
This paper describes a method for answering definition questions that is exclusively based on the use of lexical patterns, and, therefore, that is language independent. This method applies two main textmining steps. The first step focuses on the discovery of a set of surface lexical patterns from definition examples downloaded from the Web. Subsequently, it uses these patterns to extract a set of conceptdescription pairs from a given target document collection. The second step applies a textmining algorithm to determine the most adequate answer to each specific question. Experimental results were obtained using the datasets from the CLEF 2005 and 2006 for the monolingual tasks in Spanish, French and Italian. These results demonstrate the relevance of the method which showed very high precisions for the three languages.
Keywords: H. Information Systems, H.3 Information Storage and Retrieval, H.3.4 Systems and Software, QuestionAnswering Systems, Definition Questions.
Los autores agradecen a Alberto Téllez, Antonio Juárez, Esaú Villatoro y a Manuel Alberto Pérez por su valiosa participación en las tareas de desarrollo del sistema participante en las evaluaciones CLEF 2005 y 2006. Este trabajo fue realizado gracias al apoyo del CONACYT (Proyecto No. Ref. 43990 y la beca 189692) y del SNIMéxico. Los autores también agradecen a la agencia EFE y al CLEF por los recursos prestados y las tareas de evaluación de este trabajo.
