Minería de Texto empleando la Semejanza entre Estructuras Semánticas

Montes y Gómez, Manuel; Gelbukh, Alexander; López López, Aurelio

Servicios Personalizados

Revista

Articulo

Indicadores

Citado por SciELO
Accesos

Links relacionados

Similares en SciELO

Otros
Otros

Permalink

Computación y Sistemas

versión On-line ISSN 2007-9737versión impresa ISSN 1405-5546

Comp. y Sist. vol.9 no.1 Ciudad de México jul./sep. 2005

Resumen de tesis doctoral

Minería de Texto empleando la Semejanza entre Estructuras Semánticas

Text Mining using Comparison of Semantic Structures

Graduated: Manuel Montes y Gómez
Centro de Investigación en Computación – IPN
Av. Juan de Dios Bátiz s/n esq. Miguel Othón de Mendizábal
C. P. 07738 México D. F.
Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE)
Luis Enrique Erro #1, Sta. María Tonantzintla, Puebla, México.
mmontesg@inaoep.mx

Advisor: Alexander Gelbukh
Centro de Investigación en Computación – IPN
Av. Juan de Dios Bátiz s/n esq. Miguel Othón de Mendizábal
C. P. 07738 México D. F.
gelbukh@cic.ipn.mx ; www.Gelbukh.com

Co–Advisor Aurelio López López
Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE)
Luis Enrique Erro #1, Sta. María Tonantzintla, Puebla, México.
allopez@inaoep.mx

Graduado en febrero 26, 2002

Resumen

El tesoro más valioso de la raza humana es el conocimiento. Gran parte de este conocimiento existe en forma de lenguaje natural: libros, periódicos, artículos, etcétera. La posesión real de todo este conocimiento depende de nuestra habilidad para realizar ciertas operaciones con la información, por ejemplo: buscarla, compararla, y resumirla. La minería de texto, una nueva área de investigación definida como descubrimiento de conocimiento en colecciones de textos, se enfoca en el análisis de grandes conjuntos de documentos. En particular, considera el descubrimiento de patrones interesantes, tales como grupos, asociaciones y desviaciones, en colecciones de textos. Los métodos actuales de minería de texto se caracterizan por usar representaciones sencillas del contenido de los documentos, por ejemplo, bolsas o vectores de palabras. Por una parte estas representaciones son fáciles de obtener y analizar, pero por otra parte restringen los patrones descubiertos a un nivel temático. Con el propósito de obtener resultados más útiles y significativos deben usarse representaciones más completas de la información. Basándonos en esta suposición se propuso un nuevo método para realizar minería de texto a nivel detalle. Este método usa los grafos conceptuales como representación del contenido de los textos, y obtiene algunos patrones descriptivos de los documentos aplicando varios tipos de operaciones sobre estos grafos.

Palabras Clave: Minería de Texto, Grafos Conceptuales, Agrupamiento Conceptual, Descubrimiento de Conocimiento.

Abstract

Knowledge is the most valuable treasure of humankind. Most of this knowledge exists in natural language format, for instance, in books, journals, reports, etc. The real possession of all this knowledge depends on our capabilities to perform different tasks with texts, such as: searching for interesting texts, comparing different documents, and summarizing them. Text mining, an emerging research area that can be roughly characterized as knowledge discovery in large text collections, is focused on automatically analyzing a set of texts. Mainly, it is concerned with the discovery of interesting patterns such as clusters, associations, and deviations from large text collections. Current methods of text mining tend to use simplistic and shallow representations of texts, e.g., keyword sets or keyword frequency vectors. On one hand, such representations are easy to obtain from texts and easy to analyze, but on the other hand, however, they restrict the knowledge discovery results to the topic level. To obtain more useful and meaningful results, richer text representations are necessary. On the basis of this assumption, we propose a new method for doing text mining at detail level. This method uses conceptual graphs for representing text content and relies on performing some tasks on these graphs, allowing the discovery of more descriptive patterns.

Keywords: Text Mining, Conceptual Graphs, Conceptual Clustering, Knowledge Discovery.

DESCARGAR ARTÍCULO EN FORMATO PDF

Referencias

1. Hearst (1999), Untangling Text Data Mining, Proc. of ACL'99: The 37th Annual Meeting of the Association for Computational Linguistics, University of Maryland, June 20–26, 1999. [ Links ]

2. Kodratoff (1999), Knowledge Discovery in Texts: A Definition and Applications, Proc. of the 11th International Symposium on Foundations of Intelligent Systems (ISMIS–99), 1999. [ Links ]

3. Lin (1998), An Information–Theoretic Definition of Similarity, Proc. of the International Conference on Machine Learning, Madison, Wisconsin, 1998. [ Links ]

4. Michalski (1980), Knowledge Acquisition thorough Conceptual Clustering: A Theoretical Framework and Algorithm for Partitioning Data into Conjunctive Concepts, International Journal of Policy Analysis and Information Systems, Vol. 4, 1980. [ Links ]

5. Montes y Gómez (2002), Minería de texto empleando la Semejanza entre Estructuras Semánticas. Tesis de Doctorado, Centro de Investigación en Computación, Instituto Politécnico Nacional, México, Febrero 2002. [ Links ]

6. Mugnier (1995), On generalization/specialization for conceptual graphs, Journal of Experimental and Theoretical Artificial Intelligence, Vol. 7, 1995. [ Links ]

7. Sowa (1984), Conceptual Structures: Information Processing in Mind and Machine, Addison–Wesley, reading, M.A., 1984. [ Links ]

8. Sowa (1999), Knowledge Representation: Logical, Philosophical and Computational Foundations, Thomson Learning, 1999. [ Links ]

9. Sowa and Way (1986), Implementing a semantic interpreter using conceptual graphs, IBM Journal of Research and Development 30:1, January, 1986. [ Links ]

10. Sparck–Jones (1999), What is the Role of NLP in Text Retrieval?, In Strzalkowski Ed., Natural Language Information Retrieval, Kluwer Academic Publishers, 1999. [ Links ]

11. Tan (1999), Text Mining: The state of the art and challenges, Proc. of the Workshop Knowledge Discovery from advanced Databases PAKDDD–99, Abril 1999. [ Links ]

Apéndice A. Grafos Conceptuales

A.1 Terminología Básica

Grafo conceptual: Un grafo conceptual es un grafo bipartito. Esto significa que tiene dos tipos de nodos: conceptos y relaciones conceptuales, y cada arco une solamente a un concepto con una relación conceptual (Sowa, 1984). Por ejemplo, el grafo [gato:Felix] (sobre) [sillón] (attr) [negro] representa la frase "El gato Felix está sobre el sillón negro". En él se observan tres conceptos: gato Félix, sillón y negro, y dos relaciones conceptuales: sobre y atributo.

Concepto: Los conceptos representan entidades, acciones y atributos, y tienen un tipo conceptual y un referente. El tipo conceptual indica la clase de elemento representado por el concepto, mientras que el referente indica el elemento específico (instancia de la clase) referido por éste. Por ejemplo, el concepto [gato:Félix] tiene el tipo gato y el referente Félix.

Tipos conceptuales: Los tipos conceptuales se organizan en una jerarquía de tipos. Esta jerarquía es un ordenamiento parcialmente definido sobre el conjunto de tipos determinado por el símbolo <. Entonces, dada una jerarquía de esta naturaleza, y considerando que s, t y u representan tres tipos conceptuales, lo siguiente puede establecerse:

• Si s < t, entonces s es un subtipo de t; y t es un supertipo de s.

• Si s < t y s ≠ t, entonces s es un subtipo propio de t, expresado como s < t; y t es un supertipo propio de s, expresado como t > s.

• Si s es un subtipo de t y a la vez un subtipo de u (s < t y s < u), entonces s es un subtipo común de t y u.

• Si s es un supertipo de t y a la vez un supertipo de u (t < s y u < s), entonces s es un supertipo común de t y u.

Referentes: Los referentes son de dos clases: genéricos e individuales. Los referentes genéricos se refieren a conceptos no especificados. Por ejemplo, el concepto [sillón] significa un sillón. Por su parte, los referentes individuales funcionan como sustitutos de elementos específicos del mundo real. Por ejemplo, el concepto [gato:Félix] es un sustituto del gato Félix –que existe en algún lugar.

Relación conceptual: Las relaciones conceptuales señalan la manera en que los conceptos se interrelacionan. Ellas tienen un tipo relacional y una valencia. El tipo relacional indica el rol "semántico" que realizan los conceptos adyacentes (conectados) a la relación, y la valencia indica el número de éstos.

A.2 Generalización de Grafos Conceptuales

Todas las operaciones de los grafos conceptuales se basan en alguna combinación de las seis reglas canónicas de formación (núcleo de la teoría de grafos conceptuales). Cada una de estas reglas realiza una operación básica sobre los grafos conceptuales. Por ejemplo, algunas de estas reglas los hacen más específicos, otras los generalizan, y otras únicamente cambian su forma pero los mantienen lógicamente equivalentes.

El método de minería de texto propuesto se fundamenta en la detección de los elementos comunes de un conjunto de grafos conceptuales, es decir, en la generalización de los grafos. Por ello, en este apéndice sólo se analizan las reglas canónicas de generalización.

Las reglas de generalización son dos: desrestringir y separar. La regla de desrestringir generaliza el tipo o el referente de un concepto, mientras que la regla de separar divide el grafo original en dos partes tomando como base alguno de sus nodos concepto; siendo cada una de las partes resultantes una generalización del grafo original.

• Desrestringir: Sea c un concepto del grafo u. Entonces el grafo v puede ser derivado del grafo u generalizando el concepto c tanto por tipo como por referente. La generalización por tipo reemplaza el tipo de c por alguno de sus supertipos, y la generalización por referente reemplaza el referente individual de c por un referente genérico.

• Separar: Sea c un concepto del grafo u. Entonces el grafo v puede ser derivado del grafo u haciendo una copia d de c (es decir, duplicando el concepto c), separando uno o varios de los arcos de las relaciones conceptuales conectadas a c, y conectándolos a d.

Ahora bien, si el grafo conceptual v es derivado del grafo conceptual u aplicando una secuencia de estas reglas, entonces v es una generalización de u. Esto se denota como u < v.

La operación de generalización define un ordenamiento parcial de los grafos conceptuales conocido como jerarquía de generalización. Entonces si u, v y w son grafos conceptuales de esta jerarquía, las siguientes propiedades siempre son verdaderas:

• Reflexividad: u < u.

• Transitividad: siu u < v y v < w, entonces u< w.

• Antisimetría: si u < v y v < u, entonces u = v.

• Subgrafo: Si v es un subgrafo de u, entonces u < v.

Además si v es una generalización de u (u< v), entonces debe de existir un subgrafo u' inmerso en u que represente el grafo v. Este subgrafo u' es llamado proyección de v en u.

Formalmente, para dos grafos conceptuales cualesquiera u y v, siendo u < v, debe de existir un "mapeo" h: v u, donde πv es un subgrafo de u llamado proyección de v en u. Algunas propiedades de la proyección son:

• Para cada concepto c de v, πv es un concepto en πv, para el cual type(πc) < type(c); y si c es un concepto individual, entonces también referent(πc) = referent(c).

• Para cada relación conceptual rde v, πr es una relación conceptual en πv,para la cual type(πr) = type(r). Esto implica que si el i–esimo arco de r está conectado al concepto c, entonces el i–esimo arco de πr debe de estar conectado a πc en πv.

La proyección π no es necesariamente uno–a–uno, esto significa que dos conceptos o dos relaciones conceptuales diferentes pueden tener las mismas proyecciones (por ejemplo, los conceptos x₁,x₂ v: x₁ ≠ x₂ pueden tener proyecciones πx₁ y πx₂ en u, tal que πx₁ = πx₂). Además, la proyección π tampoco es necesariamente única, es decir, un grafo v puede tener dos proyecciones diferentes en u, π' v y πv, donde π'v ≠ πv.

Finalmente, si u₁, u₂ y v son grafos conceptuales, y u₁ < v y u₂ < v, entonces v es una generalización común de u₁ y u₂. El grafo conceptual v es la máxima generalización común de u₁ y u₂, si y sólo si, no existe otra generalización común v' de u₁ y u₂ (u₁ < v' y u₂ < v'), tal que v' < v.