Scielo RSS <![CDATA[Computación y Sistemas]]> http://www.scielo.org.mx/rss.php?pid=1405-554620130002&lang=en vol. 17 num. 2 lang. en <![CDATA[SciELO Logo]]> http://www.scielo.org.mx/img/en/fbpelogp.gif http://www.scielo.org.mx <![CDATA[<b>Editorial</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462013000200001&lng=en&nrm=iso&tlng=en <![CDATA[<b>Automatic Readability Classification of Crowd-Sourced Data based on Linguistic and Information-Theoretic Features</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462013000200002&lng=en&nrm=iso&tlng=en This paper presents a classifier of text readability based on information-theoretic features. The classifier was developed based on a linguistic approach to readability that explores lexical, syntactic and semantic features. For this evaluation we extracted a corpus of 645 articles from Wikipedia together with their quality judgments. We show that information-theoretic features perform as well as their linguistic counterparts even if we explore several linguistic levels at once.<hr/>En este trabajo se presenta un clasificador de la legibilidad de textos basado en las características de la teoría de información. El clasificador ha sido desarrollado en base del enfoque lingüístico a la legibilidad usando las características léxicas, sintácticas y semánticas. Para esta evaluación se extrajo un corpus de 645 artículos de Wikipedia, junto con sus evaluaciones de calidad. Se demuestra que las características mencionadas tienen buen desempeño, incluso en el caso cuando se exploran varios niveles lingüísticos a la vez. <![CDATA[<b>Linguistically-driven Selection of Correct Arcs for Dependency Parsing</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462013000200003&lng=en&nrm=iso&tlng=en LISCA is an unsupervised algorithm aimed at assigning a quality score to each arc generated by a dependency parser in order to produce a decreasing ranking of arcs from correct to incorrect ones. LISCA exploits statistics about a set of linguistically-motivated and dependency-based features extracted from a large corpus of automatically parsed sentences and uses them to assign a quality score to each arc of a parsed sentence belonging to the same domain of the automatically parsed corpus. LISCA has been successfully tested on two datasets belonging to two different domains and in all experiments it turned out to outperform different baselines, thus showing to be able to reliably detect correct arcs also representing domain-specific peculiarities.<hr/>LISCA es un algoritmo no supervisado cuyo objetivo es asignar un puntaje cualitativo a cada arco generado por el analizador sintáctico de dependencias con el fin de producir un ranking decreciente de los arcos desde los correctos hasta los incorrectos. LISCA usa la estadística del conjunto de características basadas en la información lingüística y dependencias que se extraen del corpus grande de frases analizadas sintácticamente por la computadora y las utiliza para asignar un puntaje cualitativo a cada arco de la frase analizada que pertenece al mismo dominio del corpus. LISCA se probo exitosamente utilizando dos conjuntos de datos de dos dominios distintos y en todos los experimentos su rendimiento fue mejor que el de varios métodos de referencia; así se demostró su capacidad de detectar los arcos correctos de manera confiable representando también las características específicas de los dominios. <![CDATA[<b>Anaphora Resolution for Bengali: An Experiment with Domain Adaptation</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462013000200004&lng=en&nrm=iso&tlng=en In this paper we present our first attempt on anaphora resolution for a resource poor language, namely Bengali. We address the issue of adapting a state-of-the-art system, BART, which was originally developed for English. Overall performance of co-reference resolution greatly depends on the high accurate mention detectors. We develop a number of models based on the heuristics used as well as on the particular machine learning employed. Thereafter we perform a series of experiments for adapting BART for Bengali. Our evaluation shows, a language-dependant system (designed primarily for English) can achieve a good performance level when re-trained and tested on a new language with proper subsets of features. The system produces the recall, precision and F-measure values of 56.00%, 46.50% and 50.80%, respectively. The contribution of this work is two-fold, viz. (i). attempt to build a machine learning based anaphora resolution system for a resource-poor Indian language; and (ii). domain adaptation of a state-of-the-art English co-reference resolution system for Bengali, which has completely different orthography and characteristics.<hr/>Este artículo presenta el primer intento de resolución de anáfora para un idioma que tiene escasos recursos lingüísticos, específicamente el idioma bengalí, mediante la adaptación del sistema BART que pertenece al estado del arte y fue desarrollado originalmente para el inglés. El rendimiento general de resolución basada en co-referencias depende en gran medida de los detectores de menciones de alta precisión. Se desarrollaron unos modelos basándose en la heurística usada y en el método de aprendizaje de maquina seleccionado. Se hicieron unos experimentos para adaptar BART al idioma bengalí. La evaluación efectuada muestra que un sistema dependiente del idioma (diseñado principalmente para el inglés) puede lograr un buen rendimiento después de reentrenamiento y prueba, para el idioma nuevo usando conjuntos apropiados de características. El sistema produce los valores de recall, precisión y medida F iguales a 56.00 <![CDATA[<b>Inference and Reconciliation in a Crowdsourced Lexical-Semantic Network</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462013000200005&lng=en&nrm=iso&tlng=en Lexical-semantic network construction and validation is a major issue in NLP. No matter the construction strategies used, automatically inferring new relations from already existing ones is a way to improve the global quality of the resource by densifying the network. In this context, the purpose of an inference engine is to formulate new conclusions (i.e. relations between terms) from already existing premises (also relations) on the network. In this paper we devise an inference engine for the JeuxDeMots lexical network which contains terms and typed relations between terms. In the JeuxDeMots project, the lexical network is constructed with the help of a game with a purpose and thousands of players. Polysemous terms may be refined in several senses (bank may be a bank-financial institution or a bank-river) but as the network is indefinitely under construction (in the context of a Never Ending Learning approach) some senses may be missing. The approach we propose is based on the triangulation method implementing semantic transitivity with a blocking mechanism for avoiding proposing dubious new relations. Inferred relations are proposed to contributors to be validated. In case of invalidation, a reconciliation strategy is undertaken to identify the cause of the wrong inference: an exception, an error in the premises or a transitivity confusion due to polysemy with the identification of the proper word senses at stake.<hr/>Construcción y validación de una red léxica y semántica es un reto en el procesamiento de lenguaje natural. Para todas las estrategias usadas de construcción, un método de mejorar la calidad general del recurso es la inferencia automática de relaciones nuevas a partir de las existentes, lo cual resulta en el aumento de la densidad de la red. En este contexto un motor de inferencia tiene el objetivo de deducir las conclusiones nuevas, es decir, relaciones entre términos, a partir de las premisas existentes (también relaciones) en la red. En este artículo se diseña un motor de inferencia para la red léxica JeuxDeMots, la cual contiene términos y relaciones definidas entre términos. En el proyecto JeuxDeMots la red léxica se construye mediante un juego con propósito y miles de jugadores. Términos polisémicos pueden ser refinados en varios significados (un banco puede ser una institución financiara y una mueble) pero como la red se está construyendo de manera infinita (en el contexto del enfoque "Aprendizaje que Nunca Termina"), algunos significados pueden faltar. El enfoque propuesto se basa en el método de triangulación implementando la transitividad semántica con el mecanismo de bloqueo para evitar las propuestas de relaciones nuevas dudosas. Las relaciones inferidas se proponen a los contribuyentes para validarlas. En el proceso de validación se puede emplear la estrategia de reconciliación con el fin de identificar la causa de una inferencia incorrecta: una excepción, un error en las premisas o una confusión de transitividad por la polisemia cuando es necesario identificar los significados apropiados de palabras. <![CDATA[<b>Generation of Bilingual Dictionaries using Structural Properties</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462013000200006&lng=en&nrm=iso&tlng=en Building bilingual dictionaries from Wikipedia has been extensively studied in the area of computation linguistics. These dictionaries play a crucial role in Natural Language Processing(NLP) applications like Cross-Lingual Information Retrieval, Machine Translation and Named Entity Recognition. To build these dictionaries, most of the existing approaches use information present in Wikipedia titles, info-boxes and categories. Interestingly, not many use the structural properties of a document like sections, subsections, etc. In this work we exploit the structural properties of documents to build a bilingual English-Hindi dictionary. The main intuition behind this approach is that documents in different languages discussing the same topic are likely to have similar structural elements. Though we present our experiments only for Hindi, our approach is language independent and can be easily extended to other languages. The major contribution of our work is that the dictionary contains translation and transliteration of words which include Named Entities to a large extent. We evaluate our dictionary using manually computed precision. We generated a massive list of 72k tokens using our approach with 0.75 precision.<hr/>Compilación de diccionarios bilingües usando Wikipedia ha sido estudiada mucho en la lingüística computacional. Estos diccionarios juegan un papel crítico en tales aplicaciones del procesamiento de lenguaje natural (PLN) como recuperación de información inter-lingüística, traducción automática y reconocimiento de nombres. La mayoría de los enfoques existentes para la construcción de estos diccionarios usa la información presente en títulos de Wikipedia, info-boxes y categorías. Es interesante que pocos investigadores hayan usado las propiedades estructurales de documentos tales como secciones, sub-secciones, etc. Este trabajo utiliza las propiedades estructurales de documentos para construir un diccionario bilingüe inglés-hindi. La intuición principal en la cual se basa este enfoque es el hecho de que la discusión de un cierto tema en idiomas diferentes puede tener los elementes estructurales similares. Los experimentos se realizaron sólo para hindi, pero el enfoque no depende del idioma particular y puede ser extendida fácilmente a otros idiomas. La mayor aportación de este trabajo es la inclusión en el diccionario las palabras que son nombres traducidos y transliterados. El diccionario fue evaluado mediante la precisión calculada manualmente. Se generó una lista muy grande de 72K tokens usando el enfoque propuesto con la precisión de 0.75. <![CDATA[<b>Optimizing Selection of Assessment Solutions for Completing Information Extraction Results</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462013000200007&lng=en&nrm=iso&tlng=en Incomplete information produces serious consequences in information extraction: it increases costs and leads to problems in downstream processing. This work focuses on improving the completeness of extraction results by applying judiciously selected assessment methods to information extraction based on the principle of complementarity. Our recommendation model simplifies the selection of assessment methods which can overcome a specific incompleteness problem. This paper also focuses on the characterization of information extraction and assessment methods as well as on a rule-based approach that allows estimation of general processability, profitability in the complementarity approach, and the performance of an assessment method under evaluation.<hr/>La información incompleta causa graves consecuencias en la extracción de la misma: aumenta los costos y propicia problemas para el procesamiento en cadena. El objetivo de este trabajo es presentar la mejora en los resultados de extracción con el fin de completarlos con métodos de evaluación juiciosamente selectos basados en el principio de complementariedad. El modelo propuesto simplifica la selección de los métodos de evaluación, los cuales pueden resolver un problema específico de información incompleta. Este artículo se enfoca también en la caracterización de la extracción de información y los métodos de evaluación con un enfoque basado en reglas que permita validar la capacidad de procesamiento general, la rentabilidad en el enfoque de complementariedad y el rendimiento de los métodos de evaluación. <![CDATA[<b>Single-Document Keyphrase Extraction for Multi-Document Keyphrase Extraction</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462013000200008&lng=en&nrm=iso&tlng=en Here, we address the task of assigning relevant terms to thematically and semantically related sub-corpora and achieve superior results compared to the baseline performance. Our results suggest that more reliable sets of keyphrases can be assigned to the semantically and thematically related subsets of some corpora if the automatically determined sets of keyphrases for the individual documents of an entire corpus are identified first. The sets of keyphrases assigned by our proposed method for the workshops present in the ACL Anthology Corpus over a 6-year period were considered better in more than 60% of the test cases compared to our baseline system when evaluated against an aggregation of different human judgements.<hr/>En este artículo se considera el tema de asignación de términos relevantes a sub-corpus con temas y semántica relacionados y se logran resultados superiores a los del rendimiento de referencia. Los resultados obtenidos en este trabajo muestran que los conjuntos más confiables de palabras clave pueden ser asignados a subconjuntos con temas y semántica relacionados de un corpus si primero se identifican automáticamente los subconjuntos de palabras clave de documentos individuales en todo corpus. Los conjuntos de palabras clave asignados mediante el método propuesto para los talleres incluidos en ACL Anthology Corpus para el periodo de 6 años fueron considerados mejor en más de 60. <![CDATA[<b>A Knowledge-Base Oriented Approach for Automatic Keyword Extraction</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462013000200009&lng=en&nrm=iso&tlng=en Automatic keyword extraction is an important subfield of information extraction process. It is a difficult task, where numerous different techniques and resources have been proposed. In this paper, we propose a generic approach to extract keyword from documents using encyclopedic knowledge. Our two-step approach first relies on a classification step for identifying candidate keywords followed by a learning-to-rank method depending on a user-defined keyword profile to order the candidates. The novelty of our approach relies on i) the usage of the keyword profile ii) generic features derived from Wikipedia categories and not necessarily related to the document content. We evaluate our system on keyword datasets and corpora from standard evaluation campaign and show that our system improves the global process of keyword extraction.<hr/>Extracción de palabras clave es una tarea importante del proceso de extracción de información. Esta tarea es difícil de realizar; con la intención de lograrlo muchas distintas técnicas y recursos han sido propuestos. En este artículo se propone el enfoque genérico para extraer palabras clave de documentos usando el conocimiento enciclopédico. El enfoque incluye dos etapas; primero se realiza clasificación con el fin de identificar candidatos a palabras clave y luego se aplica el método de aprendizaje de ranking dependiente del perfil de palabras clave definido por el usuario para ordenar los candidatos. La novedad del enfoque se basa en 1) el uso del perfil de palabras clave y 2) las características genéricas derivadas de las categorías de Wikipedia y no necesariamente relacionadas con el contenido del documento. El sistema se ha evaluado sobre conjuntos de datos de palabras clave y corpus de la campaña de evaluación estándar y se ha demostrado que el sistema propuesto mejora el procedimiento global de extracción de palabras clave. <![CDATA[<b>Extracting Phrases Describing Problems with Products and Services from Twitter Messages</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462013000200010&lng=en&nrm=iso&tlng=en Social media contain many types of information useful to businesses. In this paper we discuss a trigger-target based approach to extract descriptions of problems from Twitter data. It is important to note that the descriptions of problems are factual statements as opposed to subjective opinions about products/services. We first identify the problem tweets i.e. the tweets containing descriptions of problems. We then extract the phrases that describe the problem. In our approach such descriptions are extracted as a combination of trigger and target phrases. Triggers are mostly domain independent verb phrases and are identified by using hand crafted lexical and syntactic patterns. Targets on the other hand are domain specific noun phrases syntactically related to the triggers. We frame the problem of finding target phrase corresponding to a trigger phrase as a ranking problem and show the results of experiments with maximum entropy classifiers and voted perceptrons. Both approaches outperform the rule based approach reported before.<hr/>Medios sociales de comunicación contienen muchos tipos de información útil para las empresas. En este artículo se considera un enfoque orientado al método de "desencadenante-objetivo" para extraer descripciones de problemas de los datos de Twitter. Es importante mencionar que las descripciones de problemas son declaraciones de hechos a diferencia de opiniones subjetivos acerca de productos/servicios. En primer lugar se identifican los tweets de problema, es decir los tweets que contienen descripciones de problemas. En el enfoque propuesto tales descripciones se extraen como una combinación de frases de desencadenante y objetivo. Desencadenantes son en su mayoría frases verbales independientes del dominio y se identifican mediante patrones léxicos y sintácticos creados manualmente. Por otro lado, objetivos son frases nominales específicas del dominio particular y sintácticamente relacionadas con las desencadenantes. Se ataca el problema de encontrar la frase objetivo correspondiente a la frase desencadenante dada como un problema de ranking y se presentan los resultados de experimentos con clasificadores de máxima entropía y perceptrones de votación. El rendimiento de ambos enfoques es mejor que el del enfoque basado en reglas reportado anteriormente. <![CDATA[<b>A Supervised Approach for Reconstructing Thread Structure in Comments on Blogs and Online News Agencies</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462013000200011&lng=en&nrm=iso&tlng=en There is a great deal of knowledge in online environments such as forums, chats and blogs. A large volume of comments with different subjects on a page has created a lot of complexity in following the actual conversation streams, since the reply structures of comments are generally not publicly accessible in online environments. It is beneficial to automatically reconstruct thread structure of comments to deal with such a problem. This work focuses on reconstructing thread structures on blogs and online news agencies' comment space. First, we define a set of textual and non-textual features. Then we use a learning algorithm to combine extracted features. The proposed method has been evaluated on three different datasets, which include two datasets in Persian and one in English. The accuracy ratio of the proposed model is compared with three baseline algorithms. The results reveal higher accuracy ratio for the proposed method in comparison with the baseline methods for all datasets.<hr/>Una cantidad grande de conocimiento está hoy en línea en varias formas como foros, chats y blogs. El gran volumen de comentarios acerca de diversos temas en una página ha creado gran complejidad para realizar el seguimiento de los flujos reales de conversación, ya que las estructuras de respuesta a comentarios por lo general no son de acceso público en las páginas web. Sería beneficioso reconstruir automáticamente la estructura de hilos de comentarios para resolver este problema. El presente trabajo se centra en la reconstrucción de la estructura de hilos en el espacio de comentarios en blogs y agencias de noticias en línea. En primer lugar, se define el conjunto de características textuales y no textuales. Luego se utiliza un algoritmo de aprendizaje para combinar las características extraídas. El método propuesto ha sido evaluado sobre tres distintos conjuntos de datos, que incluye dos conjuntos de datos en idioma persa y un conjunto en inglés. La precisión del modelo propuesto se compara con tres algoritmos de referencia. Los resultados muestran mayor precisión del método propuesto en comparación con los métodos de referencia para todos los conjuntos de datos. <![CDATA[<b>Using Stylistic Features for Social Power Modeling</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462013000200012&lng=en&nrm=iso&tlng=en Social Network Analysis traditionally examines the graph of a communications network to identify key individuals based on the pattern of their interactions, but there is a limit to the level of detail which can be inferred from metadata alone. Message content is a richer source of data, and can provide an indication of the relationship between a pair of communicants. An individual's language use will vary depending on their relationship to the addressee, and this paper investigates a set of stylistic features which may be used to predict the nature of a relationship within an organizational hierarchy. Experiments are conducted on the Enron corpus for the sake of comparison with earlier results, and demonstrate successful classification of upspeak vs. downspeak using a small feature set.<hr/>El análisis de redes sociales examina tradicionalmente el grafo de una red de comunicaciones, con el fin de identificar personas clave basándose en el patrón de sus interacciones, pero existe un límite respecto al nivel de detalle que se puede inferir únicamente a partir de metadatos. El contenido de mensajes es una fuente más rica de datos y puede proporcionar la indicación de una relación entre un par de comunicantes. El uso de idioma en personas varía dependiendo de sus relaciones con los destinatarios, entonces este trabajo investiga un conjunto de las características estilísticas que pueden ser utilizados para predecir la naturaleza de una relación dentro de la jerarquía de una organización. Los experimentos se realizaron sobre el corpus Enron para comparar los resultados obtenidos con los anteriores, y mostraron la clasificación exitosa de mensajes dirigidos a personas en la posición más alta en la jerarquía (upspeak) vs mensajes dirigidos hacia abajo en la jerarquía (downspeak) utilizando un pequeño conjunto de características. <![CDATA[<b>Detecting Salient Events in Large Corpora by a Combination of NLP and Data Mining Techniques</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462013000200013&lng=en&nrm=iso&tlng=en In this paper, we present a framework and a system that extracts "salient" events relevant to a query from a large collection of documents, and which also enables events to be placed along a timeline. Each event is represented by a sentence extracted from the collection. We have conducted some experiments showing the interest of the method for this issue. Our method is based on a combination of linguistic modeling (concerning temporal adverbial meanings), symbolic natural language processing techniques (using cascades of morpho-lexical transducers) and data mining techniques (namely, sequential pattern mining under constraints). The system was applied to a corpus of newswires in French provided by the Agence France Presse (AFP). Evaluation was performed in partnership with French newswire agency journalists.<hr/>En este trabajo se presenta el marco y el sistema para extracción de los eventos "destacados" relevantes a una pregunta de una gran colección de documentos, el cual también permite ubicar los eventos a lo largo de la línea de tiempo. Cada evento se representa por una frase extraída de la colección. Se han realizado unos experimentos que muestran el interés del método para este problema. El método propuesto se basa en la combinación del modelado lingüístico (con respecto a significados adverbiales temporales), las técnicas simbólicas de procesamiento de lenguaje natural (usando cascadas de transductores morfo-léxicos) y técnicas de minería de datos (la minería de patrones secuenciales bajo restricciones). El sistema ha sido aplicado a un corpus de noticias en idioma francés proporcionado por la Agencia France Presse (AFP). La evaluación se realizó en colaboración con periodistas de agencias francesas de noticias. <![CDATA[<b>Graph Mining under Linguistic Constraints for Exploring Large Texts</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462013000200014&lng=en&nrm=iso&tlng=en In this paper, we propose an approach to explore large texts by highlighting coherent sub-parts. The exploration method relies on a graph representation of the text according to Hoey's linguistic model which allows the selection and the binding of adjacent and non-adjacent sentences. The main contribution of our work consists in proposing a method based on both Hoey's linguistic model and a special graph mining technique, called CoHoP mining, to extract coherent sub-parts of the graph representation of the text. We have conducted some experiments on several English texts showing the interest of the proposed approach.<hr/>En este artículo se propone el enfoque para la exploración de textos grandes destacando las sub-partes coherentes. El método de exploración se basa en la representación del texto mediante un gráfo de acuerdo con el modelo lingüístico de Hoey, el cual permite la selección y vinculación de frases adyacentes y no adyacentes. La principal aportación de este trabajo es la propuesta del método basado en el modelo lingüístico de Hoey por un lado y por otro lado en la técnica especial de minería de grafos llamada minería CoHoP, con el fin de extraer las sub-partes coherentes de la representación gráfica del texto. Se realizaron unos experimentos sobre varios textos en inglés mostrando el interés del enfoque propuesto. <![CDATA[<b>Corpus-based Sentence Deletion and Split Decisions for Spanish Text Simplification</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462013000200015&lng=en&nrm=iso&tlng=en This study addresses the automatic simplification of texts in Spanish in order to make them more accessible to people with cognitive disabilities. A corpus analysis of original and manually simplified news articles was undertaken in order to identify and quantify relevant operations to be implemented in a text simplification system. The articles were further compared at sentence and text level by means of automatic feature extraction and various machine learning classification algorithms, using three different groups of features (POS frequencies, syntactic information, and text complexity measures) with the aim of identifying features that help separate original documents from their simple equivalents. Finally, it was investigated whether these features can be used to decide upon simplification operations to be carried out at the sentence level (split, delete, and reduce). Automatic classification of original sentences into those to be kept and those to be eliminated outperformed the classification that was previously conducted on the same corpus. Kept sentences were further classified into those to be split or significantly reduced in length and those to be left largely unchanged, with the overall F-measure up to 0.92. Both experiments were conducted and compared on two different sets of features: all features and the best subset returned by an attribute selection algorithm.<hr/>Este estudio aborda el problema de simplificación automática de textos en español con el fin de hacerlos más accesible a las personas con discapacidades cognitivas. Análisis de corpus de artículos originales y artículos simplificados manualmente se ha realizado para identificar y calificar relevantes operaciones que tienen que ser implementadas en el sistema de simplificación de textos. Luego los artículos se han comparado al nivel de frase y texto mediante extracción automática de características y diversos algoritmos de aprendizaje de máquina para clasificación usando tres distintos grupos de características (frecuencias de partes de oración (POS), información sintáctica y medidas de la complejidad de textos) con el propósito de identificar las características que ayuden a distinguir los documentos originales de sus simples equivalentes. Finalmente, se ha investigado la posibilidad de usar esas características en operaciones de simplificación a nivel de frase (dividir, eliminar y reducir). Clasificación automática de frases originales en las que deben preservarse y las que deben eliminarse ha superado la clasificación anterior sobre el mismo corpus. Las frases guardadas luego se clasificaron en las que se dividen o reducen de manera significativa en su longitud y las que se quedan sin cambios mayores con la F-medida de 0.92. Ambos experimentos se realizaron y compararon sobre dos distintos conjuntos de características: el de todas características y el mejor subconjunto recuperado por el algoritmo de selección de atributos. <![CDATA[<b>Classifying Case Relations using Syntactic, Semantic and Contextual Features</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462013000200016&lng=en&nrm=iso&tlng=en Este artículo presenta una clasificación de roles semánticos basada en características sintácticas, semánticas y contextuales. El objetivo de este artículo es identificar mediante la tarea de clasificación, el tipo de rol semántico existente entre un evento y sus actantes; por ello se presenta un análisis de características para seleccionar un subconjunto que mejore el desempeño de la tarea. Adicionalmente, se presenta una comparativa de cuatro algoritmos de clasificación: máquinas de soporte vectorial, los k-vecinos más cercanos, clasificador de Bayes y el clasificador basado en arboles de decisión C4.5, esto con la finalidad de analizar su desempeño con todas las características y con las relevantes en cada categoría de rol semántico. Con base en la experimentación, se obtiene que la selección de atributos mejora el desempeño de la tarea de clasificación, ya que con el grupo de características relevantes, se obtiene el mejor desempeño de 84.6% con el algoritmo basado en arboles de decisión C4.5. El resultado del etiquetado de roles puede ser utilizado para una representación de conocimiento o se puede utilizar para apoyar en la tarea de aprendizaje ontológico.<hr/>This paper presents a classification of semantic roles using syntactic, semantic and contextual features. The aim of our work is to identify types of semantic roles involving events and their actors; therefore, we fulfill a feature analysis in order to select the best feature subset which improves the fulfillment of the task. In addition, we compare four classification algorithms: Support Vector Machine (SVM), k-nearest neighbor (k-NN), Bayes classifier and decision tree classifier C4.5. This comparison was made in order to analyze the performance of these algorithms with all features against relevant features for each semantic role category. In our experimentation, we obtain that feature selection improved the performance of algorithms in our classification task, since with relevant features we obtained the best performance of 84.6% with decision tree classifier C4.5. The results for the labeling task can be used for knowledge representation or ontology learning.