SciELO - Scientific Electronic Library Online

 
vol.17 issue2Graph Mining under Linguistic Constraints for Exploring Large TextsClassifying Case Relations using Syntactic, Semantic and Contextual Features author indexsubject indexsearch form
Home Pagealphabetic serial listing  

Services on Demand

Journal

Article

Indicators

Related links

  • Have no similar articlesSimilars in SciELO

Share


Computación y Sistemas

On-line version ISSN 2007-9737Print version ISSN 1405-5546

Abstract

ŠTAJNER, Sanja; DRNDAREVIć, Biljana  and  SAGGION, Horacio. Eliminación de frases y decisiones de división basadas en corpus para simplificación de textos en español. Comp. y Sist. [online]. 2013, vol.17, n.2, pp.251-262. ISSN 2007-9737.

Este estudio aborda el problema de simplificación automática de textos en español con el fin de hacerlos más accesible a las personas con discapacidades cognitivas. Análisis de corpus de artículos originales y artículos simplificados manualmente se ha realizado para identificar y calificar relevantes operaciones que tienen que ser implementadas en el sistema de simplificación de textos. Luego los artículos se han comparado al nivel de frase y texto mediante extracción automática de características y diversos algoritmos de aprendizaje de máquina para clasificación usando tres distintos grupos de características (frecuencias de partes de oración (POS), información sintáctica y medidas de la complejidad de textos) con el propósito de identificar las características que ayuden a distinguir los documentos originales de sus simples equivalentes. Finalmente, se ha investigado la posibilidad de usar esas características en operaciones de simplificación a nivel de frase (dividir, eliminar y reducir). Clasificación automática de frases originales en las que deben preservarse y las que deben eliminarse ha superado la clasificación anterior sobre el mismo corpus. Las frases guardadas luego se clasificaron en las que se dividen o reducen de manera significativa en su longitud y las que se quedan sin cambios mayores con la F-medida de 0.92. Ambos experimentos se realizaron y compararon sobre dos distintos conjuntos de características: el de todas características y el mejor subconjunto recuperado por el algoritmo de selección de atributos.

Keywords : Simplificación de textos en español; aprendizaje supervisado; clasificación de frases.

        · abstract in English     · text in English     · English ( pdf )

 

Creative Commons License All the contents of this journal, except where otherwise noted, is licensed under a Creative Commons Attribution License