SciELO - Scientific Electronic Library Online

 
vol.29 número1Efficient Geographic Routing for Ad Hoc Vehicle NetworksBinary Coronavirus Disease Optimization Algorithm for Spectral Band Selection índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

Links relacionados

  • No hay artículos similaresSimilares en SciELO

Compartir


Computación y Sistemas

versión On-line ISSN 2007-9737versión impresa ISSN 1405-5546

Resumen

ARENGAS ACOSTA, Juan Manuel; GUZMAN CABRERA, Rafael; LOPEZ RAMIREZ, Misael  y  FLOREZ FUENTES, Anderson Smith. Clasificación temática automática exhaustiva del corpus Reuters 21578 con aprendizaje automático supervisado. Comp. y Sist. [online]. 2025, vol.29, n.1, pp.481-499.  Epub 05-Dic-2025. ISSN 2007-9737.  https://doi.org/10.13053/cys-29-1-4391.

La clasificación automática de textos se ha consolidado como una disciplina de investigación que fusiona técnicas avanzadas de procesamiento de lenguaje natural (PLN) con algoritmos de aprendizaje automático, permitiendo categorizar eficientemente grandes volúmenes de documentos textuales. Se propone un enfoque innovador que integra técnicas actuales de preprocesamiento con algoritmos clásicos de aprendizaje supervisado para mejorar la precisión en la clasificación del corpus Reuters-21578. Se plantea una revisión literatura, la implementación de técnicas de preprocesamiento (tokenización, lematización, eliminación de stopwords, conversión a minúsculas y eliminación de caracteres especiales), al igual que la exploración de algoritmos de aprendizaje supervisado (Regresión Logística, Máquinas de Soporte Vectorial, Naïve Bayes, Random Forest y k-vecinos más cercanos). Se realizaron experimentos con diversas configuraciones, combinando técnicas de preprocesamiento, métodos de selección de características como TF-IDF, y los algoritmos ya mencionados. Es así como los hallazgos en los escenarios experimentados revelan la integración de estas técnicas y algoritmos mejora significativamente la precisión de la clasificación de textos, dando como resultado una configuración apta para el corpus Reuters-21578 que presenta una precisión de hasta el 98.6%. Se propone una metodología empírica rigurosa y eficaz, que puede ser aplicable a diversos corpus de documentos en formato de texto.

Palabras llave : Algoritmos de clasificación; procesamiento del lenguaje natural (PLN); corpus Reuters-21578; clasificación temática exhaustiva.

        · resumen en Inglés     · texto en Español     · Español ( pdf )