SciELO - Scientific Electronic Library Online

 
vol.16 issue4EditorialA Motion Capture based Planner for Virtual Characters Navigating in 3D Environment author indexsubject indexsearch form
Home Pagealphabetic serial listing  

Services on Demand

Journal

Article

Indicators

Related links

  • Have no similar articlesSimilars in SciELO

Share


Computación y Sistemas

Print version ISSN 1405-5546

Comp. y Sist. vol.16 n.4 México Oct./Dec. 2012

 

Artículos

 

Detección de plagio translingüe utilizando el diccionario estadístico de BabelNet

 

Cross-language Plagiarism Detection Using BabelNet's Statistical Dictionary

 

Marc Franco-Salvador, Parth Gupta y Paolo Rosso

 

Natural Language Engineering Lab - ELiRF, Departamento de Sistemas Informáticos y Computación, Universitat Politècnica de València, España. Correo: mfranco@dsic.upv.es, pgupta@dsic.upv.es, prosso@dsic.upv.es

 

Article received on 25/10/2012.
Accepted on 26/11/2012.

 

Resumen

En los últimos años ha habido importantes avances en el campo de la detección de plagio automática. Uno de ellos es la detección de plagio translingüe, la cual trata de detectar el plagio entre documentos en diferentes idiomas. La mayoría de aproximaciones que existen para esta tarea hacen uso de diccionarios estadísticos para lidiar con las traducciones de las palabras de los documentos. Un diccionario estadístico nos proporciona, para una palabra dada, la lista de traducciones posibles con sus respectivas probabilidades. El objetivo de este trabajo es analizar el rendimiento del diccionario estadístico de la red semántica multilingüe BabelNet para la tarea de detección de plagio translingüe. En la evaluación comparamos sus resultados con los ofrecidos por un diccionario estadístico entrenado con el conocido modelo de alineamiento IBM M1, ambos utilizando el modelo estado del arte CL-ASA como base. Los resultados de los experimentos indican que BabelNet es una buena alternativa como diccionario estadístico.

Palabras clave: Detección de plagio translingüe, similitud textual, diccionario estadístico, BabelNet.

 

Abstract

In recent years there have been important advances in the field of automatic plagiarism detection. One variant is cross-language plagiarism detection, which tries to detect plagiarism between documents in different languages. Most of the existing approaches to this task make use of statistical dictionaries to deal with the translations of words in the documents. A statistical dictionary provides, for a given word, the list of possible translations with their respective probabilities. The objective of this paper is to analyze the performance of the statistical dictionary of multilingual semantic network - Babelnet for cross-language plagiarism detection. In the evaluation we compare its results with those offered by a statistical dictionary trained by the well-known IBM M1 aligment model, both using state-of-the-art model CL-ASA as a base. The results of the experiments indicate that Babelnet is a good alternative as statistical dictionary.

Keywords: Cross-language plagiarism detection, textual similarity, statistical dictionary, BabelNet.

 

DESCARGAR ARTÍCULO EN FORMATO PDF

 

Agradecimientos

En primer lugar agradecer a la Consellería D'educació, Formació i Ocupació de la Generalitat Valenciana por la financiación por parte del programa Gerónimo Forteza, sin el cual no hubiera sido posible llevar a cabo la investigación del primer autor que ha llevado a esta publicación. Este trabajo se ha hecho dentro del ámbito del VLC/CAMPUS Microcluster on Multimodal Interaction in Intelligent Systems y como parte del proyecto de la Comisión Europea WIQ-EI IRSES (no. 269180). Por otro lado agradecer a Roberto Navigilipor haber desarrollado BabelNet y ofrecer su ayuda para familiarizarnos con el API sistema. Finalmente a Alberto Barrón Cedeño por desarrollar la versión inicial del modelo CL-ASA.

 

Referencias

1 . Barrón-Cedeño, A. (2012). On the mono-and cross-language detection of text re-use and plagiarism. Ph.D. thesis, Universitat Politcènica de València.         [ Links ]

2 . Barrón-Cedeño, A., Rosso, P., Pinto, D., & Juan, A. (2008). On cross-lingual plagiarism analysis using a statistical model. In proceedings of the ECAI'08 workshop on Uncovering Plagiarism, Authorship and Social Software Misuse, PAN'08.         [ Links ]

3 . Brown, P., Della Pietra, S., Della Pietra, V., & Mercer, R. (1993). The mathematics of statistical machine translation: Parameter estimation. In Computational Linguistics, volume 19(2). 263-311.         [ Links ]

4 . Comas, R. & Sureda, J. (2008). Academic cyberplagiarism: tracing the causes to reach solutions. Digithum, 10, 1-6.         [ Links ]

5 . Dumais, S. T., Letsche, T. A., Littman, M. L., & Landauer, T. K. (1997). Automatic cross-language retrieval using latent semantic indexing. In AAAI-97 Spring Symposium Series: Cross-Language Text and Speech Retrieval. Hull & D. Oard (eds.), 18-24.         [ Links ]

6 . Fellbaum, C. (1998). Wordnet: An electronic lexical database. MIT Press.         [ Links ]

7 . Mcnamee, P. & Mayfield, J. (2004). Character n-gram tokenization for european language text retrieval. Inf. Retr., 7(1-2), 73-97. ISSN 1386-4564.         [ Links ]

8 . Navigli, R. & Ponzetto, S. P. (2010). Babelnet: building a very large multilingual semantic network. In proceedings of the 48th annual meeting of the Association for Computational Linguistics, ACL '10. Stroudsburg, PA, USA, 216-225.         [ Links ]

9 . Navigli, R. & Ponzetto, S. P. (2012). Multilingual wsd with just a few lines of code: The babelnet api. In 50th annual meeting of the Association for Computational Linguistics.         [ Links ]

10 . Och, F. J. & Ney, H. (2003). A systematic comparison of various statistical alignment models. In Computational Linguistics, volume 29(1). 19-51.         [ Links ]

11 . Pinto, D., Civera, J., Barrón-Cedeño, A., Juan, A., & Rosso, P. (2009). A statistical approach to crosslingual natural language tasks. journal of algorithms, 64(1), 51-60. doi:10.1016/j.jalgor.2009. 02.005.         [ Links ]

12 . Potthast, M., Barrón-Cedeño, A., Stein, B., & Rosso, P. (2011 ). Cross-language plagiarism detection. Language Resources and Evaluation, Special Issue on Plagiarism and Authorship Analysis, 45(1).         [ Links ]

13 . Potthast, M., Barrón-Cedeño, A., Stein, B., & Rosso, P. (2010). An evaluation framework for plagiarism detection. In proc. of the 23rdint. conf. on Computational Linguistics, COLING-2010. Beijing, China, 997-1005.         [ Links ]

14 . Potthast, M., Eiselt, A., Barrón-Cedeño, A., Stein, B . , & Rosso, P. (2011 ). Overview of the 3rd international competition on plagiarism detection. In CLEF (Notebook Papers/Labs/Workshop).         [ Links ]

15 . Pouliquen, B., Steinberger, R., & Ignat, C. (2003). Automatic annotation of multilingual text collections with a conceptual thesaurus. In workshop 'Ontologies and Information Extraction' at the Summer School The Semantic Web and Language Technology—its Potential and Practicalities', EUROLAN'2003. 9-28.         [ Links ]

16 . Stein, B. & Anderka, M. (2009). Collection-relative representations: A unifying view to retrieval models. In 20th international conference on Database and Expert Systems Applications, DEXA'09. A.M. Tjoa & R.R. Wagner (eds.), 383-387.         [ Links ]

17 . Steinberger, R., Pouliquen, B., & Ignat, C. (2004). Exploiting multilingual nomenclatures and language-independent text features as an interlingua for cross-lingual text analysis applications. In 4th Slovenian Language Technology Conference, IS'2004. Information Society.         [ Links ]

18 . Steinberger, R., Pouliquen, B., Widiger, A., Ignat, C., Erjavec, T., Tufis, D., & Varga, D. (2006). The jrc-acquis: A multilingual aligned parallel corpus with +20 languages. In 5th international conference on Language Resources and Evaluation. LREC'2006.         [ Links ]

19 . Torrejón, D. & Ramos, J. (2011). Crosslingual coremo system (contextual reference monotony). In CLEF (Notebook Papers/Labs/Workshop).         [ Links ]

20 . Vinokourov, A., Shawe-Taylor, J., & Cristianini, N. (2003). Inferring a semantic representation of text via cross-language correlation analysis. In NIPS-02: Advances in Neural Information Processing Systems. S. Becker, S. Thrun, & K. Obermayer (eds.), 1473-1480.         [ Links ]

21 . Vossen, P. (2004). Eurowordnet: A multilingual database of autonomous and language-specific wordnets connected via an inter-lingual index. In international journal of Lexicography, volume 17.         [ Links ]

Creative Commons License All the contents of this journal, except where otherwise noted, is licensed under a Creative Commons Attribution License