Scielo RSS <![CDATA[Computación y Sistemas]]> http://www.scielo.org.mx/rss.php?pid=1405-554620110003&lang=pt vol. 15 num. 1 lang. pt <![CDATA[SciELO Logo]]> http://www.scielo.org.mx/img/en/fbpelogp.gif http://www.scielo.org.mx <![CDATA[Editorial]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462011000300001&lng=pt&nrm=iso&tlng=pt <![CDATA[<b>Development of Voice-Based Tools for Accessibility to Computer Services</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462011000300002&lng=pt&nrm=iso&tlng=pt This work presents the development of two tools which intend to provide accessibility to people with different handicaps in their access to computer applications using speech technologies. The basis of the work is to use voice emissions from a severely handicapped user to substitute mouse and key strokes in one of the tools; and the movement of the cursor in the other. The speech technologies required for these tasks are robust energy estimation and robust formant calculation and normalization. The paper will also provide a comprehensive view of all the process required for a successful development of these tools, starting with the contact with assistive and education institutions, understanding the difficulties of these collectives in their everyday life, defining how technology can help in these cases, the actual development of the tools and, finally, the deployment of the tools with real users to assess their usability and functionality.<hr/>Este trabajo presenta el desarrollo de dos herramientas que buscan proveer accesibilidad a personas con diferentes discapacidades en su acceso a aplicaciones informáticas a través de las tecnologías del habla. La base del trabajo es usar emisiones de voz por parte de un usuario con discapacidad severa para sustituir las pulsaciones de ratón o teclado en una de las herramientas; y el movimiento del cursor en la otra. Las tecnologías del habla requeridas para ello son estimación de energía robusta y cálculo robusto de formantes con normalización. El artículo también buscar dar una visión global del proceso requerido para el desarrollo exitoso de estas herramientas, empezando por el contacto con instituciones asistivas y educativas, entender las dificultades de estos colectivos, definir qué soluciones puede dar la tecnología, el propio desarrollo de las herramientas y, finalmente, el despliegue de las mismas ante usuarios reales para conocer su usabilidad y funcionalidad. <![CDATA[<b>Speaker Verification in Different Database Scenarios</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462011000300003&lng=pt&nrm=iso&tlng=pt This document shows the results of our Speaker Verification System under two scenarios: the Face and Speaker Verification Evaluation organized by MOBIO (MObile BIOmetric consortium) and the results for the Speaker Recognition Evaluation 2010 organized by NIST. The core of our system is based on a Gaussian Mixture Model (GMM) and maximum likelihood (ML) framework. First, it extracts the important speech features by computing the Mel Frequency Cepstral Coefficients (MFCC). Then, the MFCCs train gender-dependent GMMs that are later adapted to obtain target models. To obtain reliable performance statistics those target-models evaluate a set of trials and final scores are calculated. Finally, those scores are tagged as target or impostor. We tried several system configurations and found that each database requires a specific tuning to improve the performance. For the MOBIO database we obtained an average equal error rate (EER) of 16.43 %. For the NIST 2010 database we accomplished an average EER of 16.61%. NIST2010 database considers various conditions. From those conditions, the interview training and testing conditions showed the best EER of 10.94 %, followed by the phone call training phone call testing conditions of 13.35%.<hr/>Este documento muestra los resultados de nuestro sistema de verificación de hablante bajo dos escenarios: la Evaluación Face and Speaker Verification Evaluation organizada por MOBIO (MObile BIOmetric consortium) y la Evaluación de Reconociemiento de personas 2010 organizada por NIST. La parte central de nuestro esquema se basa en un modelado de Mezclas de Gaussianas (GMM) y máxima verosimilitud. Primero, se extraen los parámetros importantes de la voz calculando los coeficientes ceptrales en escala mel, Mel Frequency Cepstral Coefficients (MFCC). Después, dichos MFFCs entrenan las mezclas de Gaussianas dependientes del género que posteriormente serán adaptadas y se obtendrán los modelos de los usuarios objetivo. Para obtener estadísticas confiables esos modelos objetivo son evaluados por un conjunto de señales no conocidas y se obtienen puntuaciones finales. Por último, esas puntuaciones son etiquetadas como usuario objetivo o impostor. Hemos analizado diferentes configuraciones y encontramos que cada base de datos requiere una sintonización adecuada para mejorar su desempeño. Para la base de datos MOBIO, obtuvimos un porcentaje de error promedio de 16.43 %. Para la base de datos NIST2010, logramos un promedio de error de 16.61%. La base de datos NIST2010 considera varias condiciones. De esas condiciones, la condición de entrevista para entrenamiento y prueba mostró el mejor error con 10.94 %, seguida por la condición de llamada telefónica en entrenamiento y llamada telefónica en prueba con 13.35%. <![CDATA[<b>Speaker Verification on Summed-Channel Conditions with Confidence Measures</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462011000300004&lng=pt&nrm=iso&tlng=pt This paper addresses the problem of speaker verification in two speaker conversations, proposing a set of confidence measures to assess the quality of a given speaker segmentation. We study how these measures can be used to estimate the performance of a state-of-the-art speaker verification system, the I3A submission for the core-summed condition in the NIST SRE 2010. We present a Factor Analysis based speaker segmentation system, along with three confidence measures that are fused to obtain a single measure that we show to constitute a good estimation of the segmentation accuracy, when evaluated on the summed-channel telephone data of the NIST SRE 2008. Finally we present speaker verification results obtained with the I3A submission for the NIST SRE 2010 on several conditions of this evaluation, involving summed-channel. We show that the confidence measure also predicts the performance of a state-of-the art speaker verification system when it faces two speaker conversations.<hr/>Este artículo trata el problema de verificación de locutor en conversaciones con dos locutores, proponiendo un conjunto de medidas de confianza para evaluar la calidad de una segmentación de locutores dada. Estudiamos cómo estas medidas pueden ser utilizadas para estimar el rendimiento de un sistema de verificación del locutor del estado del arte, el sistema del I3A para la evaluación de reconocimiento del locutor NIST SRE 2010. Presentamos un sistema de segmentación de locutor basado en Análisis Factorial y tres medidas de confianza que son combinadas en una medida que constituye una buena estimación de la calidad de la segmentación, cuando se evalúa en las grabaciones de canal sumado de la NIST SRE 2008. Finalmente presentamos resultados de verificación de locutor obtenidos con el sistema del I3A en distintas condiciones de canal sumado de la NIST SRE 2010. Se demuestra que las medidas de confianza también predicen el rendimiento de un sistema de verificación del locutor cuando se enfrenta a conversaciones de dos locutores. <![CDATA[<b>Evocanto</b>: <b>Computer Program for Analyzing the Singing Voice using Digital Signal Processing</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462011000300005&lng=pt&nrm=iso&tlng=pt Se presenta el desarrollo de un programa de cómputo multiplataforma, con una interfaz gráfica amigable, orientada a estudiantes y maestros de canto, como auxiliar didáctico en la enseñanza de la técnica vocal. El programa capta la señal de voz mediante un micrófono y una interfaz de audio y la somete a procedimientos de análisis espectral, mediante los cuales se determinan los elementos necesarios para estimar la configuración del tracto vocal, así como características acústicas de la voz cantada, tales como la entonación, el vibrato y la resonancia. El programa muestra representaciones gráficas del espectro y su análisis, lo que permite realizar una valoración objetiva. La interacción en tiempo real hace que el usuario pueda experimentar adecuaciones de su propia técnica vocal y observar inmediatamente los efectos manifestados en la señal acústica, por lo que se obtiene información adicional a las indicaciones técnicas y musicales del maestro de canto.<hr/>The article presents the development of a computer program, with a friendly user interface, intended as a didactic tool for the study and teaching of the singing voice and vocal technique. The program captures the acoustic signal with a microphone and a digital audio interface, spectral analysis is performed and acoustic descriptors of tuning, vibrato and resonance of the singing voice are calculated. The program displays the spectral analysis and other parameters, allowing for an objective evaluation. Real-time interaction allows users immediate feedback of the effects of their own vocal technique on the acoustic singing voice signal; this, in addition to technical and musical indications provided by the singing teacher. <![CDATA[<b>A Bayesian Estimation of Distribution Algorithm Approach to the Definition of Linear Antenna Arrays Excitations</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462011000300006&lng=pt&nrm=iso&tlng=pt This paper introduces and investigates the family of aperture distributions whose members have the best Side Lobe Ratio (SLR) for a given Inverse Dynamic Range Ratio (IDRR). An optimization approach based on Estimation of Distributions Algorithms is used to find the family instances. The paper shows that the family has limiting distributions with a number of interesting properties, e.g. it has a good tradeoff between beamwidth and SLR and has the best IDRR for a given beamwidth. The numerical results allow us to conclude the following: 1) the IDRR impacts the complexity of the problem, i.e. the larger the IDRR the easier the optimization. 2) linear entropic mutation improves the performance of the algorithms and reduces the population size requirements. 3) the independence model seems to be adequate for very large IDRR but fails dramatically for the other cases.<hr/>Este artículo introduce e investiga la familia de distribuciones de apertura cuyos miembros poseen el menor lóbulo lateral (SLR) para un rango dinámico inverso (IDRR) dado. Un enfoque de optimización basado en algoritmos de estimación de distribuciones es utilizado para encontrar los miembros de la familia. El artículo muestra que la familia presenta distribuciones límites con propiedades interesantes: muestra un buen compromiso entre el ancho del lóbulo central y SLR además del mejor IDRR para un HPBW dado. Los resultados numéricos nos permiten concluir lo siguiente. 1) el IDRR influye en la complejidad del problema: para altos IDRR es más fácil el proceso de optimización. 2) la mutación entrópica lineal mejora el comportamiento de los algoritmos y reduce el tamaño de la población. 3) el modelo de independencia parece resultar adecuado para altos IDRRs pero falla dramáticamente para otros casos. <![CDATA[<b>Document <i>k</i>NN Clasification using GPU</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462011000300007&lng=pt&nrm=iso&tlng=pt La búsqueda de los k vecinos más cercanos, ha sido aplicada a una amplia variedad de aplicaciones en el campo de la Minería de Textos y la Recuperación de Información por su simplicidad y precisión. Sin embargo, estas áreas del conocimiento en general manipulan objetos con altas dimensiones de rasgos que hacen que el proceso de encontrar los k objetos más similares a uno dado tenga una intensidad computacional elevada, debido a la gran cantidad de operaciones que se realizan para calcular la semejanza entre todos los objetos implicados. En este trabajo se proponen dos métodos de multiplicación paralela de matrices dispersas usando una GPU, que minimizan el tiempo empleado en el cálculo de semejanzas entre objetos del algoritmo kNN para clasificar documentos.<hr/>The search for the k nearest neighbors, has been applied to a wide variety of applications in the field of Text Mining and Information Retrieval for its simplicity and accuracy. However, these general areas of knowledge in handling high-dimensional objects with features that make the process of finding the k most similar objects to a given computer has a high intensity, due to the large number of operations performed to calculate the similarity between all the objects involved. In this paper we propose two methods for parallel sparse matrix multiplication using a GPU, which minimize the time spent in the calculation of similarities between objects in the kNN algorithm to classify documents. <![CDATA[<b>State of the Art of Fingerprint Indexing Algorithms</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462011000300008&lng=pt&nrm=iso&tlng=pt Due to the large size that fingerprint databases generally have, the reduction of the search space is indispensable. In the resolution of this problem, indexing algorithms have a fundamental role. In the literature, there are several proposals that make use of different features to characterize fingerprints. In addition, a wide variety of recovery methods are reported. This paper concisely describes the indexing algorithms that have reported better results so far and makes a comparison between these, based on experiments in well known databases. Finally, a classification of the indexing algorithms is proposed, based on some general characteristics.<hr/>Debido al gran tamaño que pueden alcanzar las bases de datos de impresiones dactilares, se hace indispensable la reducción de espacio de búsqueda. En la resolución de este problema, los algoritmos de indexación juegan un papel fundamental. En la literatura sobre el tema, existen algunas propuestas que hacen uso de diferentes rasgos para caracterizar las impresiones. Además, existen reportados una gran variedad de métodos de recuperación. El presente artículo describe de manera concisa, los algoritmos de indexación que han reportado los mejores resultados hasta ahora y se hace comparaciones entre estos, basados en experimentos en bases de datos conocidas. Finalmente, se propone una clasificación, basada en algunas características generales. <![CDATA[<b>Towards Raster Spatial Analysis Methods at the Semantic Level</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462011000300009&lng=pt&nrm=iso&tlng=pt Los Sistemas de Información Geográfica (SIG), debido a sus aplicaciones en el análisis y recuperación de la información geo-gráfica, se han convertido en una necesaria herramienta para la ayuda a la toma de decisiones. Con el surgimiento de la Geosemántica, un nuevo enfoque en la recuperación y análisis de información espacial se impone, recuperar y analizar la información por su significado semántico. El presente trabajo pretende hacer una síntesis de las diferentes técnicas y métodos a través de los cuales los SIG han venido recuperando la información espacial, llegando hasta las nuevas pro-puestas que incluyen la semántica, enfocándose en el modelo de datos raster, específicamente en la técnica de superposición de mapas y la problemática de la naturaleza heterogénea de los datos geográficos. Por lo que se plantea la necesidad de encontrar métodos que tomen en cuenta esta limitante y permitan trabajar con los datos mezclados de manera simultánea.<hr/>Geographic Information Systems (GIS), due to their applications in analysis and geographic information retrieval, have become a necessary tool to aid decision making. After the emergence of Geosemantic a new approach in the retrieval and analysis of spatial information is imposed, retrieve and analyze information by its semantic meaning. This paper aims to summarize the different techniques and methods by which GIS has been recovering spatial information reaching new proposals that include semantics, focusing on the raster data model specifically the map overlay technique and the problem of the heterogeneous nature of geographic data. As there is a need to find methods that takes into account this limitation and allows working with mixed data simultaneously. <![CDATA[<b>A New Phono-Articulatory Feature Representation for Language Identification in a Discriminative Framework</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462011000300010&lng=pt&nrm=iso&tlng=pt State of the Art language identification methods are based on acoustic or phonetic features. Recently, phono-articulatory features have been included as a new speech characteristic that conveys language information. Authors propose a new pho-no-articulatory representation of speech in a discriminative framework to identify languages. This simple representation shows good results discriminating between English and Spanish, using a reduced training set of phono-articulatory trigrams vectors.<hr/>Los sistemas de identificación de idiomas en el estado del arte se basan en características acústicas o fonéticas. Recientemente, las características fono-articulatorias han sido incluidas como una nueva caracterización del habla que contiene información sobre el idioma. Los autores proponen una nueva representación fono-articulatoria del habla usando un marco discriminativo para identificar idiomas. Esta simple representación muestra buenos resultados en la discriminación entre inglés y español, usando un reducido conjunto de entrenamiento basado en vectores de trigramas fono-articulatorios. <![CDATA[<b>Combining Dissimilarities for Three-Way Data Classification</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462011000300011&lng=pt&nrm=iso&tlng=pt The representation of objects by multidimensional arrays is widely applied in many research areas. Nevertheless, there is a lack of tools to classify data with this structure. In this paper, an approach for classifying objects represented by matrices is introduced, based on the advantages and success of the combination strategy, and particularly in the dissimilarity representation. A procedure for obtaining the new representation of the data has also been developed, aimed at obtaining a more powerful representation. The proposed approach is evaluated on two three-way data sets. This has been done by comparing the different ways of achieving the new representation, and the traditional vector representation of the objects.<hr/>La representación de objetos a través de arreglos multidimensionales es ampliamente utilizada en muchas áreas de investigación. Sin embargo, el desarrollo de herramientas para clasificar datos con dicho tipo de estructura ha sido insuficiente. En este trabajo se introduce una metodología para clasificar objetos que son representados por matrices, basada en las ventajas y éxitos de la estrategia de combinación y particularmente en la representación por disimilitudes. También se propone el procedimiento para obtener la nueva representación de los datos. La propuesta realizada en este trabajo se evaluó en dos conjuntos de datos tres-vías. Esta evaluación se realizó mediante la comparación entre las diferentes maneras de obtener la nueva representación, y la representación tradicional de los objetos a través de vectores. <![CDATA[<b>Automated Flexible Manufacturing System in Real-Time</b>]]> http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462011000300012&lng=pt&nrm=iso&tlng=pt Este trabajo formaliza las propiedades que definen e integran a un Sistema de Manufactura Automatizado en Tiempo Real (SMFaTRR, a través de un conjunto de conceptos teóricos de Tiempo Real (TR) aplicables a un Sistema de Manufactura Flexible Automatizado (SMFa) descrito por actividades y operaciones atómicas en común, como son: las señales de entrada para iniciar cualquier rutina, activación de señales de salida, el tiempo de inicio de la operación, el tiempo máximo de operación, fallas de operación, actividades de reinicio y el tiempo total de operación. Esta formalización de conceptos contribuye para el diseño y re-diseño de un SMFa en su estructura de control logrando una sincronía de comunicación entre sus componentes.<hr/>This document formalizes the properties that define and integrate an Automated Manufacturing System in Real Time (aMS7R), through a set of theoretical concepts of Real Time (RT) applicable to an Automated Flexible Manufacturing System (aFMS described by activities and atomic operations in common, as are: the input signals to start any routine activation, an activation of output signals, the start time of the operation, the maximum time of operation, operation failure, restart activities and the total time operation. These concepts formalization contributes to the design and re-design of a structure aFMS control in achieving communication synchrony between its components.