<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2007-0705</journal-id>
<journal-title><![CDATA[Nova scientia]]></journal-title>
<abbrev-journal-title><![CDATA[Nova scientia]]></abbrev-journal-title>
<issn>2007-0705</issn>
<publisher>
<publisher-name><![CDATA[Universidad de La Salle Bajío A. C., Coordinación de Investigación]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2007-07052014000200006</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Reconocimiento del habla mediante el uso de la correlación cruzada y una perceptrón multicapa]]></article-title>
<article-title xml:lang="en"><![CDATA[Speech recognition by using cross correlation and a multilayer perceptron]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[de Luna-Ortega]]></surname>
<given-names><![CDATA[Carlos A.]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Mora-González]]></surname>
<given-names><![CDATA[Miguel]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Martínez-Romo]]></surname>
<given-names><![CDATA[Julio C.]]></given-names>
</name>
<xref ref-type="aff" rid="A03"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Luna-Rosas]]></surname>
<given-names><![CDATA[Francisco J.]]></given-names>
</name>
<xref ref-type="aff" rid="A03"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Muñoz-Maciel]]></surname>
<given-names><![CDATA[Jesús]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad Politécnica de Aguascalientes 1Ingeniería en Sistemas Estratégicos de Información ]]></institution>
<addr-line><![CDATA[Aguascalientes ]]></addr-line>
<country>México</country>
</aff>
<aff id="A02">
<institution><![CDATA[,Universidad de Guadalajara Centro Universitario de los Lagos ]]></institution>
<addr-line><![CDATA[Lagos de Moreno Jalisco]]></addr-line>
<country>México</country>
</aff>
<aff id="A03">
<institution><![CDATA[,Instituto Tecnológico de Aguascalientes Departamento de Ingeniería Eléctrica-Electrónica ]]></institution>
<addr-line><![CDATA[Aguascalientes ]]></addr-line>
<country>México</country>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>00</month>
<year>2014</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>00</month>
<year>2014</year>
</pub-date>
<volume>6</volume>
<numero>12</numero>
<fpage>108</fpage>
<lpage>124</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://www.scielo.org.mx/scielo.php?script=sci_arttext&amp;pid=S2007-07052014000200006&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.mx/scielo.php?script=sci_abstract&amp;pid=S2007-07052014000200006&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.mx/scielo.php?script=sci_pdf&amp;pid=S2007-07052014000200006&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[En el presente artículo se da a conocer una alternativa algorítimica a los sistemas actuales de reconocimiento automático del habla (ASR), mediante una propuesta en la forma de realizar la caracterización de las palabras basada en una aproximación que usa la extracción de coeficientes de la codificación de predicción lineal (LPC) y la correlación cruzada. La implementación consiste en extraer las características fonéticas mediante los coeficientes LPC, después se forman vectores de patrones de la pronunciación conformados por el promedio de los coeficientes LPC de las muestras de las palabras obteniendo un vector característico de cada pronunciación mediante la autocorrelación de las secuencias de coeficientes LPC; estos vectores se utilizan para entrenar un clasificador de tipo perceptrón multicapa (MLP). Se realizaron pruebas de desempeño previo entrenamiento con los diferentes patrones de las palabras a reconocer. Se utilizó la fonética de los dígitos del cero al nueve como vocabulario objetivo, debido a su amplia aplicación, y para estimar el desempeño de este método se utilizaron dos corpus de pronunciaciones: el corpus UPA, que contempla en su base de datos la pronuncación de la región occidente de México, y el corpus Tlatoa, que hace lo propio para la región centro de México. Las señales en ambos corpus fueron adquiridas en el lenguaje español, y a una frecuencia de muestreo de 8kHz. Los porcentajes de reconocimiento obtenidos fueron del 96.7 y 93.3% para las modalidades de mono-locutor para el corpus UPA y múltiple-locutor para el corpus Tlatoa, respectivamente. Asimismo, se realizó una comparación contra dos métodos clásicos del reconocimiento de voz y del habla, Dynamic Time Warping (DTW) y Hidden Markov Models (HMM).]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[It this paper we present an algorithmic alternative to the current Automatic Speech Recognition (ASR) systems by proposing a way to characterize words based on approximations that use an extracted coefficient from Linear Predictive Coding (LPC). The method consists in extracting phonetic characteristics through the use of LPC coefficients, after which pattern vectors are formed from the LPC coefficient averages taken from the word sampling, thus creating a unique vector for each pronunciation through the auto correlation of the LPC coefficient sequences. These vectors are used to train a Multilayer Perceptron (MLP) classifier. After training performance trials were executed. The sounds from the digits zero through nine where used as a target vocabulary, given its general use, and to estimate the performance of this method two corpus where used: the UPA corpus, which in its vocabulary uses a pronunciation familiar to the western part of Mexico, and the Tlatoa corpus, who's vocabulary presents a pronunciation typical of the central region of Mexico. The signals from both corpus where sampled in the Spanish language, and at a sampling frequency of 8kHz. The recognition rate for the mono-speaker from the UPA corpus and the multiple-speaker from the Tlatoa corpus were 96.7% and 93.3% respectively. Additionally, there where comparisons done against two classic methods used for speech recognition, Dynamic Time Warping (DTW) and Hidden Markov Models (HMM).]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[reconocimiento automático del habla]]></kwd>
<kwd lng="es"><![CDATA[correlación cruzada]]></kwd>
<kwd lng="es"><![CDATA[perceptrón multicapa]]></kwd>
<kwd lng="es"><![CDATA[codificación de predicción lineal]]></kwd>
<kwd lng="en"><![CDATA[automatic speech recognition]]></kwd>
<kwd lng="en"><![CDATA[cross-correlation]]></kwd>
<kwd lng="en"><![CDATA[multilayer perceptron]]></kwd>
<kwd lng="en"><![CDATA[linear predictive coding]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[  	    <p align="justify"><font face="verdana" size="4">Ciencias Naturales e Ingenier&iacute;as</font></p>  	    <p align="center"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="center"><font face="verdana" size="4"><b>Reconocimiento del habla mediante el uso de la correlaci&oacute;n cruzada y una perceptr&oacute;n multicapa</b></font></p>  	    <p align="center"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="center"><font face="verdana" size="3"><b>Speech recognition by using cross correlation and a multilayer perceptron</b></font></p>  	    <p align="center"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="center"><font face="verdana" size="2"><b>Carlos A. de Luna&#45;Ortega<sup>1,2</sup>, Miguel Mora&#45;Gonz&aacute;lez<sup>2</sup>, Julio C. Mart&iacute;nez&#45;Romo<sup>3</sup>, Francisco J. Luna&#45;Rosas<sup>3</sup> y Jes&uacute;s Mu&ntilde;oz&#45;Maciel<sup>2</sup></b></font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><sup><i>1</i></sup><i>Ingenier&iacute;a en Sistemas Estrat&eacute;gicos de Informaci&oacute;n, Universidad Polit&eacute;cnica de</i> <i>Aguascalientes, Aguascalientes</i></font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2"><i><sup>2</sup> Universidad de Guadalajara, Centro Universitario de los Lagos, Lagos de Moreno, Jalisco</i></font></p>  	    <p align="justify"><font face="verdana" size="2"><i><sup>3</sup> Departamento de Ingenier&iacute;a El&eacute;ctrica&#45;Electr&oacute;nica, Instituto Tecnol&oacute;gico de Aguascalientes, Aguascalientes, M&eacute;xico</i></font></p>  	    <p align="justify"><font face="verdana" size="2"></font></p>  	    <p align="justify"><font face="verdana" size="2">Carlos A. de Luna&#45;Ortega. E&#45;mail: <a href="mailto:alejandro.deluna@upa.edu.mx">alejandro.deluna@upa.edu.mx</a></font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2">Recepci&oacute;n: 14&#45;02&#45;2013    <br> 	Aceptaci&oacute;n: 27&#45;01&#45;2014</font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Resumen</b></font></p>  	    <p align="justify"><font face="verdana" size="2">En el presente art&iacute;culo se da a conocer una alternativa algor&iacute;timica a los sistemas actuales de reconocimiento autom&aacute;tico del habla (ASR), mediante una propuesta en la forma de realizar la caracterizaci&oacute;n de las palabras basada en una aproximaci&oacute;n que usa la extracci&oacute;n de coeficientes de la codificaci&oacute;n de predicci&oacute;n lineal (LPC) y la correlaci&oacute;n cruzada. La implementaci&oacute;n consiste en extraer las caracter&iacute;sticas fon&eacute;ticas mediante los coeficientes LPC, despu&eacute;s se forman vectores de patrones de la pronunciaci&oacute;n conformados por el promedio de los coeficientes LPC de las muestras de las palabras obteniendo un vector caracter&iacute;stico de cada pronunciaci&oacute;n mediante la autocorrelaci&oacute;n de las secuencias de coeficientes LPC; estos vectores se utilizan para entrenar un clasificador de tipo perceptr&oacute;n multicapa (MLP). Se realizaron pruebas de desempe&ntilde;o previo entrenamiento con los diferentes patrones de las palabras a reconocer. Se utiliz&oacute; la fon&eacute;tica de los d&iacute;gitos del cero al nueve como vocabulario objetivo, debido a su amplia aplicaci&oacute;n, y para estimar el desempe&ntilde;o de este m&eacute;todo se utilizaron dos corpus de pronunciaciones: el corpus UPA, que contempla en su base de datos la pronuncaci&oacute;n de la regi&oacute;n occidente de M&eacute;xico, y el corpus Tlatoa, que hace lo propio para la regi&oacute;n centro de M&eacute;xico. Las se&ntilde;ales en ambos corpus fueron adquiridas en el lenguaje espa&ntilde;ol, y a una frecuencia de muestreo de 8kHz. Los porcentajes de reconocimiento obtenidos fueron del 96.7 y 93.3% para las modalidades de mono&#45;locutor para el corpus UPA y m&uacute;ltiple&#45;locutor para el corpus Tlatoa, respectivamente. Asimismo, se realiz&oacute; una comparaci&oacute;n contra dos m&eacute;todos cl&aacute;sicos del reconocimiento de voz y del habla, Dynamic Time Warping (DTW) y Hidden Markov Models (HMM).</font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2"><b>Palabras clave:</b> reconocimiento autom&aacute;tico del habla, correlaci&oacute;n cruzada, perceptr&oacute;n multicapa, codificaci&oacute;n de predicci&oacute;n lineal.</font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Abstract</b></font></p>  	    <p align="justify"><font face="verdana" size="2">It this paper we present an algorithmic alternative to the current Automatic Speech Recognition (ASR) systems by proposing a way to characterize words based on approximations that use an extracted coefficient from Linear Predictive Coding (LPC). The method consists in extracting phonetic characteristics through the use of LPC coefficients, after which pattern vectors are formed from the LPC coefficient averages taken from the word sampling, thus creating a unique vector for each pronunciation through the auto correlation of the LPC coefficient sequences. These vectors are used to train a Multilayer Perceptron (MLP) classifier. After training performance trials were executed. The sounds from the digits zero through nine where used as a target vocabulary, given its general use, and to estimate the performance of this method two corpus where used: the UPA corpus, which in its vocabulary uses a pronunciation familiar to the western part of Mexico, and the Tlatoa corpus, who's vocabulary presents a pronunciation typical of the central region of Mexico. The signals from both corpus where sampled in the Spanish language, and at a sampling frequency of 8kHz. The recognition rate for the mono&#45;speaker from the UPA corpus and the multiple&#45;speaker from the Tlatoa corpus were 96.7% and 93.3% respectively. Additionally, there where comparisons done against two classic methods used for speech recognition, Dynamic Time Warping (DTW) and Hidden Markov Models (HMM).</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Keywords:</b> automatic speech recognition, cross&#45;correlation, multilayer perceptron, linear predictive coding.</font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>1. Introducci&oacute;n</b></font></p>  	    <p align="justify"><font face="verdana" size="2">Uno de los principales problemas del reconocimiento autom&aacute;tico del habla (ASR) es la variaci&oacute;n de las condiciones fisiol&oacute;gicas entre los humanos (Benzeghiba et. al., 2007, 763), tales como: la gran disparidad de los registros vocales, el g&eacute;nero, la edad, la estructura anat&oacute;mica, entre otras; otro aspecto que puede tener influencia en el problema es el estado de &aacute;nimo de la persona. Esto ocasiona que la pronunciaci&oacute;n de la palabra por una misma persona no genere el mismo patr&oacute;n ac&uacute;stico en diversas pronunciaciones (De Luna&#45;Ortega et. al., 2006, 32). La soluci&oacute;n a dicho problema tiende a formularse como un problema de clasificaci&oacute;n estad&iacute;stica (Trentin, 2001, 91), con la idea de generar patrones que abarquen la mayor parte de las variaciones posibles, obteniendo con ello un aumento en el porcentaje de reconocimiento.</font></p>  	    <p align="justify"><font face="verdana" size="2">Una etapa clave en el reconocimiento de patrones es la extracci&oacute;n de caracter&iacute;sticas: en el habla, las t&eacute;cnicas m&aacute;s usuales para extraer caracter&iacute;sticas incluyen la extracci&oacute;n de coeficientes de predicci&oacute;n lineal (LPC), Cepstrum y los coeficientes cepstrales de frecuencia Mel (MFCC), entre otros (Rabiner, 2007,75); la t&eacute;cnica de LPC es utilizada debido a su capacidad para proporcionar estimaciones precisas de los par&aacute;metros de voz (Rabiner, 2007,75). El Cepstrum es otra alternativa de uso para caracterizaci&oacute;n de la voz debido a que obtiene espectros en ventanas de corto tiempo, adem&aacute;s de que es menos susceptible a las distorsiones lineales (Schafer, 2007, 176), y el MFCC (que es una derivaci&oacute;n del LPC) y sus derivados son los algoritmos de extracci&oacute;n m&aacute;s popular en uso para los sistemas de reconocimiento de voz (Rabiner, 2007, 166), debido a que est&aacute;n basados en la percepci&oacute;n que tiene el o&iacute;do humano, es decir, que trabajan por bandas de frecuencia.</font></p>  	    <p align="justify"><font face="verdana" size="2">A la fecha, se han aplicado diferentes t&eacute;cnicas en el reconocimiento del habla, entre las cuales se encuentran la programaci&oacute;n lineal (<i>Dynamic Time Warping</i>, DTW), los modelos ocultos de Markov (<i>Hidden Markov Models</i>, HMM), las redes neuronales artificiales (<i>Artificial Neural Networks</i>, ANN), Redes Bayesianas (<i>Bayesian Networks</i>, BN), y otras, obteniendo porcentajes de reconocimiento entre el 80% y el 97%, seg&uacute;n la t&eacute;cnica utilizada y las palabras a reconocer (De Wachter et. al., 2007, 1377; Kinjo and Funaki, 2006, 3477; Romo et. al., 2008, 163; De Luna&#45;Ortega et. al., 2006, 32; Irwin, 1988, 1412; Nefian et. al., 2002, 1; Oropeza and Su&aacute;rez, 2006, 270; Chen et. al., 2011, 919; Zweing, 1999, 253; Livescu, 2003, 1 ; Wollmer, 2010, 867). Actualmente, los modelos complementarios entre extracci&oacute;n de caracter&iacute;sticas y t&eacute;cnicas de reconocimiento de voz han favorecido al aumento de la tasa de correcto reconocimiento.</font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">El prop&oacute;sito de este trabajo es mostrar que el uso de la correlaci&oacute;n cruzada aumenta la capacidad discriminante de los coeficientes LPC codificando palabras aisladas; para demostrarlo, los d&iacute;gitos en espa&ntilde;ol del cero al nueve son clasificados utilizando un perceptr&oacute;n multicapa. Como se ver&aacute;, esta combinaci&oacute;n de LPC/correlaci&oacute;n cruzada/perceptr&oacute;n multicapa permite obtener altas tasas de clasificaci&oacute;n correcta. Con el m&eacute;todo propuesto no es necesario estandarizar la dimensionalidad de los vectores de las palabras para realizar el reconocimiento, obteniendo desempe&ntilde;os iguales o mayores que los algoritmos cl&aacute;sicamente aplicados como lo son HMM y DTW.</font></p>  	    <p align="justify"><font face="verdana" size="2">En las siguientes secciones se describe la correlaci&oacute;n cruzada como una forma de realce de la caracterizaci&oacute;n de los coeficientes de LPC de la pronunciaci&oacute;n de una palabra, aunado al perceptr&oacute;n multicapa como reconocedor en un sistema ASR. Se describe el dise&ntilde;o experimental as&iacute; como la configuraci&oacute;n del perceptr&oacute;n multicapa. Finalmente, en las dos &uacute;ltimas secciones se presentan los resultados y las conclusiones, respectivamente.</font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>2. M&eacute;todo</b></font></p>  	    <p align="justify"><font face="verdana" size="2">La correlaci&oacute;n tiene como objetivo principal el c&aacute;lculo de la similitud de dos se&ntilde;ales. La correlaci&oacute;n cruzada entre dos se&ntilde;ales dada por la se&ntilde;al <i>r<sub>xy</sub>(l)</i>, que est&aacute; definida por (Proakis, 2007, 106):</font></p>  	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/ns/v6n12/a6fo1.jpg"></font></p>  	    <p align="justify"><font face="verdana" size="2">donde <i>x,y,l</i> y <i>n</i> son las dos se&ntilde;ales a correlacionar, un par&aacute;metro de offset (tiempo o retardo), y el n&uacute;mero de muestras de ambas se&ntilde;ales, respectivamente. El sub&iacute;ndice <i>xy</i> que es usado en la ecuaci&oacute;n (1) indica cuales se&ntilde;ales son correlacionadas. En espec&iacute;fico, si la se&ntilde;al tiene correlaci&oacute;n consigo misma es nombrada autocorrelaci&oacute;n que est&aacute; definida como:</font></p>  	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/ns/v6n12/a6fo2.jpg"></font></p>  	    <p align="justify"><font face="verdana" size="2">Una de las propiedades de la autocorrelaci&oacute;n es la simetr&iacute;a geom&eacute;trica que se obtiene, siendo &eacute;sta una funci&oacute;n par como se puede ver en la <a href="/img/revistas/ns/v6n12/a6f1.jpg" target="_blank">Figura 1a</a>, donde <i>x(n)</i> representa los 12 coeficientes de la pronunciaci&oacute;n del d&iacute;gito cuatro. La autocorrelaci&oacute;n se representa matem&aacute;ticamente por la siguiente ecuaci&oacute;n:</font></p>  	    <p align="center"><font face="verdana" size="2"><i>r<sub>xx</sub></i> (l) = <i>r<sub>xx</sub></i> (&#151;l). (3)</font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Esta ecuaci&oacute;n es una propiedad exclusiva de la autocorrelaci&oacute;n, pero es posible utilizarla en la correlaci&oacute;n cruzada si las secuencias de ambas se&ntilde;ales <i>x(n)</i> y <i>y(n)</i> son muy similares, esto es:</font></p>  	    <p align="center"><font face="verdana" size="2"><i>r<sub>xx</sub></i> (l)&#124;<i><sub>y(n)&#8594; x(n)</sub></i> &#8776; <i>r<sub>xx</sub></i> (&#151;l), (4)</font></p>  	    <p align="justify"><font face="verdana" size="2">por lo cual, la aproximaci&oacute;n a la propiedad de simetr&iacute;a par que se observa en la ecuaci&oacute;n (4) es una herramienta v&aacute;lida para discriminar caracter&iacute;sticas en el reconocimiento de patrones, como se puede observar en la <a href="/img/revistas/ns/v6n12/a6f1.jpg" target="_blank">Figura 1b</a>, donde existe una correlaci&oacute;n cruzada entre <i>x(n)</i> y <i>y(n)</i>, donde <i>y(n)</i> son los 12 coeficientes LPC de una pronunciaci&oacute;n del d&iacute;gito cuatro diferente a <i>x(n)</i>. Con ello, si se correlacionan dos secuencias altamente similares, su tendencia ser&aacute; orientada a ser una funci&oacute;n par. Esto se puede determinar mediante el establecimiento de un grado de similitud que se procesa mediante t&eacute;cnicas de reconocimiento de patrones, y con ello establecer una clasificaci&oacute;n, misma que se puede utilizar para la discriminaci&oacute;n de una pronunciaci&oacute;n corta. En caso de que las dos secuencias no fueran altamente similares, la funci&oacute;n no se aproxima a una funci&oacute;n par, como se puede observar en la <a href="/img/revistas/ns/v6n12/a6f1.jpg" target="_blank">Figura 1c</a>, donde <i>z(n)</i> representa los coeficientes LPC de una pronunciaci&oacute;n del d&iacute;gito cinco en correlaci&oacute;n cruzada con <i>x(n)</i>.</font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>3. Dise&ntilde;o Experimental</b></font></p>  	    <p align="justify"><font face="verdana" size="2">El dise&ntilde;o experimental utilizado en este sistema ASR se muestra en la <a href="/img/revistas/ns/v6n12/a6f2.jpg" target="_blank">Figura 2</a>; en &eacute;sta, se muestran cinco etapas en las que se lleva a cabo el proceso: la adquisici&oacute;n y almacenamiento de datos, el pre&#45;procesamiento (normalizaci&oacute;n y el filtrado), la extracci&oacute;n de caracter&iacute;sticas (LPC orden 12 y la Correlaci&oacute;n), el entrenamiento y el reconocimiento.</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>3.1 Corpus Utilizados</b></font></p>  	    <p align="justify"><font face="verdana" size="2">Se utilizaron dos bases de datos de pronunciaciones de d&iacute;gitos con palabras en espa&ntilde;ol con la finalidad de comprobar el algoritmo propuesto. La primera es la base de datos Tlatoa (Tlatoa, 2012), la cual considera pronunciaciones de la regi&oacute;n centro de M&eacute;xico, de la cual se tomaron para este estudio 100 pronunciaciones de cada uno de los d&iacute;gitos del cero al nueve. Las pronunciaciones utilizadas de esta base de datos fueron de 12 hablantes (7 hombres y 5 mujeres), los cuales se seleccionaron aleatoriamente para no generar tendencias o desviaciones en este estudio. La segunda es una base de datos, recolectada en la Universidad Polit&eacute;cnica de Aguascalientes en el a&ntilde;o 2012; en &eacute;sta, la captura de las palabras se realiz&oacute; con el micr&oacute;fono integrado de la computadora Laptop Dell XPS, con una serie consecutiva de la misma palabra durante un minuto de un solo hablante (hombre), logrando obtener variaciones en los par&aacute;metros de velocidad, frecuencia e intensidad, en una habitaci&oacute;n de 3mx3m con ambiente controlado, buscando obtener pronunciaciones locales de la regi&oacute;n occidente de M&eacute;xico, consistente en 100 pronunciaciones de cada uno de los d&iacute;gitos del cero al nueve, totalizando 1000 ejemplares. Para ambas bases de datos la frecuencia de muestreo fue de 8kHz.</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>3.2 Pre&#45;procesamiento</b></font></p>  	    <p align="justify"><font face="verdana" size="2">En la etapa de pre&#45;procesamiento, ver <a href="/img/revistas/ns/v6n12/a6f2.jpg" target="_blank">Figura 2</a>, todas las se&ntilde;ales a procesar fueron filtradas mediante el algoritmo de <i>wavelet denoising</i>, con un filtro de 12 niveles de resoluci&oacute;n y 4 coeficientes de Daubechies, obteniendo una atenuaci&oacute;n de 5dB de relaci&oacute;n se&ntilde;al a ruido (SNR). El filtrado se realiz&oacute; usando Matalb&reg;, versi&oacute;n 2010&ordf;. La selecci&oacute;n del n&uacute;mero de niveles y coeficientes se realiz&oacute; mediante experimentaci&oacute;n, tomando como base los mejores resultados en promedio, esto es, la menor distorsi&oacute;n de la se&ntilde;al. Para validar este proceso, se calcul&oacute; el porcentaje de error de reconstrucci&oacute;n o distorsi&oacute;n de la se&ntilde;al, a partir de la ecuaci&oacute;n 5 (Benzid, 2006, 1306). Los resultados se presentan en la <a href="/img/revistas/ns/v6n12/a6t1.jpg" target="_blank">Tabla 1</a>, en donde se observa que el menor porcentaje de distorsi&oacute;n se obtiene con doce coeficientes.</font></p>  	    ]]></body>
<body><![CDATA[<p align="center"><font face="verdana" size="2"><img src="/img/revistas/ns/v6n12/a6fo5.jpg"></font></p>  	    <p align="justify"><font face="verdana" size="2">en donde: PRD, es el porcentaje de diferencia o distorsi&oacute;n de la se&ntilde;al de audio original y la filtrada (Percent Root&#45;mean square Difference); <i>x<sub>i</sub></i>, es la se&ntilde;al original de audio; <img src="/img/revistas/ns/v6n12/a6x.jpg">, es la se&ntilde;al filtrada; <i>&micro;<sub>i</sub></i>, es la media de la se&ntilde;al original.</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>3.3 Extracci&oacute;n de caracter&iacute;sticas</b></font></p>  	    <p align="justify"><font face="verdana" size="2">Para la extracci&oacute;n de caracter&iacute;sticas de cada palabra, se obtuvieron 12 coeficientes de LPC con el objeto de modelar sus propiedades fon&eacute;ticas (Makhoul, 1975, 561) y, a su vez, representar cada palabra en un n&uacute;mero corto de coeficientes indistintamente de la duraci&oacute;n de la misma. Dado que todos los datos adquiridos se muestrearon a 8kHz, se obtuvieron 12 coeficientes LPC por palabra seg&uacute;n la expresi&oacute;n (Rabiner, 2007, 90):</font></p>  	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/ns/v6n12/a6fo6.jpg"></font></p>  	    <p align="justify"><font face="verdana" size="2">en donde <i>p</i> es el n&uacute;mero de coeficientes y <i>f<sub>s</sub></i> es la frecuencia de muestreo.</font></p>  	    <p align="justify"><font face="verdana" size="2">Una vez obtenido el vector con los 12 coeficientes LPC, se calcula la correlaci&oacute;n cruzada entre la pronunciaci&oacute;n analizada y un prototipo de clase o patr&oacute;n de cada d&iacute;gito, para obtener un nuevo vector con 23 coeficientes, que tiene un realce de las caracter&iacute;sticas de la pronunciaci&oacute;n del d&iacute;gito. El patr&oacute;n o prototipo de cada d&iacute;gitio se obtuvo en el espacio de los coeficients de predicci&oacute;n lineal al promediar los coeficientes de 50 pronunciaciones arbitarias de cada uno.</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>3.4 Generaci&oacute;n de Patrones para Correlaci&oacute;n Cruzada</b></font></p>  	    <p align="justify"><font face="verdana" size="2">Para la generaci&oacute;n de patrones y prueba del desempe&ntilde;o de esta propuesta se definieron dos conjuntos: el de entrenamiento y el de prueba. El conjunto de entrenamiento consisti&oacute;, en ambos corpus, de 500 pronunciaciones, esto es 50 pronunciaciones de cada d&iacute;gito, donde se defini&oacute; cada elemento del conjunto como <i>LPC<sub>d</sub><sup>n</sup></i>, donde <i>d</i> es el d&iacute;gito pronunciado y <i>n</i> es el &iacute;ndice que identifica cada pronunciaci&oacute;n. El conjunto de prueba se form&oacute;, para ambos casos, del corpus UPA y corpus Tlatoa, las 50 pronunciaciones restantes de cada d&iacute;gito.</font></p>  	    <p align="justify"><font face="verdana" size="2">Con el conjunto de entrenamiento se obtuvieron los patrones para cada d&iacute;gito, conformados por el promedio de los coeficientes LPC de las 50 pronunciaciones de cada uno de los d&iacute;gitos de cada corpus. Definiendo dicho promedio como <img src="/img/revistas/ns/v6n12/a6lpcd.jpg">, donde <i>d</i> es el d&iacute;gito pronunciado.</font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2"><b>3.5 Fase de entrenamiento del MLP</b></font></p>  	    <p align="justify"><font face="verdana" size="2">Esta fase de identifica en la <a href="/img/revistas/ns/v6n12/a6f2.jpg" target="_blank">Figura 2</a>. El perceptr&oacute;n multicapa (MLP) est&aacute; compuesto por una capa de entrada de 23 perceptrones con una funci&oacute;n de activaci&oacute;n logar&iacute;tmica sigmoidal, que reciben los valores de la correlaci&oacute;n cruzada, una capa oculta de seis perceptrones con una funci&oacute;n de activaci&oacute;n tangente sigmoidal y una capa de salida con un perceptr&oacute;n con una funci&oacute;n de activaci&oacute;n lineal.</font></p>  	    <p align="justify"><font face="verdana" size="2">El entrenamiento del MLP se llev&oacute; a cabo mediante los datos de referencia presentados en la <a href="#t2">Tabla 2</a> usando el conjunto de entrenamiento definido en la secci&oacute;n 3.4, ese entreno al perceptron multicapas por un periodo de 10,000 &eacute;pocas. N&oacute;tese que el perceptr&oacute;n se entrena con las correlaciones del propio d&iacute;gito vs. cada uno de los patrones o prototipos de clase en el espacio LPC. Las implicaciones de esta particular selecci&oacute;n de patrones de entrenamiento se comentar&aacute;n en la fase de reconocimiento.</font></p>  	    <p align="center"><font face="verdana" size="2"><a name="t2"></a></font></p>  	    <p align="center"><font face="verdana" size="2"><img src="/img/revistas/ns/v6n12/a6t2.jpg"></font></p>  	    <p align="justify"><font face="verdana" size="2"><b>3.6 Fase de Reconocimiento con el MLP.</b></font></p>  	    <p align="justify"><font face="verdana" size="2">La fase de reconocimiento es en la que se verifica el desempe&ntilde;o del sistema. Esta fase se explica bas&aacute;ndose en el diagrama de la <a href="/img/revistas/ns/v6n12/a6f2.jpg" target="_blank">Figura 2</a> y los conjuntos de entrenamiento de la <a href="#t2">Tabla 2.</a> Para estimar el desempe&ntilde;o del sistema se toman los conjuntos de prueba descritos en la secci&oacute;n 3.4. Los coeficientes LPC del d&iacute;gito a ser reconocido (<i>LPCd</i> ) se someten a correlaci&oacute;n cruzada con cada uno de los prototipos de d&iacute;gito (<i>LPCd</i> ), por lo que al MLP se le ejecuta secuencialmente con cada una de las 10 secuencias de correlaci&oacute;n, y la mayor&iacute;a de valores de salida es directamente el d&iacute;gito reconocido. Esto es consecuencia directa del m&eacute;todo de entrenamiento, en el cual se ha ense&ntilde;ado al MLP que no importa contra cu&aacute;l prototipo o patr&oacute;n de d&iacute;gito se correlacionen los coeficientes LPC de un d&iacute;gito, &eacute;ste siempre deber&aacute; de tratar de generar a la salida el valor num&eacute;rico del d&iacute;gito de la palabra. Esto convierte al MLP en un generador secuecial de votos para un votante de mayor&iacute;a.</font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>4. Resultados</b></font></p>  	    <p align="justify"><font face="verdana" size="2">Se realizaron pruebas de reconocimiento monolocutor y multilocutor, obteniendo resultados de entre 90 y 100% para las 1000 pronunciaciones probadas en monolocutor, de las cuales 500 fueron de la base de datos de entrenamiento y 500 de la base de datos de prueba, as&iacute; como entre 88 y 97% para las 1000 pronunciaciones probadas en la modalidad de m&uacute;ltiples locutores, de donde se tomaron 500 de la base de datos de entrenamiento y 500 de la base de prueba. Se observ&oacute; que las palabras <i>tres</i>, <i>cuatro</i>, <i>cinco</i> y <i>siete</i> fueron las que mayor tasa de reconocimiento correcto presentaron, as&iacute; como las palabras <i>uno</i> y <i>cero</i> obtuvieron una menor tasa de reconocimiento, esto para ambos corpus utilizados. En las <a href="/img/revistas/ns/v6n12/a6t3.jpg" target="_blank">Tablas 3</a> y <a href="/img/revistas/ns/v6n12/a6t4.jpg" target="_blank">4</a> se muestran las comparaciones monolocutor para el corpus UPA y de m&uacute;ltiples&#45;locutores para el corpus Tlatoa.</font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Se realiz&oacute; la comparaci&oacute;n del m&eacute;todo propuesto contra los m&eacute;todos de DTW y HMM, que son m&eacute;todos muy populares en reconocimiento del habla, seg&uacute;n la literatura (Rabiner, 89, 257; Takiguchi, et. al., 2001, 127; Abdulla, 2003, 1576; Itakura, 1975, 52). T&oacute;mese en cuenta que para el DTW no se extrajeron caracter&iacute;sticas, sino que se compararon las pronunciaciones de los digitos contra plantillas o patrones de los d&iacute;gitos, en forma de vectores caracter&iacute;sticos, definidas en base a la menor distancia intraclase del patr&oacute;n contra todas las pronunciaciones. Para el desarrollo del HMM se utiliz&oacute; el Hidden Markov Model Toolkit. Los tres m&eacute;todos se probaron usando 1000 pronunciaciones en monolocutor, utilizando la base de datos UPA. Se obtuvo una tasa de reconocimiento con el m&eacute;todo aqu&iacute; propuesto, esto es, para el total de las palabras probadas se lograron los siguientes resultados: 96.7, 94.3 y 90.9% de reconocimiento para el m&eacute;todo propuesto, el DTW y el HMM, respectivamente. Los resultados por cada d&iacute;gito se observan en la <a href="/img/revistas/ns/v6n12/a6f3.jpg" target="_blank">Figura 3</a> que representa las tasas de reconocimiento correcto por m&eacute;todo.</font></p>  	    <p align="justify"><font face="verdana" size="2">Asimismo, se realiz&oacute; una validaci&oacute;n con el Corpus Tlatoa del algoritmo propuesto mediante el m&eacute;todo "<i>Hold out</i>" 50&#45;50, obteniendo los resultados que se muestran en la <a href="/img/revistas/ns/v6n12/a6f4.jpg" target="_blank">Figura 4</a>; de los cuales se puede establecer, que en diez pruebas de la validaci&oacute;n se obtuvo un promedio de tasa de reconocimiento del 94%, presentando una tasa con el porcentaje m&aacute;s alto del 97% tanto para el conjunto de entrenamiento como para el conjunto de prueba.</font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>5. Conclusiones</b></font></p>  	    <p align="justify"><font face="verdana" size="2">Se ha presentado el m&eacute;todo propuesto como una variante del reconocimiento de palabras aisladas, en el cual la correlaci&oacute;n cruzada se ha utilizado para potenciar la extracci&oacute;n de caracter&iacute;sticas, lo cual promueve una mayor tasa de clasificaci&oacute;n correcta en el algoritmo de clasificaci&oacute;n. La correlaci&oacute;n cruzada puede considerarse como una autocorrelaci&oacute;n cuando existe una similitud entre el patr&oacute;n y la palabra pronunciada.</font></p>  	    <p align="justify"><font face="verdana" size="2">Se escogieron los d&iacute;gitos del cero al nueve como pronunciaciones a reconocer, debido a que son palabras cortas con gran uso en una vasta cantidad de aplicaciones. El lenguaje espa&ntilde;ol mexicano, de dos regiones de pronunciaci&oacute;n diferente, se seleccion&oacute; para realizar el desarrollo de la aplicaci&oacute;n, ya que existen desarrollos para otros idiomas y al tratar de aplicarlos al espa&ntilde;ol mexicano su desempe&ntilde;o podr&iacute;a degradarse por las diferencias fon&eacute;ticas entre idiomas diferentes.</font></p>  	    <p align="justify"><font face="verdana" size="2">El experimento se realiz&oacute; con los dos corpus descritos en la metodolog&iacute;a, obteniendo tasas de reconocimiento correcto del 96.7% para el corpus UPA y 93.3% para el corpus Tlatoa.</font></p>  	    <p align="justify"><font face="verdana" size="2">El algoritmo propuesto se desempe&ntilde;a razonablemente bien, adem&aacute;s que se demuestra que para esta clase de aplicaci&oacute;n es superior al HMM y se compara favorablemente contra el DTW, con lo cual se generan indicios a que, quiz&aacute; en el problema de palabras aisladas el HMM pueda no ser la mejor opci&oacute;n.</font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Agradecimientos</b></font></p>  	    ]]></body>
<body><![CDATA[<p align="justify"><font face="verdana" size="2">Agradecemos al Doctorado en Ciencia y Tecnolog&iacute;a del Centro Universitario de los Lagos de la Universidad de Guadalajara por el apoyo y soporte de esta investigaci&oacute;n, a la Universidad Polit&eacute;cnica de Aguascalientes por las facilidades para su realizaci&oacute;n. El primer autor agradece a PROMEP por el apoyo otorgado mediante la beca de estudios de posgrado de calidad, la cual influy&oacute; en el desarrollo de la tesis de doctorado, de la cual una parte se presenta en este art&iacute;culo. Los autores Mart&iacute;nez Romo y Luna Rosas, forman parte del cuerpo acad&eacute;mico de Sistemas Inteligentes, y agradecen al Instituto Tecnol&oacute;gico de Aguascalientes por su apoyo en la realizaci&oacute;n de este proyecto. De igual forma agradecemos a C&eacute;sar Andros L&oacute;pez Lu&eacute;vano por su valiosa participaci&oacute;n dentro de este art&iacute;culo.</font></p>  	    <p align="justify"><font face="verdana" size="2">&nbsp;</font></p>  	    <p align="justify"><font face="verdana" size="2"><b>Referencias</b></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Abdulla, Waleed H., David Chow y Gary Sin. (2003). Cross&#45;words reference template for DTW&#45;based speech recognition systems. TENCON 2003. Conference on Convergent Technologies for Asia&#45;Pacific Region IEEE. (4): 1576 &#45; 1579 Vol.4</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5488531&pid=S2007-0705201400020000600001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="verdana" size="2">Benzeghiba, M., De Mori, R., Deroo, O. (2007). Automatic speech recognition and speech variability: a review. Speech Communication. (49): 763&#45;786.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5488532&pid=S2007-0705201400020000600002&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Benzid, R., Marir, F., &amp; Bouguechal, N. E. (2006). Quality&#45;controlled compression method using wavelet transform for electrocardiogram signals. International Journal of Biomedical Sciences, 1(1), 1306&#45;1216.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5488534&pid=S2007-0705201400020000600003&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Corpus Tlatloa &reg;. <a href="http://info.pue.udlap.mx/~sistemas/tlatoa" target="_blank">http://info.pue.udlap.mx/~sistemas/tlatoa</a> (20 de Julio de 2012).    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5488536&pid=S2007-0705201400020000600004&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">Chen, B., Wei&#45;Hau, C., Shih&#45;Hsiang, L., Wen&#45;Yi, C. (2011). Robust speech recognition using spatial&#45;temporal feature distribution characteristics. Pattern Recognition Letters. (32): 919&#45;926.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5488538&pid=S2007-0705201400020000600005&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">De Luna&#45;Ortega, C.A., Mora&#45;Gonz&aacute;lez, M., Martinez&#45;Romo, J.C. (2006). Reconocimiento de voz con redes neuronales, DTW y modelos ocultos de Markov. Conciencia Tecnol&oacute;gica. (32): 13&#45;17.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5488540&pid=S2007-0705201400020000600006&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">De Watcher, M., Matton, M., Demuynch, K., Wambacq, P., Cools, R. (2007). Template&#45;based continuous speech recognition. IEEE Trans. on Audio, Speech, And Language Processing, 15(4): 1377&#45;1390.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5488542&pid=S2007-0705201400020000600007&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Irwin, M.J., (1988). A digit pipelined dynamic time warp processor. IEEE trans. On acoustics speech and signal processing, 36(9): 1412&#45;1422.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5488544&pid=S2007-0705201400020000600008&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Itakura, F. (1975). Minimum prediction residual principle applied to speech recognition. IEEE Trans. Acoustics, Speech, and Signal Proc., Vol. ASSP&#45;23: 52&#45;72.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5488546&pid=S2007-0705201400020000600009&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">Kinjo, T., Funaki, K. (2006). On HMM speech recognition based on complex speech analysis. Proc. IECON 2006 &#150; 32nd Annual Conference on IEEE Industrial Electronics, 3477&#45;3480.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5488548&pid=S2007-0705201400020000600010&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Livescu, Karen, James Glass, and Jeff Bilmes (2003). Hidden feature models for speech recognition using dynamic Bayesian networks. 8th European Conference on Speech Communication and Technology (Eurospeech), 1&#45;4.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5488550&pid=S2007-0705201400020000600011&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Makhoul, J. (1975). Linear Prediction: a tutorial review. Proc. Of the IEEE, 63(4): 561&#45;580.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5488552&pid=S2007-0705201400020000600012&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Nefian, A., Liang, L. Pi, X., Lui, X., Murphy, K. (2002). Dynamic Bayesian Networks for Audio&#45;visual speech recognition. EURASIP Journal on Applied Signal Processing (11): 1&#45;15.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5488554&pid=S2007-0705201400020000600013&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Oropeza, R., Suarez, G. (2006). Algoritmos y m&eacute;todos para el reconocimiento de voz en espa&ntilde;ol mediante silabas. Computaci&oacute;n y sistemas, 9(3): 270&#45;286.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5488556&pid=S2007-0705201400020000600014&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    ]]></body>
<body><![CDATA[<!-- ref --><p align="justify"><font face="verdana" size="2">Proakis, J.G., Manolakis, D. (2007). Digital Signal Processing. Prentice Hall. U.S.A.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5488558&pid=S2007-0705201400020000600015&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <p align="justify"><font face="verdana" size="2">Rabiner, Lawrence R. (1989). "A tutorial on hidden Markov models and selected applications in speech recognition". Proceedings of the IEEE, 257&#45;286.</font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Rabiner, L. R., &amp; Schafer, R. W. (2007). Introduction to digital speech processing. Foundations and trends in signal processing. U.S.A.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5488561&pid=S2007-0705201400020000600016&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Romo, J.C., Rosas, F.J., Mora&#45;Gonz&aacute;lez, M. (2008). Combining Genetic Algorithms and FLDR for Real&#45;Time Voice Command Recognition. Proceedings of the 2008 Seventh Mexican International Conference on Artificial Intelligence, M&eacute;xico, 163&#45;169.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5488563&pid=S2007-0705201400020000600017&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Schafer R. W. (2007). "Homomorphic systems and cepstrum analysis of speech," Springer Handbook of Speech Processing and Communication, Springer, U.S.A.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5488565&pid=S2007-0705201400020000600018&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <!-- ref --><p align="justify"><font face="verdana" size="2">Takiguchi, T.; Nakamura, S.; Shikano, K. (2001). HMM&#45;separation&#45;based recognition for a distant moving speaker. Speech and Audio Processing, IEEE Transactions on. 9(2):127&#45;140</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5488567&pid=S2007-0705201400020000600019&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="verdana" size="2">Trentin, E., Gori, M. (2001). A survey of hybrid ANN/HMM models for automatic speech recognition. Neurocomputing. (37): 91&#45;126.    &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=5488568&pid=S2007-0705201400020000600020&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --></font></p>  	    <p align="justify"><font face="verdana" size="2">Wollmer, Martin, et al. (2010). Combining long short&#45;term memory and dynamic bayesian networks for incremental emotion&#45;sensitive artificial listening. Selected Topics in Signal Processing, IEEE Journal of, 867&#45;881.</font></p>  	    <p align="justify"><font face="verdana" size="2">Zweig, Geoffrey, and Stuart Russell (1999), "Probabilistic modeling with Bayesian networks for automatic speech recognition." Australian Journal of Intelligent Information Processing, 253&#45;260.</font></p>      ]]></body><back>
<ref-list>
<ref id="B1">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Abdulla]]></surname>
<given-names><![CDATA[Waleed H.]]></given-names>
</name>
<name>
<surname><![CDATA[Chow]]></surname>
<given-names><![CDATA[David]]></given-names>
</name>
<name>
<surname><![CDATA[Sin]]></surname>
<given-names><![CDATA[Gary]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Cross-words reference template for DTW-based speech recognition systems]]></article-title>
<source><![CDATA[TENCON 2003. Conference on Convergent Technologies for Asia-Pacific Region IEEE]]></source>
<year>2003</year>
<volume>4</volume>
<page-range>1576 - 1579</page-range></nlm-citation>
</ref>
<ref id="B2">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Benzeghiba]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[De Mori]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[Deroo]]></surname>
<given-names><![CDATA[O.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Automatic speech recognition and speech variability: a review]]></article-title>
<source><![CDATA[Speech Communication]]></source>
<year>2007</year>
<volume>49</volume>
<page-range>763-786</page-range></nlm-citation>
</ref>
<ref id="B3">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Benzid]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[Marir]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
<name>
<surname><![CDATA[Bouguechal]]></surname>
<given-names><![CDATA[N. E.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Quality-controlled compression method using wavelet transform for electrocardiogram signals]]></article-title>
<source><![CDATA[International Journal of Biomedical Sciences]]></source>
<year>2006</year>
<volume>1</volume>
<numero>1</numero>
<issue>1</issue>
<page-range>1306-1216</page-range></nlm-citation>
</ref>
<ref id="B4">
<nlm-citation citation-type="">
<source><![CDATA[Corpus Tlatloa ®.]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B5">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Chen]]></surname>
<given-names><![CDATA[B.]]></given-names>
</name>
<name>
<surname><![CDATA[Wei-Hau]]></surname>
<given-names><![CDATA[C.]]></given-names>
</name>
<name>
<surname><![CDATA[Shih-Hsiang]]></surname>
<given-names><![CDATA[L.]]></given-names>
</name>
<name>
<surname><![CDATA[Wen-Yi]]></surname>
<given-names><![CDATA[C.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Robust speech recognition using spatial-temporal feature distribution characteristics]]></article-title>
<source><![CDATA[Pattern Recognition Letters]]></source>
<year>2011</year>
<volume>32</volume>
<page-range>919-926</page-range></nlm-citation>
</ref>
<ref id="B6">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[De Luna-Ortega]]></surname>
<given-names><![CDATA[C.A.]]></given-names>
</name>
<name>
<surname><![CDATA[Mora-González]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[Martinez-Romo]]></surname>
<given-names><![CDATA[J.C.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Reconocimiento de voz con redes neuronales, DTW y modelos ocultos de Markov]]></article-title>
<source><![CDATA[Conciencia Tecnológica]]></source>
<year>2006</year>
<volume>32</volume>
<page-range>13-17</page-range></nlm-citation>
</ref>
<ref id="B7">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[De Watcher]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[Matton]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[Demuynch]]></surname>
<given-names><![CDATA[K.]]></given-names>
</name>
<name>
<surname><![CDATA[Wambacq]]></surname>
<given-names><![CDATA[P.]]></given-names>
</name>
<name>
<surname><![CDATA[Cools]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Template-based continuous speech recognition]]></article-title>
<source><![CDATA[IEEE Trans. on Audio, Speech, And Language Processing]]></source>
<year>2007</year>
<volume>15</volume>
<numero>4</numero>
<issue>4</issue>
<page-range>1377-1390</page-range></nlm-citation>
</ref>
<ref id="B8">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Irwin]]></surname>
<given-names><![CDATA[M.J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A digit pipelined dynamic time warp processor]]></article-title>
<source><![CDATA[IEEE trans. On acoustics speech and signal processing]]></source>
<year>1988</year>
<volume>36</volume>
<numero>9</numero>
<issue>9</issue>
<page-range>1412-1422</page-range></nlm-citation>
</ref>
<ref id="B9">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Itakura]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Minimum prediction residual principle applied to speech recognition]]></article-title>
<source><![CDATA[IEEE Trans. Acoustics, Speech, and Signal Proc.]]></source>
<year>1975</year>
<volume>ASSP-23</volume>
<page-range>52-72</page-range></nlm-citation>
</ref>
<ref id="B10">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kinjo]]></surname>
<given-names><![CDATA[T.]]></given-names>
</name>
<name>
<surname><![CDATA[Funaki]]></surname>
<given-names><![CDATA[K.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[On HMM speech recognition based on complex speech analysis]]></article-title>
<source><![CDATA[Proc. IECON 2006 - 32nd Annual Conference on IEEE Industrial Electronics]]></source>
<year>2006</year>
<page-range>3477-3480</page-range></nlm-citation>
</ref>
<ref id="B11">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Livescu]]></surname>
<given-names><![CDATA[Karen]]></given-names>
</name>
<name>
<surname><![CDATA[Glass]]></surname>
<given-names><![CDATA[James]]></given-names>
</name>
<name>
<surname><![CDATA[Bilmes]]></surname>
<given-names><![CDATA[Jeff]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Hidden feature models for speech recognition using dynamic Bayesian networks]]></article-title>
<source><![CDATA[8th European Conference on Speech Communication and Technology (Eurospeech)]]></source>
<year>2003</year>
<page-range>1-4</page-range></nlm-citation>
</ref>
<ref id="B12">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Makhoul]]></surname>
<given-names><![CDATA[J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Linear Prediction: a tutorial review]]></article-title>
<source><![CDATA[Proc. Of the IEEE]]></source>
<year>1975</year>
<volume>63</volume>
<numero>4</numero>
<issue>4</issue>
<page-range>561-580</page-range></nlm-citation>
</ref>
<ref id="B13">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Nefian]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
<name>
<surname><![CDATA[Liang]]></surname>
<given-names><![CDATA[L.]]></given-names>
</name>
<name>
<surname><![CDATA[Pi]]></surname>
<given-names><![CDATA[X.]]></given-names>
</name>
<name>
<surname><![CDATA[Lui]]></surname>
<given-names><![CDATA[X.]]></given-names>
</name>
<name>
<surname><![CDATA[Murphy]]></surname>
<given-names><![CDATA[K.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Dynamic Bayesian Networks for Audio-visual speech recognition]]></article-title>
<source><![CDATA[EURASIP Journal on Applied Signal Processing]]></source>
<year>2002</year>
<numero>11</numero>
<issue>11</issue>
<page-range>1-15</page-range></nlm-citation>
</ref>
<ref id="B14">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Oropeza]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[Suarez]]></surname>
<given-names><![CDATA[G.]]></given-names>
</name>
</person-group>
<article-title xml:lang="es"><![CDATA[Algoritmos y métodos para el reconocimiento de voz en español mediante silabas]]></article-title>
<source><![CDATA[Computación y sistemas]]></source>
<year>2006</year>
<volume>9</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>270-286</page-range></nlm-citation>
</ref>
<ref id="B15">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Proakis]]></surname>
<given-names><![CDATA[J.G.]]></given-names>
</name>
<name>
<surname><![CDATA[Manolakis]]></surname>
<given-names><![CDATA[D.]]></given-names>
</name>
</person-group>
<source><![CDATA[Digital Signal Processing]]></source>
<year>2007</year>
<publisher-name><![CDATA[Prentice Hall]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B16">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rabiner]]></surname>
<given-names><![CDATA[L. R.]]></given-names>
</name>
<name>
<surname><![CDATA[Schafer]]></surname>
<given-names><![CDATA[R. W.]]></given-names>
</name>
</person-group>
<source><![CDATA[Introduction to digital speech processing]]></source>
<year>2007</year>
</nlm-citation>
</ref>
<ref id="B17">
<nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Romo]]></surname>
<given-names><![CDATA[J.C.]]></given-names>
</name>
<name>
<surname><![CDATA[Rosas]]></surname>
<given-names><![CDATA[F.J.]]></given-names>
</name>
<name>
<surname><![CDATA[Mora-González]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Combining Genetic Algorithms and FLDR for Real-Time Voice Command Recognition]]></article-title>
<source><![CDATA[Proceedings of the 2008 Seventh Mexican International Conference on Artificial Intelligence]]></source>
<year>2008</year>
<page-range>163-169</page-range></nlm-citation>
</ref>
<ref id="B18">
<nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Schafer]]></surname>
<given-names><![CDATA[R. W.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Homomorphic systems and cepstrum analysis of speech]]></article-title>
<source><![CDATA[Springer Handbook of Speech Processing and Communication]]></source>
<year>2007</year>
<publisher-name><![CDATA[Springer]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B19">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Takiguchi]]></surname>
<given-names><![CDATA[T.]]></given-names>
</name>
<name>
<surname><![CDATA[Nakamura]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
<name>
<surname><![CDATA[Shikano]]></surname>
<given-names><![CDATA[K.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[HMM-separation-based recognition for a distant moving speaker]]></article-title>
<source><![CDATA[Speech and Audio Processing, IEEE Transactions on]]></source>
<year>2001</year>
<volume>9</volume>
<numero>2</numero>
<issue>2</issue>
<page-range>127-140</page-range></nlm-citation>
</ref>
<ref id="B20">
<nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Trentin]]></surname>
<given-names><![CDATA[E.]]></given-names>
</name>
<name>
<surname><![CDATA[Gori]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A survey of hybrid ANN/HMM models for automatic speech recognition]]></article-title>
<source><![CDATA[Neurocomputing]]></source>
<year>2001</year>
<volume>37</volume>
<page-range>91-126</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
