Introducción
El reconocimiento emocional (RE) juega un papel fundamental en la cognición social, pues nos permite predecir el comportamiento de otros en nuestro entorno y, con esto, adaptarnos a las exigencias del contexto social.1
El reconocimiento emocional auditivo (REA) es la capacidad de interpretar componentes perceptivos del habla 2 e identificar estados emocionales a través de estas características prosódicas,3 lo que resulta de gran relevancia puesto que proporciona mayor información para un entendimiento cabal del ambiente social y comunicativo.4 El estudio respecto a este tipo de reconocimiento es limitado en comparación con el de tipo visual; 5 la mayoría de la investigación desarrollada se ha enfocado en una combinación de estímulos de distinta naturaleza.6,7,3
La emoción es transmitida por variaciones en el tono de la voz, lo que conduce al proceso de reconocimiento emocional vocal receptivo (también llamado reconocimiento emocional auditivo); la interpretación de esta característica (el tono), permite a los individuos inferir el verdadero estado emocional del hablante, aunque el contenido verbal del discurso sea neutro.8 La voz, debido a sus características de tono y amplitud, permite expresar emociones más complejas que la expresión facial, pues el hablante tiene la posibilidad de agregar intenciones con mayor eficacia.4
Se han identificado patrones relativamente distintivos de señales acústicas según emociones específicas: 1) tono, el cual tiene los componentes de frecuencia fundamental media (F0M), variabilidad de la frecuencia fundamental (F0SD) y forma del contorno de la frecuencia fundamental (F0contour); 2) intensidad, que se conforma de intensidad media de la voz (VoiceintM), variabilidad de la intensidad de la voz (VoiceintSD) y tasa de aumento de la amplitud (ATTACK); 3) calidad, compuesta por la proporción relativa de energía acústica por encima y por debajo de 500Hz (HF500) y ancho de banda del primer formante (F1BW), y 4) temporalidad, establecido por la velocidad del habla (ritmo del habla) y cantidad de pausas en el habla (proporción de pausas).2,8
Actualmente, en Latinoamérica y en Chile no existen baterías ni estudios de validación de éstas sobre el REA. La literatura sugiere que las características vocales que expresan dichos estados emocionales pueden aproximarse mediante audios no vocales y de ondas sonoras puras, de la misma naturaleza que los utilizados en esta investigación. Así, se vuelve necesario conocer los parámetros exactos de estas características físicas y cómo los cambios en ellas afectan el reconocimiento de ciertas emociones en la población chilena.
Por lo tanto, se buscó evaluar una batería de estímulos de reconocimiento emocional auditivo (REA) generados sintéticamente en una población de adultos chilenos, estableciendo la tasa de respuesta y frecuencia de estímulos de REA según las características físicas asociadas a cada tipo de emoción.
Material y métodos
Muestra
Se trabajó con 140 adultos de nacionalidad chilena (104 mujeres), con edades entre los 18 y 50 años. Del total de participantes, 31 reportaron haber sido diagnosticados con algún trastorno psiquiátrico (esto fue señalado en las respuestas del cuestionario demográfico incluido en la encuesta online, que no consideraban verificación clínica, sólo el reporte de los/las participantes). Los/ las participantes leyeron y validaron un consentimiento informado, en el cual se aceptaba la participación voluntaria en la tarea y la utilización de los datos en la investigación.
Diseño y procedimiento
Este proyecto fue revisado y aprobado por el Comité de Ética de la Facultad de Psicología de la Universidad de Talca.
Se desarrolló un cuestionario online a través de la plataforma SurveyMonkey, que incluyó el consentimiento informado, con su correspondiente aceptación o rechazo, un cuestionario demográfico y la secuencia de estímulos auditivos. El cuestionario continuaba solo para aquellos participantes que aceptaban participar en el estudio en la etapa de consentimiento informado.
Las instrucciones para la secuencia de estímulos auditivos se requirió el uso de audífonos y ajustar el volumen al 50%, un estímulo de prueba, y, por último, se presentaron, un estímulo a la vez, los 42 estímulos auditivos aleatorizados en su presentación entre los/las participantes. Cada participante debía reproducir cada sonido y responder a la pregunta “¿qué emoción está demostrando este sonido?”, seleccionando una de 5 respuestas (alegría, tristeza, enojo, miedo o sin emoción).
Instrumento y Variables
Cuestionario demográfico. El cuestionario demográfico incluyó 14 ítems que abarcaban información autoreportada relacionada con la edad, sexo, nivel educacional, diagnósticos psiquiátricos, entre otros.
Batería de estímulos auditivos. La batería contó con 42 estímulos representativos de 4 emociones básicas (miedo, enojo, alegría y tristeza) y una expresión sin emoción o neutra; el tiempo aproximado de aplicación fue de 15 minutos.
En cuanto a los estímulos de REA, se trataron de archivos de audio, de 500 ms de duración, creados a través de un modulador sintético y de carácter no vocal, puesto que corresponden a un sonido modulado. Fueron creados por la Dra. Johanna Kreither, como parte del proyecto Fondecyt 11180961, mediante el Software Matlab. Los estímulos seguían las características que Juslin y Laukka 9 y Kantrowitz et al.8 plantean para que el sonido represente una emoción en particular. Adicionalmente, las características operacionales de los estímulos auditivos se detallan a continuación: 1) F0M: frecuencia fundamental media, su incremento varía la percepción de emociones, siendo sus niveles 125=bajo, 225=medio y 378=alto. Este tono modulado es típicamente percibido como “alegría” (etiqueta “Alegría 378/125”); 2) F0SD: variabilidad de la frecuencia fundamental, su fluctuación en la altura varía la percepción, siendo sus niveles “bajos” 20, 40 y 60, “medio” 80 y 125 y “alto” 150 y 175. Este tono modulado es típicamente percibido como “tristeza” (etiqueta “Tristeza 125/20”); 3) HF500: ruido de alta energía que se sobrepone al tono estándar actuando como interferencia sin afectar la frecuencia fundamental ni la variabilidad de la altura. Este sonido es típicamente percibido como “enojo” o “miedo” (etiqueta “Enojo/Miedo HF500”). Dicho parámetro estuvo presente (Si) o ausente (No) en los audios, lo que dividió los estímulos en dos grupos. Estas características se encuentran resumidas en la Tabla 1.
Tabla 1 Resumen simplificado de los patrones de señales del sonido, específicos para determinadas emociones básicas
| Características | Enojo | Miedo | Felicidad | Tristeza |
| Tono F0 M | Alto | Medio | Alto | Bajo |
| F0 SD | Alto | Bajo | Alto | Bajo |
| F0 cont | Medio | Alto | Alto | Bajo |
| Intensidad | ||||
| Int M | Alta | Baja | Alta | Baja |
| Int SD | Grande | Grande | Grande | Pequeña |
| Ataque | Alto | Bajo | Medio | Medio |
| Calidad | ||||
| F1 BW | Bajo | Alto | Alto | Alto |
| HF 500 | Alto | Bajo | Alto | Bajo |
| Señales Temporales | ||||
| Velocidad del sonido | Medio | Alto | Medio | Medio |
| Proporción de la pausa | Bajo | Medio | Medio | Alto |
Nota. Adaptación del resumen aparecido en “Impact of intended emotion intensity on cue utilization and decoding accuracy in vocal expression of emotion”, de Juslin y Laukka, 2001.9
Por último, se realizó un apartado luego de cada estímulo, que refería a la emoción que representaba el ítem según el participante.
Plan de Análisis
El análisis estadístico de los datos se realizó mediante los softwares SPSS versión 26 y Excel de Microsoft 365.
Plan de análisis para frecuencias por estímulo. Con el objetivo de mostrar cuántas respuestas se obtuvieron para cada estímulo auditivo y por cada emoción, se dividieron los estímulos en dos grupos: del 100 al 120, que incluía los estímulos auditivos sin ruido de fondo (HF500), y del 200 al 220, que sí lo presentaban. Luego de esto, se calcularon los porcentajes de frecuencia de las emociones asociadas a cada estímulo.
Plan de análisis para determinar diferencias según reporte de trastorno psiquiátrico. Para identificar posibles variables intervinientes en el proceso de REA, se compararon las medias de frecuencia respecto a cada emoción según la presencia o ausencia de un trastorno psiquiátrico al momento de la realización del cuestionario. Para ello se llevó a cabo la prueba T de Student para muestras independientes.
Resultados
Resultados de análisis para frecuencias por estímulo. El porcentaje de respuestas de los estímulos del 100 al 120 se presentan en la Tabla 2. Se encontraron estímulos que obtuvieron frecuencias altas (sobre 35%) asociados a Alegría, Tristeza y Sin Emoción.
Tabla 2 Resumen de porcentaje de respuestas por estímulo del 100 al 120
| Estímulo | Características | Porcentajes de respuestas (%) | |||||
| F0M/F0SD (Hz) | HF500 | Alegría | Enojo | Miedo | Sin Emoción | Tristeza | |
| 100 | 125/20 | No | 2,9 | 10,7 | 20,7 | 26,4 | 39,3 |
| 101 | 125/40 | No | 5,0 | 15,0 | 20,0 | 33,6 | 26,4 |
| 102 | 125/60 | No | 5,7 | 17,9 | 22,9 | 30,0 | 23,6 |
| 103 | 125/80 | No | 7,1 | 17,1 | 17,1 | 34,3 | 24,3 |
| 104 | 125/125 | No | 7,1 | 11,4 | 29,3 | 28,6 | 23,6 |
| 105 | 125/150 | No | 13,6 | 9,3 | 20,7 | 38,6 | 17,9 |
| 106 | 125/175 | No | 16,4 | 16,4 | 19,3 | 30,0 | 17,9 |
| 107 | 225/20 | No | 5,0 | 1,4 | 20,7 | 15,7 | 57,1 |
| 108 | 225/40 | No | 13,6 | 5,0 | 14,3 | 21,4 | 45,7 |
| 109 | 225/60 | No | 12,9 | 5,7 | 20,7 | 21,4 | 39,3 |
| 110 | 225/80 | No | 15,0 | 7,1 | 14,3 | 34,3 | 29,3 |
| 111 | 225/125 | No | 22,1 | 10,0 | 16,4 | 27,9 | 23,6 |
| 112 | 225/150 | No | 30,7 | 10,7 | 13,6 | 25,7 | 19,3 |
| 113 | 225/175 | No | 30,7 | 12,1 | 14,3 | 30,0 | 12,9 |
| 114 | 378/20 | No | 17,9 | 0,7 | 14,3 | 12,1 | 55,0 |
| 115 | 378/40 | No | 22,9 | 5,7 | 17,9 | 13,6 | 40,0 |
| 116 | 378/60 | No | 33,6 | 5,0 | 14,3 | 18,6 | 28,6 |
| 117 | 378/80 | No | 39,3 | 5,7 | 12,9 | 17,1 | 25,0 |
| 118 | 378/125 | No | 45,0 | 5,7 | 17,1 | 18,6 | 13,6 |
| 119 | 378/150 | No | 56,4 | 7,9 | 7,9 | 18,6 | 9,3 |
| 120 | 378/175 | No | 62,1 | 7,9 | 10,0 | 11,4 | 8,6 |
Nota. Se han destacado en los porcentajes de respuestas por emoción los valores > 35%. Las características operacionales y moduladas son F0M: frecuencia fundamental, F0SD: altura de la frecuencia y HF500: ruido de alta energía.
Los estímulos del 200 al 220 mostraron porcentajes de respuesta altos (> 35%) para las emociones Enojo y Alegría (Tabla 3).
Tabla 3 Resumen de porcentaje de respuestas por estímulo del 200 al 220
| Estímulo | Características | Porcentaje de respuestas (%) | |||||
| F0M/F0SD (Hz) | HF500 | Alegría | Enojo | Miedo | Sin Emoción | Tristeza | |
| 200 | 125/20 | Sí | 2,9 | 38,6 | 32,9 | 17,9 | 7,9 |
| 201 | 125/40 | Sí | 0,7 | 45,0 | 27,1 | 21,4 | 5,7 |
| 202 | 125/60 | Sí | 2,9 | 40,7 | 31,4 | 15,0 | 10,0 |
| 203 | 125/80 | Sí | 3,6 | 40,7 | 30,0 | 20,0 | 5,7 |
| 204 | 125/125 | Sí | 3,6 | 38,6 | 30,0 | 17,9 | 10,0 |
| 205 | 125/150 | Sí | 7,1 | 32,1 | 22,9 | 25,7 | 12,1 |
| 206 | 125/175 | Sí | 2,1 | 35,7 | 30,7 | 25,7 | 5,7 |
| 207 | 225/20 | Sí | 3,6 | 18,6 | 32,9 | 13,6 | 31,4 |
| 208 | 225/40 | Sí | 4,3 | 25,7 | 27,9 | 20,0 | 22,1 |
| 209 | 225/60 | Sí | 7,1 | 34,3 | 23,6 | 22,9 | 12,1 |
| 210 | 225/80 | Sí | 13,6 | 31,4 | 22,1 | 23,6 | 9,3 |
| 211 | 225/125 | Sí | 10,7 | 27,1 | 25,7 | 27,1 | 9,3 |
| 212 | 225/150 | Sí | 13,6 | 27,1 | 25,7 | 25,0 | 8,6 |
| 213 | 225/175 | Sí | 12,1 | 35,0 | 23,6 | 25,7 | 3,6 |
| 214 | 378/20 | Sí | 8,6 | 9,3 | 33,6 | 15,0 | 33,6 |
| 215 | 378/40 | Sí | 17,1 | 13,6 | 28,6 | 15,7 | 25,0 |
| 216 | 378/60 | Sí | 20,7 | 22,1 | 21,4 | 16,4 | 19,3 |
| 217 | 378/80 | Sí | 19,3 | 15,7 | 27,9 | 23,6 | 13,6 |
| 218 | 378/125 | Sí | 35,0 | 24,3 | 19,3 | 15,7 | 5,7 |
| 219 | 378/150 | Sí | 37,1 | 22,9 | 23,6 | 13,6 | 2,9 |
| 220 | 378/175 | Sí | 35,7 | 27,9 | 17,1 | 14,3 | 5,0 |
Nota. Se han destacado en los porcentajes de respuestas por emoción los valores > 35%. Las características operacionales y moduladas son F0M: frecuencia fundamental, F0SD: altura de la frecuencia y HF500: ruido de alta energía.
Resultados de análisis para determinar diferencias según reporte de trastorno psiquiátrico
Se obtuvieron diferencias significativas en la emoción Miedo (p < 0,01) entre quienes sí reportaron un trastorno psiquiátrico (M=11,42; SD=5,94) y aquellos que no lo reportaron (M=8,52; SD=5,15), al igual que en la emoción Tristeza (p < 0,05), entre los participantes que reportaron un trastorno psiquiátrico (M=10; SD=5,61) y quienes no (M=7,93; SD=4,44). Algo similar ocurrió en el caso de Sin Emoción: el grupo de quienes reportaron un trastorno psiquiátrico (M = 5,26; SD = 5,26) y el grupo que no reportó un trastorno psiquiátrico (M=10,37; SD=11,12) presentaron diferencias significativas (p < 0,01).
Discusión
Esta investigación utilizó estímulos sintéticos con variaciones en tono (F0M/F0SD) y calidad (HF500), lo cual permitió evaluar los efectos de la variabilidad de esos tres componentes físicos en el reconocimiento emocional. Esto potencialmente permite, como fue señalado por Kantrowitz et al.,8 el uso de la misma batería de estímulos en poblaciones interculturales sin las barreras del lenguaje, la adaptación y traducción. Por tanto, fue posible valorar cómo la información de la literatura expuesta y los resultados de estudios anteriores se replicaban en población chilena.
En cuanto a las características físicas de los estímulos utilizados, tono se compone de frecuencia fundamental (F0M) y variabilidad de la frecuencia fundamental (F0SD).
Respecto a los resultados de esta investigación, se evidenció que el nivel de la frecuencia fundamental (bajo=125: medio=225; alto=378) tiene un papel clave en el porcentaje de identificación de emociones como Alegría y Enojo; en estímulos con niveles altos de F0M se reconoce Alegría en mayor medida, mientras que en estímulos con niveles bajos de F0M se identifica más Enojo. En relación con la variabilidad de la frecuencia fundamental, se encontró que esta característica determina el porcentaje de precisión para la identificación de Alegría, esto es, hay un mayor porcentaje de identificación de esta emoción cuando aumenta la variabilidad, lo que se aprecia en el aumento en los estímulos 114 al 120 (Ver Tabla 2). En el caso de Tristeza, dicha variabilidad cumple principalmente un rol significativo en su reconocimiento, aunque también juega un papel en la precisión, lo que se evidencia en los estímulos mejor identificados, que tuvieron las características 225/20, 378/20 y 225/40, demostrándose que F0SD es el parámetro que permite el reconocimiento de esta emoción, según los resultados de los estímulos 107, 114 y 108. Con respecto a Alegría, esta característica debe ser mayor a 60 Hz (medio=80 - 125; alto=150 - 175) y su aumento es directamente proporcional con el porcentaje de reconocimiento, por ejemplo, el estímulo con parámetros 378/80 tuvo un menor porcentaje que el estímulo con características 378/175. En contraste, para el reconocimiento de Tristeza, F0SD tiene que encontrarse en niveles bajos (20- 40 - 60), incluso cuando la característica F0M se encuentre en nivel alto o medio, lo cual amplía los hallazgos de los estudios de Juslin y Laukka 9 y Kantrowitz et al.,8 quienes proponen que los parámetros para reconocer Tristeza deben ser F0M bajo y F0SD bajo. Cabe mencionar que, si bien el estímulo “estereotípico” de Tristeza (125/20) es identificado en este estudio como tal emoción, el porcentaje de respuesta es de los más bajos, lo que supone que su reconocimiento está más ligado a la característica F0SD que al nivel de F0M.
En cuanto a calidad (HF500), su presencia en los estímulos, según la literatura, está ligada al aumento de la percepción de Enojo y a la disminución con respecto a Tristeza 8, lo que se condice con lo encontrado en este estudio, ya que el primer set de estímulos, que no presentó el ruido HF500, no mostró porcentajes significativos de la percepción de Enojo, a diferencia del segundo set, que sí lo presentó y en el que aumentó la identificación de esta emoción, al tiempo que fueron eliminaron porcentajes significativos en la percepción de Tristeza. En relación con la emoción Alegría, ésta fue identificada transversalmente en ambos sets de estímulos, pero su reconocimiento se redujo en el grupo que contenía el ruido HF500, contrario a lo postulado por Juslin y Laukka.9
Era esperable que no se obtuvieran percepciones significativas (>35%) para Miedo, ya que el estudio de Kantrowitz et al.,8 en el que se basó esta investigación, no trabajó con dicha emoción, por lo que se desconocen los efectos específicos de las características trabajadas en esta batería de estímulos en su reconocimiento. Por su parte, el estudio de Juslin y Laukka9 sí postula posibles características para que un estímulo pueda identificarse correctamente como Miedo, lo cual no se comprueba en la presente investigación. Lo anterior puede deberse a que los estímulos de la presente se modificaron según 3 aspectos prosódicos, y Miedo podría requerir la modulación F0SD en niveles bajos junto con otros aspectos, como forma del contorno de la frecuencia fundamental (F0cont), que tendría que encontrarse en nivel alto.2 Dicha característica del tono varía en esta emoción más que en otras, por ejemplo, Tristeza, con la que comparte varios parámetros.
En los estudios que trabajaron con estímulos auditivos para REA con muestras de población clínica (esquizofrenia) y controles,2,8 se encontraron diferencias significativas en el rendimiento de los grupos según el reconocimiento emocional, sin discriminación por emoción. La presente investigación arrojó diferencias significativas en el porcentaje de respuestas de identificación entre participantes que reportaban un trastorno psiquiátrico y aquellos que no con respecto a las emociones Miedo y Tristeza y la expresión Sin Emoción, lo que coincide parcialmente con la literatura, puesto que las emociones Alegría y Enojo no mostraron diferencias, en contraste con estudios anteriores. Esta diferencia parcial podría deberse a que los parámetros de los estímulos generan distintas respuestas en la población chilena y en la de los estudios de Leitman et al.2 y Kantrowitz et al.8
Cabe mencionar que el presente estudio, al ser, a saber de los autores, el primero que plantea evaluar una batería de estímulos en la población chilena, buscó establecer los parámetros de reconocimiento de emociones por medio de estímulos auditivos en adultos, y evaluarlos de manera exploratoria. Por esta misma razón, se decidió no descartar los resultados de los participantes que reportaron un trastorno psiquiátrico, ya que el porcentaje de prevalencia de éstos es el que se encontraría en la población chilena.
En conclusión, este estudio en población chilena tuvo resultados similares a los de investigaciones previas, específicamente los que se desprenden de los estudios de Juslin y Laukka 9 y Kantrowitz et al.8 basados en población angloparlante. Por un lado, se confirmó que el parámetro F0M en niveles altos determina la identificación de Alegría, y el parámetro F0SD en niveles bajos la de tristeza, con la salvedad de que, a diferencia de los estudios anteriores, F0M alto y F0SD bajo aún permite el reconocimiento de Tristeza, lo cual muestra que en esta población F0M no cumple un papel determinante en la identificación de dicha emoción. Por otro lado, la presencia o ausencia del sonido de alta energía HF500 se relaciona con la aparición de Enojo y la desaparición de Tristeza, aunque se amplifica para la emoción de Alegría. La literatura postularía que con el sonido de alta energía esta emoción no debería reconocerse tan claramente; en este estudio sólo disminuyó su porcentaje de reconocimiento, que nunca bajó de 35%, lo cual se evidencia en los estímulos 218 a 220.
Este trabajo es relevante dado el número limitado de estudios en reconocimiento emocional auditivo y la inexistencia de investigaciones en español al respecto. Adicionalmente, se encuentra el hallazgo de que, contrario a lo que postulan Kantrowitz et al.8 respecto al uso de baterías de estímulos no verbales sintetizados y el reconocimiento de las emociones que evocan según distintos contextos culturales, hay menores diferencias en la identificación de ciertas emociones. Esto puede deberse a que dichas emociones estén determinadas por factores culturales, tanto en su expresión como en su interpretación, lo que abre nuevas líneas de investigación en torno a la evaluación de parámetros específicos de los estímulos y sus características físicas (F0M, F0SD y HF500) adaptados a la población participante.
Dentro de las recomendaciones para estudios futuros en poblaciones latinoamericanas, se encuentra contar con un mayor número de participantes en función de la validez y utilidad de los datos, así como con participantes controles y pacientes de algún diagnóstico verificado clínicamente, lo cual debe ser parte de los criterios de inclusión. Además, es necesaria una mayor producción de este tipo de estudios con diversos parámetros prosódicos de los estímulos emocionales auditivos.










nova página do texto(beta)


