SciELO - Scientific Electronic Library Online

 
vol.8 número20Rasgos de criticalidad y complejidad en la fecundaciónGerminal Cocho índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

Links relacionados

  • No hay artículos similaresSimilares en SciELO

Compartir


Inter disciplina

versión On-line ISSN 2448-5705versión impresa ISSN 2395-969X

Inter disciplina vol.8 no.20 Ciudad de México ene./abr. 2020  Epub 14-Ago-2020

https://doi.org/10.22201/ceiich.24485705e.2020.20.71206 

Dossier

¿Es el habla una señal crítica auto-organizada?

Is speech a self-organized critical signal?

Iván G. Torre* 

Oriol Artime** 

Antonio Hernández-Fernández*** 

Bartolo Luque 

*Ingeniero aeronáutico en el Departamento de Matemática Aplicada, ETSIAE, Universidad Politécnica de Madrid (UPM), Plaza del Cardenal Cisneros, 3, 28040 Madrid, España. Correo electrónico: ivan.gonzalez.torre@upm.es

**Físico en el Instituto de Física Interdisciplinar y Sistemas Complejos IFISC (CSIC-UIB), Campus Universitat Illes Balears, 07122 Palma de Mallorca, España. Correo electrónico: oriol@ifisc.uib-csic.es

***Lingüista y físico en el Instituto de Ciencias de la Educación, LARCA, Universitat Politècnica de Catalunya, Plaza Eusebi Güell s/n. Correo electrónico: antonio.hernandez@upc.edu

Físico en el Departamento de Matemática Aplicada, ETSIAE, UPM. Correo electrónico: bartolome.luque@upm.es


Resumen

A lo largo del siglo XX, los estudios en lingüística cuantitativa han ido mostrando la aparición de leyes potenciales en las lenguas, primero en textos escritos y posteriormente en el habla. Son leyes que parecen ubicuas y robustas, pero ¿por qué aparecen en el lenguaje? ¿Son resultados espurios debidos a la arbitrariedad de la segmentación de las palabras, o realmente son universales de la comunicación compleja? ¿Podemos investigar la presencia de estas leyes en otros sistemas de comunicación animal de los que no conocemos el código? Los enfoques interdisciplinares y transdisciplinares en la lingüística y el estudio de los sistemas de comunicación se antojan imprescindibles.

Se exponen a modo de ejemplo dos estudios recientes realizados sobre corpus acústicos de hasta dieciséis lenguas, mediante un método general de segmentación de señales (método de los umbrales). Exploramos aquí la posibilidad de que las leyes estadísticas que emergen en el lenguaje sean fruto de un sistema crítico auto-organizado, al igual que otros fenómenos presentes en la Naturaleza. El método de los umbrales que se presenta permite analizar cualquier tipo de señal sin necesidad de conocer su codificación o segmentación. Esto abre nuevos caminos en la investigación lingüística permitiendo entre otras cosas realizar estudios comparativos entre el lenguaje humano y otros sistemas de comunicación animal.

Palabras clave: leyes de escala; leyes lingüísticas; criticalidad auto-organizada; método de los umbrales; voz humana

Abstract

Throughout the twentieth century, studies in quantitative linguistics have been showing the emergence of potential laws in languages, first in written texts and later in speech. These laws seem ubiquitous and robust but, why do they appear in language? Are they spurious results due to the arbitrariness of the segmentation of words or are they really universal and a result of complex communication? Can we investigate the presence of these laws in other animal communication systems of which we do not know the code? So, interdisciplinary and transdisciplinary approaches in linguistics and in the study of communication systems seem essential.

As an example, two recent studies on acoustic corpus of up to sixteen languages are presented, using a general method of segmentation of signals (threshold method). We present briefly here these methods and concepts and explore the possibility that the statistical laws that emerge in human language are fruit of the self-organized criticality, ubiquitous in Nature. With the threshold method is possible to analyze any type of signal even if its code is unknown, which pave the way to new comparative studies between human language and animal communication systems.

Keywords: scaling laws; linguistic laws; self-organized criticality; threshold method; human voice

Introducción

En la actualidad pocos campos de investigación requieren tanta transdisciplinariedad (Follari 2013), y representan mejor a la tercera cultura preconizada por C. P. Snow (Brockman 1995) como la lingüística. De hecho, el impacto interdisciplinar de El origen de las especies de Charles Darwin (Darwin 1859) se hizo notar de inmediato en lingüistas de la época como Müller o Schleicher. Doce años después de publicar su obra magna, el propio Darwin reconoció esta temprana influencia cuando afirmó que el lenguaje humano se originó en la imitación y modificación de sonidos de la naturaleza, como las voces de animales y los propios gritos instintivos humanos (Darwin 1871, cap. 3). Arrancaban así, casi al unísono, el debate del origen del ser humano y del lenguaje, con su manifestación empírica más relevante: el habla.

El conflicto entre ciencia y religión, abierto por la teoría darwinista en el siglo XIX, hizo que las principales sociedades lingüísticas de la época, que eran de corte conservador, prohibieran explícitamente tratar el asunto del origen del lenguaje. La comunicación compleja se consideraba un rasgo más de la superioridad cognitiva de los humanos sobre el resto de las especies y la lingüística ortodoxa no estaba dispuesta a sufrir el mismo trauma que la biología sometiéndose a la visión evolutiva. De modo que durante años el desarrollo de uno de los campos de estudio más importantes de la lingüística, el origen y evolución del lenguaje, acabó en manos de biólogos, antropólogos, paleontólogos y físicos (López García 2010), forzando una afortunada interdisciplinariedad. Sin embargo, casi 150 años después, el lenguaje se sigue esgrimiendo a menudo como un rasgo exclusivamente humano que nos distingue del resto de las especies del planeta. En parte debido a que todavía somos incapaces de segmentar e interpretar claramente la comunicación compleja de otras especies, como algunos cetáceos (belugas, delfines...) o grandes simios (gorilas, bonobos, chimpancés…), por poner solo algunos ejemplos populares. Incluso ocurre frecuentemente en el estudio del habla humana de la que conocemos el código: cuando el hablante pronuncia deprisa y suprime fonemas, sigue resultando extremadamente difícil la segmentación, la distinción de las unidades y complejos fonéticos. El método de los umbrales para analizar series temporales en combinación con la teoría de sistemas críticos auto-organizados (Luque, Lacasa y Luque 2015, Torre et al. 2017), que exponemos en este ensayo y que se apoya en la existencia de leyes de escala universales en el habla, abre por primera vez la posibilidad de solventar estos problemas y analizar tanto el lenguaje humano, como otros sistemas de comunicación animal sin conocimiento previo de sus códigos.

¿Por qué nos centraremos en analizar la voz en lugar de corpus escritos, como es más habitual en estudios de lingüística computacional? Si dejamos al margen la nada desdeñable gestualidad, la voz es la fuente primordial de datos empíricos del lenguaje humano. La tecnología de la escritura, fundamental para la transmisión cultural en la historia de nuestra especie, hizo que durante siglos los gramáticos tradicionales se esforzasen por describir cualitativamente las lenguas y sus reglas ortográficas, pretendiendo ‘fijar’1 en normativas los fenómenos y manifestaciones variables del lenguaje. No hay que negar la utilidad pragmática, conceptual y epistemológica del notable esfuerzo histórico de la lingüística clásica, pero sin contar y medir no hay ciencia empírica posible, ni modelos teóricos que contrastar o falsar. La fuerza de la escritura es tal que todavía hay quien erróneamente la confunde con el lenguaje. Aunque hay en muchas lenguas una correspondencia directa entre los sonidos del habla y las letras escritas, no siempre es así. Hay lenguas, como el español, con una correspondencia grafemafonema más clara que en otras, como el inglés, y no es trivial que las mismas regularidades estadísticas que se encuentran en los textos escritos deban también cumplirse en la oralidad. Además de evitar intermediarios y distorsiones tecnológicas, por decirlo de algún modo, al estudiar la señal acústica de la voz en lugar de la escritura, será posible en un futuro realizar comparaciones con otros sistemas de comunicación animal que, obviamente, carecen de escritura.

En este pequeño ensayo veremos primero algunos conceptos muy generales de la física de los sistemas complejos, como son la criticalidad auto-organizada y las leyes de escala, y cómo se relacionan con algunas conocidas leyes lingüísticas que tradicionalmente se han encontrado en textos escritos, para, posteriormente, extenderlas al habla utilizando el método de los umbrales. A los lectores que deseen un mayor grado de profundidad técnica, les invitamos a acudir a las dos publicaciones originales en las que se fundamenta este artículo (Luque, Lacasa y Luque 2015, Torre et al. 2017).

Criticalidad auto-organizada

En física, un punto crítico es aquel que separa dos fases de equilibrio. Un ejemplo de punto crítico corriente sería el que separa la fase sólida y líquida para el caso del agua, por ejemplo. En este punto tiene lugar una transición de fase que se produce para unos valores determinados de presión y temperatura. Estas magnitudes, normalmente llamadas parámetros de control, son típicamente ajustables experimentalmente, por lo que en muchos casos podemos inducir la transición de fase a voluntad.

En general, las transiciones de fase (Jaeger 1998) se clasifican en transiciones de primer o de segundo orden. Por ejemplo, en el caso de la transición de fase hielo-líquido en el agua, como la función de entropía es discontinua, carece de derivada, se clasifica como de primer orden. En el caso que nos atañe, estamos interesados en las transiciones de fase de segundo orden, que suelen separar una fase ordenada de otra desordenada. Un modelo paradigmático es el modelo de Ising (Glauber 1963), que suele usarse como explicación simple de la magnetización en materiales ferromagnéticos. En su versión bidimensional, se trata de una red, por ejemplo, cuadriculada, donde hay distribuidos en cada casilla espines, pequeños imanes, que pueden presentar magnetización en dos direcciones, con valores +1 o −1, según su orientación. A cada paso de tiempo discreto, cada espín interacciona con sus vecinos localmente modificando su valor para minimizar la energía de interacción. La energía de interacción entre dos espines vecinos será mínima cuando ambos espines están alineados hacia arriba (+1) o ambos hacia abajo (−1). De modo que la tendencia local de los espines es alinearse en la misma dirección. El sistema está sometido, además, a una temperatura T, que tiene el rol de introducir desorden, rompiendo localmente estas alineaciones al aumentarla. Así, cuando la temperatura es elevada, los espines están orientados totalmente al azar y como la magnetización global M es la suma de las orientaciones de los espines, se tiene que en promedio M = 0 y el material no presenta magnetización neta, como ocurre cuando calentamos un ferromagneto real. Estamos en la fase desordenada del sistema. Al contrario, si bajamos suficientemente la temperatura, los espines se alinean y el sistema muestra una magnetización neta diferente de cero. Y en este caso nos encontramos en la fase ordenada del sistema. La separación entre ambas fases ocurre en un punto crítico, a una temperatura crítica precisa Tc. En este sistema, la temperatura actúa como parámetro de control y la magnetización como parámetro de orden. Observemos que para cambiar de fase debemos cambiar externamente el parámetro de control: tenemos que variar la temperatura para obtener magnetización neta.

En las proximidades de la temperatura crítica, del punto crítico, se observan fenómenos destacables como que pequeñas perturbaciones locales, sobre algunos espines, pueden propagarse a lo largo de todo el sistema en una especie de efecto dominó. Y más interesante para nosotros todavía: todas las magnitudes relevantes del sistema en el punto de transición se comportan siguiendo leyes de potencia, leyes libres de escala.

Hace unos 30 años P. Bak, C. Tang y K. Wiesenfeld publicaron dos artículos seminales que sentarían las bases de lo que se conoce como criticalidad auto-organizada (Bak, Tang y Wiesenfeld, 1987 y 1988), que resulta de especial interés en nuestro estudio. En los procesos críticos auto-organizados, o más brevemente, procesos SOC (por sus siglas en inglés: self-organized criticality), las transiciones de fase que se consideran son de segundo orden, pero al contrario de las transiciones clásicas no hay que ajustar finamente ningún parámetro de control del sistema, como la temperatura en el caso del modelo de Ising, para alcanzar el punto crítico: el sistema se sitúa por sí mismo siempre en los alrededores del mismo.

El modelo SOC paradigmático se conoce como la pila de arena o modelo BTW, en honor a sus autores (Bak, Tang y Wiesenfeld 1987). El nombre proviene de su analogía con una pila de arena real (Figura 1, izquierda). Si formamos lentamente una pila de arena añadiendo poco a poco granos, observaremos que la pila alcanzará una pendiente crítica. Añadir más granos no modificará la pendiente porque el sistema sencillamente los eliminará mediante avalanchas, de tal modo que en promedio la pendiente crítica se mantendrá cuasi-constante. El modelo original BTW consiste en una malla bidimensional de tamaño L × L, donde L es el número de cuadrículas por lado. Se define z(i, j ) como el número de granos de arena que hay en la casilla (i, j ). Podemos comenzar el instante inicial t = 0 con la malla vacía, de modo que z(i, j ) = 0 para todo (i, j ) y a continuación vamos depositando granos de arena individuales en lugares aleatorios de la malla. Tras depositar un grano comprobamos, si existe algún z(i, j ) > 4. Si es el caso, se aplica la siguiente regla de disipación a primeros vecinos: z(i, j ) → z(i, j ) - 4; z(i ± 1, j ) → z(i ± 1, j ) + 1; z(i, j ± 1 ) → z(i, j ± 1 ) + 1. Las casillas situadas en los bordes de la cuadrícula expulsarán al exterior granos de arena, imitando en cierto modo el comportamiento de la pila de arena real que inspiró el modelo. Esta regla se aplicará reiteradamente hasta que todas las casillas cumplan que z(i, j ) < 4, momento en que el sistema habrá vuelto a una situación estable y solo entonces se volverá a perturbar añadiendo un nuevo grano. Llamamos avalancha al número total de granos expulsados del sistema hasta que se produce esta relajación. De esta manera conseguimos una serie temporal de tamaños de avalanchas y también de duraciones de las mismas que posee unas determinadas características típicas de los procesos SOC. El sistema permanecerá fluctuando alrededor de una cantidad media cuasi-constante de granos totales en el tablero y esas fluctuaciones se comportarán como una señal SOC. Tanto las distribuciones de tamaños de avalanchas como de tiempos de duración de las mismas se distribuirán como leyes de potencias (Figura 1, derecha).

Nota: Se trata de una ley de potencias, P(S ) = C∙S , de manera que no existe un tamaño de avalancha característico en el sistema. Pequeñas perturbaciones locales, como la introducción de un grano de arena, pueden provocar desde la expulsión de un grano del tablero hasta cantidades del orden del tamaño del mismo.

Fuente: Bak (1996).

Figura 1 (Izquierda) Dibujo de Ms. Elaine Wiesenfeld del libro How Nature works, mostrando cómo se forma una pila de arena con una pendiente cuasi-constante que sirve como analogía del famoso modelo BTW. (Derecha) Distribución P(S ) del tamaño avalanchas S en una simulación del modelo BTW.  

Desde la aparición de este modelo canónico, SOC a aparecido en campos tan diversos como la astrofísica (McAteer et al. 2016, Aschwanden et al. 2016; Watkins et al. 2016; Sharma et al. 2016), la sismología (Bak y Tang 1989; Sornette y Sornette 1989; Hergarten 2002), la percolación (Drossel y Schwabl 1992; Malamud et al. 1998), la meteorología (Peters et al. 2010), la biología evolutiva (Bak y Sneppen 1993; Jensen 1998), la economía (Sornette 2003), la neurociencia (Levina et al. 2007) o la voz humana (Luque, Lacasa y Luque 2015; Torre et al. 2017), en la que no nos centraremos aquí.2 Sin embargo, no existe todavía una definición rigurosa de sistema crítico auto-organizado. Cuestión que no amedrenta a los físicos, acostumbrados a trabajar con términos como energía o en tropía que aparecen en la literatura con múltiples definiciones. Pero, sí que hay consenso en ciertas características que parecen cumplir todos los procesos físicos que consideramos SOC y que están presentes en el modelo original BTW:

  • En primer lugar, se trata de un proceso dinámico que varía con el tiempo de forma que, sin necesidad de ajustar ningún parámetro, se sitúa por sí mismo en los alrededores de un punto crítico del sistema que actúa como atractor (en el caso de la pila de arena, se trata del número total de granos en el tablero).

  • Frente a perturbaciones, el sistema responderá disipando energía en forma de “avalanchas”, para regresar a un estado metaestable cerca del punto crítico, siempre y cuando el tiempo característico de las perturbaciones sea mayor que el de respuesta del sistema. En la pila de arena introducimos un grano, la perturbación, solo después de que el sistema se ha relajado.

  • Tanto la energía disipada E, como el tiempo entre avalanchas T, se distribuirán como leyes de potencias, escalando como P(E ) = c1/E α y P(T ) = c2/Tβ.

El resultado es que el sistema no presente un tamaño característico, ni en energías ni en tiempos, y la dinámica que lo rige resulta la misma en todas las escalas.

Dado un modelo teórico, disponemos de herramientas matemáticas para justificar su naturaleza SOC, pero la cuestión se vuelve peliaguda cuando solo disponemos de señales temporales de algunas magnitudes de un sistema real y desconocemos los detalles de los mecanismos que las producen. En muchos casos ni siquiera está claro qué magnitudes del sistema son los equivalentes a las avalanchas de nuestro modelo pila de arena, ni las duraciones de las mismas. Simplemente, los investigadores se enfrentan a series temporales de datos cuyos valores fluctúan, como es el caso que nos ocupa, de las variaciones temporales en la amplitud de la voz humana en una conversación. En estos casos, el método de los umbrales ha mostrado ser una herramienta inestimable.

El método de los umbrales aplicado al habla

Una serie temporal no es más que un conjunto de eventos ordenados (t1, t2, …), a los cuales se les ha asignado un valor específico (x1, x2, …). El origen de estos valores pueden ser mediciones directas de un fenómeno natural o resultado de una computación. Una definición tan laxa incluye ejemplos tan dispares como la ocurrencia de terremotos en una región concreta con su correspondiente magnitud, la evolución diaria del precio de una acción en un mercado financiero, el ritmo cardíaco medido en latidos por unidad de tiempo durante el desarrollo de una actividad física, o el registro acústico de una señal, que será el caso específico del que nos ocuparemos.

Hay maneras muy diversas de obtener información de una serie temporal, dependiendo de la naturaleza de esta y del objetivo de la investigación. Particularmente útil es la llamada distribución de tiempos de espera, también conocida como distribución de tiempos de recurrencia o retorno. Esta distribución de probabilidad nos da información sobre el tiempo que tendremos que esperar para ver repetido cierto evento si este acaba de producirse. Recientemente han sido estudiadas estas distribuciones en fenómenos naturales como el caso de los terremotos (Corral 2005), los incendios en bosques (Corral et al. 2008) o la actividad neuronal (Kepecs y Lisman 2003), así como en otros casos tan variopintos como pueden ser los patrones de navegación por internet (Radicchi 2009), las comunicaciones humanas epistolares ( Oliveira y Barabási 2005) o el envío de correos electrónicos (Malmgren et al. 2008). La peculiaridad de todos estos ejemplos y el punto en común que los une es que presentan distribuciones de tiempos de espera libres de escala, en forma de leyes de potencias (Barabási 2005), y que los tiempos de espera consecutivos están fuertemente correlacionados (Goh y Barabási 2008; Karsai et al. 2012). Estas características son muy diferentes a las que solemos encontrar en las series de eventos poissonianos, donde los sucesivos eventos son independientes, no están correlacionados, y se presentan distribuidos en el tiempo de manera exponencial. Observemos que una forma de determinar estos tiempos consiste en trazar una línea horizontal que hace de punto de retorno para la serie temporal y calcular entonces los tiempos entre puntos de corte de la serie temporal con esa línea.

El mero hecho de computar adecuadamente las distribuciones de tiempos de espera en procesos reales ya acarrea una serie de problemas, que van desde identificar y aislar los eventos de estudio que en muchos casos sufren superposiciones al medirse, pasando por el ruido de fondo, que añade incertidumbre en las medidas, o los errores, y problemas de sensibilidad de los instrumentos de medición, que pueden causar un sesgo en los datos. La voz humana es un claro ejemplo. En concreto, la variable dependiente en nuestras series temporales, la amplitud de la señal acústica, en general está afectada por el ruido ambiental y sufre de la superposición de varios hablantes al unísono. Un método de análisis recientemente empleado para superar estas dificultades (Luque, Lacasa y Luque 2015; Torre et al. 2017) ha sido el método de umbrales (Bak et al. 2002; Corral 2005 y 2009). El método procede de la siguiente manera (Figura 2): Partiendo de la serie de amplitudes A(t ) construimos la serie de energías instantáneas ε(t ) = |A(t )|2. Tomamos un umbral arbitrario de energía instantánea comprendido en tre cero y su valor máximo en la serie. Una vez establecido, una parte de los datos de la señal quedarán por debajo y otra por encima, como ocurre en el análisis de tiempos de retornos al que hicimos referencia. De modo que cada vez que definimos un umbral, disponemos de una serie temporal con un número efectivo de datos diferente: solo aquellos que quedan por encima. Por último, definiremos un evento de voz como la secuencia de energías instantáneas consecutivas tales que ε(t ) > Θ. La suma de esas energías instantáneas será la energía E del evento y el número de ellas su duración. Recíprocamente, definimos los eventos de silencio como las separaciones de duración τ entre eventos de voz: un conjunto de valores ε(t ) < Θ sucesivos por debajo del umbral.

Nota: El umbral Θ permite diferenciar los eventos de voz de los eventos de silencio, separados por duraciones τ y asignar una energía E a los mismos, como suma de energías instantáneas por encima del umbral.

Fuente: Luque, Lacasa y Luque (2015).

Figura 2 Arriba, una muestra de la serie temporal de las amplitudes A(t ) de una señal de habla 121 grabada de 20 segundos. Abajo, un trozo ampliado de la señal transformada ya en energías instantáneas ε(t ) = A2(t ).  

De modo que una vez fijado un umbral podemos computar la distribución de energías de eventos de voz PΘ (E), la distribución de duración de los mismos PΘ (t ) y la distribución de las duraciones de silencios entre ellos PΘ (τ). Todas estas distribuciones resultan ser potenciales, libres de escala, en el caso del habla independientemente del idioma y las peculiaridades de los hablantes. Puesto que para cada umbral cercenamos la serie de una manera distinta, las distribuciones dependen de Θ. Lo extraordinario es que si la señal proviene de un sistema SOC, la teoría de los umbrales nos dice cómo conseguir, escalando adecuadamente las distribuciones, que todas ellas acaben colapsando en una única distribución denominada universal. Por ejemplo, si escalamos las distribuciones de duraciones de silencio haciendo τ → τ⁄τΘ y PΘ(τ) → τΘ PΘ(τ), donde τΘ es el valor medio de las duraciones entre eventos de voz cuando el umbral es Θ, todas las distribuciones acabarán superponiéndose, como vemos que sucede en la Figura 3 (Luque, Lacasa y Luque 2015), independientemente del umbral y del idioma. Es notable el decaimiento en ley de potencias para las primeras décadas de la variable τ⁄τΘ. Observemos que estas duraciones corresponden al rango intrafonémico, t < 10−2 s (los fonemas de la voz humana suelen ser del orden de los 10 ms o superiores). De modo que, si buscamos un modelo que dé cuenta de su distribución y su naturaleza SOC, debemos pensar en fisiología y no en fenómenos cognitivos.

Fuente: Luque, Lacasa y Luque (2015).

Figura 3 Colapso de las distribuciones de duraciones de eventos de silencios, reescaladas adecuadamente para diferentes idiomas y diferentes umbrales.  

¿Es el habla un fenómeno SOC?

La teoría que explica por qué deben producirse estos colapsos si la señal proviene de un sistema SOC está basada en el Grupo de Renormalización (GR), creado a mediados de los años 70 en el contexto de los estudios de los fenómenos críticos. Muy brevemente, las transformaciones del GR describen cómo cambian las propiedades de un sistema al cambiar la escala de medida sobre el mismo.

En particular, como en los puntos críticos las propiedades temporales y/o espaciales son leyes de potencias, se muestran invariantes frente a transformaciones como la que acabamos de describir. En el caso que nos ocupa, la relación entre GR y SOC sigue desarrollándose y para detalles técnicos remitimos al lector a Font-Clos (2015).

A lo largo del siglo XX múltiples estudios en lingüística cuantitativa (Köhler, Altmann y Piotrowski 2008) han ido mostrando la aparición de leyes estadísticas en las lenguas, primero en textos escritos y también en textos transcritos del habla. Nos referimos a patrones universales como la ley de Zipf, que relaciona la frecuencia de aparición de una palabra en un texto con su rango; la ley de Heaps-Herdan, que indica el ritmo de crecimiento del vocabulario en un corpus; la ley de brevedad que muestra la tendencia de las palabras más frecuentes a ser más cortas; o la ley de Menzerath-Altmann, que relaciona, por ejemplo, la tendencia en las palabras más largas a que sus constituyentes (fonemas o sílabas) sean más breves, por mencionar algunas. Son todas ellas leyes de escala que resultan ubicuas (Hernández-Fernández 2014) y robustas más allá de modelos aleatorios (Ferrer-i-Cancho y Elvevag 2010). Algunas de ellas, como la ley de Zipf, son leyes de escala persistentes en la ciencia cognitiva (Kello et al. 2010) y con evidencia empírica suficiente para aclamar su universalidad, pero ¿por qué aparecen en el lenguaje?

El principio zipfiano del mínimo esfuerzo (Zipf 1949), así como el principio de compresión de teoría de la información (véanse, para una revisión, Ferrer-i-Cancho et al. 2013, Ferrer-i-Cancho 2016) han aparecido como principios físicos que son capaces de justificar especialmente leyes como la de brevedad o la ley de Zipf para las frecuencias de palabras en un texto, aunque si se tiene en cuenta que la comunicación suele ser cosa de dos (emisor y receptor) entonces no solo ahorrar energía o enviar mensajes breves funciona: para que el mensaje llegue con éxito al receptor, evitando por ejemplo atenuaciones de la señal debidas al ruido, o dar cuenta de la variabilidad comunicativa, es necesaria una longitud mínima en los mensajes (Ferrer-i-Cancho et al. 2013). Bajo el paradigma de la teoría de la información, el lenguaje humano podría estar de hecho en una transición de fase en el mundo de los sistemas de comunicación posibles (Ferrer-i-Cancho y Solé 2003), precisamente por el equilibrio zipfiano al que se llega entre la minimización de la energía a la hora de emitir el mensaje, lo que beneficiaría al emisor, a la vez que se tiende a maximizar la información transmitida haciendo que el mensaje contenga la información suficiente para que el mensaje llegue a su destino con éxito, pese al ruido del canal y a las exigencias de diversificación del receptor (Zipf 1949).

Pero podemos intentar atacar el problema desde un punto de vista microscópico. El análisis de series temporales del habla en muchas lenguas realizado en Luque, Lacasa y Luque (2015) bajo la técnica de los umbrales previamente descrita, muestra que la generación del habla, a nivel fisiológico, es un proceso invariante de escala y es fruto de un sistema crítico auto-organizado. Algo que rompe con el paradigma establecido que dice que la señal del habla es caótica. Posteriormente, en Torre et al. (2017), haciendo un paralelismo entre eventos de voz como hemos descrito previamente y palabras escritas en lingüística clásica se recuperaron todas las leyes lingüísticas antes mencionadas sobre dieciséis lenguas diferentes. En la Figura 4 podemos ver un ejemplo de la ley de Zipf para habla en español.

Nota: Para poder comparar series definimos en realidad el valor umbral Θ, no de manera absoluta sino relativa, como un porcentaje entre 0 y 100%. Donde Θ = 70%, por ejemplo, significa que el 70% de los datos de nuestra serie concreta están por encima del umbral y hay un 30% de datos cuyos valores estarán por debajo. Figura principal: Colapso de todas las distribuciones suponiendo que la señal es crítica auto-organizada.

Fuente: Torre et al. (2017).

Figura 4 Figura interior: ley de Zipf obtenida para grabaciones en español utilizando los eventos de voz en vez de palabras transcritas como sería usual para distintos umbrales.  

El método de los umbrales en combinación con la teoría SOC abre nuevas posibilidades. Puede apoyar análisis teóricos que ya se están efectuando desde la lingüística cuantitativa en terrenos novedosos de claro cariz interdisciplinar, como la comunicación química (Hernández-Fernández 2014 y Ferrer-i-Cancho 2016), la genómica (Ferrer-i-Cancho y Forns 2009) o la comunicación animal de primates no humanos (Gustison et al. 2016), por mentar algunos ejemplos. Puesto que en el método no se necesita conocer el código del sistema de comunicación, resulta idóneo en estudios comparativos entre el lenguaje humano y los sistemas de comunicación animal. Y, claro está, el método es aplicable a cualquier tipo de señal: desde electroencefalogramas hasta series bursátiles, abrien do la posibilidad de interpretarlas de una manera novedosa al desvelar posibles patrones ocultos.

Parece que el lenguaje muestra una especie de jerarquía anidada donde estas leyes aparecen a diferentes escalas como fonemas, sílabas, palabras, por mencionar algunas. En los trabajos de Luque, Lacasa y Luque (2015) y Torre et al. (2017) se recuperan estas mismas leyes al nivel más fundamentalmente posible, en energías y tiempos a escalas inferiores al fonema, mediante un método general que no depende de la segmentación de las unidades de estudio tradicional. De modo que el siguiente paso debería ser mostrar cómo esas leyes lingüísticas bien conocidas en los textos transcritos emergen en la voz desde este nivel fundamental, prelingüístico, a través de una jerarquía de tamaños que van de las energías microscópicas con las que se ha trabajado en estos estudios hasta los tiempos y energías asociados con palabras. Para mostrar, finalmente, cómo las leyes lingüísticas (Zipf, Heaps-Herdan, brevedad…) que aparecen en los textos escritos reflejan las propiedades del habla, que es previa evolutivamente a la escritura, de donde emergerían.

Los resultados obtenidos por el método de los umbrales sobre las señales de voz humana apuntan claramente hacia un origen crítico auto-organizado del habla. Faltaría un modelo consistente que diera cuenta de ello. Cuando estos autores han analizado grabaciones de música bajo el mismo método, han comprobado que si no hay presencia de instrumentos de viento, no se obtienen leyes de escala parecidas a las obtenidas en voz humana. Eso apunta a que el principal responsable de esta riqueza jerárquica en la señal de voz proviene de la naturaleza fractal, libre de escala, de nuestro sistema pulmonar. La expulsión de aire al hablar se produce a través del vaciado de grupos alveolares que se distribuyen de manera potencial, provocando emisiones de energía que se distribuyen temporalmente en forma potencial como vemos al analizar la señal del habla. De modo que, si esto resulta ser finalmente así, podremos decir algo sorprendente: que escribimos como escribimos porque tenemos pulmones.

Referencias

Altmann, Edoardo y Gerlach, Martin. 2016. «Statistical laws in linguistics». En Degli Esposti, M., Altmann, E. y Pachet, F. (eds.), Creativity and universality in language, lecture notes in morphogenesis, Cham: Springer, 7-26. [ Links ]

Aschwanden, Markus J., Crosby, Norma B., Dimitropoulou, Michaila, Georgoulis, Manolis K., Hergarten, Stefan, McAteer, James, Milovanov, Alexander V., Mineshige, Shin, Morales, Laura, Nishizuka, Naoto, Pruessner, Gunnar, Sanchez, Raul, Sharma, A. Surja, Strugarek, Antoine y Uritsky Vadim. 2016. «25 years of self-organized criticality: Solar and astrophysics.» Space Science Reviews, 198(1-4):47-166. [ Links ]

Bak, Per y Sneppen, Kim. 1993. «Punctuated equilibrium and criticality in a simple model of evolution.» Physical Review Letters, 71(24): 4083. [ Links ]

Bak, Per y Tang, Chao. 1989. «Earthquakes as a self-organized critical phenomenon.» J. Geophys. Res, 94(15):635-15. [ Links ]

Bak, Per , Christensen, Kim, Danon, Leon, y Scanlon, Tim. 2002. «Unified scaling law for earthquakes», Physical Review Letters , 88(17), 178501. [ Links ]

Bak, Per , Tang, Chao y Wiesenfeld, Kurt. 1987. «Self-organized criticality: An explanation of the 1/f noise.» Physical Review Letters , 59(4): 381. [ Links ]

Bak, Per , Tang, Chao y Wiesenfeld, Kurt . 1988. «Self-organized criticality.» Physical review A, 38(1): 364. [ Links ]

Bak, Per . 1996. «Complexity and criticality.» En How nature works. Springer, 1-32. [ Links ]

Barabási, Albert-László. 2005. «The origin of bursts and heavy tails in human dynamics.» Nature, 435(7039): 207-211. [ Links ]

Brockman, John. 1995. The Third Culture: Beyond the Scientific Revolution. New York: Touchstone, Simon & Schuster. [ Links ]

Corral, Álvaro, Telesca Luciano, y Lasaponara, Rosa. 2008. «Scaling and correlations in the dynamics of forest-fire occurrence.» Physical Review E, 77(1), 016101. [ Links ]

Corral, Álvaro . 2009. «Point-occurrence self-similarity in crackling-noise systems and in other complex systems.» Journal of Statistical Mechanics: Theory and Experiment, (01), P01022. [ Links ]

Corral, Álvaro . 2005. «Renormalization-group transformations and correlations of seismicity.» Physical Review Letters , 95(2), 028501. [ Links ]

Darwin, Charles. 1859. On the origin of species. Londres (UK): Murray. [ Links ]

Darwin, Charles. 1871. The descent of man and selection in relation to sex. Londres (UK): Murray . [ Links ]

Drossel, Barbara y Schwabl, Franz. 1992. «Self-organized critical forest-fire model.» Physical Review Letters , 69(11): 1629. [ Links ]

Ferrer-i-Cancho, R., Hernández-Fernández, A., Lusseau, D., Agooramorthy, G., Hsu, M. y Semple, S. 2013. «Compression as a universal principle of animal behavior.» Cognitive Science, 37: 1565-1578. [ Links ]

Ferrer-i-Cancho, Ramon y Elvevag, Brita. 2010. «Random texts do not exhibit the real Zipf ’s law-like rank distribution.» PLoS One 5, e9411. [ Links ]

Ferrer-i-Cancho, Ramon y Forns, Núria. 2009. «The self-organization of genomes.» Complexity, 15(5): 34-36, 2009. [ Links ]

Ferrer-i-Cancho, Ramon y Solé, Ricard. 2003. «Least effort and the origins of scaling in human language». Proceedings of the National Academy of Sciences, USA 100:788-791. [ Links ]

Ferrer-i-Cancho, Ramon . 2016. «Compression and the origins of Zipf ’s law for word frequencies.» Complexity, 21: 409-411. [ Links ]

Follari, Roberto. 2013. «Acerca de la interdisciplina: posibilidades y límites». Interdisciplina I, 1:111-130. [ Links ]

Font-Clos, Francesc, Pruessner, Gunnar , Moloney, Nicholar R., y Deluca, Anna. 2015. «The perils of thresholding.» New Journal of Physics, 17(4), 043066. [ Links ]

Glauber, Roy J. 1963. «Time-dependent statistics of the Ising model.» Journal of Mathematical Physics, 4(2):294-307. [ Links ]

Goh, Kwang I., y Barabási, Albert-László. 2008. «Burstiness and memory in complex systems.» EPL (Europhysics Letters), 81(4), 48002. [ Links ]

Gustison, Morgan, Semple, Stuart, Ferrer-i-Cancho, Ramon y Bergman, Thore. 2016. «Gelada vocal sequences follow Menzerath’s linguistic law.» Proceedings of the National Academy of Sciences, 113: E2750-E2758. USA. [ Links ]

Hergarten, Stefan . 2002. Self organized criticality in earth systems. Springer. [ Links ]

Hernández-Fernández, Antoni. 2014. Las leyes de la lingüística en los sistemas de comunicación, tesis doctoral. Barcelona: Universitat de Barcelona. www.tdx.cat/handle/10803/145682Links ]

Jaeger, Gregg. 1998. «The Ehrenfest classification of phase transitions: introduction and evolution.» Archive for history of exact sciences, 53(1): 51-81. [ Links ]

Jensen, Henrik. J. 1998. Self-organized criticality: emergent complex behavior in physical and biological systems. Cambridge University Press. [ Links ]

Karsai, Márton., Kaski, Kimmo., Barabási, Albert-László y Kertész, János. 2012. «Universal features of correlated bursty behaviour.» Scientific Reports, 2. [ Links ]

Kello, C. T., Brown, G. D., Ferrer-i-Cancho, R. , Holden, J. G., Linkenkaer-Hansen, K., Rhodes, T. y Van Orden, G. C. 2010. «Scaling laws in cognitive sciences.» Trends in Cognitive Sciences, 14(5), 223-232. [ Links ]

Kepecs, Adam y Lisman, John. 2003. «Information encoding and computation with spikes and bursts.» Network: Computation in Neural Systems, 14(1), 103-118. [ Links ]

Köhler, Reinhard, Altmann, Gabriel y Piotrowski, Raymund. 2008. Quantitative Linguistics. Berlín: De Gruyter-Mouton. [ Links ]

Levina, Anna, Herrmann, J. Michael y Geisel, Theo. 2007. «Dynamical synapses causing self-organized criticality in neural networks.» Nature physics, 3(12): 857-860. [ Links ]

López García, Ángel. 2010. El origen del lenguaje. Valencia: Editorial Tirant Lo Blanch. [ Links ]

Luque, Jordi, Luque, Bartolomé y Lacasa, Lucas. 2015. «Scaling and universality in the human voice.» Journal of The Royal Society Interface, 12(105): 1-6. [ Links ]

Malamud, Bruce D., Morein, Gleb y Turcotte, Donald L. 1998. «Forest fires: an example of self-organized critical behavior.» Science, 281(5384):1840-1842. [ Links ]

Malmgren, R. Dean, Stouffer, Daniel B., Motter, Adilson E. y Amaral, Luís A. N. 2008. «A Poissonian explanation for heavy tails in e-mail communication.» Proceedings of the National Academy of Sciences , 105(47): 18153-18158. [ Links ]

McAteer, R. T. James, Aschwanden, Markus J. , Dimitropoulou, Michaila , Georgoulis, Manolis K. , Pruessner, Gunnar , Morales, Laura , Ireland, Jack y Abramenko, Valentyna. 2016. «25 years of self-organized criticality: Numerical detection methods.» Space Science Reviews , 198(1-4): 217-266. [ Links ]

Oliveira, Joao G. y Barabási, Albert-László . 2005. «Human dynamics: Darwin and Einstein correspondence patterns.» Nature, 437(7063): 1251-1251. [ Links ]

Peters, Ole, Deluca, Anna , Corral, Álvaro , Neelin, J. David. y Holloway, Christopher. E. 2010. «Universality of rain event size distributions.» Journal of Statistical Mechanics: Theory and Experiment , (11): P11030. [ Links ]

Radicchi, Filippo. 2009. «Human activity in the web.» Physical Review E , 80(2), 026118. [ Links ]

Sharma, A. Surjalal, Aschwanden, Markus J. , Crosby, Norma B. , Klimas, Alexander J., Milovanov, Alexander V. , Morales, Laura , Sánchez, Raúl y Uritsky, Vadim. 2016. «25 years of self-organized criticality: space and laboratory plasmas.» Space Science Reviews , 198(1-4): 167-216. [ Links ]

Sornette, Anne y Sornette, Didier. 1989. «Self-organized criticality and earthquakes.» EPL (Europhysics Letters) , 9(3): 197. [ Links ]

Sornette, Didier . 2003. «Critical market crashes.» Physics Reports, 378(1):1-98. [ Links ]

Torre, Iván G., Luque, Bartolomé , Lacasa, Lucas , Luque, Jordi y Hernández-Fernández, Antoni. «Emergence of linguistic laws in human voice.» Scientific Reports, 7. [ Links ]

Watkins, Nicholas W., Pruessner, Gunnar , Chapman, Sandra C., Crosby, Norma B. y Jensen, Henrik J. 2016. «25 years of self-organized criticality: concepts and controversies.» Space Science Reviews , 198(1-4): 3-44. [ Links ]

Zipf, George Kinsley. 1949. Human behaviour and the principle of least effort. Nueva York: Addison-Wesley Press. [ Links ]

1Entre otras cosas “fija y da esplendor” dice literalmente una de las máximas de la Real Academia de la Lengua Española.

2Para una aproximación divulgativa a la criticalidad auto-organizada y a su amplio rango de aplicaciones recomendamos la lectura de How nature works (Bak 1996).

Recibido: 19 de Octubre de 2017; Aprobado: 28 de Febrero de 2018

Iván González Torre

Estudiante predoctoral en física de sistemas complejos por la Universidad Politécnica de Madrid. Recientemente, ha sido becado Fulbright-Schuman en la Universidad de California Merced, para la realización de estudios en lingüística cuantitativa y anteriormente también fue becado por el gobierno alemán con una beca DAAD.

Oriol Artime

Físico de formación. Actualmente se encuentra finalizando su doctorado por la Universitat de les Illes Balears, en el grupo de sociofísica del Instituto de Física Interdisciplinar y Sistemas Complejos (IFISC). De forma paralela, es investigador en la Bruno Kessler Foundation, Italia, trabajando en proyectos que tienen las redes complejas como elemento común. Sus intereses académicos son interdisciplinares y se centran en la aplicación de conceptos y métodos de la física estadística en problemas provenientes de áreas científicas diferentes a la física tradicional.

Antonio Hernández Fernández

Físico, lingüista y doctor en ciencia cognitiva y lenguaje por la Universidad de Barcelona. Desde 1996, ha sido docente en secundaria obligatoria, bachillerato y formación profesional en áreas de ciencias y tecnología, principalmente. Actualmente, es profesor de FP en la Escuela de Arte y Diseño de Terrassa y en la Universidad Politécnica de Cataluña (Barcelona). Forma parte de los grupos de investigación Complexity and Quantitative Linguistics Lab (LARCA) y BCN-SEER, donde investiga sobre la aplicación de modelos matemáticos y físicos al estudio de los sistemas de comunicación y el aprendizaje.

Creative Commons License Este es un artículo publicado en acceso abierto bajo una licencia Creative Commons