Introducción
El supuesto de normalidad es frecuente en los modelos financieros. Un ejemplo usual surge en el contexto de administración de riesgos. El valor de una cartera de inversión al tiempo t (Vt ) es función del tiempo y de un conjunto de factores de riesgo (Zt ∈ ℝd): V t = f (t ,Zt). Definimos los cambios en los factores de riesgo como Xt = Zt - Zt -1 y la pérdida (positiva) del portafolio como L t = -(V t - V t-1). La aproximación lineal de L t+1 es:
donde los subíndices de f representan derivadas parciales y solo los cambios X t+1,j son aleatorios. Si los suponemos Normales, entonces L t+1 es Normal (ver Propiedad 1, más adelante). Esto da origen al método Delta-Normal para el cálculo de Valor en Riesgo (VaR) descrito por Jorion (2006).
Sin embargo, la evidencia empírica muestra que muchos activos financieros tienen rendimientos que no siguen la distribución Normal. En particular, la frecuencia observada de rendimientos extremos es mayor que la probabilidad de dichos rendimientos bajo la Normal. Esta característica se denomina "leptocurtosis", colas anchas o elongación en exceso. También es posible observar alternadamente períodos de alta y baja volatilidad, distribuciones asimétricas o dependencia en las colas en las distribuciones conjuntas. Más grave aún es el hecho de que el supuesto de normalidad con frecuencia no se verifica. Las pruebas de bondad de ajuste del Apéndice B muestran que la Normal no es un modelo adecuado para factores de riesgo representativos del mercado mexicano.
Por otro lado, de acuerdo con el Comité de Basilea (BIS, 2011), "uno de los principales factores desestabilizadores durante la crisis -económica y financiera que estalló en 2007- fue la incapacidad de captar correctamente los mayores riesgos dentro y fuera del balance".
A pesar de lo anterior, el VaR es la medida de riesgo que los reguladores de muchos países promueven para monitorear y controlar el riesgo de mercado (ver, por ejemplo, CNBV, 2005) y que el Comité de Basilea (BIS, 2011) emplea para fijar requerimientos mínimos de capital. Como parte de la respuesta a las deficiencias detectadas, el propio Comité ha propuesto recientemente sustituir el VaR por el déficit esperado (ES, por sus siglas en inglés) como métrica de riesgo de mercado (BIS, 2013).
En este contexto, Behr y Poetter (2009) modelan rendimientos diarios de 10 índices accionarios europeos usando las distribuciones hiperbólica, logF y mixturas gaussianas, concluyendo que el ajuste de estas últimas es ligeramente superior en todos los países. Tan y Chu (2012) modelan los retornos de una cartera de inversión usando una mixtura gaussiana y estiman el VaR. Kamaruzzaman, Isa e Ismail (2012) ajustan una mixtura gaussiana de 2 componentes a los retornos logarítmicos mensuales de 3 índices accionarios en Malasia, y en un trabajo distinto (Kamaruzzaman e Isa, 2013) estiman VaR y ES (usando una expresión que es un caso particular de la ecuación (7), más adelante) para los retornos semanales y mensuales de un índice, encontrando mediante backtesting que las mixturas gaussianas son un modelo apropiado. Zhang y Cheng (2005) usan mixturas gaussianas con distinto número de componentes para estimar el VaR de algunos índices de mercado chinos, acotándolo con el VaR de las componentes y vinculándolo con el comportamiento de los movimientos de precio y la psicología de los inversionistas.
Alexander y Lazar (2002) usan un modelo GARCH(1,1) de mixturas gaussianas para tipos de cambio. Encuentran que un modelo de 2 componentes se desempeña mejor que otros con 3 o más componentes y que un modelo GARCH t -Student. Haas, Mittnik y Paolella (2004) introducen una clase general de modelos GARC(p,q) con mixturas gaussianas para índices accionarios. Sus modelos incluyen procesos individuales de varianza muy flexibles pero al costo de perder parsimonia, ya que sus mejores modelos requieren entre 17 y 22 parámetros para modelar los retornos de solo un índice. Hardy (2001) ajusta un modelo log-Normal de cambio de régimen a los retornos mensuales de 2 índices accionarios y estima tanto VaR como ES usando directamente la función de pagos de una opción de venta europea sobre un índice.
En este trabajo postulamos las mixturas gaussiana finitas como un modelo alternativo a los más ampliamente utilizados: Simulación Histórica (SH) y Delta-Normal, que preserva la parsimonia de los anteriores pero captura explícitamente los períodos de alta volatilidad. Así, comparamos 3 modelos para la estimación de métricas de riesgo, uno de ellos no paramétrico, basado en la distribución empírica de los retornos de los factores de riesgo, y 2 más paramétricos, uno basado en la Normal y otro en una mixtura gaussiana finita.
Este trabajo se organiza en 6 secciones y 3 apéndices. En la sección 2 estudiamos las mixturas gaussianas finitas y algunas propiedades relevantes, y luego, en la sección 3, revisamos el algoritmo EM para la estimación de parámetros. Más adelante, en la sección 4 construimos la variable aleatoria de pérdidas para una cartera cuyo valor fluctúa según los retornos de los factores de riesgo e introducimos 2 métricas de riesgo de mercado y sus estimadores. En la sección 5 proponemos una cartera ficticia pero plausible y calculamos sus métricas de riesgo bajo cada uno de los modelos considerados. En la sección 6 exponemos algunas conclusiones. El Apéndice A contiene el desarrollo de las expresiones para el ES de la Normal y la mixtura Gaussiana, y en el Apéndice B se realizan las pruebas de bondad de ajuste para la Normal y la mixtura gaussiana. Finalmente, el Apéndice C muestra el código desarrollado para los cálculos.
Mixturas gaussianas finitas
Decimos que un vector aleatorio X: Ω → ℝd se distribuye de acuerdo a una mixtura (finita) gaussiana (MG) cuando su función de densidad se puede escribir como:
donde ∑ik=1πi =1,πi ∈ (0,1) yϕi(⋅,μi,Σi), i = 1,...,k son densidades Normales d -variadas con parámetros μi ∈ ℝd y Σi ∈ ℝdxd son matrices positivas definidas.
En este esquema, se interpreta que existe una partición del espacio muestral tal que cada una de las densidades ϕ i rige sobre el subconjunto Ω i. Adicionalmente, πi = P Ωi y la probabilidad posterior de cada subconjunto es:
Debido a la linealidad de la integral, la definición anterior se puede escribir en términos de la función de distribución acumulada en lugar de la densidad. Es importante destacar que la familia de mixturas gaussianas finitas es un modelo muy flexible, por lo cual listamos algunas de sus propiedades (ver McLachlan y Peel, 2000):
Incluye a la distribución Normal (con k = 1).
Una mixtura gaussiana finita univariada de k componentes admite 3k -1 parámetros, por lo que es útil para modelar discrepancias continuas de la Normal como asimetría, leptocurtosis, modelos de contaminación, multimodalidad, etc., con frecuencia con k = 2 únicamente.
No es difícil de simular, por lo que se puede usar en procesos de MonteCarlo o en bootstrap .
Se ajusta a hechos estilizados en finanzas, a diferencia de otras distribuciones como la t -Student o la familia de distribuciones hiperbólicas; notoriamente, regímenes de volatilidad de mercado.
Es cerrada bajo convolución.
Esta última propiedad es muy importante y se usará más adelante para obtener medidas de riesgo agregadas. Dado que la hereda de la Normal, la enunciamos para ambas distribuciones:
Propiedad 1 (caso Normal). Si X ∼ N d(μ , Σ) y l (x) =−(c+ω′x), entonces l(X)∼N(μl,σl2), donde μ l = − (c + ω ′μ ) y σl2 = ω′Σω.
Propiedad 2 (caso mixtura gaussiana). Si X∼MGd(π,{μi}ik=1,{Σi}ik= 1) y l (x) = − ω′x, entonces l(X)∼MG(π,{μlj}jk=1,{σl2j}kj=1), donde μlj = −ω′μj y σ2lj = ω′Σjω, j = 1,...,k.
Estimación de parámetros y bondad de ajuste
En la medida que cada una de las densidades está especificada salvo por el valor de un conjunto de parámetros Ψ = (πi,μi,σ2i)ki=1 , la estimación de dichos parámetros puede realizarse mediante máxima verosimilitud. Dada una muestra aleatoria, la función de verosimilitud y su logaritmo se pueden escribir como:
Para simplificar la notación, trabajaremos en una dimensión (d = 1). Los estimadores de los parámetros se obtienen resolviendo el problema de optimización:
Utilizando multiplicadores de Lagrange el problema se transforma en encontrar la solución del sistema de 2k + 1 ecuaciones:
Este sistema no tiene solución cerrada, pero se puede resolver de forma iterativa aplicando el algoritmo de Esperanza y Maximización (EM) de Dempster, Laird y Rubin (1977).
En el paso de Esperanza se estima la probabilidad posterior, dada la muestra, de cada uno de los subconjuntos de la partición del espacio muestral, mediante:
En el paso de Maximización se obtienen los estimadores de los parámetros de cada una de las k densidades individuales, dadas las probabilidades estimadas arriba.
Para una mixtura gaussiana finita univariada arbitraria, la aplicación del algoritmo EM resulta en:
El uso del algoritmo EM para mixturas gaussianas finitas puede resumirse de la siguiente manera: dado un conjunto de valores iniciales πj0, μj0 y σj20j=1,...,k, en cada iteración se estiman secuencialmente las probabilidades posteriores de cada elemento de la partición PΩj|X=xi, las probabilidades de membresía π j, las medias μ j y las varianzas σj2. Las iteraciones se repiten hasta que se alcance algún criterio de convergencia. Para una discusión detallada sobre la elección de valores iniciales, criterios de convergencia y algunas estrategias para incrementar la rapidez de convergencia, consultar McLachlan y Krishnan (1997).
Para estimar los parámetros de las distribuciones supuestas (Normal y mixtura gaussiana) se ha tomado una muestra1 de 1,339 retornos diarios (64 meses a partir de enero de 2008) de la tasa soberana mexicana en pesos de 6 meses (Cetes), el tipo de cambio USDMXN y el Naftrac02. Los estimadores para el supuesto de normalidad son los estimadores insesgados usuales. En el caso de la mixtura gaussiana se programó en VBA de Microsoft Excel una rutina para implementar el algoritmo EM multivariado y se ajustó una mixtura Normal tridimensional de 2 componentes. En las Tablas 1 y 2 se muestran los estimadores tanto de la Normal como de la mixtura, respectivamente, con errores estándar entre paréntesis.
Tabla 2 Estimadores (×10−4) de la mixtura gaussiana con errores estándar.

Fuente: elaboración propia.
Obsérvese que los estimadores de la mixtura gaussiana satisfacen la interpretación usual para el caso de 2 componentes: una de las componentes muestra el comportamiento observado de los retornos durante la mayor parte del tiempo, mientras que la otra componente expone los retornos en situaciones de estrés, por lo que tiene una media bien diferenciada de la primera componente y una dispersión significativamente mayor. Así, por ejemplo, para el factor de riesgo USDMXN se tiene que durante el período de muestra el peso se depreció a un ritmo promedio 0.080% diario, lo cual se descompone en una apreciación promedio diaria de 0.013% durante el 81% del tiempo, con una volatilidad anual de 8.97% y una depreciación promedio diaria de 0.098% durante el restante 19% del tiempo, con una volatilidad anual de 24.12%, 2.7 veces la volatilidad en tiempos usuales.
La Tabla B.2 del Apéndice B muestra que la mixtura gaussiana de 2 componentes es un modelo adecuado para los retornos tanto del tipo de cambio USDMXN como del Naftrac02, no así para la tasa Cetes, siempre de acuerdo a la prueba de Kolmogorov-Smirnov. La Figura B.3 del mismo Apéndice muestra que, a pesar de no pasar la prueba de hipótesis, la bondad de ajuste con la mixtura gaussiana es mejor que con la distribución Normal. Queda abierta la pregunta del número de componentes a incluir en la mixtura gaussiana para pasar la prueba.
Distribución de pérdidas y métricas de riesgo
En esta sección construimos la variable aleatoria de pérdidas mediante un operador lineal que la aproxima para cambios pequeños en los factores de riesgo y definimos las medidas de riesgo a ser calculadas sobre dicha distribución, así como sus estimadores para cada uno de los modelos analizados.
Dada una cartera de activos sujetos a riesgo de mercado, considérese la variable aleatoria de pérdidas diarias de la cartera. En concordancia con la literatura de distribuciones de pérdida se supondrá que las pérdidas son positivas y las utilidades negativas. Su aproximación lineal (delta , en la nomenclatura de cobertura con derivados), en términos de las derivadas parciales respecto del tiempo y los factores de riesgo, está dada por la ecuación (1). Si la función f tiene derivadas de segundo orden no despreciables, la aproximación (1) puede incluirlas, con lo que se tendría un modelo Delta-Gamma .
Los momentos de la variable aleatoria de pérdida son, a partir de la ecuación (1) y suponiendo que f t= 0 (lo cual es cierto para incrementos pequeños de tiempo):
En adelante supondremos que los retornos Xt provienen de un proceso estacionario, es decir, son variables aleatorias (Va) independientes e idénticamente distribuidas (iid) y podemos eliminar el subíndice t . A continuación se definen las métricas de riesgo VaR y ES.
Sea L la va de pérdida y F L: ℝ → [0,1] su función de distribución. El VaR para un nivel de confianza α∈0,1 se define como:
Supóngase además que E|L| < +∞. El ES para un nivel de confianza α ∈ (0,1) se define como:
Obsérvese que el VaR no es más que el percentil α de la distribución de pérdida y que el ES es el promedio de los percentiles sobre todos los niveles de confianza superiores o iguales a α , siempre que la distribución de pérdida sea continua. En tal caso, la siguiente propiedad (ver McNeil, Frey y Embrechts, 2005) provee una herramienta útil de cálculo:
Pasamos ahora a la estimación de las métricas de riesgo. Si la distribución de L es de localización y escala, el cálculo del VaR solo depende de los momentos descritos en la ecuación (2):
donde q α es el percentil α de una distribución F L con parámetros de localización y escala cero y uno, respectivamente.
La Propiedad 1 garantiza que bajo el modelo paramétrico Delta-Normal L se distribuye como una Normal univariada, y en este caso la ecuación (4) provee el estimador de VaR. Aun cuando la evidencia estadística indica que la distribución de L no es Normal (ver Apéndice B), conservamos este modelo como parámetro de comparación. Para el modelo SH la distribución de L es la empírica y basta con tomar el estadístico de orden adecuado para obtener:
donde L (j) es el j -ésimo estadístico de orden, n es el tamaño de la muestra y u es el mayor entero que es menor o igual a u . Finalmente, para el modelo Delta-mixtura gaussiana (que denotaremos Delta-MG), la Propiedad 2 garantiza que la distribución de L es una mixtura gaussiana univariada finita, y en tal caso es necesario resolver numéricamente para q α la ecuación:
Por lo que respecta al ES, en el Apéndice A se derivan las expresiones para los modelos paramétricos considerados, mientras que para el modelo SH el estimador se construye usando la distribución empírica a partir de la ecuación (3). Las expresiones para los 3 modelos se listan a continuación:
donde zj,α=qα−μj/σj y q α satisface la ecuación (6).
Estimación de Valor en Riesgo y déficit esperado
En esta sección se propone una cartera de activos con exposición a los 3 tipos usuales de factores de riesgo (tasas de interés, precios de acciones y tipos de cambio). Luego se emplea el modelo Delta-MG para el cálculo tanto de VaR como de ES a partir de las sensibilidades de la cartera a los factores de riesgo. Este resultado se compara con los mismos cálculos usando los métodos de SH y Delta-Normal.
La cartera considerada contiene 3 instrumentos: una posición de 50 millones de dólares (USD), 25,000 millones nominales (MXN) de un bono soberano cupón cero (Cetes) con vencimiento en 6 meses y 10 millones de títulos de Naftrac02, un fondo listado en el mercado bursátil (ETF) que replica el desempeño del Índice de Precios y Cotizaciones (IPC) de la Bolsa Mexicana de Valores. Por simplicidad, este instrumento será tratado como una acción individual y no como un fondo. Así la cartera consta de 3 instrumentos. La Tabla 3 muestra para cada uno el valor a mercado al 30 de abril de 2013 y las sensibilidades a los factores de riesgo considerados.
Tabla 3 Cartera valorizada a mercado y sensibilidades.

Fuente: elaboración propia con datos de Bloomberg.
Un aspecto a destacar es que tanto bajo el supuesto de normalidad como usando el modelo de mixtura gaussiana, la media de la distribución de pérdidas de la cartera (Propiedades 1 y 2) es la misma (MXN −533 mil diarios), mientras las desviaciones estándar de dicha distribución son muy similares: MXN 7.325 millones bajo normalidad y MXN 7.308 millones. Es decir, el modelo de mixturas gaussianas no modifica ni el centro de masa ni la dispersión de la distribución de interés, sino que tan solo los segmenta en componentes.
Pasamos ahora a la estimación de medidas de riesgo usando los 3 métodos: SH, Delta-Normal y Delta-MG. En los 3 casos consideramos el vector de ponderaciones como la última columna (sensibilidad) de la Tabla 3. El VaR se ha estimado como el percentil 99 de la distribución de pérdidas de la cartera. El cálculo es directo tanto para la distribución empírica como para la Normal (ecuaciones 4 y 5), pero no así para la mixtura gaussiana, por lo que se ha desarrollado un código en Matlab para estimar el percentil deseado de una mixtura gaussiana univariada con un número arbitrario de componentes usando la ecuación 6. La Tabla 4 resume el VaR para cada instrumento y la cartera en su conjunto.
En la Tabla 5 se aprecia el ES para cada instrumento y la cartera para cada uno de los 3 modelos estimados según la ecuación 7.
Conclusiones
Las pruebas de bondad de ajuste del Apéndice B muestran que la Normal no es un modelo adecuado para ninguno de los factores de riesgo considerados. Las mixturas gaussianas, en cambio, muestran adecuadamente los retornos tanto del tipo de cambio como del ETF, no así los de la tasa de interés, con un ajuste evidentemente mejor que la Normal. Una posible causa de esta falta de ajuste es la combinación de 2 factores: muchos días con cambios muy pequeños en las tasas y que el período elegido incluye toda la crisis crediticia internacional, en el que hubo constantes cambios en la tasa de política monetaria. Ambas situaciones introducen saltos discretos en la tasa de los bonos de corto plazo.
La comparación de las Tablas 4 y 5 nos permite afirmar que entre los 3 modelos de riesgo considerados, Delta-Normal es el más agresivo, en el sentido que reporta la menor pérdida potencial tanto para VaR como para ES. Consideramos, sin embargo, que su mayor debilidad radica en que al poseer muy poca masa en la cola de la distribución, de tal suerte que el cambio (propuesto por Basilea III) de migrar de VaR a ES como métrica estándar de riesgo de mercado significa un incremento pequeño de 15% en la cartera estudiada. Si bien esto puede ser benéfico en términos de ahorro de capital, por otro lado puede exponer a las instituciones a pérdidas significativas al ocurrir rachas de alta volatilidad.
Por su parte, el modelo de SH sufre un ajuste significativo del 40% entre VaR y ES. Esto confirma su fuerte dependencia de la muestra utilizada dada la ventana histórica elegida para el ejercicio actual, en la que se observaron retornos muy grandes en comparación con la media de la distribución empírica.
Por último, el modelo de mixturas gaussianas finitas, al incorporar de forma explícita una componente para los períodos de alta volatilidad, entrega los datos de VaR más conservadores: 10% más grandes que SH y 29% mayores que Delta-Normal. Esta es una distribución leptocúrtica que sin embargo es muy versátil y se adapta a la volatilidad observada para cada factor de riesgo. Así, en la cartera estudiada, el ES para el Naftrac02 es solo 17% mayor que el VaR, para el Cete es 29% mayor y para el tipo de cambio es 35%. En contraste con el modelo Normal, las medidas crecen uniformemente un 15%, como se indicó antes.
Si bien las medidas de riesgo obtenidas bajo un modelo u otro pueden parecer más o menos conservadoras, tratándose de requerimientos de capital para una institución financiera, no se desea ser demasiado conservador, por la implicación que tiene mantener capital improductivo. En este sentido, y considerando que no ha sido posible obtener un modelo satisfactorio para los retornos de las tasas de interés, el criterio óptimo de decisión entre modelos debería fundamentarse en una prueba de validación comparando las frecuencias esperadas y observadas de pérdidas en exceso a las pronosticadas. Esto constituye el trabajo inmediato futuro para discriminar objetivamente entre modelos.