Toma de decisiones de agentes racionales con procesos markovianos. Avances recientes en economía y finanzas

Hernández-Lerma, Onésimo; Venegas-Martínez, Francisco; Hernández-Lerma, Onésimo; Venegas-Martínez, Francisco

Servicios Personalizados

Revista

Articulo

Indicadores

Citado por SciELO
Accesos

Links relacionados

Similares en SciELO

Otros
Otros

Permalink

El trimestre económico

versión On-line ISSN 2448-718Xversión impresa ISSN 0041-3011

El trimestre econ vol.79 no.316 Ciudad de México oct./dic. 2012

Perspectiva económica

Toma de decisiones de agentes racionales con procesos markovianos. Avances recientes en economía y finanzas

Onésimo Hernández-Lerma^*

Francisco Venegas-Martínez^**

^{^*}Departamento de Matemáticas, Centro de Investigación y Estudios Avanzados (correo electrónico: ohernan@math.cinvestav.mx).

^{^**}Escuela superior de Economía, Instituto Politécnico Nacional (correo electrónico fvenegas1111@yahoo.com.mx).

Resumen:

En esta investigación se revisa la evolución teórica y práctica de los procesos markovianos y se resalta su rápido avance y notorio potencial en el modelado de los procesos de toma de decisiones de agentes racionales. Dichos procesos han incorporado dinámicas más realistas en el comportamiento de diversas variables económicas y financieras que enriquecen, el análisis en ambientes con riesgo e incertidumbre. Particularmente, se destacan diversas extensiones y reformulaciones de procesos markovianos de decisión, juegos estocásticos, optimalidad de Blackwell para procesos de difusión controlados, control óptimo estocástico con procesos de difusión y su combinación con saltos de Poisson, modelado de series de tiempo con cadenas de Markov y, por último, redes bayesianas con cadenas de Markov en conjunción con simulación Monte Carlo (MCMC).

Palabras clave: modelos de optimación; procesos markovianos; teoría de decisiones

Abstract:

This research conducts a review of theoretical and practical developments of Markov processes in the specialized literature, highlighting their recent advances and showing their potential for their technical goodness, in modeling the decision making processes of rational agents adding more realistic dynamics of various economic and financial variables. In particular, the paper highlights several extensions and reformulations of Markov decision processes, stochastic games, stochastic optimal control with diffusion processes, Blackwell optimality for controlled diffusion processes, stochastic optimal control processes with diffusion processes and its combination with Poisson jumps; time series models with Markov chains, and Bayesian networks with Markov chains in conjuntion with Monte Carlo simulation (MCMC).

Clasificación JEL: C60, C73, C81, C70.

Introducción

Los modelos deterministas que se utilizan en economía y finanzas, en general, carecen de utilidad en la generación de pronósticos. Estos modelos tampoco proporcionan explicaciones coherentes con las dinámicas observadas de las variables en análisis y mucho menos ayudan a describir el comportamiento racional de los agentes económicos. En consecuencia es necesario abandonar el paradigma determinista y tomar en cuenta las distribuciones de variables relevantes con el fin de modelar sus dinámicas de manera más realista. Esto, por supuesto, no es sólo una refinación más en el modelado, sino una necesidad irremisible.

Por otra parte, las lecciones de la crisis mundial 2007 2009 hacen ineludible replantear el modelado del riesgo y la incertidumbre en los procesos de toma de decisiones de los agentes. Las exigencias mismas de la realidad contingente han motivado un sinnúmero de extensiones de las teorías existentes y la reformulación de nuevos paradigmas teóricos. En particular, los procesos markovianos de decisión, los juegos estocásticos y el control óptimo estocástico, han tenido un desarrollo notorio en los años recientes, como se puede apreciar en ^{Prieto Rumeau y Hernández Lerma (2012)} en juegos markovianos y cadenas de Markov en tiempo continuo; ^{Guo y Hernández Lerma (2009)} en procesos markovianos de decisión en tiempo continuo; ^{Hernández Lerma y Lasserre (1996)} en criterios de optimalidad de proceso markovianos controlados en tiempo discreto; ^{Hernández Lerma y Lasserre (1999)} por su investigaciones en procesos markovianos controlados en tiempo discreto; Hernández Lerma y Lasserre (2003) en cuanto a cadenas de Markov y probabilidades invariantes;^¹ ^{Hernández Lerma (1989)} por sus aportaciones en procesos markovianos adaptativos; y ^{Hernández Lerma (1990)} y ⁽¹⁹⁹⁴⁾ por sus contribuciones a los procesos markovianos en tiempo discreto. Por último, respecto a aplicaciones de procesos markovianos en economía y finanzas se destacan los trabajos de ^{Polanco Gaytán y Venegas Martínez (2011)} de economía estocástica y ^{Venegas Martínez, Torres Preciado y Tinoco Zermeño (2010)} del modelado estocástico de los mercados financieros de capitales, deuda y derivados.

El propósito del presente artículo es realizar una revisión, la cual no pretende ser extensa, de los procesos markovianos, con hincapié en sus avances y reformulaciones. Muchas de las contribuciones recientes en procesos markovianos de decisión, juegos estocásticos y control óptimo estocástico se deben a Onésimo Hernández Lerma y a sus colaboradores en todo el mundo. Una ventaja didáctica de las aportaciones de sus investigaciones en el modelado del proceso de la toma secuencial de decisiones de agentes racionales, en tiempo discreto o continuo y en ambientes con riesgo e incertidumbre, es que todas sus investigaciones proporcionan una visión unificada y congruente.

Este trabajo está organizado de la siguiente manera: en la próxima sección se revisa los procesos markovianos de decisión; en la sección II se estudia los juegos markovianos; en la sección III se examina la optimalidad de Blackwell para procesos markovianos de difusión controlados; en el transcurso de la sección IV se revisa la teoría de control óptimo estocástico con procesos markovianos de difusión; a través de la sexta sección se analizan los problemas de control óptimo estocástico en tiempo continuo con procesos markovianos combinados con saltos de Poisson; en la sección VI se presenta los modelos de series de tiempo que incluyen cadenas de Markov; en la sección VII se revisa las redes bayesianas con cadenas de Markov y simulación Monte Carlo (MCMC); por último, se proporciona las conclusiones, destacando las áreas de oportunidad para extender la teoría y desarrollar nuevas aplicaciones.

I. Procesos markovianos de decisión

Existen muchos sistemas económicos y financieros en los que los hechos futuros tienen asociada una distribución de probabilidad que depende sólo del presente, en cuyo caso podría ser idóneo modelarlos con cadenas de Markov. Varias preguntas surgen en el comportamiento de una cadena de Markov: ¿cómo evoluciona un proceso de este tipo? ¿Converge, en algún sentido, en un estado estacionario? ¿Qué tan rápido converge? Estas preguntas han sido ampliamente contestadas en la bibliografía cuando la cadena de Markov tiene un número finito de estados. Pero ¿qué sucede cuando hay un número infinito de estados, numerable o continuo? Al respecto, ^{Hernández Lerma y Lasserre (2003)} se ocupan de las cadenas de Markov homogéneas en tiempo discreto con espacios arbitrarios de estados y con un comportamiento ergódico descrito con medidas de probabilidad invariantes. En particular, esta sección se concentra en procesos markovianos controlados de decisión en tiempo discreto y con horizonte de planeación finito o infinito. Muchos fenómenos y situaciones de interés en economía y finanzas son susceptibles de ser modelados con este esquema;^² por ejemplo, la toma de decisiones de consumo, producción, inversión y la evaluación de proyectos de inversión, ya sea en el corto o largo plazos.

Una clase relevante de procesos de control la constituyen los procesos de control markovianos. La evolución de estos procesos en tiempo discreto se puede describir como sigue. El sistema se encuentra, inicialmente, en el estado i ₀ = x, entonces el controlador elige una acción (o control) a0 = a, lo que genera un costo, r(x, α), que depende del estado y el control. Posteriormente, el sistema se mueve a un nuevo estado i ₁ = y de acuerdo con una ley de transición en la que el futuro sólo está determinado por el presente. Este procedimiento se repite y los costos se acumulan. Se dice que {i_n : n = 1, 2, ...} es un proceso de control markoviano, en tiempo discreto, si para cualquier estrategia π (una función de las sucesiones de estados acciones) y cualquier n = 0, 1, ..., la distribución en n + 1, dada toda la trayectoria del proceso hasta n, depende sólo del estado y la acción en n. Los estados y las acciones son colecciones de variables aleatorias, definidas en un espacio de probabilidad adecuado, y el objetivo es encontrar una política de control que optimice un criterio de desempeño (en términos de valores esperados).

A continuación se presenta, de manera sucinta, los elementos que integran un proceso markoviano de decisión, abreviado mediante {S, A, K, q, r}. Considérese una cadena de Markov controlada en tiempo discreto con: i) un espacio de estados, finito o numerable, S; ii) un espacio medible de acciones, A, equipado con una σ-álgebra A que contiene todos los subconjuntos congruentes de un elemento de A; en este caso, el conjunto de restricciones se representa mediante K = S x A; iii) para cada estado i ∈ S existe un conjunto de acciones A(i) disponibles; estos conjuntos se suponen elementos de A; iv) una matriz de probabilidades de transición [q(j|i, α)]; para cada i, j∈S y α ∈ A(i) la función q(j|i, α) es no negativa y medible, y Σ _j∈Sp(j|i, α) para cada i∈S y α ∈A, y v) una función r: K →ℝ, llamada la utilidad, ganancia o costo dependiendo del contexto.

Sea H_n = Sx(SxA) ⁿ el espacio de trayectorias hasta el tiempo n=0, 1,...,∞.

Sea

el espacio de todas las trayectorias finitas. Los espacios H_n y H están equipados con las σ-álgebras generadas por 2^s y A. Una estrategia π es una función que asigna a cada trayectoria de estados y acciones h_n = (i ₀, i _α, i ₁, α ₁, ... i_n-1, α_n-1, i_n )∈ H_nn = 0, 1, ..., una medida de probabilidad π(∙, h_n ) definida en (A, A) que satisface las siguientes condiciones: i) π(A(i_n │h_n )=1, y ii) para cualquier B ∈ A la función π(B│∙) es medible en H.

Una estrategia de Markov φ es una sucesión de funciones φ_n : S →A, n = 0,1,..., tal que φ_n ∈A(i) para cualquier i∈ S. Se dice que una estrategia de Markov φ es (N, ∞)-estacionaria, en la que N = 0, 1, ..., si φ_n (i) = φ_N (i) para cualquier n = N + 1 + N + 2, ... y para cualquier i∈S. A una estrategia (0, ∞)-estacionaria se le llama, simplemente, estacionaria. De esta manera, una estrategia estacionaria se determina por una función φ:S →A tal que φ∈A(i), i ∈S.

Una estrategia estacionaria aleatorizada φ es definida por sus distribuciones condicionales φ (∙│i), i ∈S de (A, A) de manera que φ(A(i)│i) = 1para cualquier i ∈S. Obsérvese que en esta construcción "canónica", los procesos de estados y de acciones son colecciones de variables aleatorias. El conjunto EC de todas las sucesiones de estados-acciones (i ₀, α ₀, i ₁, α _i,..., i_n-1, α_n-1, i_n, α_n ,...) y su correspondiente σ-álgebra producto, F, forman un espacio medible (H _∞ F). Así, cada estrategia π y estado inicial i ₀ = x inducen una única medida de probabilidad ℙXπ en H _∞, en cuyo caso se denota al operador de esperanza por 𝔼Xπ. Así, la utilidad total descontada^³ cuando el estado inicial es i y la estrategia utilizada es π está dada por

en la que β∈(0,1) es el factor de descuento. La función de valor del problema planteado se define mediante

Sea ∈ una constante no negativa. Una estrategia π* se llama ɛ-óptima si, para toda i.

Una estrategia 0-óptima se llama, simplemente, óptima.

Respecto del esquema anterior, ^{Hernández Lerma (1989)} considera sistemas de control estocástico parcialmente observables, en tiempo discreto. El autor estudia el problema de control adaptativo no paramétrico, en un horizonte infinito, con el criterio de ganancia total descontada y proporciona las condiciones para que una política adaptativa sea asintóticamente óptima, así mismo establece condiciones para aproximar uniformemente, casi seguramente, la función de ganancia óptima. Su trabajo combina resultados de convergencia con problemas de control estocástico adaptativo y paramétrico.

Asimismo, ^{Hernández Lerma (1986)} proporciona procedimientos de discretización de procesos markovianos de control adaptativo, en tiempo discreto, con un número finito de estados y en un horizonte infinito, los cuales dependen de parámetros desconocidos. En su investigación las discretizaciones se combinan con un esquema coherente de estimación de parámetros para obtener aproximaciones uniformes a la función de valor óptimo, así como para determinar políticas de control adaptativas asintóticamente óptimas.

Por otra parte, ^{Hernández Lerma (1985)}, con el criterio de ganancia descontada y con un espacio de estados numerable, estudia los procesos semimarkovianos de decisión que dependen de parámetros desconocidos. Dado que los valores verdaderos de los parámetros son inciertos, el autor proporciona un esquema iterativo para determinar asintóticamente la máxima ganancia total descontada. Las soluciones toman el esquema iterativo de valor no estacionario de ^{Federgruen y Schweitzer (1981)} y se combinan con el principio de estimación y control para el control adaptativo de procesos semimarkovianos de ^{Schäl, (1987)}.^⁴

Por último es importante destacar que ^{Hernández Lerma (1986)} extiende el esquema iterativo introducido por ^{White (1980)} para un número finito de estados con el propósito de aproximar la función de valor de un proceso markoviano con un conjunto numerable de estados a un espacio multidimensional numerable de estados. Con los mismos supuestos de ^{White (1980)}, el autor proporciona un esquema iterativo para determinar asintóticamente una política óptima descontada, la cual, a su vez, se puede utilizar para obtener una política óptima estacionaria.^⁵

II. Juegos markovianos en tiempo continuo

En esta sección se formaliza un juego estocástico de suma 0 con dos jugadores en tiempo continuo y homogéneo.^⁶ Los elementos que conforman dicho juego se expresan de manera abreviada como {S, A, B, K_A, K_B, q, r}. Aquí, S es el espacio de estados, el cual se supone numerable, y A y B son los espacios de acciones para los jugadores 1 y 2, respectivamente. Estos espacios se suponen espacios polacos (es decir, espacios métricos, separables y completos). Los conjuntos K_A ⊂S x A y K_B ⊂S x B son espacios de Borel que representan conjuntos de restricciones. Es decir, para cada estado i ∈S, la i-sección en K_A , a saber, A(i):= { α∈ A (i, α) ∈ K_A }, representa el conjunto de acciones admisibles para el jugador 1 en el estado i; similarmente, la i-sección en K_B, B(i) := {b ∈B|(i, b)∈K_B }, representa la familia de acciones admisibles para el jugador 2 en el estado i. Considérese ahora el subconjunto de Borel dado S x A x B y sea

La componente q denota la matriz de tasas de transición del juego [q(j│i, α, b)] la cual satisface q(j│i, α, b) ≥ 0 para toda (i, α, b) ∈ K, i ≠ j y se supone conservativa, es decir,

y estable, esto es,

en la que q_i (α, b) = -q(i |i, α, b) para toda α∈ A(i) y b ∈B(i). Además, q(i |i, α, b) es una función medible en A x B para i, j ∈ S fijas. Por último, r: K→ℝ es la tasa de ganancia (o utilidad) del jugador 1 (o la tasa de pérdida para el jugador 2).

Los jugadores 1 y 2 observan con frecuencia el estado presente del sistema. Siempre que el sistema esté en el estado i∈ S en el momento t ≥0, los jugadores eligen de manera independiente las acciones α∈ A(i) y b ∈B(i) conforme a algunas "estrategias admisibles" introducidas más adelante. Como una consecuencia de esto, ocurre lo siguiente: i) el jugador 1 recibe una ganancia r(i, α_t, b_t ); ii) el jugador 2 incurre en una pérdida r(i, α_t, b_t ) (se dice que el juego es de suma 0 porque lo que un jugador gana, el otro irremediablemente lo pierde), y iii) el sistema se mueve a un nuevo estado EC con una función de transición de probabilidad posiblemente no homogénea determinada por las tasas de transición [q(i |i, α, b)]. El objetivo del jugador 1 es maximizar su ganancia, mientras que para el jugador 2 es minimizar su pérdida respecto a algún criterio de desempeño, V_α, el cual se definirá posteriormente.

Sea X es un espacio polaco y denótese por B(X) su σ-álgebra de Borel, y por P(X) el espacio de Borel de medidas de probabilidad definidas de X, equipado con la topología de convergencia débil. Una estrategia markoviana para el jugador 1, denotada por π ¹, es una familia {πt1, t ≥ 0} de núcleos estocásticos que satisfacen: i) para cada t ≥ 0 e i∈ S, πt1(∙|i) es una medida de probabilidad de A tal que πt1Aii=1, y ii) para cada E∈B(A) e i∈ S, πt1(E|i) es una función Borel medible para t ≥ 0.

Sin pérdida de generalidad, en virtud de i), también se puede ver a πt1(∙|i) como una medida de probabilidad de A(i). Asimismo, se denotará por Π1m a la familia de todas las estrategias markovianas del jugador 1. Una estrategia markoviana π ¹ = {πt1∙it ≥ 0∈ Π1m} es llamada estacionaria si para cada i∈ S existe una medida de probabilidad πt1∙i∈ P(Ai) tal que πt1∙i∈ π1∙i para toda t ≥ 0. Esta política se denota mediante {πt1∙i, i∈ E}. El conjunto de todas las estrategias estacionarias del jugador 1 es denotada por EC. La misma notación es utilizada para el jugador 2, con P(B(i)) en lugar de P(A(i)). Para cada par de estrategias, π1,π2:={ πt1, πt2, t ≥ 0∈ Π1mxΠ2m, las tasas de ganancia y transición se definen, respectivamente, para cada i, j ∈ S y t ≥0, como:

En particular, cuando π1 y π2 son ambas estacionarias, las expresiones anteriores se escriben, por lo común, como q(j|i,π1,π2) y r(i, π1,π2), respectivamente. Considérese ahora la matriz Qt, π1,π2=[qj|i, t, π1,π2], una función de transición (tal vez subestocástica) p-s,i, t,j, π1,π2 para la cual Qt, π1,π2 es su matriz de tasas de transición, es decir,

para todo i, j ∈ S y s ≥0 es llamada un proceso del tipo Q. Un proceso de tipo Q,p-s,i, t,j, π1,π2] es llamado honesto si

para toda i, j ∈ S y s ≥0.

A continuación se define Π1 y Π2 como subconjuntos de estrategias markovianas que contienen a Π1s y Π2s y que satisfacen la condición de continuidad de las correspondientes tasas de transición para t ≥0 y para cada estrategia en Π1 y Π2. De esta manera, qj|i, t, π1,π2 es continua en t ≥0 para todo i, j ∈ S y π1,π2∈Π1xΠ2.

Para cada pareja de estrategias π1,π2∈Π1xΠ2, los datos iniciales (s, i) ∈ S -≔[0,∞ x S y un factor de descuento α > 0 el criterio de pago descontado Vαs, i, π1,π2] se define como

Las siguientes dos funciones:

definidas de S- son llamadas el valor inferior y el valor superior, respectivamente, del juego con pago descontado. Es claro que

Si L(s, i) = U(s, i) para toda (s, i)∈S- entonces a la función común se le llama el valor del juego y es denotada por V. Supóngase que el juego tiene un valor V, entonces una estrategia π*1 en Π1 se dice que es óptima para el jugador 1 si

Similarmente, π*2 en Π2 es óptima para el jugador 2 si

Si π*k∈Πk es óptima para el jugador k (k = 1, 2), entonces el par (π ^*1, π ^*2) es llamado una estrategia óptima.

Respecto al planteamiento anterior es importante destacar que ^{Guo y Hernández Lerma (2005a)} estudian juegos de suma 0 de dos personas para cadenas de Markov en tiempo continuo, con la posibilidad de que las utilidades y las tasas de transición sean no acotadas, esto según el criterio de utilidad total descontada.^⁷ Estos autores proporcionan las condiciones en las cuales se garantiza la existencia del valor del juego y obtiene estrategias estacionarias óptimas mediante la ecuación de optimalidad de ^{Shapley (1953)}. Asimismo, ^{Guo y Hernández Lerma (2005a)} proponen un esquema de iteración de valores y demuestran su convergencia. El esquema converge hacia el valor del juego y también hacia estrategias estacionarias óptimas. Por otra parte, cuando las tasas de transición son acotadas, se demuestra que la convergencia de esquema de iteración de valores es exponencial. Otro trabajo relacionado es el de ^{Hernández Lerma y Lasserre (2001b)}, quienes analizan el caso de juegos estocásticos de suma 0 con dos jugadores en espacios de Borel con el criterio de pago promedio. Este criterio de ganancia (esperada) media se precisa a continuación. Para cada política de control medible f y x∈ℝn se define la ganancia promedio esperada de f dado el estado inicial x∈ℝn, con la tasa de ganancia r(t, x(t), f), como

La función

con x∈ℝn, es llamada la ganancia promedio óptima. Si existe una política f* para la cual

para toda x∈ℝn, entonces f* es llamada la política promedio óptima.

Respecto al esquema anterior, ^{Jasso Fuentes y Hernández Lerma (2008)} proporcionan las condiciones para la existencia de políticas rebasantes óptimas para una clase general de los procesos de difusión controlados. La caracterización es de tipo lexicográfico, es decir, en primer lugar se identifica la clase de las llamadas políticas canónicas y, posteriormente, dentro de esta clase se buscan políticas con alguna característica especial, por ejemplo, políticas canónicas que además maximizan el sesgo.^⁸

Por otro lado, ^{Escobedo Trujillo y Hernández Lerma (2011)} estudian difusiones controladas moduladas con una cadena de Markov. Una difusión controlada modulada con una cadena de Markov es una ecuación diferencial estocástica de la forma

en la Ψ(t) es una cadena de Markov irreducible en tiempo continuo con un espacio de estados finito S ={1, 2,...,N} y probabilidades de transición

Para estados i ≠ j la cantidad q_ij es la tasa de transición de pasar de i a j, mientras que

Estos autores proporcionan las condiciones para la existencia y la caracterización de políticas rebasantes óptimas. Para ello, primero, utilizan el hecho de que la ganancia promedio de la ecuación de Hamilton, Jacobi Bellman asegura que la familia de las políticas de control canónicas es no vacío. Posteriormente, dentro de esta familia, se caracterizan las políticas canónicas que maximizan el sesgo y que son rebasantes óptimas.^⁹

Asimismo, ^{Jasso Fuentes y Hernández Lerma (2007)} estudian una clase general de los procesos markovianos de difusión con ganancia media esperada (también conocido como ganancia ergódica) y proporcionan algunos criterios "sensibles" al descuento. Estos autores dan las condiciones con las cuales varios criterios de optimalidad son equivalentes. Otros trabajos relacionados se encuentran en: ^{Guo y Hernández Lerma (2003a)} al estudiar cadenas de Markov controladas en tiempo continuo; ^{Guo y Hernández Lerma (2003b)} al proporcionar condiciones de tendencia y monotonicidad para procesos markovianos de control en tiempo continuo con el criterio de pago promedio; ^{Guo y Hernández Lerma (2003c)} que analizan cadenas de Markov controladas en tiempo continuo con el criterio de pagos descontados, y ^{Hernández Lerma y Govindan (2001)} quienes investigan el caso de procesos markovianos de control no estacionarios con pagos descontados en un horizonte infinito.

Asimismo, ^{Guo y Hernández Lerma (2003d)} han estudiado juegos de suma 0 de dos personas para cadenas de Markov en tiempo continuo con un criterio de ganancia media (o promedio). Las tasas de transición pueden ser no acotadas, y las tasas de ganancia pueden no tener cotas superiores ni inferiores. Respecto a las condiciones de tendencia y monotonicidad de los procesos de Markov en tiempo continuo, estos autores proporcionan las condiciones en los datos primitivos de un sistema controlado, en las cuales se garantiza la existencia del valor del juego y un par de fuertes estrategias estacionarias óptimos mediante el uso de la ecuación de optimalidad de ^{Shapley (1953)}. Por último, presentan una caracterización de martingala de un par de estrategias óptimas estacionarias.

Por otra parte, ^{Guo y Hernández Lerma (2005b)} realizan un estudio de juegos de suma no 0 de dos personas para cadenas de Markov en tiempo continuo con el criterio de pago descontado en espacios de acción de Borel. Las tasas de transición son, posiblemente, no acotadas, y las funciones de pago podrían no tener cotas superiores ni inferiores. En este trabajo se proporciona las condiciones que garantizan la existencia de equilibrios de Nash en estrategias estacionarias. Para el caso de juegos de suma 0, demuestran la existencia del valor del juego, y también proporcionan una manera recursiva de calcularlo, o al menos aproximarlo. Estos autores también demuestran que si las tasas de transición están uniformemente acotadas, entonces un juego de tiempo continuo es equivalente, en cierto sentido, a un juego Markoviano en tiempo discreto.

Por último, ^{Guo y Hernández Lerma (2007)} extienden sus investigaciones de juegos de suma 0 de dos personas para procesos de Markov de saltos en tiempo continuo con un criterio de pago con descuento. Los espacios de estados y de acciones son espacios polacos (espacios métricos, separables y completos), las tasas de transición pueden ser no acotadas, y las tasas de ganancia pueden no tener cotas superiores ni inferiores. En este trabajo, los autores extienden los resultados en ^{Guo y Hernández Lerma (2003d)} a procesos markoviano de saltos en tiempo continuo.

Si se supone que J_T (f) denota la ganancia total esperada durante el intervalo de tiempo [0, T] cuando se utiliza la política de control f, y se define como

la ganancia promedio correspondiente, si f y f´son dos políticas tales que

para toda T > 0 y algún θ ∈(0,1) entonces se tienen dos políticas que producen la misma ganancia aunque sus ganancias en un horizonte finito son diferentes. Así, el criterio de ganancia promedio no distingue entre las políticas f y f´. Para evitar este comportamiento se impone condiciones con las cuales las ganancias en un horizonte finito de políticas estacionarias son forzosamente de la forma

en la que h_f (∙) es el sesgo de f y e(f, T) es el término residual que tiende a 0 cuando T →∞ En consecuencia, si f y f´ son dos políticas estacionarias con la misma ganancia promedio, entonces

Si además se supone que h_f (∙) ≥ h_f (∙), entonces la política f, la cual tiene un sesgo mayor, finalmente rebasará a f´ en el sentido de que para cualquier ɛ > 0 dado

para toda T suficientemente grande. En otras palabras, la maximización de la función de sesgo, dentro de la clase de políticas óptimas de ganancia, permite obtener la política con mayor crecimiento. Al respecto, ^{Escobedo Trujillo, López Barrientos y Hernández Lerma (2012)} tratan con juegos diferenciales estocásticos de suma 0 con ganancias promedio en el largo plazo. Su principal objetivo es proporcionar las condiciones para la existencia y caracterización de equilibrios óptimos en sesgo y rebasantes. Primero caracterizan la familia de estrategias óptimas de ganancias promedio. Posteriormente, en esta familia, se imponen condiciones adecuadas para determinar las subfamilias de los equilibrios en sesgo y rebasantes. Un aspecto esencial para conseguir esto es demostrar la existencia de soluciones de las ecuaciones de optimalidad de ganancia promedio. Esto se hace mediante el enfoque usual del "descuento desvaneciente". Asimismo, ^{Prieto Rumeau y Hernández Lerma (2005)} tratan con juegos markovianos de suma cero de dos personas en tiempo continuo con un espacio de estados numerable, espacios de Borel arbitrarios de acciones y tasas de transición y de ganancia (o costo) posiblemente no acotadas. Analizan la optimalidad en sesgo y los criterios de optimalidad rebasante.

Por su parte, ^{Álvarez Mena y Hernández Lerma (2006)} consideran juegos estocásticos no cooperativos de N personas con los criterios de ganancias descontadas. El espacio de estados se supone que es numerable y los conjuntos de acción son espacios métricos compactos. Estos autores obtienen varios resultados importantes. El primero se refiere a la sensibilidad o la aproximación de juegos restringidos. El segundo muestra la existencia de equilibrios de Nash para juegos restringidos con un espacio de estados finito (y un espacio acciones compacto). El tercero extiende las condiciones para la existencia de una clase de juegos restringidos, que se pueden aproximar por juegos restringidos con un número finito de estados y espacios de acción compactos.

Otras contribuciones que son relevantes en juegos estocásticos son ^{Rincón Zapatero (2004)} y ^{Rincón Zapatero et al (1998)} y ⁽²⁰⁰⁰⁾ que caracterizan en juegos diferenciales equilibrios de Nash de subjuegos perfectos; ^{Nowak (2003a)} y ^(2003b), y ^{Nowak y Szajowski (2003)} y ⁽²⁰⁰⁵⁾ analizan equilibrios de Nash de juegos estocásticos de suma 0 y no 0, y ^{Neck (1985)} y (¹⁹⁹¹) estudia juegos diferenciales entre la autoridad fiscal y el banco central.

III. Optimalidad de blackwell para procesos markovianos de difusión controlados

Los criterios de optimalidad más comunes para problemas de control óptimo con horizonte infinito son los de utilidad descontada esperada y utilidad promedio esperada. Estos dos criterios tienen objetivos opuestos: el primero distingue el desempeño en el corto plazo, ya que se desvanece para intervalos grandes, mientras que el segundo considera la conducta asintótica, ignorando simplemente lo que pasa en intervalos finitos. Como opción a estas dos situaciones extremas se considera los refinamientos del criterio de utilidad promedio tales como optimalidad rebasante, optimalidad en sesgo y los llamados criterios sensibles al descuento, los cuales incluyen optimalidad con m-descuentos para un entero m >-1 y optimalidad de Blackwell para m = +∞. Se les llama "refinamientos" porque se refieren a políticas de control que optiman la utilidad promedio. Al respecto, es importante resaltar que ^{Jasso Fuentes y Hernández Lerma (2009)} proporcionan algunos de estos refinamientos. Esto autores dan condiciones que garantizan la optimalidad con m-descuentos para cada entero m >-1 y también para la optimalidad de Blackwell cuando el sistema controlado es un proceso de difusión markoviano de la forma

aunque b ∙, ∙:ℝnx U→ℝn y σ∙:ℝn→ℝnxd son funciones dadas que satisfacen un conjunto de condiciones estándar y B(∙) es un movimiento browniano de dimensión d. El conjunto U⊂ℝm es llamado el conjunto de control (o acción) y u(∙) es un proceso estocástico U-evaluado que representa la acción del controlador a cada tiempo t ≥ 0.

IV. Control óptimo con procesos markovianos de difusión

En esta sección se establece el problema general de control óptimo estocástico, en el que las restricciones son procesos markovianos de difusión y se formula la técnica de programación dinámica con la cual se obtiene la ecuación diferencial parcial no lineal de Hamilton, Jacobi y Bellman (HJB), cuya solución caracteriza el control óptimo y con ello las trayectorias de las variables que optiman la función objetivo.^¹⁰ El control óptimo estocástico es una técnica matemática utilizada para resolver problemas de optimación de sistemas dinámicos en ambientes de incertidumbre; como referencia básica véase ^{Hernández Lerma (1994)}. Es importante destacar que las aplicaciones del control óptimo estocástico, en tiempo continuo, en economía, se iniciaron con los trabajos ^{Merton (1969)} y (¹⁹⁷¹).^¹¹

A continuación se establece el modelo matemático general del problema de control óptimo estocástico en tiempo continuo. Considérese un sistema dinámico en tiempo continuo con un horizonte temporal finito,[0, T]. Se definen, primero, las funciones μ(t, x, u) y σ(t, x, u) , dadas por,

Para un punto x∈ℝn considere la ecuación diferencial estocástica

en las que se considera al proceso n-dimensional X_t como el proceso de variables de estado, que se requiere controlar, el proceso k-dimensional u_t como el proceso de control, cuya correcta elección controlará a X_t , y W_t es un proceso de Wiener d-dimensional, definido en un espacio fijo de probabilidad con una filtración (Ω, F, (FtW) _{t∈ [0, T]} , ℙ).

Se define a continuación una regla de control admisible. Para tal efecto se considera la clase de procesos de control admisible como procesos cuyo valor u_t en el tiempo t es adaptado al proceso de estado X_t , el cual se obtiene mediante una función u,(x,t)

de manera que

u así definida es llamada regla de control de realimentación o estrategia markoviana. Ahora se impone a la restricción de que para cada t, ut∈U⊂ℝk en la que U es la clase de controles admisibles. Una regla de control u,(x,t) es admisible si: i) u t, x∈U, ∀t∈ℝ+, y ∀t∈ℝn y ii) para cualquier punto inicial (t, x) dado, la ecuación diferencial estocástica

tiene una única solución.

Dado que el problema de control óptimo por definir se encuentra en el marco estocástico, y toda vez que el proceso de estado es n-dimensional, será necesario definir las siguientes funciones y establecer el teorema fundamental del cálculo estocástico, llamado el lema de Itô (para el caso de n variables). Para cualquier regla de control u las funciones μ u y σu son definidas por

y se suponen con segundas derivadas continuas. El lema de Itô^¹² para n variables de estado se establece a continuación.

Considérese la función y = f(t, x),x = (x ₁, x ₂, ..., x _n), la ecuación diferencial estocástica

y cualquier vector fijo ut∈ENTℝk, para cualquier regla de control u, se tiene

en la que ρ _ij es el coeficiente de correlación entre dW_jt y dW_it de manera que ρ_ij dt = Cov(dW_jt , dW_it ). Ahora bien, dada una regla de control ut=u(t,Xtu) con su correspondiente proceso controlado X ^u se utilizará la notación

Para definir la función objetivo del problema de control se considera las funciones:

en las que F evalúa el desempeño del sistema a lo largo del tiempo y Φ evalúa el final. Se supone que tanto F como Φ son de clase C². Se define la funcional objetivo del problema de control como J0:U →ℝ,

en la que X ^u es la solución de (3), con condición inicial X0=x0 y en en la que F 0 representa la información disponible al tiempo t = 0. El problema de control puede ser escrito como uno de maximización de la funcional J0(u), en u ∈U. Se define la funcional óptima por

Si existe la regla de control admisible u^ tal que

se define entonces a u^ como una regla de control óptimo para el problema dado.

Si se supone una pareja (t, x) fija en la que t ∈ [0, T] y x∈ℝn, el problema de control se puede definir como:

sujeto a

y a la restricción

La función de valor J:ℝ+x ℝnx U→ℝ está definida mediante

junto con las ecuaciones (5) y (6). La función de valor óptimo es

y está definida por

El objetivo, ahora, es caracterizar la función de valor en el control óptimo mediante una ecuación diferencial parcial, mejor conocida como la ecuación diferencial parcial (EDP) de HJB.^¹³ Es importante destacar que la derivación que, a continuación, se hace de la ecuación de HJB es informal, pero ilustrativa. Supóngase que: i) existe una regla de control óptimo u y ii) la función de valor óptimo J ^ es de clase C ².

Considérese el par t,x∈0, Txℝn fijo pero arbitrario, y supóngase un incremento muy pequeño, de hecho diferencial, dt∈ℝ tal que t < t +dt < T. También se considera una regla de control fija pero arbitraria. Por tanto, dada la definición de la función de valor óptimo y el incremento d _t , se tiene la relación recursiva temporal,

A esta expresión se aplica en el primer sumando el teorema del valor medio de cálculo integral y en el segundo una expansión en serie de Taylor, de lo cual resulta

Después de simplificar, se tiene

En la expresión anterior se aplica el lema de Itô para obtener la diferencial estocástica de J^, así

en la que, como antes, ρ_ij satisface ρ_ij dt = Cov(dW_jt , dW_it ). Después de tomar valores esperados a los términos aleatorios de la ecuación anterior y dado que dW_it -n(0, dt), se obtiene

Ahora bien, si se divide entre dt y se toma el límite cuando dt→0

con lo cual se obtiene, finalmente, la EDP de HJB:

Toda vez que el análisis ha sido realizado en un punto fijo pero arbitrario, entonces la ecuación se sostiene para todo punto t,x∈0, Txℝn de manera que: i) J^ satisface la ecuación Hamilton, Jacobi y Bellman

ii) para cada (t,x)∈(0, T) x ℝnel máximo en la ecuación HJB es alcanzado por u = u^(t, x) A partir de la ecuación HJB se sigue que u es la única variable ya que y son fijos y las funciones F, J^, μiu, σju y σiu son consideradas como dadas. Si se supone que u ∈ U es óptimo, entonces se obtiene la siguiente ecuación diferencial parcial de segundo orden en J^

Al derivar dicha ecuación respecto a la variable de control, u se tiene la siguiente condición de primer orden:

La ecuación anterior caracteriza al control óptimo u en función de x y t y J^; es decir u^=u^(t, x, J^).

Para resolver la ecuación de HJB, en (9), y encontrar la trayectoria óptima del control, se procede a utilizar el método de funciones en variables separables, aunque es necesario recordar que, en general, es difícil obtener una solución explícita de la ecuación HJB. Sin embargo, en diversas aplicaciones en economía y finanzas la ecuación de HJB tiene una solución analítica; véase, al respecto, ^{Merton (1990)} y ^{Hakansson (1970)}.

Por último se establece el teorema de verificación. Supóngase que se tienen las funciones H (t, Xtu) y g(t, x), tales que i) H satisface la integral de Itô y es solución a la EDP HJB, es decir,

ii) La función g es una regla de control admisible; iii) para cada t,x∈0, Txℝn fijo pero arbitrario, el máximo en la ecuación HJB es alcanzado por la elección u = g(t, x).

Por tanto se tiene lo siguiente: i) la función de valor óptimo J^ del problema de control, está dada por J^t, Xtu=H (t, Xtu), y ii) existe una regla de control óptima u^ tal que u^t, x=g(t, x).

Estos conceptos se aplican, frecuentemente, en economía y finanzas en problemas de crecimiento económico, acumulación de capital y decisiones de consumo y de cartera. A continuación se realiza una revisión de diversas aplicaciones del control óptimo estocástico en economía y finanzas con restricciones definidas por procesos markovianos de difusión controlados. Por ejemplo, en ^{Venegas Martínez y González Aréchiga (2002)} se desarrolla un modelo estocástico para inmunizar el valor presente de un conjunto de flujos financieros esperados contra el riesgo de tasa de interés mediante el uso de contratos futuros. En su propuesta, la dinámica de la tasa de interés y sus futuros es conducida por procesos markovianos de difusión con reversión a la media, la cual toma un valor constante. El modelo destaca los conceptos de duración y convexidad monetaria en la administración del riesgo de tasa de interés. Estos autores, a manera de ilustración, generan estrategias de inmunización con futuros del MexDer cuando la estructura de plazos de la tasa de interés es generada con los modelos de Vasicek y Cox, Ingersoll y Ross (CIR).

Asimismo, ^{Venegas Martínez (2005)} desarrolla un modelo bayesiano para evaluar productos derivados con información previa de la volatilidad. La información anterior es dada en términos de valores esperados en los niveles y las tasas de precisión (el inverso de la varianza). En este caso, el activo subyacente es conducido por un proceso markoviano. El autor proporciona varias fórmulas aproximadas para la valoración de opciones europeas de compra, estos sobre la base de aproximaciones asintóticas y polinomiales de las funciones de Bessel.

En ^{Venegas Martínez y Fundia Aizenstat (2006)} la metodología de opciones reales se presenta como un instrumento para que los consejos de administración de las empresas tomen decisiones respecto a proyectos de inversión o estrategias de negocios cuando existe la flexibilidad (opcionalidad) de tomar en el futuro nuevas decisiones relacionadas con extender, contraer, posponer, enmendar o abandonar un proyecto o estrategia. Al respecto, el trabajo realiza una revisión de las diferentes fórmulas analíticas que aparecen en la bibliografía financiera especializada para evaluar la opcionalidad de estrategias en el supuesto de que el valor presente de los flujos de efectivo esperados sigue un proceso markoviano. En particular, se trata el caso de la toma de decisiones de venta o cierre de una empresa cuando el valor de mercado de sus títulos (de capital y deuda) excede el valor presente de los flujos de efectivo esperados o el valor presente de estos flujos es menor que cierto valor de recuperación. En este contexto se analiza el caso de una empresa mexicana de servicios satelitales de comunicación y de proyectos carreteros de inversión con el supuesto de volatilidad estocástica.

En ^{Venegas Martínez (2007)} se analiza las notas estructuradas más comunes en el mercado. Se presenta una descripción detallada de dichos instrumentos financieros destacando sus características particulares y dificultades técnicas en el proceso de evaluación. Debido a que la mayoría de las notas estructuradas que se negocian en el mercado financiero mexicano son certificados de depósito con garantía del capital inicial, el trabajo proporciona los elementos básicos que se requieren para su evaluación, como son los bonos cuponados flotantes y los productos de las tasas de interés. Asimismo, para la mayoría de las notas estructuradas planteadas se desarrolla modelos teóricos de evaluación.

Otros trabajos relacionados se encuentran en ^{Cruz Aké y Venegas Martínez (2010)} del valor de una empresa en riesgo de expropiación en un entorno de crisis financiera; ^{Venegas Martínez y Rodríguez Nava (2010)} estudian decisiones de cartera y consumo cuando el tipo de cambio y la tasa de interés siguen procesos markovianos; ^{Venegas Martínez (2009b)} desarrolla un modelo estocástico de equilibrio macroeconómico con hincapié en acumulación de capital, inflación y política fiscal; ^{Rodríguez Nava y Venegas Martínez (2008)} tratan con decisiones de producción de las empresas en condiciones de incertidumbre de precios; ^{Ortiz Arango, Venegas Martínez y Castillo Ramírez (2009)} examinan el efecto de la política fiscal en un ambiente con inflación estocástica; ^{Rivas Aceves y Venegas Martínez (2010)} estudian al gobierno como promotor del cambio tecnológico por medio de un modelo de crecimiento endógeno con trabajo, dinero y deuda; ^{Ortiz Ramírez, Venegas Martínez y López Herrera (2011)} evalúan una nota estructurada que vincula el rendimiento de un índice bursátil con los pagos de un bono y un derivado; ^{Bernal Ponce y Venegas Martínez (2011)} analizan el efecto de los productos derivados en los objetivos de política monetaria con un modelo macroeconómico de equilibrio general; ^{Gavira Durón y Venegas Martínez (2011)} tratan con decisiones óptimas de consumo y de cartera con un enfoque de precios de estado de Arrow y Debreu; por último, ^{Martínez Palacios, y Venegas Martínez (2011)} presentan una revisión del control óptimo estocástico en economía matemática.

V. Control óptimo estocástico en tiempo continuo con procesos markovianos combinados con saltos de poisson

De acuerdo con ^{Venegas Martínez (2008a)} y ^(2009b), Venegas Martínez supuesto de que los precios siguen una distribución log normal o que las tasas de crecimiento siguen una distribución normal es muy frecuente. En particular, es usual suponer que las variables financieras y económicas siguen un movimiento geométrico browniano, es decir, que las variables tienen tendencia exponencial y fluctuaciones normales. No obstante, existe en la bibliografía especializada evidencia empírica de que la mayoría de estas variables no se comportan de acuerdo con una distribución log normal. Una de las características que distingue a las variables financieras es que ocasionalmente se presentan movimientos inesperados (auges o caídas). Todos los inversionistas que mantienen activos desearían estar en un auge y no estar en una caída. Estos movimientos extremos ocurren con más frecuencia de lo que se esperaría con una distribución log normal, incluso si se supone una volatilidad razonablemente moderada.

En el análisis de observaciones, cuando se compara la distribución estandarizada empírica de una variable financiera con una distribución normal estándar, es común observar que la cresta de la distribución empírica es más alta que la de la normal estándar. Ahora bien, dado que ambas distribuciones tienen la misma desviación estándar, es decir, los mismos puntos de inflexión, entonces las colas de la distribución empírica tienen que ser forzosamente más anchas para compensar el área de la cresta, que en ambos casos debe ser igual a 1. La mezcla de procesos de difusión con procesos de saltos ofrece una opción idónea para el modelado de colas gordas y el sesgo de una distribución, además de que proporciona un ambiente más rico para generar dinámicas de diversas variables que no pueden concebirse con modelos que únicamente consideran movimientos brownianos.

Existe una tendencia creciente en la bibliografía económica que emplea el postulado de maximización de utilidad esperada con restricciones presupuestarias que incluyen procesos de difusión con saltos de Poisson para estudiar condiciones de equilibrio parcial o general. Considérese una economía que produce y consume un solo bien y está poblada por consumidores idénticos con vida infinita que maximizan su satisfacción por el bien de que se trate. De acuerdo con ^{Venegas Martínez (2009b)} se supone que los individuos perciben que el precio del bien, P _t, es conducido por un proceso estocástico de difusión con saltos, de tal forma que:

en el que π es el parámetro de tendencia, el cual representa la tasa de inflación promedio esperada condicional a que ningún salto ocurra, σ _p es la volatilidad esperada de la tasa de inflación y 1+ v_p es el tamaño promedio esperado de posibles saltos en el nivel general de precios. El proceso W_p,t es un proceso de Wiener estandarizado, es decir, W_p,t presenta incrementos normales independientes con E[dW_p,t ]=0 y Var[dW_p,t ]=dt. Se supone que los saltos en el nivel general de precios siguen un proceso de Poisson, Q _p,t , con parámetro de intensidad λ _p , de manera que

mientras que^¹⁴

Por tanto, E[dQ _p,t ]=0 y Var[dQ _p,t ]= λ _p dt. En todo lo que sigue se supondrá también que W_p,t y Q _p,t no están correlacionados entre sí. La tendencia π, así como las componentes de difusión y salto σ _p dW_p,t y v_p dQ _p,t , respectivamente,se determinarán endógenamente.

El consumidor representativo cuenta con tres diferentes activos: dinero, M _t , títulos de deuda pública, B _t , y títulos de capital (acciones), K_t . En consecuencia, la riqueza real, α_t , del individuo está dada por:

en la que m_t =M_t /P_t son los saldos monetarios reales y b_t =B_t /P_t es la tenencia de bonos emitidos por el sector público en términos reales. El consumidor obtiene satisfacción por el consumo del bien genérico que produce la economía y por la tendencia de saldos reales debido a sus servicios de liquidez. Se supone que la función de utilidad esperada es del tipo von Neumann Morgenstern. Específicamente, la función de utilidad total descontada al tiempo t =0, V₀, , de un individuo representativo, competitivo y adverso al riesgo tiene la siguiente forma separable:

en la que E₀ es la esperanza condicional al conjunto de información relevante disponible al momento t = 0. En particular, se eligen u(c_t ) = θlog(c_t ) y v(m_t )= log(m_t ) con el propósito de generar soluciones analíticas. Por otra parte, la evolución de la acumulación de la riqueza real sigue la ecuación diferencial estocástica

en que

Nj,t≡jtat: proporción de la cartera en el activo j, j= m, b, k.

dRj,t: tasa de rendimiento real después de impuestos sobre el activo j, j= m, b, k.

dτt: impuestos a la riqueza.

τc: impuesto al consumo.

En el contexto anterior, ^{Venegas Martínez (2001)} desarrolla un modelo estocástico de un plan de estabilización de inflación basado en el tipo de cambio, en el que los agentes tienen expectativas de devaluación conducida por un proceso de difusión combinado con saltos de Poisson. El autor propone un ambiente estocástico más rico en el que un proceso markoviano conduce a la tasa de devaluación y un proceso de Poisson determina la probabilidad de devaluación, analiza la dinámica de equilibrio del consumo y la riqueza cuando un plan de estabilización se instrumenta. Asimismo, evalúa los efectos de choques exógenos en el consumo y el bienestar. Por último, utiliza el modelo propuesto para efectuar un experimento de simulación de la dinámica de equilibrio.

Por otra parte, ^{Venegas Martínez (2006a)} presenta un modelo estocástico de estabilización de precios que toma como un ancla nominal el tipo de cambio y que reconoce explícitamente el papel de la incertidumbre en la dinámica tanto del tipo de cambio como del ingreso laboral. En su propuesta supone que el tipo de cambio es conducido por un proceso combinado de difusión con saltos de Poisson, y el ingreso laboral del consumidor sigue un proceso markoviano. El autor supone que los mercados de productos derivados para cubrirse contra la inflación y los ingresos futuros no están disponibles, así que los mercados financieros son incompletos. ^{Venegas Martínez (2006a)} estudia la dinámica de las decisiones de consumo y de cartera cuando un plan de estabilización es implementado y cuando el ingreso laboral es incierto. Además evalúa los efectos en el bienestar de choques exógenos en las expectativas tanto de la devaluación y como de los ingresos. Por último, utiliza el modelo propuesto para realizar un experimento de simulación de Monte Carlo.

En ^{Venegas Martínez (2006b)} se presenta un modelo estocástico de un programa de estabilización de inflación con credibilidad imperfecta, que reconoce explícitamente la incertidumbre tanto en la dinámica esperada del tipo de cambio como en el comportamiento esperado de la política fiscal. El autor supone que el tipo de cambio es guiado por un proceso combinado de difusión con saltos, y que la tasa de impuestos sobre la riqueza sigue un proceso markoviano. En este escenario, se supone que los productos derivados para cobertura contra una devaluación futura no están disponibles, por lo que los mercados financieros son incompletos. Examina la dinámica de equilibrio de las decisiones de consumo y de cartera cuando un plan de estabilización se lleva a cabo y los impuestos sobre la riqueza se pagan a una tasa incierta. También evalúa los efectos de choques exógenos en el bienestar económico debido a una devaluación o a un incremento de los impuestos.

^{Venegas Martínez (2008b} y ^2009a) desarrolla un modelo estocástico de una economía pequeña, abierta y monetaria en el que los agentes son adversos al riesgo de mercado y tienen expectativas de la dinámica del tipo de cambio conducidas por un proceso markoviano combinado con un proceso de saltos de Poisson. La magnitud esperada de una posible depreciación del tipo de cambio se supone que sigue una distribución de valor extremo del tipo Fréchet. En este artículo se obtiene una solución analítica del precio de la opción real de espera cuando el consumo se puede posponer (una opción que no se negocia). Por último, se emplea simulación de Monte Carlo para calcular aproximaciones numéricas de la prima de la opción real.

Por su parte, ^{Venegas Martínez (2010a)} propone un modelo de crecimiento estocástico endógeno en el que el tipo de cambio es impulsado por un proceso mixto de difusión con saltos de Poisson, y la tasa de impuesto sobre la riqueza se rige por un proceso markoviano. El autor combina la tecnología "Ak" con el comportamiento de agentes adverso al riesgo a fin de obtener las tasas de crecimiento del consumo, de capital y el producto.

En ^{Venegas Martínez (2010b)} se desarrolla, en el supuesto de una economía monetaria, pequeña y abierta, un modelo estocástico de estabilización inflacionaria en el que el tipo de cambio actúa como un ancla nominal y la credibilidad es imperfecta. Las expectativas de los agentes son conducidas por dos procesos: una de difusión con saltos para la tasa de devaluación en en el que el tamaño de una posible devaluación tiene una distribución de valores extremos y otra de volatilidad estocástica con reversión a la media (la versión continua de un modelo GARCH(1,1)). Lo anterior con el fin de modelar de manera adecuada una tasa de inflación considerablemente más persistente que una tasa de devaluación; como lo muestran los hechos estilizados de devaluaciones extremas registradas en México en 1994 y en Argentina en 2001. Se supone que no existe un mercado de coberturas contra posibles devaluaciones, es decir, los mercados son incompletos. Con este esquema se examina las soluciones interiores y de esquina cuando un plan de estabilización con credibilidad imperfecta es aplicado. Se realiza también un experimento en el que la tasa media esperada de inflación toma un valor mayor a partir de cierto tiempo en el futuro y permanece allí para siempre, tomando en cuenta las probabilidades de que dicha política monetaria ocurra. Se estudia el caso de un horizonte estocástico de estabilización con distribución exponencial. Asimismo, se evalúa la opción real de posponer consumo cuando se espera que un plan de estabilización sea abandonado. Por último se estudia los efectos de choques exógenos en el consumo y el bienestar económico.

^{Venegas Martínez (2011)} desarrolla un modelo estocástico de crecimiento endógeno que explica cómo los factores de riesgo: cambiario, mercado, deuda y fiscal, afectan al crecimiento económico en el marco de libre mercado. Se supone que el tipo de cambio es conducido por un proceso de difusión combinada con saltos ascendentes de Poisson. Asimismo se utiliza el modelo propuesto para realizar un experimento de simulación que copia la media observada y la varianza de la tasa de crecimiento de la producción en México durante un cierto periodo.

VI. Modelos de series de tiempo y cadenas de Markov

Al estudiar la dinámica de variables económicas y financieras ocasionalmente se observan cambios drásticos o rupturas importantes en su comportamiento. Muchas veces estos cambios están asociados a hechos específicos que se pueden identificar. Como ejemplo de hechos que son identificables y cuya ocurrencia produce cambios notorios en el comportamiento de las series de tiempo se encuentra el caso de una crisis financiera; véase, al respecto, los trabajos de ^{Jeanne y Masson (2000)}, ^{Cerra y Saxena (2005)} y ^{Hamilton (2005)}. Los cambios abruptos que son inducidos por modificaciones en las políticas gubernamentales también se pueden citar entre los ejemplos de hechos cuya ocurrencia produce rupturas estructurales en el comportamiento de las series de tiempo, como puede verse en ^{Hamilton (1988)} y ^{Davig (2004)}.

Evidentemente, el comportamiento de largo plazo en las series de tiempo de variables económicas y financieras es un asunto de gran importancia para el análisis empírico. Cuando existen cambios estructurales en la dinámica de dichas series de tiempo es importante considerar, como lo sugieren ^{Domingo y Tonella (2000)}, que las características importantes en las series analizadas pueden cambiar, apareciendo incluso peculiaridades que antes de la ruptura estructural no estaban presentes o no se manifestaban plenamente. Por lo anterior, para efectos del modelado econométrico, es importante verificar la existencia de cambios en la estructura de las series de tiempo que se analizan pues de otra manera no se tendrá información confiable de la naturaleza de las series y los fenómenos económicos y financieros que motivaron el análisis. En conclusión, el análisis de los cambios que se observa en el comportamiento de las variables económicas ante hechos específicos es un asunto de importancia, tanto para la teoría como para la elaboración de políticas eficaces.

Una forma en que tradicionalmente se han incluido en el análisis econométrico las rupturas estructurales es la incorporación de variables tipo ficticio (dummy) en los modelos de series de tiempo. Este enfoque es particularmente aplicable cuando se conocen a priori tanto el periodo de ocurrencia como la duración del hecho que presuntamente induce la modificación en el comportamiento de la variable dependiente. A pesar de las ventajas de un procedimiento tan sencillo, es de destacarse que no forzosamente se conocen siempre los hechos que afectan el comportamiento de cierta variable, o al menos no se conocen con certeza el inicio y el fin de esos hechos. Además, a veces lo importante es cómo son afectadas las relaciones entre un grupo de variables por un hecho o hechos, es decir, el interés puede estar enfocado más bien en entender el comportamiento de los parámetros que relacionan a diversas variables en diferentes regímenes.

Existen diversas propuestas que se encuentran actualmente disponibles en la bibliografía para modelar los cambios en el comportamiento de los parámetros de un modelo econométrico. Entre estas propuestas se considera como una de las más relevantes la de ^{Hamilton (2008)}, quien plantea que si el valor de los parámetros de un proceso de series de tiempo presenta rupturas, entonces la descripción completa del proceso que genera los datos debe incluir una especificación de la ley de probabilidad que gobierna dichos cambios. Un ejemplo de ese enfoque lo constituye ^{Hamilton (1989)}, quien sigue las ideas establecida en ^{Cosslett y Lee (1985)} y extiende los alcances de ^{Goldfeld y Quandt (1973)} y ^{Neftci (1984)}, desarrollando un modelo markoviano de cambio de regímenes (Markov Switching Regimes) en el cual el comportamiento de los parámetros evoluciona de acuerdo con las realizaciones de una cadena de Markov que no es observable. ^{Hamilton (1989)} mostró cómo se pueden modelar los cambios ocasionales y discretos en la tasa media de crecimiento de una serie no estacionaria, poniendo como ejemplo la aplicación de su técnica en el análisis del producto real de los Estados Unidos después de la segunda Guerra Mundial.

De manera por demás resumida se puede decir que el modelo markoviano de cambio de regímenes comprende diversas estructuras (ecuaciones) mediante las cuales se puede caracterizar el comportamiento de una serie de tiempo en diferentes regímenes. Así, al permitir que haya cambios entre las diferentes estructuras, el modelo es capaz de captar pautas complejas en la dinámica de la serie. Como se ha señalado líneas arriba, se puede considerar como una característica distintiva de este modelo que los cambios de régimen se producen mediante un mecanismo que está controlado por una variable de estado que no es observable y que sigue en el transcurso del tiempo una cadena de Markov de primer orden.

Dado que la propiedad markoviana regula el proceso, el valor actual de la variable de estado depende únicamente de su valor inmediato pasado. Por lo anterior, una estructura puede prevalecer durante un periodo (aleatorio), siendo remplazada por otra estructura cuando ocurre un cambio de estado. Las características del modelo de Hamilton hacen que éste sea diferente del modelo considerado por Goldfeld y Quandt (1973) en el que los hechos de cambio no dependen del tiempo. Además, es conveniente destacar que el mecanismo implícito en el modelo markoviano de cambio de regímenes propuesto por Hamilton permite cambios aleatorios en el tiempo, lo que lo hace diferente también del modelado tradicional de cambios estructurales por medio de variables ficticias (dummy) en las que los cambios son de naturaleza exógena. Por lo anterior, el modelo de regímenes con cambio markoviano resulta sumamente conveniente para describir datos que exhiben en su dinámica pautas distintas en momentos o periodos diferentes. Actualmente, se puede considerar al modelo propuesto por Hamilton como uno de los más populares entre los modelos no lineales de series de tiempo con numerosas aplicaciones en el estudio de la economía y las finanzas.

Además de la variabilidad que se observa en la volatilidad de las series de rendimientos financieros a lo largo del tiempo, se ha observado que las distribuciones de probabilidades de esas series también exhiben excesos de curtosis y colas pesadas que las hacen apartarse del comportamiento de una distribución normal. Entre las explicaciones que se han ofrecido para esos hechos estilizados, se encuentra la que postula que la distribución de los rendimientos de un activo financiero es una mezcla de distribuciones normales con varianzas diferentes. Con base en este supuesto, ^{Hamilton (1988)} propone un proceso estocástico para modelar la volatilidad de los rendimientos de activos financieros considerando que la volatilidad varía en el tiempo según una cadena de Markov cuya distribución discreta de probabilidades tiene dos estados:

en los que σt>0, σbaja<σalta. De esta manera, la probabilidad de pasar al régimen de alta volatilidad viniendo del régimen de baja volatilidad sólo depende del último estado en que se encontraba el proceso. En otras palabras, la probabilidad de transición del estado de baja volatilidad al de alta está dada por:

y la probabilidad de transición del régimen de alta volatilidad alta al régimen de baja volatilidad está dada por:

Así, los rendimientos se distribuyen N(μ,σbaja2) en el régimen de baja volatilidad y N(μ,σalta2) cuando los rendimientos están en el régimen de alta volatilidad. El supuesto de que {σt} es un proceso estrictamente estacionario y estocásticamente independiente del proceso que modela el premio al riesgo {ut} permite derivar fórmulas para los momentos de rt-μ=σtut; como lo señala ^{Taylor (2005)}. De esta manera, se tiene que E(rt)=μ y Varrt=[σt2]. La varianza no condicional de los rendimientos satisface:

Un resultado de lo anterior es que la densidad no condicional de los rendimientos es una mezcla de densidades normales:

En la ecuación (14), Ψ(∙│∙)representa la función de densidad normal. También, con base en los supuestos sobre {σt} y {ut}, se tiene que:

^{Pagan (1996)} muestra que ξt es un ruido blanco según la descomposición de Wold de un proceso estacionario, incluso aunque ξt no sea iid. Así, de acuerdo con (15), se tiene que {σt2} sigue un proceso AR(1) con un parámetro autorregresivo:

el cual mide la persistencia de la volatilidad, por lo que en aplicaciones empíricas se puede esperar un valor estimado cercano a 1.

Dado que la información de los rendimientos no es suficiente para identificar el estado de la volatilidad en algún momento, se tiene que recurrir a las probabilidades condicionales del régimen o estado en que se encuentra la volatilidad, condicionando el estado actual al comportamiento del historial de rendimientos anteriores se definen:

en el que Ωt-1 es el conjunto de información formado por el historial de los rendimientos hasta el periodo t-1. Si se supone que se conocen p_t-1 y q _t-1 mediante Ωt-2, estas probabilidades a priori se pueden revisar con base en el teorema de Bayes una vez que r_t-1 está disponible para obtener las probabilidades a posteriori:

A partir de las probabilidades de transición de la cadena de Markov, se obtienen las probabilidades anteriores:

Combinando (18) y (19) se obtienen las probabilidades condicionales:

La densidad condicional de r_t , dado Ωt-1, es también una mezcla de distribuciones normales:

Finalmente, la varianza condicional está dada por:

En conclusión, las estimaciones de las probabilidades condicionadas, así como de las probabilidades de transición y las varianzas condicionadas se pueden obtener como subproductos de la estimación de los parámetros de interés μ ,σ_baja , σ_alta, p y φ. Dicha estimación puede realizarse al maximizar la función de verosimilitud, es decir, la suma de los logaritmos de las contribuciones individuales que para cada observación hace la ecuación (21). Vale la pena destacar que gracias a este algoritmo propuesto por Hamilton, por ello conocido como filtro de Hamilton, se pueden obtener como subproductos de la estimación las probabilidades de transición entre los regímenes y las probabilidades filtradas que permiten caracterizar dichos regímenes.

En ^{López Herrera et al (2011)} se aplica este modelo al estudio de la volatilidad del tipo de cambio del peso mexicano frente al dólar durante el periodo de flotación del peso, identificando dos regímenes en la volatilidad cambiaria. Se observó que la volatilidad del tipo de cambio analizado es menos persistente en comparación con lo observado en otros tipos de cambios. También se encontró que es alta la probabilidad de que prevalezca el régimen de baja volatilidad, en tanto que es baja la probabilidad de que el tipo de cambio pase de volatilidad alta a la baja. En resumen, se puede decir que los resultados son congruentes con una situación de relativa estabilidad en la paridad cambiaria. Con base en el mismo modelo, ^{López Herrera y Venegas Martínez (2011)} analizan el comportamiento de la volatilidad del mercado accionario mexicano y ^{López Herrera y Venegas Martínez (2012a)} el de la volatilidad del mercado mundial de capitales durante la crisis financiera mundial reciente. En ambos casos se pudieron identificar dos regímenes en la volatilidad, lo que permitió caracterizar el comportamiento de manera congruente con los hechos que tuvieron lugar en los mercados financieros como consecuencia de la crisis subprime y sus secuelas.

Otra aplicación de la metodología de regímenes con cambios markovianos es el estudio de la volatilidad de los rendimientos del mercado accionario mexicano realizado por ^{López Herrera et al (2012)} considerando que esos rendimientos siguen un proceso autorregresivo de orden 2, en el cual existen tres regímenes en la volatilidad y ésta sigue un proceso ARCH. Estos autores consideran datos diarios entre el 19 de abril de 1990 y el 13 de abril de 2011 identificando tres regímenes distintos en la volatilidad del índice de precios y cotizaciones (IPC) del mercado bursátil mexicano.

Por otra parte, ^{López Herrera y Venegas Martínez (2012b)} también han utilizado la metodología de regímenes con cambios markovianos para estudiar la interacción entre las economías de México y Estados Unidos a la luz de la dinámica cambiante de sus ciclos económicos que se ha observado en términos reales en el periodo 1930-2010. Dicho análisis lo realizan mediante la especificación de un modelo de vectores autorregresivos con cambios markovianos (MS-VAR), según el cual los valores de los parámetros del VAR cambian de acuerdo con el régimen en que se encuentren al momento t. Los resultados del análisis muestran que a partir del proceso de apertura y liberación de la economía mexicana se genera un proceso de sincronización entre el desempeño económico de ambos países, claramente diferente al comportamiento del producto mexicano en el periodo denominado de sustitución de importaciones, en el cual los vínculos entre ambas economías son casi nulos. Es conveniente destacar que en el estudio se encontró también que, a pesar de la mayor sincronización, la contribución de la economía estadunidense al desempeño de la mexicana no es tan significativa en términos reales como cabría esperar.

VII. Redes bayesianas y cadenas de Markov y simulación Monte Carlo (MCMC)

Una red bayesiana (RB) es una gráfica que representa el dominio de las variables de decisión, las relaciones cuantitativas y cualitativas de éstas y sus medidas de probabilidad. Una RB también puede incluir funciones de utilidad que representan las preferencias del tomador de decisiones. Una característica importante de las RB es su forma gráfica, lo cual permite representar de manera visual, más o menos sencilla, complicados razonamientos probabilísticos. Otro aspecto por destacar es la parte cuantitativa de las RB, ya que permiten incorporar elementos subjetivos, como lo son la opinión de expertos, así como probabilidades basadas en datos estadísticos. Tal vez, la característica más importante de una RB es que es una representación directa del mundo real y no un proceso de razonamiento.

Las redes bayesianas son gráficas dirigidas acíclicas (GDA). Una gráfica es definida como un conjunto de nodos unidos por arcos. Si entre cada par de nodos hay una relación de precedencia representada por arcos, entonces la gráfica es dirigida. Un ciclo es una trayectoria que inicia y termina en el mismo nodo. Una trayectoria es una serie de nodos contiguos conectados por arcos dirigidos. Cada nodo en una RB se asocia con un conjunto de tablas de probabilidades. Los nodos representan las variables de interés, las cuales pueden ser discretas o continuas. Una red causal de acuerdo con ^{Pearl (2000)} es una RB con la propiedad adicional de que los nodos "padres" son las causas dirigidas. La definición formal de una RB, de acuerdo con ^{Jensen (1996)}, está dada por:

Un conjunto de variables conectadas por un conjunto de arcos dirigidos.
Cada variable tiene asociado un conjunto finito de estados mutuamente excluyentes.
Las variables junto con los arcos dirigidos forman una GDA.
Para cada variable A con "padres" B ₁,..., B _n, existe una probabilidad asociada definida por P(A|B ₁,...,B _n). Obsérvese que si A no tiene "padres" la probabilidad P(A) es incondicional.

Sea X={x1, x2,..., xn} una variable aleatoria con función de distribución conjunta definida por P(X)={x1, x2,..., xn}. Las redes bayesianas proporcionan una representación compacta de P(X)al factorizar la distribución conjunta en una distribución condicional local para cada variable dado sus "padres". Sea pα(x_i ) el conjunto de valores que toman los nodos "padres" de la variable x, entonces la distribución conjunta total está dada por P=x1, x2,..., xn=πxi│ pα(xi.

Por ejemplo, respecto a la Gráfica 1, su probabilidad conjunta total está dada por:

Gráfica 1 Ejemplo de red bayesiana

La estructura independiente de la red se verifica con la siguiente expresión:

De lo anterior se concluye que cuando se mantiene el supuesto de independencia en la construcción de la RB, el número de probabilidades condicionales que tienen que ser calculadas se reduce considerablemente.

Una red bayesiana es empleada básicamente para inferencia por medio del cálculo de las probabilidades condicionales, dada la información disponible hasta el momento, para cada nodo (creencias). Existen dos clases de algoritmos para el proceso de inferencia, el primero genera una solución exacta y el segundo produce una solución aproximada con alta probabilidad. Entre los algoritmos de inferencia exacta se tienen, por ejemplo: polytree, clique tree, junction tree, algorithms variable elimination y method of Pear. El uso de soluciones aproximadas es motivado por el crecimiento exponencial de tiempo de procesamiento requerido para soluciones exactas; de acuerdo con ^{Guo y Hsu (2002)} este tipo de algoritmos puede agruparse en stochastic simulation, model simplification methods, search based methods y loopy propagation methods, el más conocido es el de simulación estocástica, el cual se divide en importance sampling algorithms y Markov Chain Monte Carlo (MCMC) methods.

El método MCMC es una técnica de simulación que puede utilizarse con el fin de generar una muestra dependiente de la distribución de interés. Formalmente, el método MCMC inicia especificando una cadena de Markov irreducible y aperiódica con una distribución única invariante (𝑥) igual a la distribución deseada de interés (o distribución de destino). El siguiente paso es simular una o más realizaciones de esta cadena de Markov. Con cada trayectoria simulada se formará una muestra aleatoria dependiente de la distribución de interés; satisfaciendo ciertas condiciones de regularidad. Posteriormente, estas trayectorias muestrales pueden ser utilizadas para propósitos de inferencia. En (2),... , es una realización de la cadena, entonces de acuerdo con resultados asintóticos (por ejemplo, véase, ^{Tierney, 1994}) se tiene que:

La ecuación (23) indica que cuando t es moderadamente grande, X(t) es una muestra aleatoria de la distribución de interés. En la práctica, un valor de t = 10 a 15 es a menudo más que suficiente. La ecuación (24) indica que si h es una función real integrable arbitraria de X, entonces el promedio de esta función tomada de los valores de X(t) (la media ergódica de la función) converge (casi seguramente) cuando t → ∞ a su valor esperado con la densidad objetivo.

Conclusiones

En los años recientes, la economía y las finanzas en su proceso de globalización han experimentado una serie de cambios y transformaciones profundas que han afectado la elaboración misma de la política económica y la toma de decisiones financieras. Estos cambios han abierto nuevos paradigmas que resaltan la exposición de los agentes a diferentes tipos de riesgos. Estos paradigmas, en general, han abierto nuevos horizontes a las teorías económica y financiera y, como consecuencia, han conducido a la utilización de instrumentos matemáticos más sólidos (y elaborados), los cuales permiten una mejor comprensión de los fenómenos estocásticos (evidentemente todos los fenómenos económicos y financieros son fenómenos estocásticos). Particularmente, en el campo de las teorías económica y financiera, uno de los cambios más importantes es la superación del marco determinista; no sólo como resultado del riesgo inherente a la mayoría de los activos financieros, sino como una respuesta más completa para un mejor entendimiento de los procesos de decisión de los agentes económicos. Asimismo, el análisis permanente de la toma de decisiones económicas y financieras, así como los instrumentos y mecanismos para aplicarlos se ha ubicado en un marco de referencia más amplio en el que se incorpora diversos factores de riesgo que afectan la determinación de precios en los mercados de bienes y de activos y por ende las decisiones que toman los diversos agentes económicos (consumidores, inversionistas, empresas y gobierno). En este sentido, los procesos markovianos ocupan un lugar privilegiado, por sus bondades técnicas en el modelado de la dinámica de diversas variables económicas y financieras.

La manera en que los agentes definen su actuar requiere un proceso de abstracción en el que el individuo escoge y organiza sus acciones, de acuerdo con un criterio preestablecido, realizando un plan para anticipar posibles efectos no deseados. En esta investigación se ha realizado una revisión de la evolución teórica y práctica de los procesos markovianos en la bibliografía especializada, resaltando sus avances recientes y mostrando su potencial, por sus bondades técnicas en el modelado de los procesos de toma de decisiones de agentes racionales añadiendo dinámicas más realistas a diversas variables de interés. Particularmente, se destacan las extensiones y reformulaciones de los procesos markovianos de decisión, los juegos estocásticos, la optimalidad de Blackwell para procesos markovianos de difusión controlados, el control óptimo estocástico, el control óptimo estocástico con procesos makovianos en tiempo continuo combinados con saltos de Poisson, los modelos de series de tiempo con cadenas de Markov y, por último, las redes bayesianas con cadenas de Markov en conjunción con el método de simulación Monte Carlo (MCMC).

Varios temas de gran potencial para la investigación en sistemas controlados con procesos markovianos se han expuesto, entre ellos destacan los refinamientos de los criterios de utilidad promedio, como optimalidad rebasante, optimalidad en sesgo y los llamados criterios sensibles al descuento, los cuales incluyen la optimalidad de Blackwell. Se destaca que la investigación de las condiciones para la existencia y caracterización de equilibrios óptimos en sesgo y rebase ha tenido un impulso importante, sobre todo en lo que se refiere a la caracterización de estrategias óptimas de ganancias promedio.

Por otra parte, se ha destacado que la mezcla de procesos de difusión con procesos de saltos proporcionan una opción idónea para el modelado de colas pesadas y el exceso en sesgo, lo que produce un ambiente más rico para modelar dinámicas de variables económicas y financieras que no pueden generarse con modelos que únicamente consideran movimientos brownianos. Por último se presentaron avances, en varias direcciones, de los modelos de series de tiempo que incluyen cadenas de Markov y se destacaron las aplicaciones de redes bayesianas con cadenas de Markov y simulación Monte Carlo (MCMC) en la gestión del riesgo operacional.

Referencias bibliográficas

Álvarez Mena, J., y O. Hernández Lerma (2006), "Existence of Nash Equilibria for Constrained Stochastic Games", Math. Meth. Oper. Res., vol. 63, pp. 261-285. [ Links ]

Atsumi, H. (1965), "Neoclassical Growth and the Efficient Program of Capital Accumulation", Rev. Econ. Stud., vol. 32, pp. 127-136. [ Links ]

Bernal Ponce, L. A., y F. Venegas Martínez (2011), "Impacto de los productos derivados en los objetivos de política monetaria: un modelo macroeconómico de equilibrio general", Estudios Económicos, vol. 26, núm. 52, pp. 187-216. [ Links ]

Björk, T., J. Myhrman y M. Persson (1987), "Optimal Consumption with Stochastic Prices in Continuous Time", Journal of Applied Probability, vol. 24, núm. 1, pp. 35-47. [ Links ]

Cerra, V., y S. C. Saxena (2005), "Did Output Recover from the Asian Crisis?", IMF Staff Papers, vol. 52, pp. 1-23. [ Links ]

Cosslett, S. R., y Lung Fei Lee (1985), "Serial Correlation in Discrete Variable Models", Journal of Econometrics, vol. 27, pp. 79-97. [ Links ]

Cruz Aké, S., y F. Venegas Martínez (2010), "Valor de una empresa en riesgo de expropiación en un entorno de crisis financiera. Caso Banamex", EL TRIMESTRE ECONÓMICO, vol. 77(2), núm. 306, pp. 473-503. [ Links ]

Davig, T. (2004), "Regime Switching Debt and Taxation", Journal of Monetary Economics, vol. 51, pp. 837-859. [ Links ]

Domingo, C., y G. Tonella (2000), "Towards a Theory of Structural Change", Structural Change and Economic Dynamics, vol. 11, núm. 1-2, pp. 209-225. [ Links ]

Escobedo Trujillo, B. A., J. D. López Barrientos y O. Hernández Lerma (2012), "Bias and Overtaking Equilibria for Zero Sum Stochastic Differential Games", J. Optim. Theory Appl., vol. 153, núm. 3, pp. 662-687. [ Links ]

------, y O. Hernández Lerma (2011), "Overtaking Optimality for Controlled Markov Modulated Diffusion", Optimization. [ Links ]

Federgruen, P. J., y A. Schweitzer (1981), "Nonstationary Markov decision Problems with Converging Parameters", J. Optim. Theory Appl. , vol. 34, pp. 207-241. [ Links ]

Feinberg, E. A. (1982), "Controlled Markov Processes with Arbitrary Numerical Criteria", Theory of Probability and Applications, vol. 27, pp. 486-503. [ Links ]

Gavira Durón, N., y F. Venegas Martínez (2011), "Decisiones óptimas de consumo y portafolio: un enfoque de precios de estado de Arrow Debreu", Revista Contaduría y Administración, núm. 234, pp. 151-172. [ Links ]

Goldfeld, S. M., y R. E. Quandt (1973), "A Markov Model for Switching Regressions", Journal of Econometrics , vol. 1, pp. 3-16. [ Links ]

Guo, H., y W. Hsu (2002), "A Survey of Algorithms for Real Time Bayesian Network Inference", Joint Workshop on Real Time Decision Support and Diagnosis Systems, Edmonton, Albert. [ Links ]

------, y ------ (2009), Continuous Time Markov Decision Processes: Theory and Applications, Nueva York, Springer-Verlag. [ Links ]

------, y ------ (2007), "Zero Sum Games for Continuous Time Jump Markov Processes in Polish Spaces: Discounted Payoffs", Advances in Applied Probability, vol. 39, núm. 3, pp. 645-668. [ Links ]

Guo, X. P., y O. Hernández Lerma (2005a), "Zero Sum Continuous Time Markov Games with Unbounded Transition and Discounted Payoff Rates", Bernoulli, vol. 11, núm. 6, pp. 1009-1029. [ Links ]

------, y ------ (2005b), "Nonzero Sum Games for Continuous Time Markov Chains with Unbounded Discounted Payoffs", Journal of Applied Probability, vol. 42, núm. 2, pp. 303-320. [ Links ]

------, y ------(2003a), "Continuous Time Controlled Markov Chains", Ann. Appl. Probab., vol. 13, pp. 363-388. [ Links ]

------, y ------ (2003b), "Drift and Monotonicity Conditions for Continuous Time Markov Control Processes with an Average Criterion, IEEE Trans. Automat. Control, vol. 48, pp. 236-245. [ Links ]

------, y ------ (2003c), "Continuous Time Controlled Markov Chains with Discounted Rewards", Acta Appl. Math., vol. 79, pp. 195-216. [ Links ]

------, y ------ (2003d), "Zero-Sum Games for Continuous-Time Markov Chains with Unbounded Transition and Average Payoff Rates", Journal of Applied Probability, vol. 40, núm. 2, pp. 327-345. [ Links ]

Hakansson, N. (1970), "Optimal Investment and Consumption Strategies under Risk for a Class of Utility Functions", Econometrica, vol. 38, núm. 5, pp. 587-607. [ Links ]

Hamilton, J. D. (1988), "Rational Expectations Econometric Analysis of Changes in Regime: An Investigation of the Term Structure of Interest Rates", Journal of Economic Dynamics and Control, vol. 12, pp. 385-423. [ Links ]

------ (1989), "A New Approach to the Economic Analysis of Nonstationary Time series and the Business Cycle", Econometrica, vol. 57, pp. 357-384. [ Links ]

------ (2005), What's Real About the Business Cycle?", Federal Reserve Bank of St. Louis Review, julio-agosto, pp. 435-452. [ Links ]

------ (2008), "Regime Switching Models", Steven N. Durlauf y Lawrence E. Blume (comps.), The New Palgrave Dictionary of Economics Online, Palgrave Macmillan. [ Links ]

Hernández Lerma, O. (2005), "Control óptimo y juegos estocásticos", EMALCA, CIMAT, Guanajuato, México. [ Links ]

------ (1994), "Lectures on Continuous Time Markov Control Processes", Aportaciones Matemáticas 3, Sociedad Matemática Mexicana. [ Links ]

------ (1990), "Lecture Notes on Discrete Time Markov Control Processes", Departamento de Matemáticas, Cinvestav-IPN. [ Links ]

------ (1989), Adaptive Markov Control Processes, Nueva York, Springer-Verlag. [ Links ]

------ (1986), "Finite State Approximations for Denumerable Multidimensional State Discounted Markov Decision Processes", Journal of Mathematical Analysis and Applications, vol. 113, núm. 2, pp. 382-389. [ Links ]

------ 1985, "Nonstationary Value Iteration and Adaptive Control of Discounted Semi Markov Processes", Journal of Mathematical Analysis and Applications, vol. 112, pp. 435-445. [ Links ]

Hernández Lerma, O., y S. I. Marcus (1989), "Nonparametric Adaptive Control of Discrete Time Partially Observable Stochastic Systems", Journal of Mathematical Analysis and Applications , vol. 137, núm. 2, pp. 312-334. [ Links ]

------ (1987), "Adaptive Policies for Discrete Time Stochastic Systems with Unknown Disturbance Distribution", Systems Control Lett., vol. 9, pp. 307-315. [ Links ]

------, y ------ (1985), "Adaptive Control of Discounted Markov Decision Chains", J. Optim. Theory Appl., vol. 46, pp. 227-235. [ Links ]

------ (1984), "Optimal Adaptive Control of Priority Assignment in Queueing Systems", Systems Control Lett., vol. 4, pp. 65-72. [ Links ]

------, y T. E. Govindan (2001), "Nonstationary Continuous Time Markov Control Processes with Discounted Costs on Infinite Horizon", Acta Appl. Math., vol. 67, pp. 277-293. [ Links ]

------, y J. B. Lasserre (2003), Markov Chains and Invariant Probabilities, Birkhauser, Basel. [ Links ]

------, y ------ (2001a), "Zero Sum Stochastic Games in Borel Spaces: Average Payoff Criterion", SIAM J. Control Optimization, vol. 39, pp. 1520-1539. [ Links ]

------, y ------ (2001b), "Further Criteria for Positive Harris Recurrence of Markov Chains", Proceedings of the American Mathematical Society, vol. 129, núm. 5, pp. 152-1524. [ Links ]

------, y ------ (1999), Further Topics on Discrete-Time Markov Control Processes, Nueva York, Springer-Verlag. [ Links ]

------, y ------ (1996), Discrete-Time Markov Control Processes, Nueva York, Springer Verlag. [ Links ]

Jasso Fuentes, H., y O. Hernández Lerma (2009), "Blackwell Optimality for Controlled Diffusion Processes", J. Appl. Probab., vol. 46, núm. 2, pp. 372-391. [ Links ]

------, y ------ (2008), "Characterizations of Overtaking Optimality for Controlled Diffusion Processes", Appl. Math. Optim., vol. 57, pp. 349-369. [ Links ]

------, y ------ (2007), "Ergodic Control, Bias and Sensitive Discount Optimality for Markov Diffusion Processes", Stochastic Analysis and Applications, vol. 27, pp. 363-385. [ Links ]

Jeanne, O., y P. R. Masson (2000), "Currency Crisis, Sunspots and Markov-Switching Regimes", Journal of International Economics, vol. 50, núm. 2, pp. 327-350. [ Links ]

Jensen F. V. (1996), An Introduction to Bayesian Networks, Nueva York, Springer Verlag . [ Links ]

López Herrera, F., y F. Venegas Martínez (2011), "La crisis financiera mundial y la volatilidad del mercado accionario mexicano", Alfonso Mendoza Velázquez, Francisco López Herrera y Karen Watkins Fassler (comps.), Reflexiones sobre las crisis financieras, Centro de Investigación e Inteligencia Económica CIIE-UPAEP y División de Investigación de la Facultad de Contaduría y Administración, UNAM, pp. 73-101. [ Links ]

------, y ------ (2012a), "Modelado de la volatilidad del mercado mundial de capitales durante la crisis financiera mundial mediante una cadena de Markov", Semei L. Coronado Ramírez (comp.), Modelos no lineales en series económicas y/o financieras, Guadalajara, Universidad de Guadalajara. [ Links ]

López Herrera, F. , y F. Venegas Martínez (2012b), "Is There a Relationship Between the Mexican and the US real Business Cycles During 1930-2010?", Rafael S. Espinosa Ramírez (comp.), Research Issues on International Economic Relations, Guadalajara, Universidad de Guadalajara. [ Links ]

------, D. Rodríguez Benavides y F. Ortiz Arango (2011), "Volatilidad estocástica del tipo de cambio peso dólar: el régimen flotante en México", Investigación Económica, vol. 70, núm. 276, pp. 19-50. [ Links ]

------, y F. Venegas Martínez y Francisco Ortiz Arango (2012), "Modelado de la volatilidad del Índice de Precios y Cotizaciones de la Bolsa Mexicana de Valores con cambios markovianos de régimen", Ignacio Perrotini Hernández (comp.), Crecimiento y desarrollo económicos en México, pp. 153-164. [ Links ]

Martínez Palacios, M. T., A. Sánchez Daza y F. Venegas Martínez (2012), "Valuación de opciones americanas: un enfoque de control óptimo estocástico en un horizonte finito con fecha final aleatoria", Análisis Económico, vol. 27, núm. 64, pp. 165 183. [ Links ]

------, y F. Venegas Martínez (2011), "Control óptimo estocástico en la enseñanza de la economía matemática", Educación Matemática, vol. 23, núm. 3, pp. 147-181. [ Links ]

Merton, R. C. (1992), "Continuous Time Finance", Review of Economics and Statistics, vol. 51, núm. 2, pp. 247-257. [ Links ]

------ (1990), Continuous Time Finance, Cambridge, Massachusetts, Basil Blackwell. [ Links ]

------ (1971), "Optimum Consumption and Portfolio Rules in a Continuous-Time Model", Journal of Economic Theory, vol. 3, núm. 4, pp. 373-413. [ Links ]

------ (1969), "Lifetime Portfolio Selection under Uncertainty: The Continuous-Time Case", Review of Economics and Statistics, vol. 51, núm. 2, pp. 247-257. [ Links ]

Neck, R. (1985), "A Differential Game Model of Fiscal and Monetary Policies: Conflict and Cooperation", Feichtinger, pp. 607-632. [ Links ]

------ (1991), "Non-Cooperative Equilibrium Solution for a Stochastic Dynamic Game of Economic Stabilization Policies", Lecture Notes in Control and Information Sciences 157, Berlín, Springer-Verlag. [ Links ]

Neftci, S. (1984), "Are Economic Time Series Asymmetric over the Business Cycle?", Journal of Political Economy, vol. 92, pp. 307-328. [ Links ]

Nowak, A. S. (2003a), "Zero-Sum Stochastic Games with Borel State Spaces", Neyman y Sorin, pp. 77-91. [ Links ]

------ (2003b), "On a New Class of Nonzero-Sum Discounted Stochastic Games Having Stationary Nash Equilibrium Points", Int. J. Game Theory, vol. 32, pp. 121- 132. [ Links ]

------, y P. Szajowski (2003), "On Nash Equilibria in Stochastic Games of Capital Accumulation", L. A. Petrosjan and V. V. Mazalov, Stochastic Games and Applications, vol. 9, Nova Science, pp. 118-129. [ Links ]

------, y ------(2005), "Advances in Dynamic Games", Annals of the International Society of Dynamic Games, vol. 7, Birkhauser, Boston. [ Links ]

Ortiz Arango, F., F. Venegas Martínez y C. E. Castillo Ramírez (2009), "Impacto de la política fiscal en un ambiente con inflación estocástica: Un modelo de control óptimo", Morfismos, vol. 14, núm. 1, pp. 51-68. [ Links ]

Ortiz Ramírez, A, F. Venegas Martínez y F. López Herrera (2011), "Valuación de una nota estructurada que liga el rendimiento de un índice bursátil con los pagos de un bono y un derivado", Estocástica, Finanzas y Riesgos, vol. 1, núm. 2, pp. 49-62. [ Links ]

Pagan, A. (1996), "The Econometrics of Financial Markets", Journal of Empirical Finance, vol. 3, núm. 1, pp. 15-102. [ Links ]

Pearl, J. (2000), Causality, Models, Reasoning, and Inference, Cambridge University Press. [ Links ]

Polanco Gaytan, M., y F. Venegas Martínez (2011), "Macroeconomía Estocástica", Serie Textos Técnicos Universitarios, México, Universidad de Colima. [ Links ]

Prieto Rumeau, T., y O. Hernández Lerma (2012), "Selected Topics on Continuous Time Controlled Markov Chains and Markov Games", ICP Advanced Texts in Mathematics, vol. 5, World Scientific. [ Links ]

------, y ------ (2009), "Variance Minimization and the Overtaking Optimality Approach to Continuous-Time Controlled Markov Chains", Math. Meth. Oper. Res., vol. 70, pp. 527-540. [ Links ]

------, y ------ (2006), "Bias Optimality for Continuous-Time Controlled Markov Chains", SIAM J. Control Optim., vol. 45, pp. 51-73. [ Links ]

------, y ------ (2005), "Bias and Overtaking Equilibria for Zero Sum Continuous Time Markov Games", Math. Meth. Oper. Res., vol. 61, pp. 437-454. [ Links ]

Ramsey, F. P. (1928), "A Mathematical Theory of Savings", Economic Journal, vol. 38, pp. 543-559. [ Links ]

Rincón Zapatero, J. P. (2004), "Characterization of Markovian Equilibria in a Class of Differential Games", J. Econ. Dyn. Control, vol. 28, pp. 1243-1266. [ Links ]

------, J. Martínez y G. Martín Herrán (1998), "New Method to Characterize Subgame Perfect Nash equilibria in Differential Games", J. Optim. Theory Appl., vol. 96, pp. 377-395. [ Links ]

------, G. Martín Herrán y P. J. Martínez (2000), "Identification of Efficient Subgame Perfect Nash Equilibria in a Class of Differential Games", J. Optim. Theory Appl., vol. 104, pp. 235-242. [ Links ]

Rivas Aceves, S., y F. Venegas Martínez (2010), "Gobierno como promotor del cambio tecnológico: Un modelo de crecimiento endógeno con trabajo, dinero y deuda", Economía Mexicana, Nueva Época, vol. 19, núm. 1, pp. 91-117. [ Links ]

Rodríguez Nava, A., y F. Venegas Martínez (2008), "Decisiones de producción de las empresas en condiciones de incertidumbre de precios", Investigación Económica , vol. 67, núm. 265, pp. 61-84. [ Links ]

Shapley, L. S. (1953), "A Value for n-person Games", H. W. Kuhn y A. W. Tucker (comps.), Contributions to the Theory of Games, volume II. [ Links ]

Schäl, M. (1987), "Estimation and Control in Discounted Stochastic Dynamic Programming", Stochastics, vol. 20, pp. 51-71. [ Links ]

Taylor, S. J. (2005), Asset price dynamics, volatility, and prediction, Princeton, Princeton University Press. [ Links ]

Tierney, L. (1994), "Markov Chains for Exploring Posterior Distributions", The Annals of Statistics, vol. 22, núm. 4, pp. 1701-1728. [ Links ]

Venegas Martínez, F. (2001), "Temporary Stabilization: A Stochastic Analysis", Journal of Economic Dynamics and Control , vol. 25, núm. 9, pp. 1429-1449. [ Links ]

------ (2005), "Bayesian Inference, Prior Information on Volatility, and Option Pricing: A Maximum Entropy Approach", International Journal of Theoretical and Applied Finance, vol. 8, núm. 1, pp. 1-12. [ Links ]

------ (2006a), "Stochastic Temporary Stabilization: Undiversifiable Devaluation and Income Risks", Economic Modelling, vol. 23, núm. 1, pp. 157-173. [ Links ]

------ (2006b), "Fiscal Policy in a Stochastic Temporary Stabilization Model: Undiversifiable Devaluation Risk", Journal of World Economic Review, vol. 1, núm. 1, pp. 87-106. [ Links ]

------ (2007), "Mercados de notas estructuradas: un análisis descriptivo y métodos de valuación", EL TRIMESTRE ECONÓMICO, vol. LXXIV (3), núm. 295, pp. 615-661. [ Links ]

------ (2008a), Riesgos financieros y económicos: valuación de productos derivados y decisiones económicas bajo incertidumbre, segunda edición, México, Cengage. [ Links ]

------ (2008b), "Real Options on Consumption in a Small Open Monetary Economy", Journal of World Economic Review, vol. 3, núm. 2, pp. 105-115. [ Links ]

------ (2009a), "Temporary Stabilization in Developing Countries and Real Options on Consumption", International Journal of Economic Research, vol. 6, núm. 2, pp. 237-257. [ Links ]

------ (2009b), "Un modelo estocástico de equilibrio macroeconómico: acumulación de capital, inflación y política fiscal", Investigación Económica, vol. 68, núm. 268, pp. 69-114. [ Links ]

------ (2010a), "Fiscal Policy in a Stochastic Model of Endogenous Growth: the Mexican Case", Indian Development Review, vol. 8, núm. 1-2, pp. 139-157. [ Links ]

------ (2010b), "Planes no creíbles de estabilización de precios, riesgo cambiario y opciones reales para posponer consumo. Un análisis con volatilidad estocástica", EL TRIMESTRE ECONÓMICO, vol. LXXVII (4), núm. 308, pp. 899-936. [ Links ]

------ (2011), "How Risk Factors Affect Growth in Mexico: A Free Market Liberalism Approach", G. Angeles Castro, I. Perrotini Hernández y H. Ríos Bolivar (comps.), Market Liberalism, Growth and Economic Development in Latin America, Routledge. [ Links ]

------, y B. González Aréchiga (2002), Cobertura de tasas de interés con futuros del mercado mexicano de derivados. Un modelo estocástico de duración y convexidad", EL TRIMESTRE ECONÓMICO, vol. LXIX (2), núm. 274, pp. 227-250. [ Links ]

------, y A. Fundia Aizenstat (2006), "Opciones reales, valuación financiera de proyectos y estrategias de negocios. Aplicaciones al caso mexicano", EL TRIMESTRE ECONÓMICO, vol. LXXIII (2), núm. 290, pp. 363-455. [ Links ]

------, y A. Rodríguez Nava (2010), "Optimal Portfolio and Consumption Decisions under Exchange Rate and Interest Rate Risks: A Jump Diffusion Approach", Revista Contaduría y Administración, núm. 230, pp. 9-24. [ Links ]

------, V. Torres Preciado y M. A. Tinoco Zermeño (2010), "Mercados financieros: Capitales, deuda y derivados", Serie Textos Técnicos Universitarios, México, Universidad de Colima. [ Links ]

Von Weizsäcker, C. C. (1965), "Existence of Optimal Programs of Accumulation for an Infinite Horizon", Rev. Econ. Stud. , vol. 32, pp. 85-104. [ Links ]

White, D. J. (1980), "Recent Developments", R. Hartley, L. C. Thomas y D. J. White (comps.), Markov Decision Processes, Nueva York, Academic Press. [ Links ]

¹Véase también el trabajo de ^{Hernández Lerma y Lasserre (2001b)} de cadenas de Markov y matrices de Harris.

²Este esquema también es conocido como programación dinámica estocástica en tiempo discreto.

³Se puede utilizar diversos criterios de desempeño; véase, por ejemplo, ^{Feinberg (1982)}.

⁴Véase también ^{Hernández Lerma y Marcus (1987)}.

⁵Otros trabajos relacionados con el tema son ^{Hernández Lerma (1985)} y ^{Hernández Lerma y Marcus (1984)} y (¹⁹⁸⁵).

⁶En ^{Hernández Lerma (1994)} se encuentra una introducción a los procesos markovianos de control en tiempo continuo. Asimismo, el caso discreto es tratado en ^{Hernández Lerma y Lasserre (1999)}.

⁷Véase también ^{Hernández Lerma (2003d)}.

⁸La optimalidad rebasante grande es un concepto introducido inicialmente por ^{Ramsey (1928)}. Una noción más débil se introdujo, de manera independiente, por ^{Atsumi (1965)} y ^{Von Weizsäcker (1965)}.

⁹Otros resultados importantes sobre optimalidad en sesgo y optimalidad rebasante se encuentran en ^{Prieto Rumeau y Hernández Lerma (2006)} y ⁽²⁰⁰⁹⁾.

¹⁰Véase más pormenores del problema de control óptimo estocástico en tiempo continuo en, por ejemplo, ^{Hernández Lerma (1994)} y ^{Björk, Myhrman y persson (1987)}.

¹¹Una recopilación de las contribuciones de Merton se encuentra en ^{Merton (1990)} y ⁽¹⁹⁹²⁾.

¹²Varios de los conceptos utilizados se encuentran de manera pormenorizada en Venegas Martínez (2008).

¹³La ecuación HJB es el resultado central en la teoría de control óptimo. La ecuación correspondiente en tiempo discreto se conoce como la ecuación de Bellman.

¹⁴Como siempre o(h) significa que o(h)/h tiende a 0 cuando h tiende a 0.

Recibido: 17 de Julio de 2012

Este es un artículo publicado en acceso abierto bajo una licencia Creative Commons