Evaluación de criterios de selección de modelos probabilísticos: validación con series de valores máximos simulados

Flowers-Cano, Roberto S.; Flowers, Robert Jeffrey; Rivera-Trejo, Fabián

Services on Demand

Journal

Article

Indicators

Cited by SciELO
Access statistics

Tecnología y ciencias del agua

On-line version ISSN 2007-2422

Tecnol. cienc. agua vol.5 n.5 Jiutepec Sep./Oct. 2014

Notas técnicas

Evaluación de criterios de selección de modelos probabilísticos: validación con series de valores máximos simulados

Evaluation of Probabilistic Model Selection Criteria: Validation with Series of Simulated Maxima

Roberto S. Flowers-Cano,* Robert Jeffrey Flowers, Fabián Rivera-Trejo
Universidad Juárez Autónoma de Tabasco, México
*Autor de correspondencia

Dirección institucional de los autores

M.I.H. Roberto S. Flowers-Cano
M.C. Robert Jeffrey Flowers
Dr. Fabián Rivera-Trejo

Universidad Juárez Autónoma de Tabasco
División Académica de Ingeniería y Arquitectura
Carretera Cunduacán-Jalpa de Méndez
Km 1, Col. La Esmeralda
86690 Cunduacán, Tabasco, México
Teléfono: +52 (993) 358 1500, extensiones 6758 y 6707
flowerscano@hotmail.com
robert.flowers@basicas.ujat.mx
jose.rivera@daia.ujat.mx

Recibido: 14/10/12
Aceptado: 12/02/14

Resumen

Se realizó un estudio de Monte Carlo para determinar la validez del empleo de la prueba del error estándar de ajuste como criterio de selección en el análisis de frecuencias. Dicho estadístico se comparó con los estadísticos de prueba de Kolmogorov-Smirnov, Cramer-Von Mises y Anderson-Darling. Las distribuciones elegidas para el propósito de comparar estos estadísticos fueron la gamma, Weibull, Gumbel, log-normal y log-logística. Los resultados obtenidos recomiendan el uso de muestras con tamaño de por lo menos n=50 para tener un buen desempeño de las pruebas de Anderson-Darling y error estándar de ajuste. El empleo de las pruebas de Kolmogorov-Smirnov y Cramer-Von Mises no es del todo recomendable en hidrología, ya que para obtener un desempeño aceptable se necesitan muestras más grandes de las que normalmente se tienen en esta disciplina.

Palabras clave: error estándar de ajuste, Kolmogorov-Smirnov, Cramer-Von Mises, Anderson-Darling.

Abstract

In this paper, a Monte Carlo study is performed to determine the validity of using the root mean square error as a selection criterion for the frequency analysis. This statistic is compared to those from the Kolmogorov- Smirnov, the Cramer-Von Mises and the Anderson-Darling tests. The distributions chosen to compare these statistics are gamma, Weibull, Gumbel, log-normal and log-logistic. The results obtained by this study indicate that at least 50 random observations are needed to obtain good results using either the Anderson-Darling or root mean square error statistics. The Kolmogorov-Smirnov and Cramer-Von Mises tests are not recommended since they require sample sizes larger than those usually found in hydrology.

Keywords: Root mean square error, Kolmogorov- Smirnov, Cramer-Von Mises, Anderson-Darling.

Introducción

El diseño de obras de control y aprovechamiento requiere el análisis de frecuencias de eventos hidrológicos extremos para estimar la probabilidad de ocurrencia de dichos eventos. A menudo, el periodo de retorno del evento de diseño de una obra hidráulica excede el periodo de las observaciones y deben hacerse extrapolaciones a partir de los valores registrados. Una forma de extrapolar los datos históricos consiste en emplear el método gráfico, que requiere de un analista experimentado y presenta la desventaja de la subjetividad. Una técnica más objetiva es encontrar la distribución de probabilidad teórica que se ajuste mejor a los datos medidos y usar esta función para la extrapolación. Algunas de las distribuciones de probabilidad usadas en hidrología son normal, log-normal, gamma, Gumbel, Weibull, Pearson tipo III y log-Pearson tipo III (Aksoy, 2000; Aparicio-Mijares, 2005). Un problema importante en el análisis de frecuencias es la selección de una distribución de probabilidad apropiada para los datos observados. Este problema no es exclusivo de la hidrología, también se observa en otras áreas, como la confiabilidad y ciencias actuariales. Quesenberry y Kent (1982) desarrollaron un criterio de selección de distribuciones basado en estadísticos invariantes bajo transformaciones de escala. Demostraron la efectividad de su criterio a partir de un estudio de Monte Carlo para distinguir entre las distribuciones exponencial, gamma, Weibull y log-normal. Generalmente, la selección de modelos se basa en pruebas de bondad de ajuste, que incluyen métodos gráficos y estadísticos, siendo preferibles los métodos estadísticos por su objetividad (Shin, Jung, Jeong, & Heo, 2011). Entre los métodos estadísticos con mayor aplicación en la hidrología se encuentran las pruebas de chi-cuadrado (c²) y del error estándar de ajuste (EEA) (Ganancias-Martínez, 2009). Otros métodos usados a menudo son los de función de distribución empírica (FDE), que incluyen las pruebas de Kolmogorov-Smirnov (KS), Cramer-Von Mises (CVM) y Anderson-Darling (AD) (p. ej., Laio, 2004; Suhaila & Jemain, 2007; Dan'azumi, Shamsudin, & Aris, 2010; Shin et al., 2011; Atroosh & Moustafa, 2012). Sin embargo, las pruebas estadísticas de bondad de ajuste tienen poco poder para rechazar distribuciones equivocadas (Mitosek, Strupczewski, & Singh, 2002), por lo que en muchos casos, más de una distribución puede ser aceptada por una prueba específica (Laio, Baldasarre, & Montanari, 2009). En este caso, el concepto de criterio de selección de modelos representa una alternativa a las pruebas de bondad de ajuste. Pueden definirse diversos criterios de selección en función de los estadísticos de bondad de ajuste antes mencionados. Otros criterios de selección se basan en la función de verosimilitud, como el criterio de información de Akaike (CIA) y el criterio de información Bayesiano (CIB) (Laio et al., 2009). Balasooriya, Low y Wong (2005) evaluaron la efectividad de los criterios de Akaike, y de Quesenberry y Kent. Encontraron que si bien ambos criterios tuvieron un buen desempeño, el segundo fue ligeramente mejor; sin embargo, la dificultad computacional de este criterio hace preferible el empleo del CIA. Los criterios de selección de modelos probabilísticos han recibido poca atención en la literatura hidrológica. Mitosek et al. (2002) consideraron las distribuciones Weibull, gamma, Gumbel y log-normal como modelos alternativos para la distribución de caudales pico anuales, y evaluaron estas distribuciones usando tres índices: la desviación absoluta media, la media cuadrática y la función de verosimilitud normalizada. Tras realizar un estudio de Monte Carlo, concluyeron que la función de verosimilitud normalizada representaba el mejor criterio de selección. El Adlouni, Bobée y Ouarda (2008) utilizaron técnicas gráficas para seleccionar la clase de distribuciones que proporciona el mejor ajuste a un conjunto de datos. Utilizaron el criterio de clasificación de Werner y Upper (2002), quienes dividieron las distribuciones en: a) estables; b) con cola tipo Parteo; c) regularmente variantes; d) sub-exponenciales; e) con momentos exponenciales inexistentes. Estos autores propusieron el empleo de métodos gráficos para determinar la clase de la distribución y después utilizar criterios como el CIA, CIB o AD para seleccionar la distribución de mejor ajuste. Por su parte, Laio et al. (2009) hicieron un análisis del desempeño de tres criterios de selección de modelos: CIA, CIB y AD, aplicados para identificar el mejor modelo probabilístico de un ajuste de datos hidrológicos extremos. El desempeño de estos criterios se comparó usando datos sintéticos. No hubo un claro ganador entre los tres, pero se observó que eran más efectivos cuando la distribución utilizada en la generación de los datos sintéticos era de dos parámetros y no de tres. Di Baldasarre, Laio y Montanari (2009) extendieron el análisis de Laio et al. (2009) y demostraron que el empleo de un criterio de selección de modelos mejora la estimación de la crecida de diseño de una obra hidráulica respecto al manejo de un modelo probabilístico fijo. En este trabajo se utilizó un procedimiento similar al de Laio et al. (2009). Se emplearon datos sintéticos de una distribución conocida para comparar el desempeño de diferentes criterios de selección (AD, KS, CVM y del EEA); sin embargo, para mayor efectividad se emplearon solamente distribuciones de dos parámetros (Laio et al., 2009; Haddad & Rahman, 2011; Markiewicz, Strupczewski, & Kochanek, 2010). La finalidad fue comparar el desempeño del EEA, recomendado por Aparicio-Mijares (2005), contra los otros criterios comúnmente utilizados en la estadística aplicada. Los resultados obtenidos muestran que el EEA tuvo un desempeño comparable al de la prueba de AD, y superior al de las pruebas de KS y CVM; además, se encontró que el empleo de estas dos últimas pruebas no es del todo recomendable en hidrología, pues para obtener desempeños aceptables se requieren muestras más grandes de las que normalmente se encuentran en esta disciplina.

Materiales y métodos

Comparación de criterios de selección

Se realizó un análisis numérico para comparar los desempeños de diferentes criterios de selección de modelos probabilísticos. Los criterios considerados fueron las pruebas de error estándar de ajuste (EEA), Cramer-Von Mises (CVM), Kolmogorov-Smirnov (KS) y Anderson-Darling (AD). El análisis se llevó a cabo por medio de una serie de experimentos de Monte Carlo, que constaron de los siguientes pasos: a) se eligieron las siguientes distribuciones de probabilidad madre: Gumbel, Weibull, gamma, log-normal y log-logística, las funciones de densidad de probabilidad (fdp) de las primeras cuatro distribuciones se pueden consultar en el texto de Haan (1994), la de la distribución log-logística, en Dey y Kundu (2009); b) se generaron 80 000 muestras aleatorias de tamaño n de las distribuciones madre, los tamaños de muestra considerados fueron n = 30, 50, 80 y 100; c) las distribuciones de interés se ajustaron a los datos generados, los parámetros se estimaron por el método de máxima verosimilitud; d) para cada una de las distribuciones se calcularon los estadísticos de AD, CVM, KS y EEA; e) para cada uno de los criterios se seleccionó la distribución para la cual se obtuvo el valor más pequeño, si la distribución seleccionada era igual a la distribución madre, se consideró que el criterio tuvo éxito.

Parámetros de las distribuciones

Los parámetros de las distribuciones madre se muestran en el cuadro 1, dichos parámetros se basan en los estimados por De Dios-Lara (1998).

Métodos de selección de modelos

Los criterios de selección de modelos empleados en este trabajo se basan en el cálculo de los estadísticos de EEA, KS, CVM y AD. La forma matemática del estadístico de EEA se puede consultar en Raynal-Villaseñor (2013). Para los otros estadísticos, se puede consultar Suhaila y Jemain (2007).

Estudio de sensibilidad

Se realizó un estudio de sensibilidad para determinar el efecto que tiene el empleo de un criterio de selección en la estimación del cuantil x_T, esto es, el valor asociado con un periodo de retorno T. Para dicho estudio se hicieron pruebas de Monte Carlo, estructuradas de la siguiente forma: a) se eligió como distribución madre una de las cinco distribuciones mencionadas anteriormente; b) se calculó el valor x_T de la distribución madre, correspondiente al periodo de retorno T. Los valores de T considerados fueron de 10 y 100 años, el primero representa una interpolación y el segundo una extrapolación; c) se generaron 400 000 muestras de tamaño n de las distribuciones madre, los tamaños de muestra considerados fueron n = 30 y n = 50, y se utilizaron los parámetros mostrados en el cuadro 1; d) las cinco distribuciones de interés se ajustaron a los datos de cada muestra, usando el método de máxima verosimilitud; e) se calcularon los valores de los criterios de AD, CVM, KS y EEA para cada una de las cinco distribuciones; f) para cada uno de los criterios se seleccionó la distribución para la cual se obtuvo el valor más pequeño; g) la distribución seleccionada por cada criterio se utilizó para calcular el estimador de x_T; h) para el conjunto de valores de ADx_T se calculó la raíz del error cuadrático medio relativo (ÔRECM) y el sesgo relativo (δS), empleando las siguientes expresiones (Markiewicz et al., 2010):

donde x_T es el valor "verdadero" del cuantil, obtenido de la distribución madre; es un estimador de x_T; y E indica el valor esperado.

Resultados

Comparación de los criterios de selección

Los resultados se muestran en el cuadro 2. Se observan los porcentajes de selección correcta (PSC) para cada uno de los escenarios de simulación que se manejaron. El PSC es el número de veces que el criterio de selección identificó correctamente la distribución madre, dividido entre el número total de selecciones. Se analizaron las cinco distribuciones, por lo que el PSC asignado por azar sería del 20%. Por lo tanto, un criterio de selección bueno estaría por arriba del 20%. Se observa en el cuadro 2 que para una distribución madre y un juego de parámetros específicos, el PSC aumenta con n. También se distingue cierta preponderancia del criterio de AD cuando la distribución madre es log-normal, gamma o Weibull; del EEA cuando la distribución madre es Gumbel, y de CVM cuando la distribución madre es log-logística. Esto resulta más visible en la figura 1. En general, AD parece ser el criterio ganador, seguido por el EEA, mientras que KS parece tener el menor poder de selección. Algo más que se puede apreciar en esta figura es que el PSC no sólo varía en función del criterio de selección y de n, sino también de la distribución madre. Todos los criterios considerados presentan un mejor desempeño cuando la distribución madre es Weibull o log-logística que cuando es gamma, Gumbel, o log-normal. Esto se puede notar mejor en la figura 2.

Esto se debe a la dificultad de los mismos para discriminar entre distribuciones parecidas. Las PSC observadas dependen de las distribuciones que se someten a comparación. Si la distribución Weibull se hubiera sustituido por la log-gamma, los PSC observados para las otras distribuciones hubieran sido menores. Algo que se observa en el cuadro 2 y en las gráficas es que si el tamaño de la muestra es pequeña, los criterios de selección son similares. Si dos modelos hacen predicciones muy parecidas, no importa cuál de los dos se escoja; en cambio, es preciso poder distinguir entre distribuciones que difieren considerablemente, pues las predicciones realizadas con las mismas podrían ser muy diferentes entre sí.

Estudio de sensibilidad

Los resultados del estudio de sensibilidad se resumen en el cuadro 3.

Se muestran los valores de ôRECM y δS para los estimadores obtenidos, usando los modelos seleccionados por los diferentes criterios. Para cada distribución madre, los valores se han promediado para todos los juegos de parámetros utilizados y se han clasificado de acuerdo con el tamaño de la muestra y el periodo de retorno usados en la simulación. Se observa que:

a) La magnitud de la δRECM aumenta con el periodo de retorno y disminuye con el incremento del tamaño de la muestra. Esto era de esperarse, ya que la varianza de los estimadores de x_T aumenta cuando sube T, y disminuye cuando aumenta n (Silva et al., 2011).

b) Cuando la distribución madre es log-logística y para T = 10, las magnitudes de la δRECM y del δS asociadas con el criterio de EEA son significativamente mayores que para otros criterios.

c) Los valores de δRECM más pequeños significan que los estimadores se encuentran más cerca del verdadero valor de x_T.

d) Por lo general, para T = 10 no se observan grandes diferencias entre los criterios.

e) Para T = 100, el criterio de AD tiende a producir las estimaciones más precisas; éstas tienden a ser más pequeñas que las de los demás criterios considerados.

Conclusiones

Las simulaciones muestran que los criterios de selección ayudan a escoger la mejor distribución para un análisis de frecuencias. Se encontró que de los criterios empleados, el mejor fue AD, seguido por el EEA. También se observó que es difícil discriminar entre dos distribuciones parecidas. También se encontró que el porcentaje de selección correcta (PSC) de los criterios de selección depende del tamaño de la muestra n y de la distribución que siguen los datos generados. En general, el criterio de AD resulta con mejores estimaciones para T = 100, aun cuando no escoge la distribución correcta. También se observó que tiende a producir estimaciones más pequeñas que los demás criterios considerados, y que en la mayoría de los casos subestima el valor x_T. Para T = 10 no hay grandes diferencias entre los criterios. A partir de los resultados obtenidos, se recomiendan muestras con tamaño de por lo menos n = 50 para tener un buen desempeño de las pruebas de AD y EEA. El empleo de las pruebas de KS y CVM no se recomienda a menos que se tengan muestras grandes.

Referencias

Aksoy, H. (November 2000). Use of Gamma Distribution in Hydrological Analysis. Turkish Journal of Engineering and Environmental Sciences, 24(6), 419-428. [ Links ]

Aparicio-Mijares, F. J. (2005). Fundamentos de Hidrología de Superficie (304 pp.). México, DF: Limusa Noriega Editores. [ Links ]

Atroosh, K. B., & Moustafa, A. T. (June 2012). An Estimation of the Probability Distribution of Wadi Bana Flow in the abyan Delta of Yemen. Journal of Agricultural Science, 4(6), 80-89. [ Links ]

Balasooriya, U., Low, C. K., & Wong, A. Y. W. (2005). Modeling Insurance Loss Data: The log-EIC Distribution. Journal of Actuarial Practice, 12, 101-125. [ Links ]

Dan'Azumi, S., Shamsudin, S., & Aris, A. (June 2010). Modeling the Distribution of Rainfall Intensity using Hourly Data. American Journal of Environmental Sciences, 6(3), 238-243. [ Links ]

De Dios-Lara, E. (1998). Análisis hidrológico de tormentas de diseño para el estado de Tabasco (215 pp.). Tesis de Maestría en Ingeniería Hidráulica. Cárdenas, México: Universidad Juárez Autónoma de Tabasco, División Académica de Ingeniería y Arquitectura. [ Links ]

Dey, A. K., & Kundu, D. (2009). Discriminating between the Log-Normal and Log-Logistic Distributions. Communications in Statistics - Theory and Methods, 39(2), 280-292. [ Links ]

Di Baldasarre, G., Laio, F., & Montanari, A. (2009). Design Flood Estimation using Model Selection Criteria. Physics and Chemistry of the Earth, 34(10-12), 606-611. [ Links ]

El Adlouni, S., Bobée, B., & Ouarda, T. B. M. J. (2008). On the Tails of Extreme Event Distributions in Hydrology. Journal of Hydrology, 154, 16-33. [ Links ]

Ganancias-Martínez, F. (2009). Cátedra de Hidrología y Procesos Hidráulicos (32 pp.). Clase de Estadística Hidrológica. Córdoba, Argentina: Universidad Nacional de Córdoba, Facultad de Ciencias Exactas, Físicas y Naturales. [ Links ]

Haan, C. T. (1994). Statistical Methods in Hydrology (378 pp.). Sixth printing. Ames, Iowa, USA: Iowa State University Press. [ Links ]

Haddad, K., & Rahman, A. (2011). Selection of the Best Fit Flood Frequency Distribution and Parameter Estimation Procedure: A Case Study for Tasmania in Australia. Stoch. Environ. Res. Risk Assess, 25, 415-428. [ Links ]

Laio, F. (2004). Cramer-von Mises, and Anderson-Darling Goodness of Fit Tests for Extreme Value Distributions with Unknown Parameters. Water Resources Research, 490, W09308, doi:10.1029/2004WR003204, 10. [ Links ]

Laio, F., Di Baldasarre, G., & Montanari, A. (2009). Model sSelection Techniques for the Frequency Analysis of Hydrological Extremes. Water Resources Research, 495, W07416, doi:10.1029/2007WR006666, 11. [ Links ]

Markiewicz, I., Strupczewski, W. G., & Kochanek, K. (2010). On Accuracy of Upper Quantiles Estimation. Hydrology and Earth System Sciences, 14, 2167-2175. [ Links ]

Mitosek, H. T., Strupczewski, W. G., & Singh, V. P. (2002). Toward an Objective Choice of an Anual Flood Peak Distribution (16 pp.). 5th ICHE, Warsaw Poland, CD Proceedings, Track C, PDF 158. [ Links ]

Quesenberry, C. P., & Kent, J. (1982). Selecting Among Probability Distributions used in Reliability. Technometrics, 24(1), 59-65. [ Links ]

Raynal-Villaseñor, J. A. (2013). Probability Weighted Moments Estimators for the GEV Distribution for the Minima. IJRRAS, 15(1), 33-40. [ Links ]

Shin, H., Jung, Y., Jeong, C., & Heo, J. H. (April 2011). Assessment of Modified Anderson-Darling Test Statistics for the Generalized Extreme Value and Generalized Logistic Distributions. Stochastic Environmental Research and Risk Assessment, 26, 105-114. [ Links ]

Silva, A. T., Naghettini, M., & Portela, M. M. (2011). Sobre a Estimacao de Intervalos de Confianca para os Quantis de Variáveis Aleatórias Hidrológicas. Recursos Hídricos, 32(2), 63-76. [ Links ]

Suhaila, J., & Jemain, A. A. (2007). Fitting Daily Rainfall amount in Malasya Using the Normal Transform Distribution. Journal of Applied Sciences, 7(14), 1880-1886. [ Links ]

Werner, T., & Upper, C. (2002). Time Variation in the Tail Behavior of Bund Futures Returns. Working Paper No. 199, Frankfurt: European Central Bank. [ Links ]