Comparación de cuatro modelos de regresión para el estudio de factores de riesgo de hato para datos binomiales correlacionados

Segura Correa, José C.; Salinas-Meléndez, Antonio; Solís Calderón, José Jesús; Solorio Rivera, José Luis

Services on Demand

Journal

Article

Indicators

Cited by SciELO
Access statistics

Veterinaria México

Print version ISSN 0301-5092

Vet. Méx vol.39 n.2 Ciudad de México Jan./Jun. 2008

Artículos científicos

Comparación de cuatro modelos de regresión para el estudio de factores de riesgo de hato para datos binomiales correlacionados

Comparison of four regression models for the study of herd risk factors for binomial correlated data

José C. Segura Correa* Antonio Salinas–Meléndez** José Jesús Solís Calderón*** José Luis Solorio Rivera

* Facultad de Medicina Veterinaria y Zootecnia, Universidad Autónoma de Yucatán, Km 15.5, Carretera Mérida–Xmatkuil, Mérida, Yucatán, México, Tel. 01(999) 9423200, correo electrónico: scorrea@tunku.uady.mx

** Departamento de Microbiología y Unidad de Biotecnología, Facultad de Medicina Veterinaria y Zootecnia, Universidad Autónoma de Nuevo León, Av. Lázaro Cárdenas 4600, Unidad Mederos, Monterrey, Nuevo León, 69930, México.

*** Centro de Investigación Regional del Sureste, Instituto Nacional de Investigaciones Forestales, Agrícolas y Pecuarias, Km 25, Carretera Mérida–Motul, 97454, Mocochá, Yucatán, México.

Facultad de Medicina Veterinaria y Zootecnia, Universidad Michoacana de San Nicolás de Hidalgo, Av. Acueducto y Tzintzuntzan, 58000, Morelia, Michoacán, México.

Recibido el 30 de noviembre de 2006
Aceptado el 12 de enero de 2008.

Abstract

The objectives of this study were to compare four linear or logistic regression models and to determine their effects on the level of significance and parameter estimates, using the data from a study on seroprevalence of brucellosis in goats. Information on 5 114 does tested during 2002–2003 from 79 herds in the Bajio region in Michoacan, Mexico was used. The models were: the prevalence of seropositive animals per herd (V1), analyzed by a general linear model (GLM), herds with at least one seropositive animal, analyzed by standard logistic regression (SLRH); V1 analyzed by standard logistic regression (SLR), assuming independence among results within a same herd (SLRA); and V1 analyzed by mixed LR, considering the herd as random effect (MLR). The risk factors included in the four models were: the presence of abortions the year previous to the study, cleanness of the corral (hygiene) and length of lactation. The V1 variable transformed to arcsine–square root did not show a normal distribution. SLRH model (SLR assuming the herd as the unit of interest) and MLR were not compared because they were not nested models. MLR model adjusted the data better than the SLRA model. The deviance (–2LL) from model SLRH (70.6) was similar to their degrees of freedom (75), suggesting that the model adjusted the data very well. Levels of significance for the risk factors were different, depending of the model used. GLM and SLRH models showed significant effects (P < 0.02) only for the presence of abortions; SLRA model showed significant effect (P < 0.05) for the three risk factors, and MLR, effects of the presence of abortions and lactation length, but not for hygiene. The values for the odd ratios (OR) for the SLRA and MLR models were different; the narrowest confidence intervals corresponded to the SLRA model, and the widest to the SLRH model.

Key words: Logistic Regression, Fixed effects, Random Effects, Clusters.

Resumen

Los objetivos de este estudio fueron comparar cuatro modelos de regresión lineal o logística y determinar sus efectos sobre los niveles de significancia y parámetros, utilizando los datos de un estudio de seroprevalencia de brucelosis en cabras. Se utilizó la información de 5 114 cabras en 79 hatos de la región del Bajío, en Michoacán, México, durante 2002–2003. Los modelos fueron: la prevalencia de animales seropositivos por hato (V1), analizados mediante un modelo lineal general (MLG); hatos con al menos un animal seropositivo, analizados mediante regresión logística estándar (RLEH), V1 analizada mediante RLE, suponiendo independencia entre resultados dentro de un mismo hato (RLEA) y V1 analizada mediante RL mixta, considerando al hato como efecto aleatorio (RLM). Los factores de riesgo incluidos en los cuatro modelos fueron: presencia de abortos el año anterior al estudio, limpieza del corral (higiene) y duración de la lactancia. La variable V1 transformada a arcoseno–raíz cuadrada no mostró distribución normal. El modelo RLEH (RL estándar considerando al hato como la unidad de interés) y RLM no se compararon por no ser modelos anidados. El modelo RLM ajustó mejor los datos que el modelo RLEA. La deviance (–2LL) del modelo RLEH (70.6) fue similar a sus grados de libertad (75), ello sugiere que este modelo ajustó estadísticamente bien los datos. Se encontraron niveles de significancia diferentes para los factores de riesgo, según el modelo estadístico utilizado. Los modelos MLG y RLEH mostraron efectos significativos (P < 0.02) sólo de presencia de abortos; el modelo RLEA mostró efecto significativo (P < 0.05) para los tres factores de riesgo, y el RLM, efectos de presencia de abortos y duración de la lactancia, pero no de higiene. Los valores de la razón de momios (OR) para los modelos RLEA y RLM fueron diferentes; los intervalos de confianza más estrechos correspondieron al modelo RLEA, y los más amplios, al RLEH.

Palabras clave: Regresión Logística, Efectos Fijos, Efectos Aleatorios, Conglomerados.

Introducción

Los epidemiólogos estudian las enfermedades de los animales en el ámbito poblacional y la unidad de estudio generalmente es el hato, aunque las observaciones se hacen en los animales. El estudio de hatos como unidad de muestreo limita el uso de la metodología de regresión logística estándar (herramienta estadística para el estudio de factores de riesgo), ya que ésta supone independencia entre cada uno de los animales muestreados dentro de cada hato; es decir, la presencia de enfermedad en un animal es independiente de la presencia o ausencia de enfermedad en otro animal. Sin embargo, debido a la naturaleza de las enfermedades, las respuestas de los animales en un mismo hato a menudo están correlacionadas (no son independientes).

El hecho de no cumplir con la independencia generalmente conduce a la subestimación de la variabilidad de los datos, incrementando la probabilidad de rechazar las hipótesis nulas planteadas sobre los factores de riesgo.¹ Existen algunos artículos en la literatura que indican cómo ajustarlos mediante la correlación dentro de hatos;² la tendencia general ha sido el uso de modelos de regresión logística de efectos mixtos (fijos y aleatorios), que corrigen por medio de la correlación de resultados dentro de hatos.^1,3 Sin embargo, aun hoy en día es común encontrar estudios donde no se hace uso de los modelos de efectos mixtos.

Para evitar los efectos aleatorios o por desconocimiento de los modelos mixtos, los epidemiólogos utilizan como variable de respuesta la seroprevalencia del hato, clasificándolo como positivo o negativo, según tenga o no al menos un animal positivo o determinado nivel de seroprevalencia.^4–6 Una desventaja de esta aproximación es que no se hace uso eficiente de toda la información. La existencia o no de correlación entre individuos de un mismo hato es en sí información de interés en la elaboración de programas de prevención o control de las infecciones.¹ Además, los criterios para clasificar a un hato como positivo o negativo son generalmente escogidos por conveniencia. En producción animal, las variables dicotómicas generalmente son estudiadas en forma de proporciones, dividiendo el número de animales seropositivos entre el total de animales muestreados, y el arcoseno del valor resultante se utiliza en un análisis de varianza,⁷ que así como al dicotomizar grupos de datos, no hace uso eficiente de la información.

Los objetivos de este estudio fueron: comparar cuatro modelos de regresión lineal o logística y determinar su efecto sobre los niveles de significancia y parámetros, utilizando los datos de un estudio de seroprevalencia de brucelosis en cabras.

Material y métodos

Se utilizó la información de 5 114 cabras en 79 hatos, en Michoacán, México, muestreadas de julio de 2002 a diciembre de 2003. La población de estudio, la colección de los datos, los métodos de procesamiento y la descripción epidemiológica de la seroprevalencia de brucelosis ha sido descrita en otro estudio. Las respuestas de interés fueron: proporción de animales en la muestra estudiada (p), proporción de animales seropositivos por hato (pl) y proporción de hatos con al menos un animal seropositivo (p*). Se recabó información sobre los factores de riesgo de manejo del hato mediante entrevista personal, utilizando un cuestionario que contenía preguntas sobre característica, manejo y bioseguridad de los hatos. La variable de respuesta y los factores de riesgo del hato examinados en este trabajo se describieron detalladamente en otro estudio.⁸

La información obtenida se analizó utilizando los siguientes modelos:

Modelo de regresión lineal con transformación angular de los datos:

ar cos eno

Modelo de regresión logística estándar considerando al hato como positivo o negativo:

Modelo de regresión logística estándar, considerando cada observación como independiente:

Modelo de regresión logística con efecto aleatorio de hato:

donde

α = intercepto;

βs = coeficientes de regresión para los factores de riesgo considerados en el modelo;

Ai= presencia (1) o no (0) de abortos en el hato el año anterior al estudio;

Hj = higiene del hato (limpia (o) o no (1) el corral de estiércol);

Lk = duración de la lactancia en el hato (0 = lactancia <90, 1= lactancia > 90 días);

σ = desviación estándar de la distribución de los efectos aleatorios en cada caso (modela la cantidad de sobredispersión para un grupo de datos dado);

ul = muestra aleatoria de una distribución estandarizada;⁹

= error residual NID (0,σ²e).

Se usaron modelos lineales generales y de regresión logística (RL) estándar para modelar la prevalencia de cada hato, como proporción binomial o como hato positivo o negativo. Luego se usó RL binomial mixta para modelar la misma relación, pero considerando la variación binomial extra esperada por la correlación de resultados dentro de los hatos. Los factores de riesgo incluidos en los modelos fueron los que resultaron significativos (P < 0.10) en pruebas univariadas de RL mixta; los cuatro modelos incluyeron los mismos factores de riesgo.

La proporción de animales seropositivos transformados a ángulos fue analizada usando el procedimiento MLG del paquete SAS.¹⁰ Las RL de efectos fijos y mixtos se realizaron mediante el paquete estadístico EGRET.¹¹ Este último produce estimadores de máxima verosimilitud (probabilidad de que los valores observados de la variable dependiente sean predichos a partir de los valores observados de las variables independientes) mediante métodos de optimización iterativos a través de los algoritmos de Newton–Raphson (RL estándar) y quasi–Newton–Raphson (RL mixta).

La selección del mejor modelo y la hipótesis nula de no efecto de hato se basaron en la prueba de razón de verosimilitudes = (–1) donde y son los logaritmos de verosimilitud de los modelos de RL estándar y RL mixta. El término –2LL es también conocido como lejanía o deviance. En este estudio, la prueba de razón de verosimilitud también prueba la hipótesis nula de no efecto de hato. Según Breslow y Day,¹² si la deviance y los grados de libertad de un modelo son relativamente iguales, entonces esto indica que el modelo ajusta bien los datos. La significancia estadística de los coeficientes de regresión (P) fue corroborada usando la prueba de Ji–cuadrada de Wald: χ² = β²/Var(β). La normalidad de los datos del modelo de regresión lineal se comprobó utilizando la prueba de Wilk–Shapiro.¹¹

Resultados

Bondad de ajuste

Los datos de proporción de animales seropositivos transformados a arcoseno–raíz cuadrada no mostraron distribución normal de acuerdo con la prueba de Wilk–Shapiro (P < 0.001). Los modelos de regresión lineal para los datos transformados a ángulos y los modelos de RL no se compararon, ya que utilizan dos metodologías diferentes. El modelo lineal utiliza procedimientos de cuadros mínimos, y los modelos de RL utilizan procedimientos de máxima verosimilitud. Basado en la prueba de razón de verosimilitudes (menor valor es mejor), el modelo de RL mixta ajustó mejor los datos que el modelo de RL estándar, suponiendo independencia entre resultados de seropositi–vidad de cada animal. La deviance (–2LL) del modelo de RL estándar para la variable hato positivo o negativo (70.6) fue similar a sus grados de libertad (75), lo que sugiere que este modelo ajustó estadísticamente bien los datos. La deviance del modelo de RL estándar sin ajustar por el efecto de hato fue 5.2 veces sus grados de libertad (75), ello sugiere una variabilidad mayor que la explicada por la distribución binomial y un mal ajuste de los datos. Asimismo, el modelo de RL mixta no ajustó bien los datos, ya que su deviance fue 2.6 veces los grados de libertad del modelo (74). Sin embargo, la diferencia de las deviance de los modelos de RL estándar sin ajustar por el efecto de hato y la RL mixta (diferencia = 206.1), sugiere que la inclusión del efecto aleatorio de hato en el modelo fue apropiada.

Niveles de significancia y parámetros

Se encontraron niveles de significancia diferentes para los factores de riesgo, según el modelo estadístico utilizado. Los modelos de regresión lineal y RL estándar para la variable hato dicotomizado, mostraron efectos significativos (P < 0.02 y P < 0.002, respectivamente) sólo de presencia de abortos el año anterior al estudio; la RL estándar, considerando cada dato como independiente, mostró efecto significativo (P < 0.05) para los tres factores de riesgo, y la RL mixta, efectos de presencia de abortos y duración de la lactancia, pero no de higiene (Cuadro 1).

Los valores de OR para los modelos de RL estándar baj o la suposición de independencia y RL mixta fueron diferentes; los intervalos de confianza más estrechos correspondieron a la RL estándar, que considera cada observación como independiente, y los más amplios a la RL estándar, que consideró al hato como positivo o negativo (Cuadro 2). El valor del estimador de la componente de varianza, σ²_e = 0.972 en relación con su error estándar (0.084), refleja la heterogeneidad de las seroprevalencias entre hatos.

Discusión

Bondad de ajuste

La transformación de los datos de proporción de animales seropositivos, mediante las funciones arcoseno–raíz cuadrada, no aproximó los datos a la distribución normal (P = 0.001), lo cual viola la suposición de normalidad de los datos impuesta por la metodología de cuadrados mínimos que utiliza el procedimiento MLG del paquete SAS. La consecuencia de esto último es que los niveles de significancia de los factores de riesgo estudiados estuvieron sesgados, como lo indican los resultados de la RL de efectos mixtos, considerada como la prueba de oro. Cuando se usa la regresión lineal para ajustar datos binomiales (expresados como porcentajes), surgen tres problemas: la varianza del error no es constante, el error no se distribuye normalmente (como se observó en este estudio) y predice porcentajes fuera del rango de 0 a 1.¹³

Con respecto a los resultados de la RL, basados en la similitud de los valores de deviance y grados de libertad,^11,¹⁴ el mejor modelo de ajuste fue el de RL para hatos clasificados como positivos o negativos. La ventaja de este modelo, en comparación con el modelo de RL mixta, puede explicarse debido a la gran variación extrabinomial existente, a pesar de que ésta incluyó el efecto de hato en el modelo. Este resultado es contrario al observado en un trabajo sobre mortalidad en cerdos,¹⁵ en el que se compararon los tres modelos de RL evaluados en este estudio. En aquél se encontró que el modelo de RL mixta ajustó mejor los datos de mortalidad al nacer. La variación binomial extra puede explicarse, en parte, por la diferencia en el manejo y tamaño relativamente grande de los hatos. La variación binomial extra depende del tamaño del hato y la correlación intraconglomerados; se observa mayor variación extrabinomial en los conglomerados de mayor tamaño.² Noordhulzen et al.¹⁶ mencionan que el uso de modelos de efectos aleatorios es la mejor forma de tratar con el efecto de conglomerados, y que éstos aumentan el error estándar de los coeficientes y pueden cambiar sus valores.

Niveles de significancia y parámetros

La agrupación de los datos de cada individuo en hatos clasificados como positivos o negativos previene de cometer inferencias estadísticas, ya que la unidad de muestreo es el hato.² Sin embargo, utilizando esta aproximación se pierde mucha información, ya que los hatos con 1% de prevalencia son clasificados con hatos con 100% de prevalencia, lo que conduce a pérdida de poder de la prueba.² Además, dicotomizar los hatos para justificar el uso de modelos de RL estándar no considera la heterogeneidad entre hatos, y la correlación de resultados dentro de éstos no permite estudiar factores de riesgo del animal. Las diferencias en los niveles de significancia obtenidos con este modelo (en comparación con el modelo de RL mixta) podría conducir a establecer programas de prevención y control dirigidos a los factores de riesgo equivocados.¹⁷

Utilizar RL estándar sin considerar el efecto de hato es suponer que los animales muestreados dentro del hato son independientes; en consecuencia, los valores de P asociados con las pruebas estadísticas normalmente son más pequeños y producen sesgo hacia la hipótesis alterna.¹ En este estudio, los valores de significancia de Wald y los intervalos de confianza más estrechos correspondieron al modelo de RL estándar, con la suposición de independencia. Algunos autores¹⁸ sugieren reducir el nivel de significancia a 1%, como medida para disminuir el sesgo en dicho nivel. Sin embargo, ésta no es una solución adecuada, ya que dependiendo del modelo utilizado (marginal, aleatorio), los estimadores de punto y dispersión también son afectados.¹⁹

Las RL mixtas permiten modelar la prevalencia de hato sin tener que dicotomizar; por lo tanto, la información sobre la seropositividad de los animales dentro del hato no se pierde. Además, los modelos mixtos consideran la heterogeneidad del riesgo de enfermedad entre hatos, por lo que son considerados como modelo de elección para el estudio de datos binomiales correlacionados. La inclusión de hato en el modelo cambió la interpretación de la contribución de algunos factores de riesgo y su asociación con la seropositividad a la exposición del agente causal de la brucelosis. Los cambios en la magnitud de los niveles de significancia de los factores de riesgo han sido notificados por otros autores.^3,15,17

En un estudio de factores de riesgo para prevalencia de herpes virus bovino tipo 1 (BHV1), Schukken et al.¹ encontraron que los factores de riesgo medidos en el hato (tamaño de hato, pastoreo y programas de control) mostraron importantes diferencias en el tamaño de los parámetros y sus errores estándares. Por ejemplo, el parámetro para tamaño de hato cambió de 1.33 en el modelo de efectos fijos a 0.46 para el modelo de efectos aleatorios, mientras que el error estándar cambió de 0.19 a 0.46. Por lo tanto, cuando se evalúan factores de riesgo para una enfermedad, la correlación entre individuos dentro del hato debe ser considerada para alcanzar conclusiones correctas acerca del impacto de los factores de riesgo. Los valores de los estimadores de regresión de la RL son usualmente mayores en los modelos ajustados por los efectos aleatorios y aumentan con la variabilidad de estos efectos.¹⁷Resultados similares se observaron en este estudio, en donde los valores de OR aumentaron al incluir el efecto de hato en el modelo (Cuadro 2). Según Curtis et al.,³ los estimadores de los parámetros obtenidos de los modelos de RL mixta son más confiables que los obtenidos de la RL estándar con suposición de independencia, ya que ésta comúnmente presenta errores estándar más pequeños. Otros autores¹⁶ mencionan un aumento en los errores estándar de los coeficientes con el uso de modelos de RL con efectos aleatorios y cambios en los coeficientes de regresión con respecto a los resultados de la RL.

La variación debida al hato en este estudio fue diferente a cero, como lo indican el valor (206.1) significativo de la prueba de razón de similitudes para los modelos de RL estándar con suposición de independencia, y de RL mixta y la varianza de hato (0.972 ± 0.084), ello sugiere que la inclusión de efecto de hato en el modelo fue apropiada, ya que afecta los niveles de significancia y los valores de OR de los factores de riesgo. La variación extrabinomial pudo deberse a diferencias en el manejo de los hatos, susceptibilidad de los hatos a la enfermedad en cuestión, tamaño del hato, microclima, etc. Asimismo, la sobredispersión puede ocurrir cuando los factores de riesgo importantes no se incluyen en el modelo o cuando existe correlación dentro de los hatos.¹⁹

En conclusión, los resultados de este estudio muestran que el uso de diferentes modelos de regresión lineal o logística modifican los niveles de significancia y magnitud de los coeficientes de regresión, lo que podría conducir a diferentes resultados sobre los factores de riesgo estudiados. El modelo de RL mixta permitió que la prevalencia entre hatos se modelara sin tener que recurrir a la dicotomización; es decir, hizo mejor uso de la información disponible. Asimismo, puesto que el diseño de este estudio consistió en un muestreo por conglomerados, deberían usarse modelos estadísticos como los de RL mixta, que contemplan los efectos aleatorios de hato.

Referencias

1. Schukken YH, Grohn YT, McDermott B, McDermott JJ. Analysis of correlated discrete observations: background, examples and solutions. Prev Vet Med 2003;59: 223–240. [ Links ]

2. McDermott JJ, Schukken YH. A review of methods used to adjust for cluster effects in explanatory epidemiological studies of animal populations. Prev Vet Med 1994;18: 155–173. [ Links ]

3. McDermott JJ, Schukken YH, Shoukri MM. Study design and analytic methods for data collected from clusters of animals. Prev Vet Med 1994;18: 175–191. [ Links ]

4. Curtis CR, Mauritsen RH, Kass PH, Salman MD, Erb HN. Ordinary versus random–effects logistic regression for analyzing herd–level calf morbidity and mortality data. Prev Vet Med 1993;16:207–22. [ Links ]

5. Solorio–Rivera JL, Rodriguez–Vivas RI, Perez–Gutierrez E, Wagner G. Management factors associated with Babesia bovis seroprevalence in cattle from eastern Yucatan, Mexico. Prev Vet Med 1999;40: 261–269. [ Links ]

6. Riveriego FJ, Moreno MA, Dominguez L. Risk factors for brucellosis seroprevalence of sheep and goat flocks in Spain. Prev Vet Med 2000;44:167–173. [ Links ]

7. Al–Talafhah AH, Lafi SQ, Al–Tarazi Y. Epidemiology of ovine brucellosis in Awassi sheep in Northern Jordan. Prev Vet Med 2003;60:297–306. [ Links ]

8. Steel RGD, Torrie JH. Principles and Procedures of Statistics. A Biometrical Approach. 2^nd ed. New York: McGraw–Hill Book Company. 1980. [ Links ]

9. Solorio–Rivera JL, Segura Correa JC, Sanchez–Gil LG. Seroprevalence of antibodies and risk factors for brucellosis of goats in the Bajio region of Michoacan, Mexico. Prev Vet Med 2007, 82 (In press). [ Links ]

10. Cochran Ch, Coull B, Patel A. EGRET Users Manual for Windows (Version 2.0.3) Seattle WA: Cytel Software Corporation. 1999. [ Links ]

11. SAS. SAS/STAT User's Guide (Version 8.1) Cary NC, USA: SAS Inst. Inc. 2000. [ Links ]

12. EGRET for Windows (Version 2.0.3) Seattle WA: Cytel Software Corporation. 1999. [ Links ]

13. Breslow NE, Day NE. Statistical Methods in Cancer Research. Vol. I. The analysis of Case–Control Studies. International Agency for Research on Cancer. Lyon, France: Scientific Publications No. 32, 1980. [ Links ]

14. Zhao L, Chen Y, Schaffner DW. Comparison of logistic regression and lineal regression in modeling percentage data. Appl Environ Microbiol 2001; 67: 2129–2135. [ Links ]

15. Hosmer DW, Lemeshow S. Applied Logistic Regression. New York: Wiley, 1989. [ Links ]

16. Segura–Correa JC, Alzina–López A, Solorio–Rivera JL. Evaluación de tres modelos y factores de riesgo asociados a la mortalidad de lechones al nacimiento en el trópico de México. Téc Pecu Méx 2007; 45:227–236. [ Links ]

17. Noordhulzen JPTM, Frankena K, Van der Hoofd CM, Graat EAM. Application of Quantitative Methods in Veterinary Epidemiology. Wageningen: Wageningen Pers, 1997. [ Links ]

18. McDermott JJ, Kadohira M, O'Callaghan CJ, Shoukri MM. A comparison of different models for assessing variation in the sero–prevalence of infectious bovine rhinotracheitis by farm, area and district in Kenya. Prev Vet Med 1997;32: 219–234. [ Links ]

19. Bendixen PH, Vilson B, Ekesbo I, Astrand DB. Disease frequencies of tied zero–grazed dairy cows and of dairy cows on pasture during summer and tied during winter. Prev Vet Med 1986; 4: 291–306. [ Links ]

20. Condon J, Kelly G, Bradshow B, Leonard N. Estimation of infection prevalence from correlated binomial samples. Prev Vet Med 2004;64: 1–14. [ Links ]