SciELO - Scientific Electronic Library Online

 
vol.50 número5Sustratos para producción de floresRelación fuente-fuerza de la demanda en el aborto de estructuras reproductivas, tasa fotosintética y rendimiento en Capsicum annuum índice de autoresíndice de assuntospesquisa de artigos
Home Pagelista alfabética de periódicos  

Serviços Personalizados

Journal

Artigo

Indicadores

Links relacionados

  • Não possue artigos similaresSimilares em SciELO

Compartilhar


Agrociencia

versão On-line ISSN 2521-9766versão impressa ISSN 1405-3195

Agrociencia vol.50 no.5 Texcoco Jul./Ago. 2016

 

Fitociencia

Bayes empírico multivariado para predecir el mérito genético en plantas

J. Jesus Ceron-Rojas1  * 

Jaime Sahagún-Castellanos1 

1Instituto de Horticultura, Departamento de Fitotecnia, Universidad Autónoma Chapingo. 56230. Chapingo, México. (jesusceronrojas@live.com.mx).


Resumen:

El mérito genético de las plantas es heredable y determina características fenotípicas como altura de planta y rendimiento de grano, y puede predecirse por medio de modelos bayesianos univariados o multivariados con base en la información fenotípica o genómica de las plantas. Estos modelos controlan la incertidumbre asociada a la predicción pero son computacionalmente demandantes, por lo cual se requieren modelos alternativos menos demandantes. Bayes empírico es un método de predicción en el cual la esperanza de la distribución posterior es el estimador del mérito genético. Éste es una variante del estimador bayesiano estándar y es eficiente; es robusto ante las especificaciones erróneas de la distribución a priori de los parámetros y las covarianzas de éstos pueden estimarse por verosimilitud restringida. Para predecir el mérito genético en el contexto Bayes empírico se propuso un modelo lineal multivariado, el cual incorpora las correlaciones genéticas entre caracteres, la información del pedigrí, la información genómica, y contiene al modelo lineal genómico multivariado y al modelo lineal estándar multivariado como casos particulares. El modelo genómico usa solo información genómica mientras que el modelo estándar usa sólo información del pedigrí en la predicción. Para comparar numéricamente la eficiencia de cada uno de los tres modelos se usaron las correlaciones entre los valores predichos y observados obtenidas con los datos de dos poblaciones de maíz (Zea mays) F2 y una población de trigo (Triticum aestivum L.) doble haploide, cada una de éstas con tres características y un conjunto particular de marcadores moleculares y genotipos. En las tres poblaciones los resultados numéricos indicaron que el modelo propuesto proporciona predicciones más precisas que los otros dos. Concluimos que los resultados se deben a que el modelo propuesto usa en la predicción, además de las correlaciones genéticas entre caracteres, la información fenotípica y genómica.

Palabras clave: Distribución posterior conjunta; marcadores moleculares; modelo lineal multivariado; Triticum aestivum; verosimilitud restringida; Zea mays

Abstract:

The plant breeding value is inheritable and determines phenotypic characteristics such as plant height, and grain yield, and it can be predicted by means of univariate or multivariate Bayesian models based on the phenotypic or genomic plants information. These models control the uncertainty associated to prediction better, but this comes at a high computational cost, so less demanding alternative models are required. Empirical Bayes is a prediction method in which the expectation of the posterior distribution is the estimator of the breeding value. This is a variant of the standard Bayesian estimator and is efficient; it is robust to the erroneous specifications of the a priori distribution of parameters, and the parameter covariances can be estimated through restricted maximum likelihood. A multivariate linear model was proposed to predict the breeding value within the empirical Bayes context. This model incorporates the genetic correlations between traits, pedigree information, genomic information, and contains the multivariate genomic linear model and the multivariate standard linear model as particular cases. The genomic model uses only genomic information, whereas the standard model uses only information from the pedigree in the prediction. To compare numerically the efficiency of each of the three models, the correlations between the predicted and observed values obtained with the data from two maize (Zea mays) F2 populations and one double haploid wheat (Triticum aestivum L.) population, each of them with three characteristics and a particular set of molecular markers and genotypes, were used. In the three populations, the numerical results indicated that the model proposed provides more precise predictions than the other two. We concluded that the results were due to the fact that the model proposed used the genetic correlations between traits and the phenotypic, as well as genomic information, in the prediction.

Key words: Joint posterior distribution; molecular markers; multivariate linear model; Triticum aestivum; restricted likelihood; Zea mays

Introducción

La predicción del mérito genético en plantas y animales por lo general se hace con el modelo lineal mixto (Robinson, 1991) o con alguna aproximación bayesiana (Blasco, 2001; Sorensen y Gianola, 2002) basados en los registros fenotípicos y de pedigrí de los candidatos a selección. Sin embargo, Meuwissen et al. (2001) mostraron que la selección genómica (SG) incrementa la precisión (correlación entre los valores observados y predichos) de la predicción del mérito genético de los candidatos a selección y reduce los intervalos entre ciclos de selección hasta en dos tercios cuando el número de genotipos y marcadores moleculares (MM) usado en la predicción es suficientemente grande. En la SG los valores predichos del mérito genético, llamados méritos genómicos estimados (genomic estimated breeding values, GEBV por sus siglas en inglés), se obtienen multiplicando los efectos estimados de los MM en la población base por los valores codificados de los MM obtenidos después del primer ciclo de selección. Los GEBV son el instrumento de la SG y permiten seleccionar caracteres cuantitativos en ausencia de información fenotípica (Gianola, 2013; Beyene et al., 2015).

Uno de los problemas más importantes en la SG es obtener GEBV suficientemente precisos para que la SG sea eficiente. Tal problema condujo a varias metodologías de predicción derivadas de los siguientes supuestos: 1) los efectos de los MM tienen distribución normal multivariada con media igual a cero y varianza constante, y 2) los efectos de los MM tienen distribución normal multivariada con media igual a cero pero la varianza de los MM tiene distribución a priori que puede ser uniforme, gamma, etc.. El punto 1) condujo al predictor lineal mejor insesgado genómico (genomic best linear unbiased predictor o GBLUP) (VanRaden, 2008) y al mejor predictor lineal insesgado bayesiano (Bayes-BLUP) (Verbyla et al., 2009, 2010). El punto 2) condujo a metodologías bayesianas como Bayes A, B, C, D, etc. (de los Campos et al., 2013; Gianola, 2013), que difieren sólo en el supuesto específico que hacen respecto a la distribución a priori de la varianza de los marcadores.

En la SG los métodos bayesianos se desarrollaron en el contexto de una variable fenotípica con el objetivo de mejorar la precisión de GBLUP; sin embargo, no se ha mostrado de manera irrefutable que la precisión de GBLUP sea significativamente menor que la de los métodos bayesianos (Massman et al., 2013). Los métodos bayesianos permiten un control mejor de la incertidumbre asociada a la predicción del mérito genético (Blasco, 2001) pero requieren métodos numéricos, como el el muestreador de Gibbs (Casella y George, 1992), para estimar los efectos de los MM y cualquier otro parámetro asociado al mérito genético. Verbyla et al. (2009) señalan que Bayes B requiere hasta 2440 h de cómputo para que el muestreador de Gibbs converja, mientras que Bayes A y BayesBLUP requieren al menos 6 h de cómputo para la convergencia de tal algoritmo. Según Verbyla et al. (2009), a pesar de grandes diferencias en el tiempo de cómputo en los métodos indicados, cuando el número de genotipos y MM es grande, la precisión alcanzada por todos ellos es prácticamente igual (promedio, 0.6).

Los procedimientos de predicción con modelos univariados no toman en cuenta las correlaciones genéticas entre caracteres, a pesar que en la práctica la evaluación de las variedades requiere varios caracteres de manera simultánea. Por ejemplo, los mejoradores de rendimiento y calidad de grano registran datos fenotípicos que incluyen componentes de rendimiento (e.g., peso de grano o biomasa), calidad del grano (e.g., sabor, forma, color, contenido de nutrientes), y resistencia a estrés biótico y abiótico (Jia y Jannink, 2012). La predicción del mérito genético multivariado tiene la ventaja de incorporar las correlaciones genéticas entre caracteres. Esta información debe aumentar la eficiencia de la predicción del mérito genético; por ello, Calus y Veerkamp (2011) propusieron un procedimiento similar a Bayes A, y Hayashi e Iwata (2013) adaptaron Bayes D al caso multivariado. Sin embargo, se requieren alternativas computacionalmente menos demandantes sin afectar la precisión de la predicción: Bayes empírico es un método alternativo de predicción con propiedades estadísticas deseables. En éste, bajo el supuesto de que las varianzas de los parámetros son conocidas, la esperanza de la distribución posterior del mérito genético se considera un estimador bayesiano empírico de tal mérito genético (Tempelman y Rosa, 2004). Éste es una variante del estimador bayesiano estándar y es muy eficiente; además, es robusto ante las especificaciones erróneas de la distribución a priori de los parámetros (Lehmann y Casella, 1998).

En los programas de SG el primer ciclo de selección incluye sólo información fenotípica, aunque la población base (donde se selecciona al primer grupo de progenitores) tiene datos fenotípicos y MM. Al hacer selección sólo con información fenotípica no se usa la información de los MM. Si se combina la información fenotípica y la información de los MM en la predicción, aumenta la precisión aun en el primer ciclo de selección debido al aumento de información en el modelo. Un problema similar ocurre cuando sólo algunos individuos de los candidatos a selección cuentan con MM y el resto no, como en el mejoramiento de plantas híbridas (Massman et al., 2013) o en la selección de animales (Legarra et al., 2009).

El objetivo del presente estudio fue proponer y evaluar, en el contexto Bayes empírico, un modelo lineal multivariado que usa información de pedigrí y genómica de manera conjunta para predecir el mérito genético de los candidatos a selección. En el modelo, la esperanza de la distribución posterior conjunta del mérito genético es el estimador bayesiano empírico. Los supuestos de este modelo son: 1) las varianzas y covarianzas genéticas son conocidas; 2) el efecto genómico y el efecto genético aditivo no explicado por los MM tienen distribución normal multivariada conjunta con media igual a cero y varianza común; 3) el mérito genético de los candidatos a selección es la suma del efecto genómico y del efecto genético aditivo no explicado por los MM. Además, se muestra que el modelo lineal multivariado genómico (que usa sólo información genómica en la predicción) y el modelo lineal multivariado estándar (que usa sólo información fenotípica y de pedigrí en la predicción) son casos particulares del modelo propuesto.

Materiales y Métodos

Poblaciones de maíz 1 y 2

En cada una de las dos Poblaciones de maíz (Zea mays) F2, se registraron tres variables: rendimiento de grano (RG, Mg ha‒1), altura de la mazorca en la planta (AM, cm), y altura de planta (AP, cm). La Población de maíz 1 tuvo 199 MM y 247 genotipos, mientras que en la Población de maíz 2 el número de MM fue 259 y el de genotipos 248. Las correlaciones genéticas estimadas entre RG y AM, RG y AP, y AM y AP en la Población de maíz 1 fueron, respectivamente, 0.53, 0.52 y 0.98, mientras que en la Población de maíz 2 las correlaciones fueron 0.58, 0.76 y 0.71.

Población 3 (población de trigo)

La Población de trigo (Triticum aestivum L.) doble haploide incluyó 1279 MM y 599 genotipos. En ella se registró el rendimiento de grano (RG, Mg ha‒1) en tres ambientes (RG1, RG2 y RG3). Para predecir el mérito genético de los candidatos a selección a RG1, RG2 y RG3 se le consideró una característica particular debido a que los genotipos se evaluaron en ambientes diferentes. Las correlaciones genéticas estimadas entre RG1 y RG2, RG1 y RG3, y RG2 y RG3 en la Población 3 fueron, respectivamente, ‒0.03, ‒0.21 y 0.73.

El modelo lineal propuesto con una variable

Sea γq=Xuq un vector g×1 (g=número de genotipos en la población) de méritos genómicos aditivos asociados a la característica q(q=1,2,...,t; t=número de variables) de los candidatos a selección. Suponga que 𝛾 q tiene distribución normal multivariada (NMV) con media 0 y varianza Gσγq2, i.e., 𝛾 q ~ NMV 0,Gσ𝛾q2, donde σγq2 es la varianza genómica aditiva de 𝛾 q y G = XX′ / k es la matriz g×g de relaciones genómicas aditivas entre genotipos; X es una matriz g×m (m=número de MM en la población) de valores codificados de los MM (2‒2p para el genotipo AA, 1‒2p para el genotipo Aa, y ‒2p para el genotipo aa) asociados a los efectos aditivos de los loci de los caracteres cuantitativos (quantitative trait loci, o QTL por sus siglas en inglés); p es la frecuencia del alelo A y 1‒p es la frecuencia del alelo a en el MM j(j=1,2,..., m); u q es un vector m×1 de efectos aditivos de los QTL asociados a los m MM que afectan a la variable q; k=j=1m2pj1-pj (Habier et al., 2007) en una población F2 y k=j=1m4pj1-pj en una población doble haploide. Además, sea a q ~ NMV 0,Aσaq2 un vector g×1 de méritos genéticos aditivos no explicados por los MM asociados a la variable q, donde A es la matriz de relaciones numéricas y σaq2 es la varianza genética aditiva de a q . El modelo lineal combinado para la variable qyq* puede denotarse como yq*=1μq+Zaq+Zγq+eq, o de manera equivalente, como:

(1)

donde y q = yq*1μ q ~ NMV 0,Vq es un vector de observaciones g×1 de la variable q centradas respecto a la media 𝛍 q ; 1 es un vector g×1 de unos; Vq=Aσaq2+Gσγq2+2Covaq,γq´+Igσeq2, y Covaq,γq´=Gσγq2 (i.e., la covarianza entre a q y 𝛾 q es igual a la varianza de 𝛾 q ); 𝛾 q , G y σγq2 se definieron anteriormente; Z es una matriz de incidencia (generalmente una matriz identidad g×g) y e q ~ NMV 0,Igσeq2 es un vector g×1 de residuos; I g es una matriz identidad g×g y σeq2 es la varianza de los residuos. Al modelo de la Ecuación 1 se le llamará modelo combinado.

Distribución posterior conjunta de a q y 𝛾 q

La distribución posterior conjunta de a q y 𝛾 q puede escribirse como:

(2)

donde el símbolo “∝” indica que P(a q , 𝛾 q / y q ) puede escribirse como el producto de la función de verosimilitud de y q , P(y q / a q /𝛾 q ) ∝ exp-12yq-Zaq-Zγq´ R-1yq-Zaq-Zγq, la distribución condicional a priori de a q dado 𝛾 q , P(a q / 𝛾 q ) ∝ exp-12aq-γq´T-1aq-γq y la distribución a priori de 𝛾 q , P(𝛾 q ) ∝ exp-12γq´Φ-1γq donde R=Igσeq2, T=Aσaq2-Φ y Φ=Gσγq2. Por las propiedades de la distribución NMV (Sorensen y Gionala, 2002), 𝛾 q y T son la esperanza y la varianza de a q / 𝛾 q , respectivamente. Así, la Ecuación 2 es igual a:

(3)

El lado derecho de la Ecuación 3 es el núcleo de una distribución normal con media Dd y varianza D, donde θq´=aq´γq´, D-1=D11-1D12-1D21-1D22-1-1, D11-1=R-1+T-1, D12-1=D21-1=R-1-T-1, D22-1=R-1+T-1+Φ-1, d=12R-1yq, 12´=11 y "⊗" denota al producto de Kronecker entre matrices (Langville y Stewart, 2004).

Estimador de θ q

Por la Ecuación 3, el estimador bayesiano empírico de θq´=aq´γq´ es:

(4)

Los componentes de varianza σaq2, σγq2 y σeq2 pueden estimarse por verosimilitud restringida a partir de la distribución marginal de y q (Lynch y Walsh, 1998; Vattikuti et al., 2012).

El modelo lineal multivariado

Cuando se utilizan dos o más variables en la predicción del mérito genético, el modelo combinado de la Ecuación 1 puede escribirse como:

(5)

donde, ahora, y´=y1´ y2´ yt´ ~ NMV(0,V), a´=a1´ a2´at´ ~ NMV(0,S), γ´=γ1´ γ2´γt´ ~ NMV(0,Ω) y e´=e1´ e2´et´ ~ NMV(0,Ψ) son vectores conformados por t subvectores g×1 de observaciones (y), de efectos genéticos aditivos no explicados por los MM (a), de efectos genómicos aditivos (𝛾), y de errores (e), respectivamente; V = S + 3Ω + Ψ, donde S = CA, Ω = ΓG y Ψ = EI g; C=σaqi (q,i = 1,2,…,t; t=número de variables) es la matriz de varianzas y covarianzas de los efectos genéticos aditivos no explicados por los MM (a), Γ=σ𝛾qi es la matriz de varianzas y covarianzas de méritos genómicos aditivos (𝛾), y E=σeqi es la matriz de varianzas y covarianzas de los residuos; Z es una matriz de identidad (o de incidencia) de orgen gt×gt; A, G e I g se definieron en la Ecuación 1. Las matrices C=σaqi y Γ=σ𝛾qi pueden formarse a partir de las estimaciones de los componentes de varianzas σa2q, σγ2q y σe2q, y de las covarianzas respectivas (Vattikuti et al., 2012).

Estimación de a y 𝛾

Sea θ´=a´γ´, donde a´=a1´ a2´at´ y γ´=γ1´ γ2´γt´ (Ecuación 5); la distribución posterior de θ es asimilar a la distribución de θq´=aq´γq´ (Ecuación 3), así, el estimador bayesiano empírico de θ es similar al de la Ecuación 4, i.e.,

(6)

donde, ahora, los componentes que conforman la matriz D -1 son: D11-1=Ψ-1+(S-Ω)-1, D12-1=D21-1= Ψ-1-(S-Ω)-1 y D22-1=Ψ-1+(S-Ω)-1+Ω-1; d=12Ψ-1y, Ψ-1=E-1Ig y 12´=1 1.

Predicción del mérito genético en el primer ciclo de selección

En el primer ciclo de selección el predictor del mérito genético de los candidatos a selección (θ¯^) puede escribirse como:

(7)

donde â y ŷ son subvectores de θ^BE=Dd (Ecuación 6).

Predicción del mérito genético después del primer ciclo de selección

Para obtener los valores predichos de los candidatos a selección a partir del segundo ciclo de selección, es necesario estimar los valores del vector u´=u1´ u2´ut´ en la población base a partir de la igualdad γ = X t u, donde X t = I t X, I t es una matriz identidad t×t y X es la matriz de valores codificados de los MM en la población base. Un estimador de u en la población base es:

(8)

donde ŷ es el subvector de la Ecuación 6. Por la Ecuación 8, el predictor bayesiano empírico del mérito genético después del primer ciclo de selección es:

(9)

donde W l = I t X l (l=2,3,…,N; N= número de ciclos de selección), I t ya se definió y X l es la matriz de valores codificados de los MM obtenida en el ciclo de selección l. Así, desde el segundo ciclo de selección, en la Ecuación 9 sólo cambiarán los valores codificados de la matriz X l .

Criterio para comparar la eficiencia de los modelos de predicción

Como la precisión es igual a la correlación entre los valores predichos y observados, su valor máximo es 1. Suponga que ρ c y ρ g denotan, respectivamente, la precisión del modelo combinado y del modelo genómico, entonces:

(10)

es la eficiencia (Bulmer, 1980) del modelo combinado respecto al modelo genómico. Así, cuando p=0 la eficiencia de ambos modelos es igual (ρ c = ρ g ); p>0 si ρ c > ρ g (la eficiencia del modelo combinado es mayor que la del modelo genómico) y p<0 si ρ c < ρ g (la eficiencia del modelo combinado es menor que la del modelo genómico). Así, la Ecuación 10 permite determinar el modelo más adecuado, o más eficiente, para predecir el mérito genético.

Resultados y Discusión

El modelo genómico está anidado en el modelo combinado

Uno de los resultados más importantes de la teoría de la SG es que la esperanza de la matriz de relaciones genómicas G es igual a la matriz de relaciones numéricas A , i.e., E (G) = A (Habier et al., 2007). Esto significa que G es una realización particular de A y que conforme el número de MM y genotipos se incrementa en la población base, el valor de G se concentra cada vez más alrededor de A, por lo que en el límite, puede asumirse que G=A. Lo mismo ocurre con la matriz de varianzas y covarianzas genómicas aditivas Γ en relación con la matriz de varianzas y covarianzas genéticas aditiva C. Es decir, conforme el número de MM y genotipos se incrementa, la matriz Γ se aproxima cada vez más a C, y en el límite Γ=C. Cuando G=A y Γ=C, S=Ω y las matrices que conforman la matriz D-1:D11-1=Ψ-1+(S-Ω)-1, D12-1=D21-1=Ψ-1-(S-Ω)-1 y D22-1=Ψ-1+(S-Ω)-1+Ω-1, se reducen a D11-1=Ψ-1, D12-1=D21-1=Ψ-1 y D22-1=Ψ-1+Ω-1, y la matriz D-1 se transforma en Ψ-1Ψ-1Ψ-1Ψ-1+Ω-1‒1.

Esto indica que toda la información del mérito genético está concentrada en los efectos genómicos aditivos 𝛾 y que los valores del vector a son nulos. En tal caso, el estimador bayesiano empírico θ^BE=Dd (Ecuación 6) se convierte en el predictor del mérito genómico aditivo (ŷ) y puede denotarse como:

(11)

Este resultado indica que el modelo genómico es un caso particular del modelo combinado.

El modelo con sólo información fenotípica está anidado en el modelo combinado

Cuando no se utiliza la información de los MM, la matriz Ω es nula y, en tal caso θ^BE se convierte en el predictor de los efectos genético aditivos (â) y puede escribirse como:

(12)

Esto demuestra que el modelo con sólo información fenotípica es un caso particular del modelo combinado. A â se le llamará predictor estándar.

Precisión de los tres modelos de predicción

Los valores predichos del mérito genético de los candidatos a selección asociados a cada una de las tres variables de las dos poblaciones de maíz (Poblaciones 1 y 2) y de la población de trigo (Población 3) se denotaron como, θ¯^1, θ¯^2 y θ¯^3, para el modelo combinado (Ecuación 7); γ^1, γ^2 y γ^3 para el modelo genómico (Ecuación 11), y a^1, a^2 y a^3 para el modelo estándar (Ecuación 12). Con los valores predichos y observados se calculó la precisión (correlación entre los valores predichos y observados) para cada una de las tres variables de los tres modelos; éstas se encuentran en el Cuadro 1.

Rendimiento de grano (Mg ha-1), Altura de mazorca (cm), §Altura de planta (cm)

Cuadro 1: Correlaciones obtenidas entre los valores predichos de los modelos estándar, genómico y combinado, y los valores de las observaciones de tres variables en dos poblaciones de maíz y una población de trigo. 

Evaluación numérica de los tres modelos de predicción

La eficiencia del modelo combinado respecto al modelo estándar y al modelo genómico; y la eficiencia del modelo estándar respecto al genómico, se evaluó por medio de la Ecuación 10 con los valores de las correlaciones presentadas en el Cuadro 1.

Población de maíz 1

Eficiencia del modelo combinado en comparación con el modelo estándar

El valor de p (Ecuación 10) asociado a las correlaciones entre el rendimiento de grano (RG) y sus valores predichos (θ¯^1 y â) se calculó como p=1000.8830.551-1=60.2, donde 0.883 es la correlación entre RG y θ¯^1, y 0.551 es la correlación entre RG y â 1. Como p=60.254, la eficiencia del modelo combinado es 60.2 % más alta que la eficiencia del modelo estándar.

El valor de p obtenido a partir de la correlación entre altura de mazorca (AM) y θ¯^2 (0.767), y la correlación entre AM y â 2 (0.719), es p=1000.7670.719-1=6.7. Como p=6.7, el modelo combinado es 6.7 % más eficiente que el modelo estándar. Finalmente, el valor de p para altura de planta (AP) y sus valores predichos es igual a p=1000.8300.229-1=262.4, donde 0.830 es el valor de la correlación estimada entre AP y θ¯^3, y 0.229 es el valor de la correlación estimada entre RG y â 3. En este último caso el modelo combinado es 262.4 % más eficiente que el modelo estándar.

El promedio de los tres valores de p obtenidos con las correlaciones entre los valores predichos y observados de las tres variables es igual a 109.8 %.

Esto significa que el modelo combinado es más adecuado para predecir el mérito genético debido a que tiene una eficiencia 1.1 veces mayor que el modelo estándar.

Eficiencia del modelo combinado comparado con el modelo genómico

La eficiencia promedio del modelo combinado fue 366.9 % más alta que en el modelo genómico. Esto se debe a que los valores de las correlaciones entre AM y γ^2 (0.130) (Columna 7, Cuadro 1), y entre AP y γ^3 (0.123) (Columna 8, Cuadro 1) son muy bajos. Así, en este caso el modelo combinado tuvo una precisión 3.7 veces mayor que el modelo genómico, por lo cual puede asumirse que es más adecuado para predecir el mérito genético en este conjunto de datos.

Eficiencia del modelo estándar comparado con el modelo genómico

De nuevo, debido a los valores bajos de las correlaciones estimadas entre AM y γ^2 (0.130) y entre AP y γ^3 (0.123), la eficiencia promedio del modelo estándar respecto al modelo genómico fue 174.7 % más alta. Es decir, el modelo genómico fue casi dos veces menos eficiente que el estándar. Esto se debe a que en la Población de maíz 1 el número de marcadores fue sólo de 199.

En resumen, el modelo combinado fue casi cuatro veces más eficiente que el modelo genómico y 1.1 más eficiente que el modelo estándar. Es evidente que el modelo combinado es más adecuado para predecir el mérito genético que los otros dos modelos en este conjunto de datos.

Población de maíz 2

Eficiencia del modelo combinado comparado con el modelo estándar y con el modelo genómico

Un procedimiento similar al de la Población de maíz 1 permite demostrar que la eficiencia promedio del modelo combinado fue 9.4 % más alta que en el modelo estándar, y 38.2 % más alta que en el modelo genómico, respectivamente. A pesar de que el número de marcadores aumentó relativamente poco en la Población de maíz 2 (sólo 60 MM más que en la Población de maíz 1), la eficiencia del modelo combinado respecto al genómico es sólo 38.2 % más alta, lo cual indica que el incremento del número de marcadores aumentó la eficiencia del modelo genómico. Sin embargo, el modelo combinado fue más eficiente que los otros dos modelos, por lo que también es recomendable utilizarlo para predecir el mérito genético en este conjunto de datos.

Eficiencia del modelo estándar comparado con el modelo genómico

La eficiencia promedio del modelo estándar fue sólo 29.4 % superior a la del modelo genómico. Tal resultado indica que el aumento en el número de MM incrementó la eficiencia del modelo genómico.

Población 3

Eficiencia del modelo combinado comparado con el modelo estándar y con el modelo genómico

La eficiencia promedio del modelo combinado respecto al modelo estándar y al genómico fue sólo 0.2 y 16.15 %, respectivamente. Debido al número de MM (1279) y de genotipos (599) en la Población 3, la eficiencia del modelo combinado respecto al modelo estándar y genómico fue mucho menor que en las Poblaciones de maíz 1 y 2. En este caso, tanto el modelo combinado como el modelo estándar podrían ser adecuados para predecir el mérito genético.

Los resultados de la Población 3 se deben a que la precisión del modelo estándar (Ecuación 12) es muy alta (Cuadro 1) porque el rendimiento de grano provino de una especie autógama. Por lo tanto, aunque el número de MM es grande, éstos contribuyeron muy poco a la precisión del modelo combinado.

Eficiencia del modelo estándar comparado con el modelo genómico

Aunque el número de MM fue relativamente alto, la eficiencia promedio del modelo estándar fue superior a la del modelo genómico en 15.9 %. Como ya se indicó, esto se debe a que la precisión del modelo estándar para esta población es muy alta (Cuadro 1). Sin embargo, las correlaciones obtenidas en el modelo genómico entre los valores predichos y los observados fueron más altas en la Población 3 que en las Poblaciones de maíz 1 y 2 (Cuadro 1). Esto sugiere que al aumentar el número de MM, la precisión del modelo genómico se incrementó.

De acuerdo con los resultados de las tres poblaciones anteriores, el modelo combinado fue más eficiente que los otros dos modelos, aunque, conforme el número de marcadores y genotipos aumentó, la eficiencia del modelo combinado respecto al modelo genómico se redujo. La eficiencia observada del modelo combinado en los resultados de las tres poblaciones debe atribuirse a que usa en la predicción dos fuentes de información: fenotípica y genómica. Entonces, si se usa en el primer ciclo de selección, la precisión de la selección en tal ciclo aumentará.

Ventaja del modelo genómico respecto al modelo estándar

La manera usual de predecir el mérito genético en plantas y animales en la SG es sustituir la matriz de relaciones numéricas (A) por la matriz de relaciones genómicas (G) en las ecuaciones de predicción. Por ello, la ecuación de predicción del modelo genómico (Ecuación 11) y del modelo estándar (Ecuación 12), son formalmente equivalentes. Cuando el número de MM y genotipos es grande, ambos modelos tienden a proporcionar predicciones que se asemejan cada vez más (Cuadro 1, Población 3). Sin embargo, la ventaja del modelo genómico respecto al estándar radica en la posibilidad de reducir los intervalos entre ciclos de selección en más de dos tercios. Así, el modelo genómico es más eficiente que el modelo estándar cuando la eficiencia se mide por año y no por ciclo de selección. Según Beyene et al. (2015), la selección genómica requiere 1.5 años para completar un ciclo de selección, mientras que la selección fenotípica requiere 4 años por cada ciclo de selección.

Importancia del modelo combinado

Existen varios métodos bayesianos (Gianola, 2013) y no bayesianos (VanRaden, 2008) para predecir el mérito genético en el contexto univariado bajo el supuesto de que el número de genotipos y MM es suficientemente grande en la población base. En la práctica, sin embargo, no todos los candidatos a selección (plantas o animales) cuentan con marcadores moleculares. Por ello, un modelo como el propuesto podría adaptarse fácilmente a este caso, aumentando así la precisión de la predicción.

Bayes empírico comparado con GBLUP

Debido a que los efectos de los MM tienen distribución normal multivariada, Bayes empírico y GBLUP debería proporcionar resultados muy similares (Robinson, 1991) cuando se usa el mismo modelo de predicción. Esto se debe a que los supuestos de GBLUP y Bayes empírico son básicamente los mismos y porque, cuando las varianzas de los parámetros son conocidas, GBLUP se considera un caso particular de los métodos bayesianos (Blasco, 2001).

Finalmente, ¿cómo predecir el mérito genético? ¿por medio del Bayes empírico propuesto, por GBLUP o con alguna de las aproximaciones bayesianas existentes? Los modelos bayesianos estándares proporcionan un mejor control de la incertidumbre asociada a la predicción del mérito genético (de los Campos et al., 2013, Gianola, 2013), lo cual se consigue con mucho trabajo de cómputo (Verbyla et al., 2009). GBLUP, por su parte, requiere el conocimiento de las varianzas de los parámetros para que sus predicciones sean insesgadas; cuando tales varianzas son desconocidas, las propiedades estadísticas de las predicciones de GBLUP son también desconocidas (Gianola, 2013). De acuerdo con Blasco (2001), la elección de un modelo de predicción sobre otro debería estar basada en que el modelo elegido ofrezca una solución que los otros no ofrecen, de la facilidad para resolver el problema, y de la confianza en sus resultados. Este último punto es el de mayor importancia, ya que si el investigador se siente cómodo con un determinado método, significa que conoce sus limitaciones y ventajas y sabe qué esperar del modelo al utilizarlo en un análisis estadístico específico.

Conclusiones

El modelo propuesto, con la información conjunta del pedigrí y genómica en el contexto Bayes empírico, proporcionó predicciones más precisas que los otros dos modelos porque en la predicción se incorporan la información fenotípica y genómica, y también las correlaciones genéticas entre caracteres.

Agradecimientos

Al Consejo Nacional de Ciencia y Tecnología (CONACYT), por la Beca Postdoctoral otorgada a J. Jesus Ceron-Rojas a través del Programa de Estancias Posdoctorales Vinculadas al Fortalecimiento de la Calidad del Postgrado Nacional, Convocatoria 2013 (3), la cual hizo posible el presente estudio.

Al doctor José Crossa, jefe de la Unidad de Biometría y Estadística del Centro Internacional de Mejoramiento de Maíz y Trigo (CIMMYT), quien gentilmente nos proporcionó los datos de las dos poblaciones de maíz y de la población de trigo para la validación numérica de los resultados teóricos del presente estudio.

Literatura Citada

Blasco, A. 2001. The Bayesian controversy in animal breeding. J. Anim. Sci. 79: 2023-2046. [ Links ]

Beyene, Y., K. Semagn, S. Mugo, A. Tarekegne, R. Babu, B. Meise, P. Sehabiague, D. Makumbi, C. Magorokosho, S. Oikeh, J. Gakunga, M. Vargas, M. Olsen, B. M. Prasanna, M. Banziger, and J. Crossa. 2015. Genetic gains in grain yield through genomic selection 1 in eight bi-parental maize populations under drought stress. Crop Sci. 55: 154-163. [ Links ]

Bulmer, M. G. 1980. The Mathematical Theory of Quantitative Genetics. Lectures in Biomathematics. University of Oxford: Clarendon Press. 254 p. [ Links ]

Calus, M. P. L., and R. F. Veerkamp. 2011. Accuracy of multi-trait genomic selection using different methods. Genet. Selection Evol. 43: 26. http://www.gsejournal.org/content/43/1/26. (Consulta: Febrero 2015). [ Links ]

Casella, G., and E. I. George. 1992. Explaining the Gibbs sampler. The Am. Stat. 46: 167-174. [ Links ]

de los Campos, G., J. M. Hickey, R. Pong-Wong, H. D. Daetwyler, and M. P. L. Calus. 2013. Whole-genome regression and prediction methods applied to plant and animal breeding. Genetics 193: 327-345. [ Links ]

Gianola, D. 2013. Priors in whole-genome regression: the bayesian alphabet returns. Genetics 194: 573-596. [ Links ]

Hayashi, T., and H. Iwata. 2013. A Bayesian method and its variational approximation for prediction of genomic breeding values in multiple traits. BMC Bioinf. 14: 34. [ Links ]

Habier, D., R. L. Fernando, and J. C. M. Dekkers. 2007. The impact of genetic relationship information on genome-assisted breeding values. Genetics 177: 2389-2397. [ Links ]

Jia, Y., and J. L. Jannink. 2012. Multiple-trait genomic selection methods increase genetic value prediction accuracy. Genetics 192: 1513-1522. [ Links ]

Langville, A. N., and W. J. Stewart. 2004. The Kronecker product and stochastic automata networks. J. Comp. Appl. Math. 167: 429-44. [ Links ]

Legarra, A., I. Aguilar, and I. Misztal. 2009. A relationship matrix including full pedigree and genomic information. J. Dairy Sci. 92: 4656-4663. [ Links ]

Lehmann, E. L., and G. Casella. 1998. Theory of Point Estimation. 2nd Ed. Springer-Verlag New York. 589 p. [ Links ]

Lynch, M., and B. Walsh. 1998. Genetics and Analysis of Quantitative Traits. Sinauer Associates, Inc. Publisher Sunderland, Massachusetts, USA. 980 p. [ Links ]

Massman, J. M., A. Gordillo, R. E. Lorenzana, and R. Bernardo. 2013. Genomewide predictions from maize single-cross data. Theor. Appl. Genet. 126: 13-22. [ Links ]

Meuwissen, T. H. E., B. J. Hayes, and M. E. Goddard. 2001. Prediction of total genetic value using genome-wide dense marker maps. Genetics 157: 1819-1829. [ Links ]

Robinson, G. K. 1991. That BLUP is a good thing: The estimation of random effects. Stat. Sci. 6: 15-51. [ Links ]

Sorensen, D., and D. Gianola. 2002. Likelihood, Bayesian, and MCMC Methods in Quantitative Genetics. Springer, New York. 740 p. [ Links ]

Tempelman, R. J., and G. J. M. Rosa. 2004. Empirical Bayes approach to mixed model inference in quantitative genetics. In: Saxto, A. M. (ed). Genetics Analysis of Complex Traits Using SAS. Cary N.C., SAS Institute Inc. pp: 149-176. [ Links ]

VanRaden, P.M. 2008. Efficient methods to compute genomic predictions. J. Dairy Sci. 91: 4414-4423. [ Links ]

Vattikuti, S., J. Guo, and C. C. Chow. 2012. Heritability and genetic correlations explained by common SNPs for metabolic syndrome traits. PLoS Genet 8 (3): e1002637. DOI: 10.1371/journal.pgen.1002637. [ Links ]

Verbyla, K. L., B. J. Hayes, P. J. Bowman, and M. E. Goddard. 2009. Accuracy of genomic selection using stochastic search variable selection in Australian Holstein Friesian dairy cattle. Genet. Res. Camb. 91: 307-311. [ Links ]

Verbyla, K. L., P. J. Bowman, B. J. Hayes, and M. E. Goddard. 2010. Sensitivity of genomic selection to using different prior distributions. MCM Proceeding 4 (Supp 1) S5. [ Links ]

Recibido: Febrero de 2015; Aprobado: Febrero de 2016

* Autor responsable: jesusceronrojas@live.com.mx

Creative Commons License Este es un artículo publicado en acceso abierto bajo una licencia Creative Commons