La genómica ha evolucionado en años recientes gracias a los avances en la tecnología de secuenciación de ADN. Estos avances han permitido la generación de grandes cantidades de datos a una velocidad sin precedentes. Sin embargo, por la complejidad inherente a los datos genómicos, así como su dimensionalidad, plantean obstáculos importantes1. La diversidad de la información genómica, que abarca desde secuencias de ADN hasta datos fenotípicos asociados, añade una capa adicional de complejidad. Además, la variabilidad en la calidad y la estructura de los datos genómicos puede dificultar la extracción de conocimientos útiles y significativos. En este contexto, los métodos de aprendizaje automático (AA) emergen como herramientas valiosas para abordar estos desafíos, estas metodologías ofrecen la capacidad de procesar y analizar grandes volúmenes de datos de manera eficiente y precisa2. Su capacidad para identificar patrones complejos y relaciones no lineales en datos genómicos y fenotípicos los convierten en una herramienta poderosa para la extracción de conocimientos2,3.
La aplicación de técnicas de AA permite abordar tareas como la identificación de genes relevantes para características específicas, predicción de funciones génicas, detección de variantes genéticas asociadas con características particulares y clasificación de especies con base en información genómica4,5,6. Recientemente, el AA se ha vuelto atractivo en la predicción genómica por su capacidad para manejar grandes volúmenes de datos, su flexibilidad en el modelar relaciones no lineales, mejorar la precisión predictiva y las continuas innovaciones en algoritmos y técnicas, pero es necesario investigar cómo se compara en la predicción de valores genéticos con los métodos GBLUP convencionales7. Por lo que la combinación de datos genómicos con algoritmos de AA permitiría la creación de modelos predictivos y descriptivos confiables, que a su vez tendría implicaciones en la cría selectiva, conservación de especies y la comprensión de la evolución8,9.
Entre los métodos de AA más utilizados están las redes neuronales, máquinas de soporte vectorial, árboles de decisión, regresión lineal y métodos de agrupación3,8-11. La diversidad de enfoques disponibles refleja la versatilidad de estos métodos en la resolución de desafíos con información genómica, como la clasificación de secuencias de ADN y la predicción de la estructura de proteínas12. El éxito de la aplicación de estos métodos en la genómica animal depende en gran medida de la disponibilidad de información13. Además, de elegir el método de AA óptimo, ya que se han propuesto una serie de métodos, cada uno con características propias y capacidades de predicción específicas con diferentes conjuntos de datos y características3,7.
Por lo expuesto el presente estudio tuvo como objetivo comparar los métodos de AA: redes neuronales (RN), árboles de regresión (AR), bosques aleatorios (BA), y máquina de soporte vectorial (SVM) para predecir valores genómicos de cría utilizando registros fenotípicos de pesos al nacimiento, destete y al año, así como la información genómica de una población de bovinos Suizo Europeo en México.
La información utilizada provino de la base de datos de la Asociación Mexicana de Criadores de Ganado Suizo de Registro (AMCGSR), la cual contiene registros fenotípicos e identificación de los animales, rancho de origen o propietario, genealogía y de caracteres de importancia económica como pesos al nacimiento (PN), al destete (PD) y al año (PA). El conjunto de datos utilizado fue analizado previamente por Valerio-Hernández et al14,15 para ajustar otros modelos, por lo que algunos resultados de los aquí obtenidos se comparan en forma directa con los de los autores mencionados. El tratamiento de la información fenotípica para PN, PD y PA se realizó el procedimiento descrito por Valerio-Hernández et al14,15, es decir, se omitieron individuos con información faltante en edad de la madre, manejo, hato de procedencia, así como individuos no relacionados genéticamente. Los grupos contemporáneos (GC) se definieron combinando los efectos de hato, año y época de nacimiento. Para PD los GC se conformaron considerando el manejo alimenticio que se da al hato, así como ajuste a días específicos para el destete. Se descartaron GC con menos de tres individuos o con varianza cero, de acuerdo con la metodología citada14.
La información genómica se obtuvo a través del análisis de muestras de pelo recolectadas de 300 animales de ranchos pertenecientes a la AMCGSR ubicados en Colima, Jalisco y Veracruz. El genotipado lo realizó la empresa GeneSeek (Lincoln, NE, USA), mediante el chip Genomic Profile Bovine LDv.4, el cual se ha utilizado para genotipar diversas razas Bos indicus y Bos taurus. El genotipado de 150 animales se hizo con un chip de 30,000, otros 150 animales se genotiparon con 50,000 marcadores SNP (Single Nucleotide Polymorphism). Se realizó una selección de marcadores SNP que estuvieran presentes en ambos chips, lo que resultó en un conjunto de 12,835 SNP en común.
La recodificación y control de calidad de la información genotípica realizada por Valerio-Hernández et al15, se basó en lo realizado por Jarquín et al16 recodificando para efectos genéticos aditivos como AA=0, AB=1 y BB=2. Para la imputación de genotipos faltantes en el presente estudio, se utilizó el software FImpute17 (versión 2.2), para lo cual se obtuvo: 1) el mapa de los marcadores (marcador, cromosoma, posición en pares de base), eliminando marcadores duplicados o marcadores con posiciones desconocidas, 2) el pedigrí de los individuos y su correspondiente sexo. Se eliminaron marcadores monomórficos y aquellos con una frecuencia del alelo menor (MAF) más pequeña que 0.04. Se obtuvieron 9,008 marcadores que se utilizaron para la construcción de la matriz de relaciones genómicas G; en el Cuadro 1, se muestra el número de animales que se incorporaron en el estudio por cada característica después del filtrado.
Cuadro 1 Número de animales genotipados y fenotipados de una población de bovinos Suizo Europeo para tres características de crecimiento
| Grupo/Variable | PN | PD | PA |
|---|---|---|---|
| Genotipado | 300 | 300 | 300 |
| Fenotipado | 330 | 267 | 232 |
| Fenotipado en G 2 | 232 | 218 | 191 |
PN= peso al nacimiento, PD= peso al destete, PA= peso al año. G2 Animales con fenotipos e información genómica.
La matriz de relaciones genómicas
G
se obtuvo de acuerdo con la metodología descrita por Pérez-Rodríguez et al18,
Modelos mixtos lineales (modelos base). Con el objetivo de comparar los resultados del poder predictivo para valores de cría para PN, PD y PA para modelos mixtos lineales vs modelos de aprendizaje automático se consideran la secuencia de modelos y de resultados descritos por Valerio-Hernández et al15. Con la finalidad de presentar toda la información pertinente se describe a continuación en modelo mixto lineal utilizado por el mencionado autor, el cual está dado por:
donde
Modelos de aprendizaje automático. Las variables de entrada para los algoritmos de AA que se utilizaron fueron la matriz de relaciones genéticas que combina la información genómica e información de pedigrí denominada
Red neuronal artificial. Las redes neuronales (RN) son modelos que en sus inicios pretendían emular el funcionamiento del sistema nervioso, donde a través de operadores matemáticos procesan información de entrada, generando valores de salida o el resultado final3,22. Las variables de entrada afectan el desempeño del modelo, puede generar sobreajuste si la cantidad de información es grande por lo que es importante optimizar dichas variables23. Una de las ventajas de las redes neuronales es su capacidad de aprender patrones no lineales3. El modelo de una RN con una capa de entrada con
donde
Árboles de regresión. Este modelo se basa en el planteado por Breiman et al28,
Bosques aleatorios. Este modelo combina múltiples AR donde las predicciones de cada uno se promedian para obtener una predicción final optimizada,
Máquina de soporte vectorial. El modelo de máquina de soporte vectorial (SVM), se utiliza para clasificación y regresión31. En el contexto de regresión, dado un conjunto de datos
donde
Validación cruzada. La validación cruzada es un método de re-muestreo de datos muy utilizado para estimar el verdadero error de predicción de los modelos y ajustar los parámetros del modelo20,34. Por tanto, para obtener la capacidad de predicción de los modelos RN, AR, BA y SVM, y con ello hacer la comparación, se realizó la validación cruzada teniendo como referencia los procedimientos realizados por Valerio-Hernández et al15. Estos autores dividieron los datos aleatoriamente en 80 % para el conjunto de entrenamiento y 20 % para el de validación y el proceso se repitió 100 veces. Se ajustaron los modelos de AA y se obtuvieron las correlaciones entre los valores observados vs predichos, donde los valores observados se consideraron los valores de la variable respuesta corregidos por efectos fijos y otros efectos aleatorios. Se obtuvo el coeficiente de correlación de Pearson de los fenotipos corregidos y valores genéticos predichos para cada una de las particiones y se obtuvieron los promedios para cada uno de los modelos.
En el Cuadro 2 se muestran los promedios de las cien correlaciones de Pearson (en validación cruzada) entre valores corregidos y predichos para las características PN, PD y PA, utilizando los cuatro algoritmos de AA comparados en el estudio. Para PD, el algoritmo SVM fue con el que se obtuvieron los valores más altos para los coeficientes de correlación de Pearson entre valores corregidos y predichos en los conjuntos de validación (PD= 0.256). En este método para las tres características el mejor ajuste se obtuvo utilizando el “Kernel Radial” optimizando los hiperparámetros
Cuadro 2 Promedios de los estimadores de la correlación Pearson y desviación estándar entre fenotipos corregidos y valores genéticos predichos, para las 100 validaciones cruzadas para las tres características de crecimiento y los algoritmos comparados
| Característica | Algoritmo | Cor | DE |
|---|---|---|---|
| PN | Red neuronal | 0.402 | 0.160 |
| Árbol de regresión | 0.286 | 0.153 | |
| Bosques aleatorios | 0.223 | 0.163 | |
| Máquina de soporte vectorial | 0.347 | 0.129 | |
| PD | Red neuronal | 0.224 | 0.126 |
| Árbol de regresión | 0.087 | 0.163 | |
| Bosques aleatorios | 0.189 | 0.117 | |
| Máquina de soporte vectorial | 0.256 | 0.144 | |
| PA | Red neuronal | 0.195 | 0.152 |
| Árbol de regresión | 0.091 | 0.178 | |
| Bosques aleatorios | 0.140 | 0.128 | |
| Máquina de soporte vectorial | 0.184 | 0.160 |
PN= peso al nacimiento, PD= peso al destete, PA= peso al año; Cor = coeficiente de correlación de Pearson; DE= desviación estándar de los 100 estimadores de la correlación para particiones seleccionadas al azar.
Con la metodología BA se realizaron pruebas con diferente cantidad de “árboles” dentro de los parámetros del modelo, siendo 150 árboles para PN y PD; y 250 para PA los que obtuvieron valores óptimos de predicción; para las características PD y PA obtuvieron el tercer mejor rendimiento en cuestión de sus predicciones. En relación con la metodología AR mostró menor capacidad predictiva para las características PD y PA de esta investigación.
Con los resultados obtenidos y con la finalidad de probar la significancia de los coeficientes de correlación obtenidos se planteó el siguiente juego de hipótesis:
Para determinar la capacidad predictiva de los modelos de AA, se compararon los estimadores del coeficiente de correlación Pearson entre los fenotipos corregidos y los valores genéticos predichos con los modelos comparados36, esto realizado en los conjuntos de prueba para cada característica de la metodología validación cruzada descrita anteriormente, donde no se produjo variación en la información utilizada en los análisis en comparación con otros estudios previos. Esto garantiza la consistencia en las comparaciones realizadas y proporciona una base sólida para evaluar el rendimiento relativo de los métodos tradicionales y los algoritmos de AA. El problema de inferencia de valores genéticos y predicción de fenotipos para caracteres cuantitativos gobernados por formas complejas de interacción entre genes resulta difícil de resolver utilizando los modelos mixtos lineales utilizados de manera rutinaria37,38, por lo que el uso de algoritmos de AA son una alternativa para modelar funciones complejas identificando relaciones no lineales entre las covariables y la variable respuesta20. Las correlaciones entre fenotipos corregidos y valores predichos con las metodologías utilizadas permiten evaluar los algoritmos de aprendizaje automático RN, AR, BA y SVM, para las características de crecimiento en bovinos PN, PD y PA. En la Figura 1 se muestra que en general los algoritmos RN, BA y SVM mostraron un desempeño predictivo similar a las metodologías evaluadas por Valerio-Hernández et al15, quienes trabajaron con las mismas variables. En un estudio donde se comparó la capacidad predictiva de redes neurales no lineales (RNNL) con modelos lineales, se encontró que éstas pueden ser útiles en la predicción para características complejas utilizando información genómica, situación en la que ordinariamente el número de parámetros a estimar supera el tamaño de muestra20. Por su parte, Rodríguez-Alcántar3 comparó algoritmos de AA utilizando diversos conjuntos de SNP generados a partir de cromosomas con alto número de QTL asociados con alta producción lechera. Este autor encontró que la precisión de la clasificación varió de 90.9 a 94.5 % con árboles de decisión, y de 79.0 a 87.3 % con redes neuronales. El autor concluye que tanto el método de redes neuronales para clasificación binaria, como los árboles de decisión son herramientas eficientes para la identificación temprana de vacas lecheras altas productoras.

Valores genéticos obtenidos con los métodos de aprendizaje automático, redes neuronales artificiales (RN), arboles de regresión (AR), bosques aleatorios (BA) y máquina soporte vectorial (SVM) con las metodologías realizadas por Valerio-Hernández et al15, mejor predictor lineal insesgado (BLUP), BLUP genómico (GBLUP) y GBLUP de un solo paso (ssGBLUP) para las características peso al nacer (PN), peso al destete (PD) y peso al año (PA) de una población de bovinos Suizo Europeo.
Figura 1 Comparación de los coeficientes de correlación (promedio de las 100 validaciones) de los fenotipos corregidos y valores genéticos predichos
Los resultados indican que el desempeño de los modelos varía según la característica y la cantidad de información20, entre otros factores. Lo anterior sugiere que pueden obtenerse mejores resultados con estos modelos al incluir más información de variables y covariables para ajustar el modelo en entrenamiento39,40, pese a las bajas correlaciones y grandes varianzas de las predicciones, estas pueden atribuirse a una serie de factores genéticos y metodológicos. En consonancia con los hallazgos de Cuyabano et al41, es importante considerar las diferencias genéticas entre las poblaciones de referencia y las poblaciones objetivo al calcular la precisión de las predicciones. Además, sugiere que existe un límite teórico superior para la precisión de estas predicciones, que está determinado por la raíz cuadrada de la heredabilidad. Zhang et al42) mencionan que varios factores pueden influir en la precisión de las predicciones de valores de cría genómicos; la heredabilidad (empleando el modelo descrito como BLUP, Valerio-Hernández et al15 reporta 0.260 para PN; 0.223 para PD y 0.231 para PA), la densidad de marcadores genéticos, la frecuencia del alelo menor (MAF por sus siglas en inglés) utilizado durante el proceso de depuración de datos y el modelo estadístico utilizado son solo algunos factores que pueden afectar la precisión. Esto plantea desafíos significativos en la predicción de rasgos complejos.
Las metodologías de SVM, RN y BA mostraron un desempeño similar en términos de los coeficientes de correlación de Pearson de los fenotipos corregidos y los valores predichos para las tres características de crecimiento utilizadas; comparando los resultados de éstas con valores obtenidos por Valerio-Hernández et al15 utilizando metodologías tradicionales BLUP, GBLUP y ssGBLUP. El costo computacional de RN fue mayor que el de los otros tres algoritmos comparados, se determinó, midiendo el tiempo de ejecución necesario para entrenar y validar cada uno de los algoritmos en los conjuntos de datos de entrenamiento y prueba, registrando el tiempo transcurrido desde el inicio del entrenamiento hasta la finalización del proceso de validación; este resultado es similar al que reportaron Zhao et al43 quienes mencionan que el ajuste de la RN es más complicado y requiere más tiempo. El algoritmo SVM destacó como una herramienta prometedora para la predicción utilizando información genómica, considerando la cantidad de información y los parámetros utilizados con esta metodología, así como el Kernel31; este algoritmo aporta a las aplicaciones de AA para el análisis de conjuntos de datos provenientes de información genética y genómica44,45.
Los resultados obtenidos en este estudio demuestran que los algoritmos de AA tienen el potencial de generar predicciones útiles incluso bajo condiciones de información limitada, como el tamaño reducido de muestra y la baja densidad de marcadores genéticos. Este hallazgo resalta su aplicabilidad en escenarios prácticos donde los recursos son restringidos.
Sin embargo, se identificaron desafíos importantes, como el costo computacional y la dependencia de una cantidad suficiente de datos de calidad para maximizar la capacidad predictiva. A pesar de estas limitaciones, los algoritmos como RN y SVM mostraron un desempeño consistente, lo que sugiere que pueden ser herramientas valiosas en el análisis genómico. Estos resultados no solo brindan información práctica sobre el uso de los algoritmos de AA, sino que también abren la puerta a investigaciones futuras enfocadas en evaluar su comportamiento con bases de datos más amplias y detalladas, optimizando tanto su implementación como su capacidad predictiva en diferentes contextos.










texto en 


