1. Introducción
En las células de los mamíferos, el ADN continuamente está expuesto a diversos agentes genotóxicos tanto exógenos como endógenos. Entre los agentes exógenos se encuentra la radiación ionizante, luz ultravioleta, especies reactivas de oxígeno (ROS, por sus siglas en inglés), exposición a diversas sustancias químicas [1].
Por otra parte, las fuentes endógenas se encuentra el acortamiento de los telómeros, así como las ROS producidas durante el metabolismo celular [2]. Las ROS son moléculas inestables que contienen oxígeno altamente reactivo por lo que su interacción con el ADN puede producir lesiones en las bases nitrogenadas lo que puede ocasionar rompimiento de cadena sencilla y de cadena doble ocasionando mutaciones, bloqueo en los procesos de replicación y transcripción, afectando la expresión genética [3], de este modo la reparación del ADN es fundamental para mantener la estabilidad genómica en las células [4]. Las células responden al daño del ADN a través de una serie de vías de señalización para detectar lesiones y promover la reparación del ADN, los principales mecanismos de reparación son: escisión de bases (BER), escisión de nucleótidos (NER), errores de apareamiento (MMR), recombinación homóloga (HR) y unión de extremos no homólogos (NHEJ) [5], [6].
BER es un mecanismo de reparación del ADN en respuesta al daño ocasionado por procesos como oxidación, hidrólisis, desaminación y alquilación de las bases nitrogenadas. La reparación de bases del ADN es un proceso altamente conservado a través de la evolución e involucra la participación de múltiples enzimas, en humanos participan alrededor de 30 proteínas [7]. El primer paso en la BER es remover bases dañadas o modificadas mediante ADN glicosilasas, para cortar el enlace N-glucosídico, dejando un sitio apurínico o apirimidínico (AP), como se puede ver en la figura 1, el cual es el sustrato para la endonucleasa apurínica/apirimidínica (APE1) y una APliasa encargada de cortar el lado 3´ del sitio AP para eliminar el azúcar, en el espacio libre dejado por la base dañada se incorporan nucleótidos por la ADN polimerasa y finalmente sellado por una ADN ligasa [8],[9]. Este mecanismo previene la acumulación de daño oxidativo y otras modificaciones en las bases nitrogenadas tanto en el genoma nuclear y mitocondrial. Las ADN glicosilasas son las primeras enzimas reclutadas para reparar las lesiones del ADN por medio de BER, la función que llevan a cabo es crucial para identificar y remover las bases alteradas en el ADN [10], además de que tienen una amplia distribución tisular, en el ser humano se han identificado 11 ADN glicosilasas que pueden subdividirse en tres grupos; enzimas monofuncionales que escinden la base dañada dejando un sitio AP y un esqueleto de fosfodiéster intacto; glicosilasas bifuncionales que eliminan la base y escinden el enlace fosfodiéster en el lado 3’ de la base dañada generando un aldehído 3 -α,β- insaturado (eliminación β) y glicosilasas similares a Nei (NEIL) las cuales pueden catalizar una reacción de eliminación β/δ en el que el enlace fosfodiéster es escindido [11]. Las glicosilasas analizadas en este estudio realizan funciones muy específicas; MUTYH se encarga de escindir la adenina insertada frente a la 8-oxoguanina (8- oxoG), además está involucrada en la reparación posreplicación [12], NEIL 1 tiene actividad dual de ADN glicosilasa y beta/delta liasa, NTHL1 es una enzima bifuncional, pertenece a la familia de las endonucleasas III [13], MPG tiene la función de una alquiladenina ADN glicosilasa en las bases alquiladas del ADN [14] y OGG1 es responsable de escindir a la 8-Oxoguanina (8-oxoG), dejando un sustrato para la endonucleasa APE1 [15].

Figura 1 Escisión de bases dañadas por las glicosilasas, al inicio de la reparación del ADN por el mecanismo de BER, generando un sitio AP, el cual es sustrato para las endonucleasas y continuar con la reparación.
Diferentes estudios han demostrado que la deficiencia, sobreexpresión o mutaciones de las proteínas que participan en la vía de BER particularmente de las glicosilasas están relacionadas con algunos procesos patológicos [16], [17]. Además, se ha reportado que la acumulación de lesiones y mutaciones en el ADN puede tener como consecuencia la inestabilidad genómica, acumulación de mutaciones, senescencia celular [18], lo cual tiene relación principalmente con trastornos neurodegenerativos y carcinogénesis [19], también se ha relacionado que las deficiencias en los procesos por BER son un factor importante en la inflamación y enfermedades metabólicas [20]. Una de las características en las células tumorales es la deficiencia en la reparación del ADN por lo tanto las mutaciones en genes involucrados en la detección del daño al ADN y reparación ocasionaría una predisposición al cáncer [21].
Por otro lado, el estudio de genomas, transcriptomas y proteomas mediante la secuenciación de nueva generación (NGS) y espectrometría de masas ha generado una gran cantidad de información lo cual ha motivado a desarrollar nuevas investigaciones [22]. Actualmente en el GeneBank se han reportado 25 billones de pares de bases de más de 3 700 millones de secuencias de nucleótidos para 557 000 especies [23]. El uso de metodologías computacionales en los trabajos de investigación ha sido cada vez más frecuente en las ciencias biológicas [24]. En los últimos años se han desarrollado diferentes programas y softwares para el análisis de genes y proteínas como Expasy (Sistema experto de análisis de proteínas) Genome tools, por mencionar algunos, los cuales tienen la ventaja de que se pueden realizar en poco tiempo y a bajo costo, estas herramientas pueden predecir las características de diferentes moléculas, en algunos casos también se puede realizar la predicción de mutaciones, sobreexpresión, inhibición, regulación de la expresión genética, señalización celular, en diferentes procesos celulares y patologías [25], [26].
Las glicosilasas tienen un papel importante en la reparación del ADN y su deficiencia está asociada con la carcinogénesis, inflamación, envejecimiento y trastornos neurodegenerativos, por esta razón nos propusimos caracterizar los genes y proteínas de las glicosilasas debido que existen pocos estudios in silico en los procesos de reparación del ADN, por lo que los resultados obtenidos en este análisis pueden ser utilizados como una alternativa en el desarrollo de nuevas estrategias aplicadas en el área médica.
2. Metodología
En el presente estudio, se utilizaron servidores en línea y aplicaciones de softwares disponibles de manera gratuita, en la figura 2 se muestra la metodología análisis que se realizaron en este trabajo. Las secuencias de nucleótidos y aminoácidos de las glicosilasas implicadas en la reparación del ADN por BER en Homo sapiens fueron recuperadas del GenBank en formato FASTA del Centro Nacional de Base de datos de información biotecnológica (https://www.ncbi.nlm.nih.gov/gene/). Para este estudio las glicosilasas seleccionadas fueron: OGG1, MPG, MUTYH, NEIL1 y NTHL1.

Figura 2 Diagrama de flujo de la metodología empleada en la predicción in silico de los ARN y proteínas de las glicosilasas.
Se descargaron las secuencias de los ARNm, en el caso de los transcritos con más de dos isoformas se seleccionó la isoforma más representativa de cada uno de los genes (MANE SELECT), además tomamos en cuenta los números de acceso, nombre de los genes, del mismo modo se descargaron las secuencias de aminoácidos de las proteínas, así como a longitud de cada secuencia de nucleótidos y de aminoácidos. Una vez que se realizó la descarga de las secuencias se procedió a realizar el análisis del porcentaje del contenido de G≡C de acuerdo con las secuencias de nucleótidos de los ARNm de cada gen se determinó con el software GENSCAN (http://hollywood.mit.edu/GENSCAN.html), esta herramienta es fácil de usar y tiene la ventaja de predecir variaciones en regiones codificantes. La predicción de las estructuras secundaria de las proteínas se realizó con el software en línea GOR4 secondary structure prediction (https://npsapbil.ibcp.fr/cgibin/npsa_automat.pl?page=/NPSA/npsa_gor4.html), el cual permitió obtener el porcentaje de las estructuras correspondientes a alfa hélice, estructura extendida y plegamiento aleatorio. Para el análisis de la estructura terciaria se utilizaron las mismas secuencias de los aminoácidos para este objetivo se utilizó el software en línea Phyre2 Protein Fold Recognition Server (http://www.sbg.bio.ic.ac.uk/phyre2/html/page.cgi?id=index), este software es de fácil acceso, los algoritmos comparan la homología/analogía de estructuras de proteínas conocidas, lo cual permite predecir de la estructura terciaria de forma más precisa.
La predicción de los dominios presentes en las proteínas se realizó en el software InterPro (https://www.ebi.ac.uk/interpro/) con las secuencias de los aminoácidos previamente descargados. Finalmente, la relación filogenética entre los genes de las glicosilasas que participan en la reparación del ADN por el mecanismo de BER, se determinó mediante la construcción de un árbol filogenético utilizando las secuencias de nucleótidos de los ARNm recuperados del NCBI, mediante el software Molecular Evolutionary Genetics Analysis (MEGA), versión 11. Para este objetivo se realizó un alineamiento de las secuencias en formato FASTA y posteriormente se utilizó el método de pares no ponderado utilizando la media aritmética (UPGMA) con 1000 replicaciones bootstrap, la visualización del árbol filogenético se llevó a cabo a través del software phylo (https://phylo.io/).
3. Resultados y Discusiones
En este trabajo analizamos a las principales glicosilasas involucradas en esta vía de reparación. En la tabla 1 se describen; el nombre del gen (ARNm), proteína, número de acceso del GeneBank, longitud de las secuencias tanto de nucleótidos y aminoácidos, así como el contenido de G≡C. Se determinó el porcentaje de G≡C en las secuencias de cada transcrito, el gen MPG posee el mayor porcentaje de GC (63.80%), seguido por el gen NTHL1 (63.50%), NEIL1 (61.33%), MUTYH (60.48%), el valor más bajo en el contenido de C≡G se observó en el gen OGG1 (59.20%). Se ha evidenciado que el contenido de G≡C en el ARNm tiene la función de promover la exportación nuclear [27], [28].
Tabla 1 Secuencias de nucleótidos y aminoácidos de las glicosilasas que participan en el mecanismo de BER, recuperados del GenBank y contenido de G≡C.
| Gen | Número de acceso al GenBank | Proteína | Número de acceso al GenBank | Nucleótidos (bp) | Aminoácidos (aa) | Contenido G≡C (%) |
| OGG1 | NM_002542.6 | N-glicosilasa/ADN liasa isoforma 1a | NP_002533.1 | 1630 | 345 | 59.20 |
| MPG | NM_001015052.3 | ADN-3-metiladenina glicosilasa isoforma b | NP_001015052.1 | 1036 | 293 | 63.80 |
| MUTYH | NM_001048174.2 | Adenina ADN glicosilasa isoforma 4 | NP_001041639.1 | 1708 | 521 | 60.48 |
| NEIL1 | NM_024608.4 | Endonucleasa 8-de tipo 1 isoforma 2 | NP_078884.2 | 3711 | 390 | 61.33 |
| NTHL1 | NM_002528.7 | Isoforma 1 de la proteína 1 de tipo endonucleasa III | NP_002519.2 | 1030 | 304 | 63.50 |
Por otro lado, se ha sugerido que la eficiencia de la expresión genética depende del contenido de G≡C en el ARNm en células de mamíferos por lo que las proteínas resultantes muestran una estructura más estable [29]. De acuerdo con los resultados mostrados anteriormente, los genes que codifican a las glicosilasas poseen porcentajes igual o mayor a 60%, lo cual sugiere que la estabilidad y función enzimática podría estar regulada desde la estructura del ARNm, para realizar eficientemente el proceso de remoción de bases dañadas. Interesantemente en un estudio de secuenciación se identificaron los sitios AP como marcadores de daño oxidativo al ADN. Se observó que, en regiones con alto contenido de GC, el daño al ADN se redujo, lo que sugiere que los genes en estas regiones pueden sufrir menos mutaciones [30].
La estructura secundaria de las proteínas se puede ver afectada principalmente por puentes de hidrógeno e interacciones hidrofóbicas en la cadena polipeptídica, por lo que la predicción de la estructura secundaria de las proteínas proporciona información relevante sobre la función, plegamiento, así como interacciones proteína-proteína para realizar funciones específicas en diferentes procesos celulares [31- 33].
Nuestro siguiente objetivo en este trabajo fue realizar el análisis de la estructura secundaria de las glicosilasas a través del software GOR4 en función de la secuencia de aminoácidos de las proteínas, esto permitió comparar el contenido de alfa hélice, hebra extendida y plegamiento aleatorio, las cuales se pueden observar en la tabla 2, el cálculo de los porcentajes de las estructuras secundarias se realizó de acuerdo con el número de aminoácidos (aa) de cada estructura secundaria sobre el total de aminoácidos de cada glicosilasa, la cantidad de aminoácidos se observa en la tabla 1 La proteína NTHL1 presenta el mayor porcentaje de alfa hélice con 43.42%, seguido de MUTYH con 40.31%, OGG1 con 35.36%, MPG con 32.42% y NEIL1 30.26% el cual representa el porcentaje más bajo de alfa hélice. La proteína OGG1 presenta el mayor porcentaje de hebras extendidas con 16.25%, seguido por MUTYH con 13.44%, MPG con 12.63%, NEIL1 con 12.05%, el valor más bajo fue para la proteína NTHL1 con 8.55%. El plegamiento aleatorio de las secuencias de aminoácidos de las glicosilasas se observó de la siguiente manera: la proteína NEIL1 tiene el mayor porcentaje con 57.69 % seguido de MPG con 54.95%, OGG1 con 48.41%, NTHL1 con 48.03% y MUTYH con el menor porcentaje para plegamiento aleatorio con 46.26%.
Tabla 2 Estructuras secundarias de las proteínas de las glicosilasas que participan en el proceso de reparación del ADN por BER
| Gen | Alfa hélice | Estructura extendida | Plegamiento aleatorio | Longitud de la proteína (aa) | Alfa hélice (%) | Hebra extendida (%) | Plegamiento aleatorio (%) |
| OGG1 | 122 | 56 | 167 | 345 | 35.36 | 16.23 | 48.41 |
| MPG | 95 | 37 | 161 | 293 | 32.42 | 12.63 | 54.95 |
| MUTYH | 210 | 70 | 241 | 521 | 40.31 | 13.44 | 46.26 |
| NEIL1 | 118 | 47 | 225 | 390 | 30.26 | 12.05 | 57.69 |
| NTHL1 | 132 | 26 | 146 | 304 | 43.42 | 8.55 | 48.03 |
De acuerdo con lo anterior, el plegamiento aleatorio representa la estructura secundaria más abundante de las glicosilasas estudiadas, la hélice alfa fue la segunda estructura secundaria predominante y la hebra extendida representa el porcentaje más bajo, los porcentajes observados se relacionan con la función que realiza cada proteína. El plegamiento aleatorio tiene conformaciones extendidas y compactas, por lo que esta estructura es muy flexible para cambiar la conformación de la proteína, este cambio permite regular las interacciones en la exposición de sitios activos con otras proteínas o moléculas como ADN y ARN [30]. La estructura secundaria alfa hélice es una de las más abundantes en las proteínas, determinan en gran parte la estructura global e interaccionan con secuencias específicas del ADN a través de diferentes motivos en las proteínas [32], en este trabajo se observó que la alfa hélice es la segunda estructura abundante en las glicosilasas, la menos abúndate la estructura extendida la cual se caracteriza por tener una función estabilizadora en las proteínas, además de que pueden formar regiones cohesivas entre las proteínas y definen regiones donde las fluctuaciones estructurales son más o menos probables [33].
La estructura terciaria de macromoléculas como las proteínas se han determinado principalmente por los métodos biofísicos como la cristalografía de rayos X y espectroscopia de resonancia magnética nuclear (RMN) [34]. La mayoría de las estructuras terciarias de las proteínas registradas en las bases de datos como UniProt, el banco de datos de proteínas (PDB, por sus siglas en inglés), han sido determinadas por alguna de estas técnicas [35]. En el caso de las glicosilasas, las estructuras terciarias reportadas en el PDB han sido determinadas por difracción de rayos X, no obstante, la principal ventaja de los algoritmos in silico es la apreciación de las estructuras tridimensionales en diferentes ángulos.
Las estructuras terciarias de las glicosilasas fueron obtenidas con el servidor Phyre2, estas se pueden observar en la figura 3, (A) OGG1 principalmente se compone de alfa hélices y plegamiento aleatorio, MPG (B) de plegamientos aleatorios y giros beta, MUTYH (C) se compone en gran parte de alfa hélice, las hebras extendidas y el plegamiento aleatorio en menor cantidad, (D) NEIL y NTHL1 (E) contienen elevado contenido de alfa hélices. Tomando en cuenta las características de las estructuras secundaria y terciaria, estos son importantes debido a que determinan la función biológica, en este caso en la función catalítica de remover nucleótidos dañados. Las predicciones in silico de proteínas tienen la limitante de que puede haber un margen de error en los algoritmos empleados, de este modo las estructuras generadas no sustituyen a los estudios experimentales y estos deben utilizarse como una herramienta en el estudio de proteínas [36], además se debe tomar en cuenta que las proteínas son moléculas dinámicas y esta es una desventaja que los algoritmos no pueden predecir, así como las combinaciones de mutaciones [37].

Figura 3 Estructura terciaria predicha de las glicosilasas en humanos. A) OGG1, B) MPG, C) MUTYH, D) NEIL1, E) NTHL1.
Las estructuras proteicas obtenidas mediante diferentes softwares deben ser validadas por técnicas experimentales como la difracción de rayos X de cristales, la RMN y la microscopía electrónica. A pesar de las limitaciones, este tipo de estudios ha sido utilizado en la ingeniería de proteínas, en el diseño de experimentos como la mutagénesis dirigida y también para caracterizar los sitios activos y catalíticos de las proteínas, predicción de plegamientos [38], interacciones moleculares como el acoplamiento molecular (molecular docking), este último tiene la utilidad en el diseño de fármacos [39].
Las glicosilasas se han identificado en, bacterias, arqueas y eucariontes, lo cual sugiere que hubo una diversificación para alterar la especificidad del sustrato durante la reparación del ADN [40]. Además del plegamiento, un factor que influye en la función de una proteína es la presencia de dominios, los cuales están conformados por secuencias de aminoácidos que pueden formar una unidad estructural y funcionalmente independiente con características que se conservan en ciertos grupos de familias de proteínas [41], [42].
En nuestro estudio realizamos la predicción de los dominios presentes en las glicosilasas a través de la plataforma InterPro, como se puede ver en la tabla 3, las enzimas OGG1, MUTYH y NTHL1 presentan el dominio HhH, mientras que las glicosilasas NEIL1 y MPG carecen de este domino, pero presentan otros dominios con funciones específicas. La familia con el dominio HhH-GPD (hélice- hairpin-hélice) y su bucle rico en glicina/prolina forma parte de una amplia gama de proteínas reparadoras de ADN estructuralmente relacionadas [43]. Las glicosilasas que presentan el dominio HhH, son unas de las familias más versátiles para reconocer diversas lesiones en el ADN principalmente en la reparación de purinas y pirimidinas oxidadas, además este grupo de glicosilasas participan en diversos procesos, como la regulación genética y el control del ciclo celular [44]. La importancia de este dominio y la eficiencia de las glicosilasas se debe tomar en cuenta debido a que la alteración o inactivación de estos dominios puede afectar los procesos de reparación del ADN [45]. La vía de reparación por medio de BER es un proceso evolutivamente conservado, diversos estudios han identificado alrededor de 80 tipos diferentes de lesiones de bases nitrogenadas [46] y azúcares de manera directa o indirecta en el ADN [47], [48].
Tabla 3 Predicción de los dominios en las secuencias de las glicosilasas realizada en el programa interPro.
| Glicosilasa | Dominios | Posición en la secuencia de aminoácidos |
| OGG1 | HhH-GPD | 139 - 319 |
| endo3end | 146 - 316 | |
| HhH-GPD | 143 - 285 | |
| ENDO3c | 139 - 319 | |
| OGG_N | 26 - 141 | |
| MPG | No reportado | No reportado |
| MUTYH | HhH-GPD | 100 - 260 |
| endo3end | 108 - 260 | |
| HhH-GPD | 199 - 238 | |
| ENDO3c | 100 - 258 | |
| MutY_C | 340 - 469 | |
| NUDIX | 357 - 466 | |
| DNA_Glycosylase_C | 340 - 469 | |
| NUDIX hydrolase | 339 - 470 | |
| NEIL1 | Endonuclease VIII-like 1 | 252 - 290 |
| FPG_cat | 1 - 124 | |
| FPG_CAT | 2 - 121 | |
| Fapy_DNA_glyco_2 | 2 - 124 | |
| Fapy_DNA_glyco | 1 - 123 | |
| DNA glycosylase/AP lyase, DNA-bd | 142 - 224 | |
| H2TH_2 | 142 - 224 | |
| NTHL1 | HhH-GPD | 122 - 280 |
| ENDO3c | 122 - 278 | |
| endo3end | 130 - 280 | |
| HhH-GPD | 127 - 191, 216 - 263 |
El último objetivo fue analizar la relación filogenética de los transcritos de los genes que codifican a las glicosilasas, el árbol filogenético muestra la relación entre las enzimas, así como su historia evolutiva enraizado a partir de un ancestro común, se utilizó el software MEGA y en este se observan cuatro clústeres (figura 4), cada rama o grupo tiene secuencias de nucleótidos similares, los genes NEIL1 y MPG están representados en el grupo uno, el grupo dos por el gen NTHL1, el grupo tres por el gen MUTYH, y el grupo cuatro es el gen OGG1 el cual representa el ancestro común de todos los genes analizados en este estudio. Las descripciones de las estructuras secundarias, el modelado de la estructura terciaria de las proteínas, la presencia de dominios, así como el análisis filogenético de los genes, muestran que cada grupo (clado) posee una función similar. En la figura 5 se puede apreciar el mecanismo de reparación por medio de BER, observamos la importancia de las glicosilasas funcionales y no funcionales o defectuosas. Las predicciones de la estructura de los genes y proteínas de las glicosilasas reportadas en este estudio pueden tener aplicaciones en diversas disciplinas biológicas como la epidemiologia, genética de poblaciones y en la biomedicina [49].

Figura 4 Árbol filogenético generado por el método UPGMA con base en la comparación de secuencias de genes de las glicosilasas que participan en la reparación del ADN por BER.

Figura 5 Mecanismo de reparación por BER. A, las lesiones en las bases nitrogenadas del ADN son eliminadas por las glicosilasas, posteriormente un conjunto de enzimas se encarga de sintetizar una nueva hebra de ADN. B, el fallo en las glicosilasas ocasionaría que el ADN no se repare, generando acumulación de mutaciones.
Además, esta información puede ser utilizada en diferentes análisis como, por ejemplo, en la agrupación de genes con una función determinada, cálculos de similitud de estructuras proteicas, en el caso de los dominios identificados en mecanismos de actividad, genómica funcional, proteómica, así como en el diseño de experimentos para validar las predicciones. Interesantemente la caracterización tanto de genes y proteínas, en la identificación de nuevos marcadores moleculares de ARN o proteínas aplicadas en el diagnóstico o incluso en el tratamiento de enfermedades como cáncer, enfermedades neurodegenerativas, inflamatorias y autoinmunes [50].
4. Conclusiones
Los resultados muestran que las glicosilasas analizadas en este estudio tienen un contenido de G≡C superior al 60%, lo que sugiere una alta estabilidad del ARNm y un posible impacto positivo en la eficiencia de la expresión génica en células de mamíferos. Además, las estructuras secundarias predominantes en estas proteínas son la alfa hélice y el plegamiento aleatorio, lo que puede influir en sus interacciones y funciones durante la reparación del ADN, además la presencia del dominio HhH en las glicosilasas permite identificar y actuar específicamente sobre las bases dañadas del ADN, facilitando su interacción con el ADN para reconocer y eliminar las modificaciones en las bases, iniciando así el proceso de reparación por BER. En conclusión, este estudio demuestra que las herramientas bioinformáticas son una metodología valiosa para la caracterización inicial de proteínas involucradas en diversos procesos celulares y mecanismos esenciales, como la reparación del ADN. Su aplicación puede extenderse a numerosos campos, desde la biomedicina hasta la genética evolutiva.










nueva página del texto (beta)



