INTRODUCCIÓN
Actualmente existe una enorme cantidad de información satelital obtenida a escala global, recopilada por diferentes sensores que pertenecen a diferentes proyectos o agencias. Sus datos son de diferente naturaleza como, por ejemplo, observaciones atmosféricas, elevación, así como respuestas de la cubierta de la Tierra en varias porciones del espectro electromagnético, registradas con varias resoluciones espaciales y temporales (Yang, John, Zhao, Lu y Knapp, 2016) produce, sustain, and serve satellite climate data records (CDRs). Recolectados durante varios años, o incluso décadas, conforman un vasto repositorio. Hoy, los datos recolectados por diferentes sensores, como Landsat (U.S Geological Survey, 2018), MODIS (MODIS Characterization Support Team, 2017) o Sentinel (European Space Agency, 2015), se distribuyen de forma gratuita.
Es así que los estudios basados en percepción remota se han visto limitados no por la falta de información, sino, al contrario, por la ausencia de capacidad para analizar todos los datos disponibles (Ma, Wang, Liu y Ranjan, 2015; Yang, Huang, Li, Liu y Hu, 2017). Esto ha dado como resultado investigaciones a escalas locales o regionales o de baja resolución espacial o temporal(Gamba, Du, Juergens, & Maktav, 2011; Ma, Wang, Liu y Ranjan, 2015). En ocasiones, los análisis para el monitoreo de los cambios de cubierta del suelo pueden demorar mucho, de modo que los resultados no son útiles para el apoyo a acciones de fiscalización y de respuesta rápid (Gorelick et al., 2017; Shimabukuro et al., 2011).
Google Earth Engine (GEE, https://earthengine.google.com) nació a finales del 2010 como una forma para eliminar esa limitante computacional y permitir a los usuarios realizar análisis complejos, involucrando grandes cantidades de datos y expandiendo la frontera de la ciencia en percepción remota. Esta plataforma de análisis permite procesar información geoespacial en la nube sin necesidad de ocupar la memoria de la computasdora del usuario. Al mismo tiempo, GEE está ligado directamente a varios programas satelitales que permiten integrar en las bases de datos las imágenes que acaban de ser tomadas. GEE es, por lo tanto, una solución innovadora para el manejo de los datos masivos (“Big Data”), que permite afrontar problemas globales, dando resultados velozmente. De esta manera, permite proponer y actuar en soluciones para dichos problemas de forma ágil (Gorelick et al., 2017).
LA PLATAFORMA
GEE está compuesto por cuatro elementos principales. El primero es la infraestructura de Google, la cual pone a disposición del usuario sus servidores, permitiendo así hacer análisis en paralelo con cerca de 10 000 CPUs. Esto agiliza la velocidad de procesamiento, en comparación con una computadora individual. Por ejemplo, el desarrollo del mapa global sin nubes a 15 m de resolución de Google Earth y Google Maps, usando estos servidores, tardó un par de días, mientras que, si se hubiera usado una computadora personal la demora habría sido de 14 años (Moore, 2017).
El segundo elemento es el acervo de datos (datasets). Google tiene almacenado todas las imágenes de varios sensores (Landsat, Sentinel, MODIS, entre otros). Estas bases de datos se actualizan a medida que se toman nuevas imágenes (cerca de 6000 nuevas escenas diarias), creando así un enorme catálogo de datos geoespaciales. Estas bases se pueden consultar a través de diferentes criterios (calidad, localización, fechas) sin necesidad de descargar ni solicitar acceso a las imágenes (Gorelick et al., 2017). Igualmente, GEE permite usar información vectorial, pero a diferencia de las imágenes, los vectores no se encuentran organizados en un catálogo y su búsqueda puede resultar tediosa (Google Developers, 2018).
El tercer elemento es la API (Application Program Interface), la cual consiste en una serie de comandos y funciones preestablecidas, escritos en lenguaje JAVA, que permite una programación sencilla al desarrollar algoritmos para las investigaciones. Sin embargo, dichas funciones no pueden modificarse ni tampoco se puede acceder a su código, lo cual impide al usuario realizar modificaciones para lograr análisis alternativos a los preestablecidos. De esta manera, se limita la flexibilidad de programación del usuario, siendo algo restrictivo ya que solo se permite usar las funciones del API. Cabe mencionar que existe también un API para el lenguaje Python, pero debe ser descargado. Esto limita el procesamiento ya que consume memoria de la computadora del usuario. Además, puede incurrir en cobros de uso y carece de documentos de apoyo y ayudas.
Finamente, el cuarto elemento es el Code Editor, el cual es un entorno de desarrollo integrado en línea, donde se juntan todos los elementos. Aquí es donde el usuario puede, a través de código de trabajo (“scripts”), llamar a los datos, procesar y visualizarlos de manera virtual con los servidores de Google, teniendo así sus resultados e información en la nube (Figura 1).
Cabe destacar que, si bien GEE usa sus propios acervos, también permite que el usuario cargue a la plataforma sus propios datos en formato ráster o vectorial. De la misma forma, a pesar de que el procesamiento se haga en la nube de GEE, existe una función para poder descargar la información generada al almacenamiento Google Drive del usuario.
CASOS DE ESTUDIO
GEE ha sido utilizado para generar datos geográficos, a menudo a escala global, sobre diferentes temas como el monitoreo de vegetación y bosques, el mapeo de aguas superficiales, la detección de islas de calor, de minas, de incendios, etc. (Kumar y Mutanga, 2018). Brevemente explicaremos algunas de estas aplicaciones.
Mapeo de alta resolución de las superficies de aguas globales y sus cambios a largo plazo (Pekel, Cottam, Gorelick y Belward, 2016)
El Centro Común de Investigación de la Comisión Europea, conocido por sus siglas en inglés como JRC (Joint Research Centre), ha usado GEE para crear mapas de alta resolución de las superficies de aguas en el mundo, lo que permite evidenciar sus cambios, estacionalidad, recurrencia y transiciones (https://global-surface-water.appspot.com/).
Para ello se utilizaron más de tres millones de imágenes Landsat tomadas durante un periodo de 30 años (1984-2015) con resolución de 30 metros. Estas fueron procesadas y clasificadas para detectar cuerpos de agua permanentes o estacionales y observar los cambios temporales en dichos cuerpos. Se calcula que una computadora individual habría demorado 1212 años para llevar a cabo este procesamiento, mientras que, con la capacidad de procesamiento paralelo de GEE, se logró en apenas 45 días.
Para alcanzar el objetivo, se utilizaron 64 254 muestras de entrenamiento obtenidas con interpretación visual y repartidas en 9149 imágenes en todo el mundo y para todas las fechas. Estos datos se usaron para entrenar un sistema experto, basado en la información espectral, y variables auxiliares como altimetría para clasificar la totalidad de las imágenes del mundo. Para evaluar el mapa obtenido, se usaron 40 124 puntos de validación repartidos en los 30 años y en todo el mundo, los cuales fueron evaluados visualmente con imágenes de alta resolución. El resultado final arrojó un error de omisión menor a 5% y de comisión menor al 1%.
Estos mapas son de enorme ayuda para poder identificar cuerpos de agua de forma rápida y eficiente y, a su vez, poder entender los cambios de estos en el marco del cambio climático global y diseñar políticas para la seguridad hídrica.
Global Forest Change (Hansen et al., 2013)
Otra importante base de datos obtenida con GEE es el Global Forest Change, http://earthenginepartners.appspot.com/science-2013-global-forest), que consiste en una serie de mapas digitales globales, con resolución de 30 m, que para el periodo 20002012 indican las áreas forestales, la proporción de cobertura arbolada y las áreas que presentaron procesos de reforestación (ganancia forestal) y deforestación (pérdida). Recientemente, el periodo de análisis se extendió hasta 2018 para algunos temas (deforestación). Para elaborar la cartografía se analizaron 654 178 imágenes Landsat 7, las cuales fueron remuestreadas, corregidas radiométricamente y filtradas (presencia de nubes) para generar diferentes métricas de series de tiempo, que sirvieron para clasificar las imágenes con un algoritmo de árbol de decisión. De acuerdo con la evaluación realizada por los autores, la base de datos es confiable. Por ejemplo, la clase “pérdida forestal” presenta errores de omisión y comisión de orden de 13%.
Mapbiomas (Mapbiomas Project, 2016)
A nivel nacional otra iniciativa interesante, basada en GEE, es el proyecto brasileño Mapbiomas (http://mapbiomas.org/) que consiste en elaborar cartografía anual de las cubiertas del suelo de los biomas de Brasil para el periodo 1985-2018. La elaboración de los mapas se basa en la clasificación de imágenes Landsat con el algoritmo de árboles de decisión Random Forest. Estas series de tiempo cartográficas permite entender los procesos de cambio a través del análisis de las trayectorias de uso/cubiertas observadas a lo largo del periodo de más de 30 años (Mas et al., 2019).
Mapeo de la agricultura protegida en México (Perilla & Mas, 2019)
Recientemente, Perilla & Mas (2019) presentaron un mapa de alta resolución de la agricultura protegida en México que emplee plásticos (túneles e invernaderos). Este mapa se obtuvo a través del procesamiento de imágenes de Sentinel-2 y puede usarse para un sistema de monitoreo de la agricultura protegida en México.
DISCUSIÓN Y RECOMENDACIONES
Si bien GEE ofrece una serie de soluciones innovadoras para el análisis de datos masivos, vale destacar que es un proyecto en constante desarrollo (Gorelick et al., 2017). Por ejemplo, el repositorio de imágenes si bien es muy amplio, no incluye todas las imágenes disponibles. Además, GEE funciona exclusivamente con datos en la proyección geográfica, de modo que no es recomendado hacer, por ejemplo, cálculos de área en GEE. Para calcular medidas espaciales es más fiable usar un sistema de coordenadas métrico. Las funciones existentes son numerosas, pero pueden resultar limitadas para ciertos usuarios. Por ejemplo, no existen funciones para realizar segmentaciones de imágenes o algoritmos de clasificación muy avanzados como los de deep learning. En esto casos se tendrán que hacer algunas operaciones fuera de la plataforma.
GEE no consume la memoria de la computadora del usuario, pero es necesario tener una buena conexión a internet para poder cargar el Code Editor, las visualizaciones y cualquier información que sea solicitada de los servidores. Adicionalmente, para descargar los resultados de la nube a la computador adel usuario se requerirá espacio disponible suficiente en su Google Drive (la versión gratuita de Google Drive permite hasta 15 gigabytes). En el caso que se pretenda usar GEE con fines lucrativos, o que no estén enfocados en la educación y la investigación, se deberá pagar una licencia (Google Developers, 2018).
A pesar de estas limitaciones, servicios de procesamiento en la red como GEE se utilizan cada vez más. Si bien GEE no es el primer intento de generar una herramienta que permita abordar el Big-Data o intentar procesamiento en la nube (Lin,Chou, Ku, Chung, & Wang, 2018; Yang et al., 2017) si es la primera de este tipo que logra articular efectivamente varios elementos: los acervos de datos, en particular las imágenes de satélite, una infraestructura computacional de gran procesamiento, un libre acceso de los usuarios y una interfaz de uso sencillo. Gracias a esta herramienta se ha incentivado la investigación mundial en percepción remota a escalas globales, que responde a los problemas medioambientales que se enfrenta hoy el mundo. En cierto sentido permitió rebasar una limitación de los datos cartográficos tradicionales que era la disyuntiva entre datos detallados para pequeñas áreas versus grandes extensiones con una escala pequeña de poco detalle. Es ahora posible generar datos a escala global con una alta resolución (30 m para Landsat). Sin embargo, la calidad de los mapas obtenidos varía sin duda mucho dependiendo de la región, lo cual no se ve reflejado por los ejercicios de evaluación para el conjunto de la base de datos.
En conclusión, por sus novedosas características de procesamiento en la nube, capacidad computacional en paralelo, su amplio catálogo de datos y su interfaz amigable con el usuario, GEE se muestra como una herramienta muy poderosa para afrontar los problemas de Big Data y ampliar los horizontes de la ciencia de datos y la percepción remota. Al mismo tiempo permite que cualquier usuario con conocimientos básicos de programación y acceso a internet pueda realizar investigaciones utilizando grandes cantidades de datos, lo que permite fomentar una comunidad científica y una investigación científica más equitativa y democrática en el mundo (Kumar y Mutanga, 2018).
Así mismo, está revolucionando la elaboración de información geográfica que permite producir datos de alta resolución espacial a escalas globales, algo que hasta hace poco era casi imposible, siendo muy pocos los datos de libre acceso a escala global con una resolución menor a cientos de metros. Estos avances han permitido expandir la frontera hacia una investigación novedosa donde se puede producir información mundial de altísima resolución (<1km), de una forma significativamente más barata, rápida y actualizada que los métodos y prácticas convencionales.