Implementación del método máquinas de soporte vectorial en bases de datos espaciales para análisis de clasificación supervisada en imágenes de sensores remotos

Murillo Castañeda, Raúl Alejandro; Murillo Castañeda, Raúl Alejandro

doi:10.35424/rcarto.i102.830

Serviços Personalizados

Journal

Artigo

Indicadores

Citado por SciELO
Acessos

Links relacionados

Similares em SciELO

Mais
Mais

Permalink

Revista cartográfica

versão On-line ISSN 2663-3981versão impressa ISSN 0080-2085

Rev. cartogr. no.102 Ciudad de México Jan./Jun. 2021 Epub 14-Mar-2022

https://doi.org/10.35424/rcarto.i102.830

Artículos

Implementación del método máquinas de soporte vectorial en bases de datos espaciales para análisis de clasificación supervisada en imágenes de sensores remotos

Implementation of the vector support machines method in spatial databases for supervised classification analysis in remote sensor images

Raúl Alejandro Murillo Castañeda¹
http://orcid.org/0000-0002-2132-7454

^¹Universidad Distrital Francisco José de Caldas, Colombia, correo electrónico: raamurilloc@correo.udistrital.edu.co.

Resumen:

Este artículo está orientado al desarrollo de una aplicación que implemente el método de clasificación supervisada máquinas de soporte vectorial (MSV) sobre imágenes provenientes de sensores remotos ya sean activos o pasivos que se encuentren almacenadas en una base de datos espacial de tipo relacional que permita contribuir y soportar la clasificación de imágenes, según parámetros de normalidad y anormalidad, donde se consiga además almacenar estos resultados dentro del mismo sistema manejador de bases de datos. Dado que el algoritmo de clasificación supervisada MSV es ampliamente aceptado por la comunidad científica como una de las mejores técnicas de clasificación, ya que permite tener una muy buena exactitud en el diagnóstico de las diferentes coberturas presentes en el suelo, puesto que busca no solo encontrar una disociación entre estas, sino lograr una separación entre los elementos a clasificar, se implementará como técnica de clasificación. La aplicación está diseñada para el usuario final, que permita no sólo obtener un apoyo y sustento al momento de tomar decisiones, sino que facilite la actualización de la base de datos, la inclusión o la eliminación de información de la misma, así como la posibilidad de elegir las características principales que se deban tener en cuenta durante el proceso de clasificación. Esta utilidad es de gran valor, ya que, al trabajar con imágenes de características similares, la posibilidad de establecer rangos de disociación o pesos a las diferentes coberturas afecta directamente el resultado que se espera obtener. Finalmente se presentará un caso de estudio relacionado con la deforestación de la amazonia colombiana donde se demostrará la utilidad de la aplicación por medio de una clasificación supervisada la cual será comparada con el módulo de clasificación de algunos softwares que la implementan en la actualidad.

Palabras clave: clasificación; base de datos espacial; matriz de confusión; amazonia colombiana; ENVI

Abstract:

This article is oriented to the development of an application that implements the method of supervised classification of vector support machines (MSV) on images from remote sensors, whether active or passive that are stored in a spatial database. of a relational type that allows contributing and supporting the classification of images, according to normality and abnormality parameters, where it is also possible to store these results within the same database management system. Given that the MSV supervised classification algorithm is widely accepted by the scientific community as one of the best classification techniques, since it allows very good accuracy in diagnosing the different coverings present in the soil. Since it seeks not only to find a dissociation between these, but to achieve a separation between the elements to be classified, it will be implemented as a classification technique. The application is designed for the end user, which allows not only obtaining support and sustenance when making decisions, but also facilitating the updating of the database, the inclusion or deletion of information from it, as well as the possibility of choosing the main characteristics that must be taken into account during the classification process. This utility is of great value, since when working with images with similar characteristics, the possibility of establishing dissociation ranges or weights for the different coverages directly affects the expected result. Finally, a case study related to deforestation in the Colombian Amazon will be presented, where the utility of the application will be demonstrated by means of a supervised classification, which will be compared with the classification module of some software that currently implements it.

Key words: classification; spatial database; confusion matrix; Colombian Amazon; ENVI

1. Introducción

Los resultados obtenidos por los algoritmos de clasificación supervisada de imágenes extraídas de diferentes sensores remotos tienen muchas aplicaciones en el ámbito cartográfico, como por ejemplo aplicaciones medioambientales, sociales, políticas, entre otras. Estos resultados son los principales elementos que utilizan muchos Sistemas de Información Geográfica (SIG) para ofrecer al usuario la información requerida, este es el caso de los mapas de usos y coberturas del suelo, utilizados para la prevención de desastres naturales, evaluación del impacto en cuanto a los usos de los recursos naturales o el estudio del cambio climático. Con el acelerado crecimiento del volumen de datos obtenidos por imágenes de sensores remotos, se ha configurado como una necesidad almacenar esta información de forma estructurada y fácil de consultar (^{Jaime, Larín & Garea,
2011}), por lo que es de gran importancia almacenar esta información en una base de datos espacial. Las tendencias actuales para el tratamiento de la información geoespacial están enfocadas en el desarrollo de técnicas basadas en la representación y recuperación de estos datos, desde un punto de vista semántico, en este sentido cuando hablamos de información de tipo ráster aún falta mucho para que estos datos almacenados sobre una base de datos espacial se asemejen al nivel de abstracción que se logra con la información vectorial. El hecho de lograr que los análisis se hagan directamente en la base de datos, da una ventaja en ejecución a los procesos analíticos realizados por los sistemas manejadores de bases de datos (^{Shekhar Sashi, 2003}), por lo que es muy importante lograr acercar los análisis de la información espacial en la base de datos a todos los niveles incluyendo la información ráster. Por lo tanto, en este artículo, se implementó una nueva herramienta que mediante la utilización del método de clasificación supervisada basado en MSV, brinde resultados precisos y ajustados, que además estén soportados sobre una plataforma no propietaria. La aplicación desarrollada se fundamentó en el algoritmo de MSV, ya que a partir de diferentes estudios se ha comprobado que genera muy buenos resultados (^{Argañaraz & Entraigas, 2011}; ^{Canales, Zhang & Liu, 2009}; ^{Castellon, 2015}) además de su facilidad en el manejo de grandes volúmenes de información, puesto que logra altos niveles de confiablidad en los resultados (^{Anzola, 2016}).

2. Marco Teórico

2.1. Clasificación de imágenes

La clasificación de imágenes es un proceso que consiste en agrupar los pixeles de una imagen en un número finito de clases, basándose en los valores espectrales de las distintas bandas, convirtiendo de este modo la información captada por los sensores como niveles digitales a una escala categórica fácil de interpretar (^{Mather & Tso, 2009}). Los pixeles que pertenezcan a la misma clase deberán tener unas características espectrales similares (^{Schowengerdt, 1985}). Los algoritmos de clasificación de imágenes son una de las técnicas más importantes utilizadas en el ámbito de la teledetección, ya que facilitan la interpretación de una gran cantidad de información contenida en sus bandas. El objetivo de los algoritmos de clasificación de imágenes consiste en dividir los pixeles de la imagen en distintas clases, llamadas clases espectrales, teniendo en cuenta la similitud existente entre dichos pixeles. La clasificación de una imagen es una tarea que se realiza con el propósito de convertir datos cuantitativos (generalmente los niveles digitales de los píxeles en cada banda espectral) en datos cualitativos (temas o clases que son importantes en un dominio específico del conocimiento) (^{Richards & Jia,
1999}). La motivación principal de una clasificación es la de representar un fenómeno que ocurre sobre la superficie terrestre a partir de la generalización y agrupación de datos obtenidos mediante sensores remotos (^{Jensen, 2005}). Una buena clasificación debe representar de manera exacta la realidad a partir de las características pictórico-morfológicas presentes en las imágenes (^{ASPRS, 1997}).

2.2. Máquinas de Soporte Vectorial (MSV)

Las MSV son un conjunto de algoritmos de aprendizaje supervisado desarrollados por (Vapnik & Cortés, 1995) y su equipo AT&T, que han surgido como métodos relacionados con problemas de clasificación y regresión. Su buen desempeño ha llevado a su uso en una gran variedad de problemas. Algunos investigadores (^{Fletcher, Hussain &
Shawe-Taylor, 2010}; ^{Huang, Nakamori
& Wang, 2005}; ^{Argañaraz &
Entraigas, 2011}; ^{Mountrakis, Im &
Ogole, 2011}; ^{Espinosa, Sánchez &
Castilla, 2014}), han utilizado MSV para solucionar problemas de clasificación y regresión relacionados a la predicción de series de tiempo y clasificación de imágenes, mostrando tener muy buenos resultados en comparación a otras metodologías tradicionales como modelos econométricos, redes neuronales, entre otras. La construcción de las MSV se basa en la idea de transformar o proyectar un conjunto de datos pertenecientes a una dimensión n dada, hacia un espacio de dimensión superior aplicando una función kernel - Kernel Trick (^{Alpaydin, 2010}) para que a partir del nuevo espacio creado, se operen los datos como si se tratase de un problema de tipo lineal, resolviendo el problema sin considerar la dimensionalidad de los datos (Alpaydin, 2010). La idea detrás de las MSV es que, a partir de unos inputs de entrada al modelo, se etiquetan las clases y se entrena la máquina construyendo un modelo que sea capaz de predecir la clase de los nuevos datos que se introduzcan al modelo.

2.2.1. Funciones de decisión dentro de las MSV

Se considera el problema de clasificación de un pixel cuyas características están dadas por el vector X tal que X = (X1,… , XP)T pertenece a una de dos clases posibles. Ahora se supone que se tienen las funciones F1(x) y F2(x) que definen las clases 1 y 2 y se clasifica al pixel X dentro de la clase 1 si:

F1(x) > 0, F2(x) < 0,

O clasificamos al pixel X dentro de la clase 2 si:

F1(x) < 0, F2(x) > 0,

Estas funciones se denominan funciones de decisión. Al proceso de encontrar las funciones de decisión a partir de pares de entrada-salida es llamado entrenamiento. Los métodos convencionales de entrenamiento determinan las funciones de decisión de tal forma que cada par entrada-salida sea correctamente clasificado dentro de la clase a la que pertenece. La Figura 1 muestra un ejemplo que asume a los cuadros como la clase 1 y los círculos como la clase 2, resulta claro que los datos de entrenamiento no se interceptan en ningún momento y es posible trazar una línea separando los datos de manera perfecta (^{Canales et al., 2009}):

Fuente: ^{Canales et al.,
2009}

Figura 1 Funciones de decisión.

2.2.2. Indicadores de calidad de los clasificadores

Un tema importante es la evaluación de fiabilidad de los procedimientos empleados y su calidad en los resultados finales. La calidad final de un método de clasificación o de combinación de clasificadores, se puede extraer a partir de un coeficiente de precisión, de forma que se otorga mayor confianza a aquel clasificador que haya demostrado mayor acierto. Este es el caso de la matriz de confusión de la cual se derivan distintos índices de calidad (^{Borrás et al., 2017}). La matriz de confusión, consta de una tabla de doble entrada, que confronta los valores reales o verdad de terreno con los resultados de la clasificación. La diagonal de la matriz muestra la cantidad de píxeles reales y la clasificación que coincide por categoría, mientras que los restantes, vienen a mostrar aquellos que se confunden con otras categorías. Es decir, en sentido vertical se representa el porcentaje de píxeles reales que se confundieron en la verdad de terreno, y en sentido horizontal el porcentaje de píxeles después de la clasificación que se han confundido (Borrás et al., 2017). El índice Kappa propuesto por (^{Cohen,
1960}) se usa para evaluar la concordancia de métodos cuyo resultado es categórico, con dos o más clases. Este índice representa la proporción de acuerdos observados respecto del máximo acuerdo posible más allá del azar. En la interpretación del índice Kappa hay que tener en cuenta que el índice depende del acuerdo observado, pero también de la prevalencia del carácter estudiado y de la simetría de los totales marginales (^{Abraira, 2001}). En este sentido Cohen propuso el denominado índice kappa (K), que definió como (Cohen, 1960) Ecuación 1:

K=po-pe1-pe()1

Siendo p0 la proporción de acuerdos observados y pe la proporción de acuerdos esperados en la hipótesis de independencia entre los observadores, es decir, de acuerdos por azar. Finalmente, ^{Landis y Koch (1977}) propusieron, la escala de valoración del índice Kappa que se describe en la Tabla 1.

Tabla 1 Valoración de índice Kappa

Kappa	Grado de acuerdo
< 0,00	Sin acuerdo
0,00-0,20	Insignificante
0,21-0,40	Mediano
0,41-0,60	Moderado
0,61-0,80	Sustancial
0,81-1,00	Casi perfecto

3. Metodología

A continuación, se menciona la metodología utilizada para la elaboración de la aplicación la cual se describe en la Figura 2.

Figura 2 Metodología propuesta.

3.1. Desarrollo

Esta sección se centra en la arquitectura de la herramienta, está formada por una combinación de componentes relacionados con el ámbito de la teledetección y componentes relacionados con el modelo matemático de máquinas de soporte vectorial. La Figura 3, muestra la arquitectura principal del algoritmo.

Figura 3 Arquitectura del algoritmo desarrollo.

El algoritmo MSV tiene varios componentes de entrada y un solo componente de salida: la imagen clasificada. Para la aplicación desarrollada se tienen dos entradas: la aplicación de lectura de la imagen y la aplicación de lectura del conjunto de muestras (Polígonos de entrenamiento) los cuales fueron seleccionados, tomando de la propia imagen de satélite, varias muestras de las diferentes clases, dichas muestras están formadas por pixeles representativos que componen el denominado conjunto de entrenamiento (o firmas), sobre el que posteriormente se basó el proceso de clasificación. Este algoritmo por ser de tipo supervisado compara cada pixel de la imagen con las firmas elegidas y, a continuación, cada pixel es etiquetado en la clase a la que más se asemeja espectralmente a partir de los pixeles que pertenecen a las clases elegidas para el proceso de clasificación.

3.2. Preprocesamiento

Esta sección se centra en la recolección, obtención y procesamiento digital de las imágenes a trabajar. La Figura 4 muestra la arquitectura principal de la etapa de preprocesamiento.

Figura 4 Preprocesamiento.

El preprocesamiento consiste en dejar la imagen con el menor porcentaje de ruido posible a partir de correcciones radiometrías y geométricas, para aumentar las posibilidades de éxito en las siguientes fases. Dentro de este proceso se definieron las siguientes etapas:

Recorte: en esta sección se toma una porción de la escena, la cual contendrá la zona de estudio y permitirá reducir los costos de procesamiento, ya que se reducirán el número de filas y columnas de la imagen y por ende los procesos serán más rápidos. El tamaño de la imagen seleccionada es de 2048 x 2048 pixeles (un total de 4.194.304 pixeles).
Reescalar: se procesa la imagen para dejarla en un formato estándar de 8 bits para adaptar la resolución radiométrica de la imagen a la capacidad de visualización del monitor. Cada sensor codifica la reflectancia en un número de determinados niveles digitales. Ese rango digital puede no corresponder con el número de niveles de visualización que facilita la consola gráfica, por lo que resulta preciso ajustar estos parámetros, ya que al trabajar con una paleta de colores entre 0-255 niveles de color se ajustan estos niveles y además se ocupa menos espacio en la memoria del ordenador, por lo que se acelera el procesamiento de la misma.
Combinación de imágenes: permite visualizar, simultáneamente imágenes sobre diferentes partes del espectro, lo que facilita una identificación visual más precisa de algunas coberturas que ayudan a realizar una mejor clasificación. La elección de las bandas para realizar la combinación y el orden de los colores dependen del sensor elegido y la naturaleza del trabajo a realizar, para el caso de esta investigación por tratarse de un sensor Landsat 8 OLI dotado de 11 bandas de las cuales se dispuso de 7 (azul, verde, rojo, Infrarrojo cercano, dos infrarrojos lejanos y la pancromática), se tiene la posibilidad de realizar combinaciones en un amplio rango de composiciones de color. El método que permitió seleccionar la combinación de bandas que contiene la mayor cantidad de información con la menor cantidad de redundancia entre las 35 posibles combinaciones (7 tomas de 3, sin repeticiones) se denomina Índice de Factor Optimo OIF por sus siglas en ingles. El mayor valor de OIF corresponde a la combinación de bandas con menor correlación entre ellas y con mayor desviación estándar para cada banda, indicando la mayor posibilidad de discriminación de coberturas estudiadas. Según el resultado obtenido la mejor combinación de bandas corresponde a la combinación RGB-356 de OLI, correspondiente al Verde, Infrarrojo cercano, y SWIR 1.

3.3. Almacenamiento en la base de datos

En esta etapa se definen los parámetros para realizar el almacenamiento de las imágenes en la base de datos espacial que se utilizó posteriormente para realizar la clasificación supervisada de las imágenes. La extensión para el almacenamiento de imágenes para el gestor de base de datos PostgreSQL se denomina PostGIS la cual permite convertir datos ráster que estén en formatos soportados por GDAL (por su sigla en inglés, Geospatial Data Abstraction Library) en un archivo SQL (por su sigla en inglés, Structure Query Language), que posteriormente puede ser ejecutado desde el motor de base de datos. Figura 5

Figura 5 Imagen cargada en Qgis almacenada desde la base de datos Postgis.

3.4. Extracción de características

Para la extracción de características se analizó la imagen según la combinación de bandas elegida, teniendo en cuenta que es necesario realizar un estudio de las variables ecológicas de vegetación más relevantes dentro de la zona de estudio, esto con el fin de poder establecer de manera más precisa las clases que se deben tener en cuenta dentro del algoritmo y comenzar a realizar una separación de pixeles según las características identificadas. La Tabla 2 muestra las principales características encontradas en la imagen de satélite.

Tabla 2 Características principales presentes en la imagen satelital

Clase	Nombre clase
C1	Cuerpos de agua
C2	Deforestación (Bosque fragmentado)
C3	Bosque natural
C4	Casco urbano
C5	Caño Cristales
C6	Suelo desnudo
C7	Vías

Una vez establecidas las clases, se definió una sentencia SQL dentro de la base de datos que permitió ejecutar una función de análisis espacial denominada intersección entre los polígonos de entrenamiento almacenados y los pixeles de la imagen. De esta manera se establecieron las zonas consideradas como verdad absoluta de terreno y se asociaron los niveles digitales correspondientes a cada una de las clases definidas anteriormente. Esta sentencia SQL recorre pixel a pixel la imagen y genera un recorte de la misma solo con aquellos registros de pixeles que se encuentran dentro de algún polígono de entrenamiento, cumpliendo con la particularidad de seleccionar los pixeles si y solo si el centroide de este, se encuentra dentro del polígono, esto es muy importante ya que gracias a esta particularidad se estableció una condición de frontera que permite eliminar ruido en la muestra.

3.5. Clasificación MSV

Esta investigación propone una aplicación que implemente el algoritmo de clasificación de imágenes supervisado MSV. El algoritmo se ejecutó directamente sobre una base de datos espacial dentro del gestor PostgreSQL, aprovechando las propiedades ráster definidas en la extensión PostGIS sobre las imágenes, con el propósito de ejecutar un proceso de clasificación supervisado espectral. Esta etapa corresponde a la aplicación del algoritmo planteado en la etapa de desarrollo sobre una imagen satelital Landsat 8 OLI para una zona piloto en el municipio de la Macarena Meta perteneciente a la amazonia colombiana, donde se analizó el comportamiento del algoritmo comparándolo con los paquetes de procesamiento digital de imágenes ENVI para el caso de uso de software comercial y ORFEO para el caso de software libre, y se establecieron las ventajas y desventajas de cada uno de los algoritmos, además se comparó a través de cada matriz de confusión y coeficiente Kappa el rendimiento de cada clasificador para concluir según los resultados obtenidos.

3.6. Etapa de validación de la clasificación de imágenes

Para la validación de la clasificación existen dos posibilidades, evaluar una estimación teórica del error en función de las características del algoritmo de clasificación o analizar una serie de áreas test obtenidas del mismo modo que las áreas de entrenamiento. Para la presente investigación se ha implementado el segundo modo de proceder ya que permite obtener una estimación más realista de los errores mientras la muestra de pixeles para la estimación del error sea lo suficientemente grande y representativa. Para la evaluación de los errores se utilizó una matriz de confusión de clases ya que, con este tipo de análisis, se obtuvo, no sólo una caracterización del error cometido, sino también una medida sobre la adecuación de la clasificación considerada a la realidad y de los parámetros utilizados para caracterizarlas.

4. Resultados

El objetivo principal de esta investigación, fue comprobar el funcionamiento de la aplicación, ejecutada desde un gestor de bases de datos espacial respecto a otros softwares que implementan la clasificación supervisada de imágenes por el método MSV tradicional. La comparativa de la extensión desarrollada con otros softwares de clasificación se ha llevado a cabo sobre una imagen de satélite Landsat 8 OLI, dentro de la cual se seleccionó la mejor combinación de bandas 356 a partir del OIF, con una resolución espacial de 30 x 30m. La región de estudio elegida fue el municipio de La Macarena, perteneciente al departamento del Meta, el cual es limítrofe con la Amazonia Colombiana por el norte. El caso de estudio planteado dentro de esta investigación corresponde al análisis de la deforestación en esta región. A continuación, se presenta una tabla donde se aprecia comparativamente los resultados obtenidos con los diferentes softwares, aplicando la clasificación supervisada MSV sobre la misma imagen.

Según la Tabla 3, las tres clasificaciones han tenido un resultado satisfactorio. Cada una de las clases fueron bien definidas y se logra ver claramente la disociación entre las mismas. Sin embargo, algunas clases como “cuerpos de agua (azul)” y “casco urbano (rojo)” mostraron un poco de confusión, ya que algunos pixeles presentan características similares entre las dos coberturas, para el caso de ENVI y ORFEO esta confusión de pixeles es un poco más notoria que en la imagen obtenida a partir del algoritmo desarrollado. Respecto al análisis de la deforestación las tres clasificaciones son muy concluyentes al mostrar el avance indiscriminado de la exterminación de bosque en la zona.

Tabla 3 Comparación de resultados al aplicar MSV sobre la misma imagen

Resultado de la clasificación MSV	Software utilizado
	Aplicativo desarrollado con Python, PostgreSQL y Post-GIS
	Environment of Visializing Images (ENVI)
	Software libre MONTEVERDI y su extensión ORFEO Toolbox

4.1. Matriz de confusión del aplicativo desarrollado

Ahora comprobaremos los resultados obtenidos a través de la matriz de confusión y su respectivo coeficiente Kappa para el aplicativo desarrollado durante este trabajo de investigación (Tabla 4), como también para el software ENVI (Tabla 5), y Monteverdi ORFEO (Tabla 6).

Tabla 4 Matriz de confusión clasificación supervisada MSV utilizando el aplicativo desarrollado

Validación									Total	Comisión	EU(%)	RP(%)
		Caño Cristales	Cuerpos de Agua	Casco Urbano	Deforestación	Vías	Suelo Desnudo	Bosque Natural	Total	Comisión	EU(%)	RP(%)
PREDICCIÓN	Caño Cristales	3.120	-	-	24	-	58	-	3.202	82	98%	2%
	Cuerpos de Agua	-	2.001	-	-	-	-	-	2.001	-	100%	0%
	Casco Urbano	-	-	239	-	-	2	-	241	2	99%	1%
	Deforestación	140	1	88	5.585	4	2.285	985	9.088	3.503	72%	28%
	Vías	5	-	12	54	107	430	-	608	501	55%	45%
	Suelo Desnudo	8	-	-	8	-	2.727	-	2.743	16	99%	1%
	Bosque Natural	-	-	-	-	-	-	13.607	13.607	-	100%	0%
	Total	3.273	2.002	339	5.671	111	5.502	14.592	31.490
	Omisiones	153	1	100	86	4	2.775	985
	RP(%)	4,47%	0,05%	22,78%	1,49%	3,48%	33,53%	6,32%
	EP(%)	96%	100%	77%	99%	97%	66%	94%
Índices Globales: Porcentaje de Acuerdo: 86,96% Coeficiente Kappa: 0,8184

Tabla 5 Matriz de confusión clasificación supervisada MSV utilizando el software ENVI

Validación									Total	Comisión	EU(%)	RP(%)
		Caño Cristales	Cuerpos de Agua	Casco Urbano	Deforestación	Vías	Suelo Desnudo	Bosque Natural	Total	Comisión	EU(%)	RP(%)
PREDICCIÓN	Caño Cristales	3.153	-	-	133	8	8	-	3.302	149	96%	4%
	Cuerpos de Agua	-	2.027	-	-	-	-	-	2.027	-	100%	0%
	Casco Urbano	-	-	234	-	26	-	-	260	26	91%	9%
	Deforestación	4	-	2	5.585	56	5	-	5.652	67	99%	1%
	Vías	-	-	4	-	72	-	-	76	4	95%	5%
	Suelo Desnudo	83	-	60	2.375	391	2.778	-	5.687	2.909	66%	34%
	Bosque Natural	-	-	-	982	-	-	13.605	14.587	982	94%	6%
	Total	3.240	2.027	300	9.075	553	2.791	13.605	31.591
	Omisiones	87	-	66	3.490	481	13	-
	RP(%)	2,61%	0,00%	18,03%	27,78%	46,52%	0,46%	0,00%
	EP(%)	97%	100%	82%	72%	53%	100%	100%
Índices Globales: Porcentaje de Acuerdo: 86,90% Coeficiente Kappa: 0,8178

Tabla 6 Matriz de confusión clasificación supervisada MSV utilizando el software MONTEVERDI (ORFEO)

Validación									Total	Comisión	EU(%)	RP(%)
		Caño Cristales	Cuerpos de Agua	Casco Urbano	Deforestación	Vías	Suelo Desnudo	Bosque Natural	Total	Comisión	EU(%)	RP(%)
PREDICCIÓN	Caño Cristales	3.114	-	-	30	-	58	-	3.202	88	97%	3%
	Cuerpos de Agua	-	2.001	-	-	-	-	-	2.001	-	100%	0%
	Casco Urbano	-	-	239	-	-	2	-	241	2	99%	1%
	Deforestación	132	-	88	5.601	4	2.278	985	9.088	3.487	72%	28%
	Vías	5	-	107	50	12	434	-	608	596	50%	50%
	Suelo Desnudo	8	-	-	8	-	2.727	-	2.743	16	99%	1%
	Bosque Natural	-	-	-	-	-	-	13.607	13.607	-	100%	0%
	Total	3.259	2.001	434	5.689	16	5.499	14.592	31.490
	Omisiones	145	-	195	88	4	2.772	985
	RP(%)	4,26%	0,00%	31,00%	1,52%	20,00%	33,51%	6,32%
	EP(%)	96%	100%	69%	98%	80%	66%	94%

Índices Globales: Porcentaje de Acuerdo: 86,69% Coeficiente Kappa: 0,8146

Según las Tablas 4, 5 y 6, y la escala de valoración propuesta por Landis y Koch podemos decir que las tres clasificaciones superan el índice kappa del 80% y se pueden considerar como clasificaciones “casi perfectas”. Sin embargo, el clasificador desarrollado en esta investigación fue el que mejor eficiencia presento, ya que obtuvo el índice Kappa más alto entre las tres clasificaciones propuestas, esto se ve reflejado tanto en la imagen como en su matriz de confusión, logrando de esta manera realizar una clasificación con un alto índice de exactitud temática. En consecuencia, el aplicativo desarrollado optimiza la funcionalidad general de cualquier clasificación que se realice, y cuyo funcionamiento se base en la identificación adecuada de los pixeles de las imágenes en sus clases correspondientes.

5. Conclusiones

En la actualidad no se encontró evidencia de investigaciones relacionados con la implementación de técnicas de procesamiento de imágenes almacenadas en una base de datos espacial. Durante el desarrollo de este trabajo de investigación, se ha implementado un algoritmo de clasificación de imágenes basado en MSV el cual logro alcanzar su objetivo principal de generar una clasificación supervisada de imágenes de usos y coberturas del suelo con altos estándares de exactitud temática procesando esta información desde una base de datos espacial. La aplicación utilizo el lenguaje SQL para implementar consultas estructuradas de análisis espacial convencional a favor de mejorar la selección de pixeles al momento de interceptarlos con las clases de entrenamiento y de esta manera se definió que es más provechoso para el algoritmo utilizar una agrupación de pixeles si y solo si contienen al centroide del mismo, ya que de esta manera las probabilidades de asociar de manera correcta cada pixel a un hiperplano según la clase de entrenamiento se aumentan, generando unos mejores resultados de clasificación. Los resultados obtenidos por parte del aplicativo han sido muy satisfactorios desde varios puntos de vista, ya que el algoritmo de MSV ha sido una técnica que proporciona muy buenos resultados dentro del proceso de clasificación de imágenes de satélite. En primer lugar, en relación a la comparación con un software comercial como ENVI, el algoritmo ha conseguido una tasa de acierto de pixeles bien clasificados superior, lo cual permite inferir el buen funcionamiento del aplicativo y el cumplimiento frente a la calidad de la clasificación en comparación con los estándares de calidad presentes en un software de uso comercial. En segundo lugar, al compararlo con la clasificación obtenida por medio del software libre Monteverdi y su extensión ráster OrfeoToolbox se puede ver que la tasa de asertividad del aplicativo también es mejor, lo cual genera una evidencia de la competitividad del aplicativo desarrollado frente a herramientas Open Source. Una de las ventajas de implementar directamente este tipo de clasificaciones en una base de datos espacial, es que normalmente los sistemas de bases de datos relacionales son fuertes en el manejo de información vectorial, pero ahora pueden contar con análisis de información raster y combinarlos con los análisis de información vectorial, uniendo estos dos formatos de representación y pudiendo sacar las mejores ventajas de cada uno al combinarlos.

Bibliografía

Abraira, V. (2001). El índice kappa. Medicina de Familia. SEMERGEN, 5(27), 247-249. https://doi.org/10.1016/S1138-3593(01)73955-X [ Links ]

Alpaydin, E. (2010). Introduction to machine learning (2nd ed.). Cambridge, Mass: MIT Press. [ Links ]

Anzola, N. S. (2016). Máquinas de soporte vectorial y redes neuronales artificiales en la predicción del movimiento USD/COP spot intradiario. ODEON, (9), 113-172. https://doi.org/10.18601/17941113.n9.04 [ Links ]

Argañaraz, J. P. & Entraigas, I. (2011). Análisis comparativo entre las máquinas de vectores soporte y el clasificador de máxima probabilidad para la discriminación de cubiertas del suelo. Revista de Teledetección, 36, 26-39. Recuperado de http://www.aet.org.es/?q=revista36-5 [ Links ]

ASPRS (1997). Manual of Photographic Interpretation. Bethesda, USA: American Society for Photogrammetry and Remote Sensing. [ Links ]

Borràs, J.; Delegido, J.; Pezzola, A.; Pereira, M.; Morassi, G. & Camps-Valls, G. (2017). Clasificación de usos del suelo a partir de imágenes Sentinel-2. Revista de Teledetección, 48, 55-66. https://doi.org/10.4995/raet.2017.7133 [ Links ]

Canales, J. C.; Zhang, X. L. & Liu, W. Y. (2009). Clasificación de grandes conjuntos de datos vía Máquinas de Vectores Soporte y aplicaciones en sistemas biológicos. Instituto Politécnico Nacional, México. [ Links ]

Castellon, J. (2015). Análisis comparativo entre ENVI y Orfeo Toolbox SVM. https://doi.org/10.13140/RG.2.1.1991.1844 [ Links ]

Cohen, J. (1960). A Coefficient of Agreement for Nominal Scales. Educational and Psychological Measurement, 20(1), 37-46. https://doi.org/10.1177/001316446002000104 [ Links ]

Espinosa, A. T.; Sánchez, J. C. M. & Castilla, J. S. R. (2014). Identificar cobertura vegetal de suelo clasificando pixeles en imágenes hiperespectrales con SVM (máquina de soporte vectorial). Recuperado de http://repositorio.uigv.edu.pe/bitstream/handle/20.500.11818/683/COMTEL-2014-196-202.pdf?sequence=1&isAllowed=y [ Links ]

Fletcher, T.; Hussain, Z., & Shawe-Taylor, J. (2010). Multiple Kernel Learning on the Limit Order Book, JMLR: Workshop and Conference Proceedings 11, 167-174. Recuperado de http://proceedings.mlr.press/v11/fletcher10a/fletcher10a.pdf [ Links ]

Huang, W., Nakamori, Y., & Wang, S.-Y. (2005). Forecasting stock market movement direction with support vector machine. Computers & Operations Research, 32(10), 2513-2522. https://doi.org/10.1016/j.cor.2004.03.016 [ Links ]

Jaime, E., Larín, R., & Garea, E. (2011). Hacia métodos de análisis de datos espaciales raster en el nivel semántico. Computación y Sistemas, 15(1), 91-106. Recuperado de https://www.cys.cic.ipn.mx/ojs/index.php/CyS/article/view/1296/1388 [ Links ]

Jensen, J. R. (2005). Introductory Digital Image Processing - A Remote Sensing Perspective (3a ed.). New Jersey, USA: Prentice Hall. [ Links ]

Landis, J. R., & Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33(1), 159-174. https://doi.org/10.2307/2529310 [ Links ]

Mather, P.; Brandt, T. (2009). Classification methods for remotely sensed data (2 Edition) CRC Press. [ Links ]

Mountrakis, G.; Im, J., & Ogole, C. (2011). Support vector machines in remote sensing: A review. ISPRS Journal of Photogrammetry and Remote Sensing, 66(3), 247-259. https://doi.org/10.1016/j.isprsjprs.2010.11.001 [ Links ]

Richards, J. A. & Jia, X. (1999). Remote Sensing Digital Image Analysis. Springer-Verl. [ Links ]

Schowengerdt, R. A. (1985). Techniques for image processing and classification in remote sensing. Academic Press. [ Links ]

Shekhar Sashi, C. S. (2003). Spatial Databases: A Tour, (Vol. 1). Minnesota. [ Links ]

Recibido: 07 de Agosto de 2020; Aprobado: 01 de Octubre de 2020

Este es un artículo publicado en acceso abierto bajo una licencia Creative Commons