a4apendice

Apéndice

Un árbol de decisión se compone de nodos y ramas. Hay tres tipos de nodos: i) la raíz, que es el primer nodo del árbol; ii) las ramas, que son los nodos terminales en los que se toma la decisión acerca de la clase que se asignará, y iii) los descriptores o intermediarios, que son los nodos ubicados entre la raíz y las hojas (la raíz y los nodos intermediarios se conocen también como nodos internos). Cada nodo intermediario representa una prueba univaria–da contra cada uno de los atributos no seleccionados. Finalmente se seleccionará el mejor clasificador de entre los atributos (Sierra, 2000).

El criterio usado para el árbol de decisión, como herramienta heurística para elegir un atributo X_j e insertar el nodo interno correspondiente, es la maximización de la razón de la ganancia R_G de la información que se obtiene del conjunto ε:

Ent (ε) es la entropía del total de ε. La entropía es una medida del desorden de un sistema, en la que el desorden se define como la incertidumbre que existe en un conjunto de ejemplos (Quinlan, 1993).

x_j es el valor del atributo X_j para el caso del votante i.

|Xj| es el número de valores diferentes de x_j

ε(Xj) es un subconjunto de ε, para el cual verificamos que X, = x_j.

|ε (x_j)|es el cardinal de ε(x_j).

|ε|es el número total de ejemplos, instancias o casos disponibles.

G(ε, X_j) mide la reducción esperada de la entropía, es decir, la ganancia de información obtenida al reducir la incertidumbre del conjunto ε, cuando se seleccionad, X_j(ε, X_j). Ésta es la información de separación, es decir, esa parte de la entropía del conjunto ε que corresponde a los valores del atributo X_j.

En este caso, definimos la siguiente función de entropía:

donde

frec(y_f,ε) es el número de casos de e que contienen la marca de clase y_f .

es la probabilidad de un caso cuya marca de clase es y_f .

es la información transmitida por el caso cuya marca de clase es y

Para el proceso de aprendizaje del árbol de decisión usamos el algoritmo J4.8.⁶ Inicialmente el algoritmo toma todos los casos incluidos en ε. Si todos los ejemplos pertenecen a la misma marca de clase, el proceso concluye e insertamos una hoja de nodo con la correspondiente marca de clase. Si los ejemplos no corresponden a la misma marca de clase, elegimos el atributo X_j que divida mejor e e insertamos un nodo con esta característica, que representa una prueba univariada. Una vez que hemos creado el nodo, para cada valor diferente x_j del atributo X_j trazamos un arco e invocamos recurrentemente el algoritmo a fin de generar un subárbol que clasifique aquellos ejemplos de e que verifiquen X_j = x_j . Ponemos fin a este proceso cuando todos los casos de un conjunto pertenecen a la misma marca de clase (Ruiz Sánchez, 2006, p. 17).

⁶ El algoritmo J4.8 implementado por Weka 3.3.5 es una adaptación del algoritmo C4.5 (Witten y Frank, 2000, p. 269). Es un algoritmo experimental de clasificación que pertenece a la familia de "inducción de árboles de decisión". Comparado con otro algoritmo de la misma familia puede caracterizarse por su solidez en una amplia gama de dominios y por su bajo costo computacional (Ruiz Sánchez, 2006, PP. 19–20).