Sistemática biológica: avances y direcciones en la teoría y los métodos de la reconstrucción filogenética

De Luna, Efrain; Guerrero, José A.; Chew-Taracena, Tania

Servicios Personalizados

Revista

Articulo

Indicadores

Citado por SciELO
Accesos

Links relacionados

Similares en SciELO

Otros
Otros

Permalink

Hidrobiológica

versión impresa ISSN 0188-8897

Hidrobiológica vol.15 no.3 Ciudad de México 2005

Artículo de revisión

Sistemática biológica: avances y direcciones en la teoría y los métodos de la reconstrucción filogenética

Systematic biology: advances and directions in theory and methods of phylogenetic reconstruction

Efrain De Luna¹, José A. Guerrero² y Tania Chew-Taracena³

¹ Departamento de Biodiversidad y Sistemática, Instituto de Ecología AC. Apdo. Postal 63, Xalapa, Ver. CP 91000. México. deluna@ecologia.edu.mx

² Laboratorio de Sistemática y Morfología, Facultad de Ciencias Biológicas, UAEM, Cuernavaca, Mor. CP 62210. México.

³Posgrado en Sistemática, Instituto de Ecología AC. Apdo. Postal 63, Xalapa, Ver. CP 91000. México.

Recibido: 18 de febrero de 2005
Aceptado: 3 de septiembre de 2005

Resumen

Se examinan los conceptos de parsimonia, verosimilitud y probabilidad posterior, los cuales son centrales a los métodos alternativos para la selección de topologías óptimas en la reconstrucción filogenética. La tendencia a la complejidad y sofisticación matemática de la descripción del espacio de los árboles y de los métodos de exploración basados en parsimonia y en probabilidades (máxima verosimilitud y Bayesianas) señala que los requerimientos educativos demandarán una base ineludible de conocimientos en filosofía de la ciencia, teoría y métodos estadísticos y biología molecular. Esta educación será necesaria para poder entender la operación de los diversos métodos disponibles, pero sobre todo, para poder visualizar sus bases teóricas y decidir críticamente cual de las opciones usar en las distintas fases de la investigación taxonómica. La importancia de la necesidad de tal uso informado de métodos se revela en la tendencia a usar los métodos de parsimonia y probabilísticos (máxima verosimilitud y métodos Bayesianos) sin explorar las implicaciones epistemológicas de tales enfoques en la reconstrucción filogenética. Indudablemente, el interés en los métodos de reconstrucción filogenética esta en expansión; por lo tanto, es importante que los biólogos filogenéticos consideren cuidadosamente las bases epistemológicas y la relevancia de los métodos que usan en la selección de topologías óptimas.

Palabras clave: Epistemologia, modelos, parsimonia, verosimilitud, bayesianos.

Abstract

We examine the concepts of parsimony, likelihood and posterior probability, which are central to alternative methods for selecting optimal topologies in phylogenetic reconstruction. Complexity and mathematical sophistication of the description of the space of trees and of exploration methods based on parsimony, likelihoods and Bayesian posterior probabilities points to educational requirements demanding an unavoidable knowledge base in the philosophy of science, statistical theory and methods, and molecular biology. Such higher education becomes necessary in order to understand the operation of diverse available methods, but most importantly, to be able to discern their theoretical basis and to critically decide which option to use in different aspects of taxonomic research. Importance of the need of an informed use of methods becomes evident in the tendency to use either parsimony or probabilistic methods (likelihood and Bayesian) without exploring epistemological implications of such approaches in phylogenetic reconstruction. Undoubtedly, interest in methods of phylogenetic reconstruction is expanding. Therefore, it is important that phylogenetic biologists consider carefully the epistemological basis and relevance of methods they use in the selection of optimal topologies.

Key words: Epistemology, models, parsimony, likelihood, bayesian.

Introducción

La sistemática se ha convertido en un área de gran importancia para la biología moderna. En los estudios de biodiversidad, cada vez es más común encontrar cladogramas como mecanismo de deducción o comparación de hipótesis sobre la historia de diversos atributos, funciones, o de los procesos genéticos y evolutivos. Por ejemplo, los estudios sobre el origen de la semilla, la evolución del metabolismo CAM, la clasificación de los reptiles, o la distribución geográfica y los procesos de especiación en un grupo particular, requieren de árboles filogenéticos para establecer el número de eventos y la dirección del cambio entre los atributos (o estados), sean morfológicos, fisiológicos, o parámetros genéticos poblacionales. Ciertamente, los cladogramas funcionan como un marco de referencia histórico para el estudio de la biodiversidad. Tal perspectiva histórica se modela en forma de hipótesis filogenéticas, las cuales tienen aplicaciones siempre que se lleven a cabo comparaciones entre organismos. Aunque este tipo de hipótesis comúnmente no lo genera ningún otro segmento de la comunidad biológica (Chernoff et al., 1989), los métodos filogenéticos no sólo son de interés para los taxónomos, sino también para una audiencia científica más amplia que incluye biogeógrafos, ecólogos, etólogos, biólogos del desarrollo y aun algunas ciencias comparativas fuera de la biología (Bang et al., 2000; Cracraft, 2002; León-Olea, 2002; Morales, 2000; Morrone & Crisci, 1995; Platnick & Cameron, 1977; Rexová et al., 2003; Richardson, 1996; Vergara-Silva, 2003; Wanntorp et al., 1990; Wiley, 1981).

Los avances, retos y direcciones de la reconstrucción histórica biológica, como toda ciencia, pueden examinarse por su contenido empírico y su contenido teórico (Crawford & Mort, 2003; Kluge & Wolf, 1993; Mishler, 1994). El contenido empírico abarca los datos que se utilizan como punto de partida en la evaluación de hipótesis a muchos niveles: sobre estados y caracteres, orden de estados y su polaridad, y sobre grupos de organismos. La evidencia empírica consiste en los rasgos o caracteres que exhiben los organismos presentes y fósiles (Nelson, 1994; De Luna & Mishler, 1996). En las últimas dos décadas, el contenido empírico de la sistemática se ha incrementado por la adquisición de datos moleculares, especialmente secuencias, como nueva fuente de información (Doyle, 1993; Ferraris & Palumbi, 1996; Soltis & Soltis, 1998; Williams, 1992). En la actualidad existe una gran variedad de técnicas para la obtención de marcadores moleculares (Hillis, et al., 1996). La utilidad de datos como las secuencias de DNA en la inferencia filogenética es obvia en el caso de cierto tipo de organismos, como bacterias y hongos, los cuales presentan niveles estructurales morfológicos muy simples y tienen ontogenias austeras (González, 1997, 1998). Como con todos los tipos de datos, su utilidad y aceptación no se debe a que los datos moleculares contengan la "verdad inequívoca" sobre la historia orgánica. Tampoco es que las secuencias de DNA o los genes se encuentren libres de correlaciones. Tales conexiones son más evidentes en la morfología debido al proceso ontogenético o las relaciones alométricas. Simplemente, las ventajas de las secuencias de porciones del DNA se deben a que representan otra faceta de la variación de los organismos y al muestreo de un universo muchísimo más amplio de caracteres (por ejemplo, Bapteste et al., 2002) comparado con el conjunto normalmente reducido de caracteres morfológicos, anatómicos, o ultraestructurales disponibles.

Aun cuando la disponibilidad de nuevas fuentes de datos ha vigorizado a la sistemática por el fortalecimiento de su base empírica, esta ciencia se ha revolucionado y ha avanzado especialmente por los cambios en sus métodos de análisis y por el refinamiento de los conceptos sobre grupos, caracteres y evaluación de hipótesis filogenéticas. El contenido teórico de la reconstrucción histórica consiste en los fundamentos filosóficos (Farris, 1983; Kluge, 1999, Sober, 1988, ver revisión por De Luna, 1995). Tambien incluye los conceptos y los métodos que se utilizan para generar y evaluar varios tipos de hipótesis a distintos niveles (Kitching et al, 1998; Felsenstein, 2004; Wenzel, 2002). Tales métodos constituyen los procedimientos de inferencia que nos permiten relacionar o contrastar las hipótesis con la evidencia empírica (Kluge, 1997). Esta revisión hace énfasis en los avances teóricos y metodológicos de la reconstrucción filogenética y su relevancia en los estudios sistemáticos actuales.

La tesis de esta contribución propone que el desarrollo sólido de la sistemática moderna requiere conocer e incorporar en nuestros estudios tanto los nuevos tipos de datos, pero fundamentalmente los nuevos conceptos y métodos de análisis. La importancia de los nuevas técnicas de observación de caracteres, como las secuencias de DNA, ha sido rápidamente asimilada entre los taxónomos, pero ha habido mucha resistencia respecto a la aplicación de los métodos de análisis filogenéticos, especialmente cuando se usan datos morfológicos. Por un lado, todavía se minimiza la trascendencia y necesidad de los métodos filogenéticos bajo el argumento que son sólo "un método más", o una "moda". En el mejor de los casos, se presupone ingenuamente que todos los métodos de agrupación (evolutivos, fenéticos, filogenéticos) son igualmente aceptables. Por otro lado, se aplican indiscriminadamente los métodos filogenéticos, particularmente cuando se usan caracteres moleculares ("point and click" systematics, sensu Grant et al., 2003). En este caso, se conjetura presuntuosamente que los usuarios de los programas de reconstrucción filogenética no saben lo que hacen. Seguramente, ambas situaciones describen casos extremos cada vez menos frecuentes, pero sin duda revelan que la educación teórica es necesaria. El taxónomo contemporáneo necesita ahora una educación más amplia no sólo de la tecnología para observar los caracteres, como la morfometría, la microscopia de fuerza atómica y las técnicas moleculares, sino de las bases conceptuales y analíticas disponibles en la filosofía de la ciencia y en la teoría y métodos estadísticos. El objetivo de esta revisión es delinear los avances de la teoría y métodos de parsimonia, verosimilitud y bayesianos, como indicación de las necesidades educativas para la investigación en la sistemática filogenética.

Conceptos y métodos en la reconstrucción histórica

La clasificación consiste en agrupar organismos en especies y éstas a su vez en otros grupos taxonómicos mayores. Tal tarea requiere entender la historia de esos grupos y como se relacionan entre si (filogenia). Por ejemplo, ante el problema de clasificar cuatro entidades de muestreo (A, B, C, D), existen sólo tres posibilidades diferentes de relacionarlas en una topología sin raíz. Las alternativas son 15 cuando se relacionan cinco entidades (Fig. 1). Entonces la "dificultad" de reconstruir la filogenia puede plantearse como el problema cuantitativo de valorar las topologías alternativas y seleccionar una como la mejor hipótesis bajo alguna medida óptima.

El taxónomo evolutivo tradicionalmente compila los datos posibles, hace un "análisis multivariado mental" de las similitudes y selecciona una estructura de clasificación, pero sin cuantificar la viabilidad de las topologías alternativas desechadas. La descripción matemática de los árboles en términos de teoría de graficas y teoría de probabilidad ha permitido cuantificar la estructura discreta del arreglo de ramas, medir las propiedades topológicas y compararlas con los árboles alternativos para la misma colección de unidades de muestreo (Semple & Steel, 2003).

La elección de la mejor hipótesis de relaciones filogenéticas debe ser entonces una inferencia científica, justificada no sólo por la consideración de muchos datos sino también por el procedimiento analítico de selección de topologías óptimas entre las alternativas posibles. Lo primero es mayormente empírico y constituye el análisis de caracteres. Esta fase requiere la experiencia del examen minucioso de la variación de características en muchos organismos por cada unidad de muestreo. Lo segundo es una exploración del espacio de los árboles. Esta fase exige la valoración de las topologías alternativas de relaciones y una regla de decisión cuantitativa para la selección de la(s) hipótesis óptima(s) de filogenia. Una vez establecidas las hipótesis sobre caracteres homólogos y grupos monofiléticos todavía resta evaluar la confiabilidad de esas hipótesis filogenéticas. En las siguientes dos secciones se revisan los avances en los conceptos y métodos filogenéticos asociados a dos fases analíticas, análisis de caracteres y el análisis de árboles filogenéticos.

Avances y direcciones en el análisis de caracteres

Los avances en conceptos fundamentales en la fase del análisis de caracteres le han dado un fundamento epistemológico robusto al estudio de la variación de los datos de cualquier tipo (Mishler, 1994). En la última década, se ha refinado el concepto de "homología filogenética" (De Pinna, 1991; Frost & Kluge, 1994; Kluge & Wolf, 1993; Nelson, 1994; Rieppel, 1991), al delinear los componentes empíricos e inferenciales en el análisis de caracteres tanto de la morfología como de las moléculas (De Luna & Mishler, 1996). Ligado al concepto de homología filogenética también se ha avanzado en los conceptos de "homología transformacional", de "orden" (Mabee, 1989) y de "polaridad" de estados (Bryant, 2001) asociados al uso de los métodos de grupo externo para orientar (Keller, 1998; Nixon & Carpenter, 1993) y ontogenia para enraizar topologías (Weston, 1994). Esta solidez teórica ha abierto las puertas a nuevas fronteras de investigación (De Pinna, 1996). Por ejemplo, en el análisis de caracteres morfológicos se debate el problema empírico del reconocimiento e identidad de estados mediante métodos estadísticos (Archie, 1985; Gift & Stevens, 1997; Guerrero et al., 2003; Hawkings, 2000; Rae, 1998; Wiens, 2001) y la codificación del polimorfismo (Kornet & Turner, 1999; Platnick et al., 1991; Wiens & Serveido, 1997). En el análisis de caracteres moleculares, se han propuesto métodos para el alineamiento "múltiple" y "dinámico" de secuencias de sectores del DNA (Phillips et al., 2000; Wheeler, 2003). Al mismo tiempo se han revisado los esquemas de codificación de los nucleótidos (Simmons & Freudestein, 2002) y de las "inserciones-deleciones" (González, 1996; Simmons & Ochoterena, 2000). Igualmente se ha explorado la asignación de peso a caracteres y/o estados como una manera de ajustar la aportación diferencial de los datos antes (Albert et al., 1993; Sennblad & Bremer, 2000), durante (Goloboff, 1993; Arias & Miranda-Esquivel, 2004) y después de la prueba de congruencia (Farris, 1969, 2001). En esta sección se revisa particularmente la relevancia del concepto de homología y su relación con los modelos de cambio entre estados.

Homología. La hipótesis central en la reconstrucción filogenética basada en modelos de parsimonia es "homología filogenética" como la explicación del patrón de similitudes entre organismos (De Pinna, 1991; De Luna & Mishler, 1996). Este concepto alude a varios tipos de correspondencia entre las partes o procesos de organismos a distintos niveles de organización. Por ejemplo, "homología ontogenética" es la relación entre estructuras morfológicas durante el desarrollo embrionario (De Beer, 1971) y "homología biológica" se refiere al nivel del control o gobierno genético común durante el desarrollo de estructuras (Wagner, 2001; Nielsen & Martínez, 2003). A la escala de los procesos génicos, "homología genética" invoca el mismo sistema funcional de genes estructurales y regulatorios (Bolker & Raff, 1996), mientras que "homología molecular" es la correspondencia entre genes o secuencias particulares (Doyle & Davis 1998; Wheeler, 2001). A través de todas estas escalas de organización estructural, homología es la relación o correspondencia entre estados homólogos, cuya causa común es algún proceso específico actuando a un nivel particular, sea la ontogenia, el sistema genético de las poblaciones, el sistema "homeobox" del desarrollo, o la secuencia de los genes. Cuando la causa común es la ancestría (mismo linaje), la relación se denomina "homología filogenética". La concepción de "homología filogenética" como una relación histórica engloba a todos los demás conceptos de homología a varias escalas (sea entre ontogenias, sistemas de control genético, genes, secuencias del DNA, etc.). El concepto de "homología filogenética" le da un significado relevante al estudio de las similitudes entre las partes de los organismos a cualquier nivel de organización (de Pinna, 1991; Frost & Kluge, 1994; Kluge & Wolf, 1993; Nelson, 1994; Patterson, 1982; Rieppel, 1991; Roth, 1994).

Modelos. Cualquiera que sea la naturaleza de los datos, morfológicos o moleculares, las observaciones por sí solas no seleccionan directamente una topología, sino que debe aplicarse algún modelo de cambio entre estados para elegir entre las hipótesis (topologías) alternativas (Farris, 1983; Sober, 1988; Steel & Penny, 2000; Posada, 2003). La interacción epistemológica entre datos, modelos e hipótesis en sistemática puede ilustrarse con el caso estadístico de seleccionar la mejor función de ajuste entre tres alternativas (Fig. 2). Cada línea representa un modelo disponible (logarítmico, recta, etc.) entre los cuales se ha de escoger uno para explicar los datos recolectados. El modelo seleccionado se aplica para estimar los mejores parámetros calculados para minimizar la dispersión de los datos. Por ejemplo, si se decide aplicar algún modelo lineal (regresión simple, eje principal, eje mayor reducido), la estimación de los parámetros consiste en seleccionar la mejor pendiente de la recta que minimiza la varianza de Y o la covarianza de XY, dependiendo del modelo. Del mismo modo, en la reconstrucción filogenética primero especificamos las suposiciones de cambio entre estados en un modelo y luego lo aplicamos para estimar la mejor topología que explica la distribución de los caracteres entre las unidades de estudio, es decir, proponemos la mejor topología bajo ese modelo (Page & Holmes, 1998).

Una vez recolectado un conjunto de caracteres, el siguiente paso es la selección de un modelo que postule el valor de los cambios entre estados. Varios modelos ya formulados incorporan distintas suposiciones sobre el valor de los tipos de transformaciones (Schultz et al., 1996; Swofford & Maddison, 1987; Posada, 2003; Posada & Crandall, 2001). Nuestro papel en la gran mayoría de los casos no es formularlos, sino especificarlos y luego validarlos adecuadamente mediante cálculos de algún tipo de "ajuste" del modelo a los datos. Los dos tipos de modelos disponibles para medir topologías y seleccionar árboles óptimos son los de parsimonia (Wagner, Fitch, Dollo, Camin-Sokal, etc, Kitching et al., 1998) y los probabilísticos (Jukes-Cantor, Kimura 2P, etc., Posada & Crandall, 2001).

Los de parsimonia valoran los cambios entre estados en unidades de "pasos" o eventos evolutivos y dependen del concepto de homología filogenética y los métodos para establecer orden de estados (Mabee, 1989). Un carácter con tres estados (0, 1, 2) implica dos eventos entre 0 y 2 según los valores especificados en el modelo de Wagner, pero sólo vale un "paso" en el modelo de Fitch. La "dispersión" del modelo se mide en términos del número de pasos o eventos de cambio extra que implica un árbol particular. Bajo este enfoque, el árbol más corto es el que mejor "ajusta" los datos (Farris, 1983; Sober, 1988).

Los modelos probabilísticos se basan en el concepto estadístico de verosimilitud como la probabilidad de observar la colección de datos si un árbol específico fuera el verdadero (Felsenstein, 1981; Lewis, 1998). La "dispersion" se mide en función del acuerdo o ajuste entre los datos observados y las predicciones calculadas por un árbol particular y un modelo. Bajo este enfoque, el árbol óptimo es el de la máxima verosimilitud (Steel & Penny, 2000) o el de la probabilidad posterior Bayesiana más alta (Rannala & Yang, 1996).

Los métodos para la selección del mejor modelo de cambio entre estados difieren bajo los enfoques de parsimonia o probabilisticos. Bajo el primero, no hay necesidad a priori de evaluar por ejemplo si Fitch es mejor que Wagner al interpretar el orden de estados. Los caracteres multiestado se hipotetizan "sin orden" o se codifican binariamente. Los métodos para derivar las hipótesis de cambio de estados (ACCTRAN, DELTRAN, etc) son a posteriori en función de las transformaciones implícitas en el árbol óptimo escogido (Grant & Kluge, 2004; Kornet & Turner, 1999). En contraste, en los enfoques probabilísticos los modelos de cambio son un prerequisito para iniciar la reconstrucción filogenética. La selección de la mejor hipótesis de cambio de estados es a priori, aunque además de los datos, esta estimación también depende de un árbol de referencia. Comúnmente se calcula una medida de similitud total derivada de los datos y un algoritmo de "agrupamiento de vecino más cercano" (neighbour joining) produce el árbol requerido. Estos procedimientos se han implementado en programas como ModelTest para identificar el mejor modelo de cambio según la correspondencia de los datos y el árbol de referencia (Posada, 2003; Posada & Crandall, 2001; Yang, 1997). El modelo preferido se aplica entonces para iniciar la búsqueda del árbol óptimo en programas como "PAUP" o "MrBayes", los cuales miden la verosimilitud o las probabilidades Bayesianas de los árboles en competencia.

Avances y direcciones en el análisis de árboles filogenéticos

Los avances teóricos y metodológicos en la fase de análisis de cladogramas han sido los que han tenido el impacto más inmediato en la sistemática filogenética. Por un lado, se han desarrollado métodos alternativos para la selección de hipótesis de filogenia basados en parsimonia, máxima verosimilitud y probabilidad Bayesiana (Holder & Lewis, 2003). Por otro lado, se han ideado estrategias de búsqueda cada vez más eficientes (búsquedas heurísticas concatenadas, estrategia "ratchet", cadenas de Markov, etc.) para resolver el reto de las matrices de datos con muchas unidades de muestreo (Goloboff, 1999; Huelsenbeck & Ronquist, 2001; Nixon, 1999; Soltis & Soltis, 1996; Vos, 2003). Esto ha estimulado la discusión sobre si se eligen mejores hipótesis filogenéticas cuando se incrementa el universo de muestreo recolectando más caracteres (Barrett et al., 1991; de Queiroz et al, 1995) o incorporando más representantes (Graybeal, 1998; Hillis, 1998; Prendini, 2001). En esta sección se revisan los tres métodos de reconstrucción filogenética, las estrategias de exploración de árboles y su relación con el espacio geométrico que ubica al conjunto de árboles posibles para una colección de unidades de muestreo.

Métodos de Parsimonia. El criterio de parsimonia permite el examen lógico de la congruencia entre cada columna de la matriz de datos y revela la colección máxima de hipótesis de homología táxica y transformacional (De Luna, 1996; Farris, 1983; Kitching et al., 1998). La interacción lógica de varias similitudes particulares (columnas en la matriz de datos) congruentes entre si, selecciona el conjunto de hipótesis de homología putativas y distingue las similitudes homoplásicas (Kluge, 1999). La hipótesis de relaciones filogenéticas asociada al mayor conjunto lógico de homologías contiene a su vez el menor número de homoplasias.

Cuando se contabilizan el total de cambios (homologías y homoplasias) en cada topología según el orden de estados especificadas por un modelo, se obtiene el número de pasos como estimación de su longitud total. El modelo más común es el de Fitch que valora "un paso" al cambio entre cualquier estado (por ejemplo, 0 → 1, 0 → 2). Otros modelos de parsimonia miden los tipos de cambios entre estados con valores diferentes (Kitching et al., 1998). Bajo cualquier modelo, la topología que implica el menor número de pasos es por tanto la que se selecciona como la óptima. Por ejemplo, para el caso de los tres árboles posibles para cuatro unidades a relacionar (ABCD, Fig. 1), las longitudes serán diferentes cuando se contabilicen los caracteres de una matriz de datos y lógicamente alguna de las topologías será la mínima. Para colecciones grandes de árboles, la frecuencia de los distintos valores de longitud sigue un patrón de distribución semejante al esperado por el modelo Normal. La forma de la campana comunmente no es simétrica, debido a que los datos no se distribuyen azarosamente entre los taxa. Sea que los datos exhiben un nivel alto de congruencia o de incongruencia las distribuciones tienden a estar sesgadas hacia la izquierda o hacia la derecha (Hillis, 1991; Hillis & Huelsenbeck, 1992).

Parsimonia es un criterio extra-evidencial para seleccionar la mejor hipótesis entre varias igualmente soportadas por los datos. La evidencia tiene un papel limitado cuando los mismos datos apoyan varias hipótesis alternativas. En esta situación se puede hacer uso del autoritarismo, convencionalismo o parsimonia como criterios de selección de inferencias (ver revisión por De Luna, 1996). Ante varias hipótesis igualmente apoyadas por los datos, el uso de parsimonia selecciona la que satisface dos propiedades lógicas: "causa común" y "sencillez". El principio de "causa común" favorece hipótesis que explican los mismos efectos, en relación a la misma causa. El uso de parsimonia en la ciencia en general presupone que para los mismos efectos naturales, podemos hipotetizar las mismas causas (Reichenbach, 1956; Salmon, 1984). Por ejemplo, en sistemática inferir "ancestría común" es un caso de la aplicación del principio de causa común (Sober, 1988). Complementariamente, el uso de parsimonia como principio de "sencillez" favorece las hipótesis científicas que son sencillas como descripción o explicación. Entre varias hipótesis igualmente lógicas y empíricamente consistentes, se elige la explicación más sencilla, es decir, la que explica el dominio con el menor número de conjeturas. Así es como una recta (a, Fig. 2) se prefiere por su sencillez algebraica comparada con otras hipótesis (b, c, Fig. 2) al explicar cualquier fenómeno por más complejo que sea. El uso de parsimonia por lo tanto implica sencillez en la descripción del dominio, no presupone simplicidad como propiedad del dominio descrito o explicado (Farris, 1983; Kluge, 1984). El dominio puede ser sencillo o muy complejo (Crisci, 1982), lo cual es irrelevante en la selección de hipótesis en competencia para describir tal dominio. Por ejemplo, las hipótesis de filogenia son parsimoniosas en el sentido de la descripción o explicación del dominio, pero el proceso evolutivo como dominio explicado puede ser muy complejo.

El procedimiento de cálculo del árbol más parsimonioso es no-paramétrico y consiste en construir la red más corta que conecta todas las unidades de muestreo (OTU's) en el espacio Euclidiano multidimensional. Los árboles de parsimonia se conciben como un caso particular de las redes de Steiner que unen puntos en un espacio multidimensional configurado por los caracteres como ejes (Semple & Steel, 2003, p. 97). Los OTU's son puntos o vectores L con diferentes posiciones en este espacio, (Fig. 3). Las coordenadas de la ubicación de un vector L(c₁, ..., c_r) están dadas por los valores observados en cada carácter (c). La dimensión del espacio (r=c) es infinita pues crece cada vez que se agregan más caracteres. Se han propuesto varios modelos no-paramétricos de distancias para medir la longitud de las redes, por ejemplo, distancias Euclidianas, de Manhattan, de Nei, etc. También se han formulado varios modelos no-paramétricos de parsimonia, por ejemplo, Wagner, Fitch, etc. para medir las redes en términos de "pasos" o eventos evolutivos. Los métodos cladísticos basados en modelos de parsimonia estiman la distancia patrística calculando la suma del número de cambios de estado (pasos) en cada rama.

Métodos de máxima verosimilitud ("maximum likeli-hood", ML). Bajo el enfoque probabilístico de verosimilitud (Felsenstein, 2004), se examina qué tan bien un árbol (T) explica los datos observados (D). En principio, cada árbol posible implica diferentes probabilidades para varias configuraciones particulares de datos, tal como cada recta posible define las probabilidades de dispersión de puntos en varias elipses. La pregunta de estimación estadística es: ¿cuál es la probabilidad de que los datos observados correspondan a los predichos por una hipótesis y modelo particular? La selección del árbol filogenético óptimo es un procedimiento paramétrico comparable a la selección de un valor promedio "x" como la mejor estimación de "µ". El promedio se estima por la probabilidad máxima asignada bajo el modelo paramétrico de la curva Normal. Análogamente, un árbol T se estima calculando su verosimilitud máxima mediante algún modelo paramétrico (M), por ejemplo, el de Jukes-Cantor. Este modelo postula una probabilidad para cada cambio posible entre los estados de un carácter. Además del modelo, se debe estimar también el valor de la tasa de cambio "ϑ" a partir de los datos. El árbol T_i que maximiza la verosimilitud bajo esa combinación del modelo y tasa de cambio (Mϑ) es el seleccionado como la mejor estimación (Felsenstein, 2004; Lewis, 1998, 2001; Steel & Penny, 2000).

La verosimilitud es la "probabilidad condicional" de obtener los datos observados (D) si un árbol T fuera verdadero (v = Pr [D|T], Felsenstein, 2004, p 249-251). La probabilidad de la matriz de datos Pr [D] es la de un evento compuesto donde los caracteres (c₁ ... c_n) son los eventos independientes. Entonces, la probabilidad de su co-ocurrencia se estima mediante el producto de las probabilidades de cada columna Pr [D|T] = Pr [c₁|T] * Pr [c₂ |T] * ..... * Pr[c_n|T] = Π_c♭, _cn Pr [c|T]. Por conveniencia, las probabilidades Pr[c_n] se expresan en logaritmos, por lo tanto la verosimilitud se calcula como la suma de esos logaritmos (Ln v = Σ _c♭, _cn Ln Pr [c|T]).

La probabilidad elemental de cada carácter Pr [c_i] depende de dos componentes: un modelo de cambio (Mϑ) entre los estados (S_n) del carácter en cuestion y un árbol T, incluyendo la longitud de cada rama (b_i). El modelo (M) estima iterativamente la probabilidad (ϑ) de los tipos de transformaciones entre cada estado en cada rama (b_n) de un árbol en cuestión. El punto de partida es la probabilidad de cambio de un estado (s_i) de un carácter en todas las ramas (Π Pr [s_i | b_n, Mϑ ]). Este cálculo estima la probabilidad de observar o no un cambio de estado en una rama si es que en los extremos de tal rama los estados son diferentes o iguales. De modo que la probabilidad de todos los cambios posibles de un carácter c_i es la suma de las probabilidades de cada cambio de estado posible en todas las ramas (Π Pr [s₁ | b_n Mϑ ] + Π Pr [s₂ | bn Mϑ ] .... + Π Pr [s_n | b_n Mϑ ]. En resumen, la probabilidad elemental de un carácter se expresa como Pr [c_i |T] = Σ _s♭_snΠ bi, _bn Pr [c_i | b_n, Mϑ].

Si cada columna informativa de la matriz de datos tiene una combinación diferente de estados, entonces las probabilidades elementales de cada carácter serán heterogéneas, aun bajo el mismo modelo (M), misma tasa de cambio (ϑ) y misma combinación de ramas internas (b_n). La situación es análoga a calcular la probabilidad conjunta de los resultados posibles para el lanzamiento de varias monedas, dados de seis caras y algunas pirámides de cuatro lados. Las probabilidades individuales de cada evento se multiplican para determinar la probabilidad de su ocurrencia conjunta. Bajo el mismo principio, la verosimilitud de todas las columnas en la matriz de datos, Pr [D| b, Mϑ], se estima como el producto de las probabilidades elementales Π_ci, _cn Pr [c_n | b_n, Mϑ] dadas por cada carácter. Esta multiplicación cuantifica la probabilidad de observar el conjunto de similitudes a la mano (D), si la filogenia específica T fuera verdadera bajo las suposiciones de un modelo de cambios y valores de parámetros particulares (v = Pr [D| T, Mϑ], Semple & Steel, 2003, p. 207).

El procedimiento de selección del árbol de la máxima verosimilitud es paramétrico y es análogo a la estimación de "µ" mediante el cálculo del promedio "x" como un punto en un espacio multidimensional. Los árboles de ML se ubican como puntos T_i(l₁, ..., l_r) en una superficie multidimensional en el espacio configurado por muchos parámetros. Los equivalentes de los ejes de este espacio complejo son las configuraciones alternativas de los árboles (Fig. 1), la longitud de las ramas posibles (b_n) y los parámetros (Mϑ) del modelo de cambio entre estados (Fig. 4). La posición de cada punto T_i está dada por una combinación particular de la estructura topológica del árbol, los valores de longitud de las ramas y de los parámetros del modelo de cambio, como si fueran las coordenadas de ese árbol en el espacio (Fig. 4).

Todos los árboles posibles para un conjunto de OTU's tendrán ubicaciones diferentes en este espacio y no es difícil visualizar que sus verosimilitudes serán heterogéneas. La densidad de la distribución de las verosimilitudes de todos los árboles posibles configura una superficie análoga a una campana multidimensional (Fig. 5). Metafóricamente, las alturas de la campana en cada punto son las medidas de verosimilitud de los árboles. La cúspide corresponde al valor de la máxima verosimilitud del árbol subyacente en ese punto. Idealmente se exploraría esa superficie y se compararía la verosimilitud de muchos árboles, pero el cálculo es intenso y el costo de cómputo es muy alto, por lo que sólo se examinan heurísticamente unas cuantas opciones (Sanderson & Kim, 2000; Salter & Pearl, 2001). La comparación de árboles normalmente inicia con un árbol de distancias o de parsimonia, a partir del cual se generan otros, para encontrar una predicción de los datos que mejor se asemeje a los observados. El árbol que implica la más alta probabilidad de haber generado los datos observados es el de la máxima verosimilitud (Huelsenbeck & Crandall, 1997; Steel & Peny, 2000).

Métodos Bayesianos. Mientras que la verosimilitud mide la probabilidad de los datos dado un árbol, el enfoque Bayesiano calcula las "probabilidades posteriores" de los árboles (Rannala & Yang, 1996; Lewis, 1998, 2001; Huelsenbeck et al., 2002; Holder & Lewis, 2003). La probabilidad Bayesiana o probabilidad posterior se define como la probabilidad condicional de una hipótesis (H) dados los datos observados (Prposterior H | D). La probabilidad posterior (PP) es proporcional al producto de la verosimilitud de los datos condicionada a que un árbol (T) es correcto (Pr [D | T]) y la probabilidad a priori de la hipótesis (Prprevia [T]) antes de recolectar los datos (PP = Pr posterior T|D] / k * Prprevia [T]). En los métodos Bayesianos es posible asignar probabilidades a priori heterogéneas para los árboles. No obstante, en las aplicaciones para análisis filogenéticos las probabilidades a priori comunmente son homogéneas. Suponiendo el mismo modelo de cambio, los análisis Bayesianos con probabilidades previas uniformes producirían el mismo resultado que los métodos de máxima verosimilitud (Leache & Reeder, 2002).

El análisis filogenético Bayesiano es una extensión de los análisis de máxima verosimilitud. En términos del tiempo de cómputo del arbol óptimo, los dos procedimientos son comparables, pero la ventaja de los métodos Bayesianos es el cálculo más rápido del apoyo de los clados. La velocidad de los análisis Bayesianos MCMC resulta del hecho de que tanto la filogenia como la estimación del apoyo de las ramas se derivan del mismo esfuerzo de cómputo. La probabilidad posterior de cada rama (Pr [b_n]) en un árbol se determina indirectamente en función de la proporción (%) de muchas muestras aleatorias de árboles que contienen la rama de interés. En comparación, para obtener los valores de apoyo o robustez mediante remuestreos (bootstrap o jackknife) con un análisis de ML, la estimación del arbol óptimo debe repetirse muchas veces a partir de cada matriz replicada y después calcular el consenso.

El procedimiento de selección del árbol de la máxima probabilidad Bayesiana también es paramétrico. Como en los métodos de ML el espacio de todos los árboles para una colección de OTU's se visualiza como una colección de puntos (Fig. 4). La densidad de probabilidades posteriores también es una superficie análoga a una campana multidimensional (Fig. 5) en el espacio definido por muchos parámetros (número de ramas, número de topologías y los parámetros en los modelos de tasas de cambio). La cúspide de esa superficie equivaldría al árbol de la Máxima Probabilidad Posterior (MAP, Rannala & Yang, 1996). Se explora la superficie multidimensional visitando muchas combinaciones de valores de los parámetros implícitos en árboles diferentes mediante rutas azarosas modeladas por Cadenas de Markov Monte Carlo (MCMC). A partir de un árbol T₁ en el espacio, cada nueva dirección azarosa es regulada por las reglas de decisión del algoritmo. En cada paso ("generación") se modifica el valor de algunos de los parámetros, por ejemplo la longitud de las ramas y la tasa de cambio entre estados en el modelo, y se calcula la probabilidad posterior del árbol T₂ bajo esa nueva combinación de parámetros. La Cadena de Markov "visita" otra combinación de valores probables de los parámetros asociados a otro árbol para evaluar si el valor de probabilidad posterior es ligeramente menor, igual o más alto respecto a la combinación de parámetros del árbol previo. Si se exploran árboles de muchas "generaciones" y se repiten varias cadenas, el análisis eventualmente se estabiliza. A partir de que se llega a un punto de equilibrio, MCMC visita árboles frecuentemente en proporción de su probabilidad posterior (Huelsenbeck et al., 2002). El árbol de consenso de mayoría derivado de los árboles visitados en la fase de equilibrio compila las probabilidades posteriores de cada rama (Pr [b]) muestreada y calculada. Las probabilidades posteriores de las ramas se han interpretado como la probabilidad de que el clado es confiable dado un modelo particular, las probabilidades previas heterogéneas y los datos (Huelsenbeck et al., 2002) y por lo tanto se han usado como medida de apoyo (Alfaro et al., 2003; Douady et al., 2003).

Exploración del espacio y selección de árboles óptimos.

Entre los avances teóricos y metodológicos más notables destacan las estrategias dirigidas para la estimación y la selección de topologías óptimas. Uno de los problemas de estimación filogenética es que, independientemente de la existencia de datos y los modelos de cambio, para cada colección de unidades de estudio (OTU's) existe un conjunto muy grande, aunque limitado, de todos los árboles posibles topológicamente distintos que relacionan esos taxa. Por ejemplo para 5 taxa el conjunto consiste de 15 topologías no enraizadas diferentes (Fig. 1, 5); para 20 unidades, el número de topologías es mayor a 2.21x10²⁰ (221 643 095 476 699 771 875 ¡exactamente!). En estas condiciones, todos los métodos para calcular el mejor árbol (parsimonia o probabilísticos) usan algoritmos de exploración aproximados (heurísticos). La operación básica consiste en sondear "sectores" del espacio escogiendo árboles como puntos de inicio y visitando árboles vecinos o intentando saltos a otros árboles en "sectores" distantes. El objetivo es medir los valores de optimización de una muestra de árboles en función de una matriz de datos y seleccionar el mejor. Los resultados varían de intento en intento, por lo que la búsqueda heurística se replica muchas veces hasta que el valor óptimo de parsimonia, verosimilitud o probabilidad posterior se estabiliza.

Los primeros esfuerzos de exploración bajo modelos de parsimonia se basaron en la derivación de cadenas heurísticas a partir de muchos árboles iniciales elegidos al azar (Fig. 6). En cada réplica se explora un "sector" (o "isla") del espacio a partir de un árbol inicial (T_i, Fig. 6) y se visita una cadena de árboles vecinos a los que se llega mediante diferentes algoritmos para el intercambio de ramas (nni, spr, tbr, sensu Kitching et al., 1998, p 45-48). Una cadena de árboles se detiene en el óptimo local cuando ya no se disminuye la longitud de los árboles. Tradicionalmente, para maximizar la posibilidad de encontrar el óptimo global, se replica el esfuerzo de exploración de varios sectores generando cientos de cadenas a partir de igual número de puntos al azar en el espacio. Los programas disponibles (PAUP, Hennig86, NONA, TNT, etc.) permiten evaluar muchas réplicas. Cuando el número de taxa es mayor a 40 o 50, la primera réplica puede tomar demasiado tiempo de computo. En este caso, se idearon maneras de cómo limitar el esfuerzo local en la primera cadena de árboles para favorecer el esfuerzo de exploración global mediante varias réplicas concatenadas (Soltis & Soltis, 1996).

Las estrategias de exploración del espacio de árboles desarrolladas durante los últimos diez años han aumentado la velocidad y eficiencia para encontrar árboles óptimos (Goloboff, 1999). La estrategia de exploración ¨matraca¨ ("ratchet") aumentó la eficiencia de búsqueda debido a ¨brincos¨ azarosos más distantes entre árbol y árbol que los logrados sólo con los algoritmos de intercambio de ramas (Nixon, 1999; Vos, 2003). Mediante una matriz de pesos al azar aplicada intermitentemente en cada iteración se modifica drásticamente el rumbo de las cadenas heurísticas, lo cual incrementa la velocidad de exploración de árboles de sectores distintos y la probabilidad de seleccionar árboles óptimos (Fig. 6). Esta estrategia fue denominada "parsimony ratchet", aunque realmente no es un método de parsimonia; más bien es un algoritmo de búsqueda que puede ser implementado en cualquier método incluyendo los probabilísticos (Vos, 2003). Una estrategia de exploración del universo de árboles aun más eficiente se basa en algoritmos que modelan rutas azarosas de cadenas tipo Markov para combinar valores probables de los parámetros asociados a árboles distintos (MCMC, Huelsenbeck & Ronquist, 2001; SSA, Salter & Pearl, 2001). Los brincos azarosos entre árboles eliminan el esfuerzo de cómputo para el intercambio de ramas o la optimización de la matriz de pesos al azar para decidir cuales árboles se recolectan (Fig. 6). El conjunto de árboles visitados mediante varias cadenas de Markov simultáneas se miden en una fase final de optimización y filtrado ("burn-in") para seleccionar el conjunto de los óptimos. En cualquiera de las estrategias de búsqueda, sean cadenas concatenadas, "ratchet", o cadenas de Markov, el criterio de selección del árbol óptimo puede depender de parsimonia, la máxima verosimilitud o probabilidades Bayesianas (Fig. 5).

Teoría del espacio geométrico de los árboles. La reconstrucción filogenética ha avanzado hacia la formalización matemática de la descripción y variación de los árboles (Semple & Steel, 2003). El conjunto de árboles que existen para una colección dada de OTU's también puede ser ubicado y modelado en función de varias propiedades o parámetros en algún espacio matemático. La idea más elemental es la de un espacio configurado por los caracteres donde los OTU's son puntos (vectores) unidos por redes de distancia mínima (Fig. 3). Los primeros intentos de los métodos fenéticos, de los de parsimonia y los de máxima verosimilitud incorporaban esta visión geométrica del espacio para los OTU's y los árboles como redes uniendo tales puntos (Sneath & Sokal, 1973; Edwards & Cavalli-Sforza, 1964; Felsenstein, 1982; Hendrickson, 1968).

La percepción del espacio de los árboles ha cambiado, especialmente cuando se explora desde una perspectiva estadística. Los enfoques probabilísticos ahora plantean la búsqueda del árbol óptimo como el problema de estimar un punto en el espacio estadístico paramétrico (Yang, 1996). El árbol óptimo se asemeja a un parámetro desconocido (o vector, Fig. 4) el cual se intenta estimar mediante los distintos métodos, tal como se estima el vector promedio multivariado en un problema de inferencia estadística clásico. Aplicando el modelo Normal, el cálculo del vector promedio busca el centroide dado que se presupone que la colección de puntos forma una elipsoide hiperdimensional. La pregunta obvia en relación a la colección de árboles es: ¿como es el espacio geométrico donde se organizan y distribuyen los puntos correspondientes a cada árbol?

El paso más reciente ha sido modelar la ubicación y distancia o vecindad entre los árboles desde la perspectiva de sus relaciones matemáticas combinatoriales. Dos árboles son vecinos inmediatos si difieren sólo por un intercambio de ramas tipo "nni" o "nearest-neighbour interchange" (Fig. 7). La distancia entre árboles o puntos en el espacio se mide por el número de intercambios de ramas necesarios para pasar de una topología a otra. La estructura del espacio depende entonces de las ramas comunes entre árboles (Billera et al., 2001). La manera más sencilla de visualizar este espacio de los árboles es situando todos los puntos (vectores T) o árboles posibles para un conjunto de OTU's en un sistema de ejes ortogonales (ortante) configurado, no por los caracteres, sino por las ramas. Por ejemplo, la única topología posible en el caso de tres OTU's es un vector T(l₁,l₂,l₃) cuya posición en el ortante definido por tres ejes (Fig. 4) cambiaría según las tres coordenadas, es decir, las longitudes de las tres ramas. En general, cada ortante puede ser multidimensional pero contiene solo una topología. Para el caso de cuatro OTU's, las tres topologías distintas (T₁, T₂, T₃) existirían en un espacio compuesto por tres ortantes contiguos de cinco ejes correspondientes a las cinco ramas (Fig. 7). La dimensionalidad (r) del ortante (0, )^r delimitado por cada árbol combinatoriamente diferente depende sólo del número de ramas interiores. Para una colección de "n+1" OTU's, cualquier árbol "T" resuelto, matemáticamente se describe con un OTU funcionando como raíz, 'n' hojas (o ramas terminales) y un número máximo (n-2) de ramas interiores. Cada ortante es de dimensión r = (n-2). Por ejemplo, para el caso de los 15 árboles posibles para 5 OTU's (n=4 "hojas"), se configuran 15 ortantes de dimensión r = (4-2), es decir, 15 planos (r=2) adyacentes (Fig. 7).

El espacio de los árboles es como un rompecabezas multidimensional que resulta del enlace de los ortantes vecinos de cada árbol (Fig. 1). Por ejemplo, cuando se ordenan 6 planos contiguos según la regla de que cada uno sea vecino de otros cuatro, el espacio o poliedro resultante es un cubo. Análogamente, el agregado de los ortantes colindantes según las propiedades combinatoriales de los árboles configura un polihedro abierto (asociahedro) multidimensional. Una red con cinco OTU's es vecina inmediata de otras cuatro redes (Fig. 1) y correspondientemente el grupo de los cinco ortantes implícitos configura un asociahedro pentagonal no plano (Fig. 7). Los asociahedros a su vez se juntan como si fueran mosaicos cubriendo una superficie hiperdimensional compleja. El espacio geométrico que acomoda todos los ortantes multidimensionales (n-2) de cualquier conjunto de árboles ordenados según sus relaciones combinatoriales, es un politopo convexo o conjunto de asociahedra. Por ejemplo, en el caso de 5 unidades de estudio (ABCDE) el espacio geométrico de los 15 árboles posibles se ha conceptualizado (Billera et al., 2001) como politopo hiperdimensional, cuya superficie convexa consiste de 12 mosaicos pentagonales no planos entre ejes que configuran un cono circunscrito en una esfera multidimensional (Fig. 4).

Árbol consenso vs. árbol centroide. La descripción matemática de la ubicación de los árboles como puntos en una superficie convexa multidimensional permite que ésta pueda ser parametrizada, sectorizada y explorada (Billera et al., 2001). Desde esta perspectiva, una hipótesis de filogenia corresponde a un ortante en el espacio, el cual contiene un árbol (T₁) pero con las variaciones de las diferentes combinaciones posibles de longitudes de ramas. Los ortantes vecinos contienen la dispersión de las diferentes estimaciones (T₁, T₂, ... Tn) que resultan ante diversos tipos y o cantidades de datos y diferentes métodos de estimación. La superficie convexa de los árboles permite delimitar conjuntos de "árboles creíbles" al asociar las medidas heterogéneas de probabilidad o parsimonia a cada árbol. Como cuando a un mapa geográfico se le agregan isocontornos de valores topográficos, se pueden configurar contornos de confianza con la colección de ortantes vecinos y estos se pueden promediar o combinar en un "árbol centroide", como mejor alternativa a los consensos estrictos o de mayoria (Billera et al., 2001). La conclusión obvia es que conociendo mejor las características del espacio geométrico de los árboles, se pueden diseñar mejores estrategias de selección de topologías óptimas, mejores modelos de transformación y mejores estimaciones de la certidumbre de las hipótesis seleccionadas.

Discusión

El contenido teórico de la parte de la sistemática que se encarga de construir el marco histórico para la biología se ha enriquecido con nuevos desarrollos. Se ha analizado el concepto de parsimonia (Farris, 1983; Goloboff, 2003; Kluge, 2001a; Sober, 1983, 1993; Albert, 2005), ante el reto de justificar su uso como criterio de inferencia frente a la opción de los métodos probabilísticos (máxima verosimilitud y métodos Bayesianos). En el plano epistemológico, uno de los desarrollos más importantes es el concepto cladísta de "homología filogenética" el cual es fundamental como principio en la selección de caracteres taxonómicos (De Luna & Mishler, 1996). La teoría sobre el concepto de los caracters ahora conecta homología filogenética con los conceptos de evolución molecular y la teoría de la evolución del desarrollo (de Pinna, 1991; Grant & Kluge 2004; Hawkings et al., 1997; Page & Holmes, 1998; Wagner, 2001).

En el plano metodológico, se han ideado estrategias de búsqueda cada vez más eficientes (búsquedas heurísticas concatenadas, estrategia "ratchet", cadenas de Markov, etc.) y se han implementado bajo al menos tres alternativas de selección de topologías óptimas (parsimonia, máxima verosimilitud o probabilidad Bayesiana). La adopción de estos métodos analíticos ha formalizado la toma de decisiones sobre caracteres y grupos taxonómicos lo cual permite examinar tanto su repetibilidad como su justificación. Esto ha abierto la diversificación de propuestas para el manejo de los caracteres y estados, las estrategias de búsqueda y los criterios para la selección de las mejores hipótesis de filogenia. Una conclusión importante de esta revisión es que la adopción de un método de reconstrucción filogenética implica una posición epistemológica que debe ser examinada cuidadosamente.

La existencia o no de diferentes posturas epistemológicas de los diversos enfoques metodológicos no es tan evidente. Esto es particularmente peligroso ante el aumento en la diversidad de métodos de obtención y manejo de caracteres, en la selección de los modelos y las estrategias de búsqueda de hipótesis. Varios programas de cómputo se han desarrollado a la par del desarrollo teórico de los métodos y a su vez han enriquecido el marco teórico en el cual se desarrolla la sistemática filogenética. Estos avances e incorporaciones exigen un estudio más profundo de las bases conceptuales de cada una de las opciones disponibles, que nos permitan tomar decisiones de selección y uso que sean congruentes con nuestra base teórica, evitando así caer en el uso y aplicación de métodos o programas por ingenuidad, moda o simplemente por su disponibilidad y fácil manejo. La elección de parsimonia o verosimilitud o métodos Bayesianos para la búsqueda de hipótesis de filogenia debe basarse en las propiedades funcionales de los métodos pero también en la información sobre las implicaciones filosóficas.

Parsimonia o probabilidad. El dilema inferencial del taxónomo es cómo saber si una observación de similitud particular (morfológica o molecular), es indicadora de homología filogenética o no lo es (Kluge, 1999). Es decir, la pregunta difícil es: ¿Cuál método es mejor para la reconstruccion de hipótesis de filogenia? Una presuposición básica ante este dilema es que el investigador dispone de dos opciones metodológicas: los métodos basados en parsimonia o los enfoques probabilísticos. La tendencia reciente señala que el uso de los métodos de verosimilitud y Bayesianos va en aumento, a juzgar por el número de usuarios y el de artículos publicados. En la comparación de los atributos de cada método, los respectivos promotores han intentado persuadir que uno u otro enfoque es mejor bajo distintas condiciones empíricas y metodológicas. Por un lado, los argumentos comunmente aluden al desempeño o "consistencia" de los métodos al recuperar filogenias "conocidas" bajo varias situaciones simuladas (Chang, 1996; Farris, 1999; Felsenstein, 1978; Kim, 1996; Kolaczkowski & Thornton, 2004). Por otro lado, las justificaciones o descalificaciones también recurren al uso de las tesis filosóficas de "falsabilidad" y "verificacionismo" en las cuales los métodos de parsimonia o los de verosimillitud se asocian a estas dos posiciones epistemológicas en competencia. En el presente análisis primero se consideran las apreciaciones metodológicas en torno al concepto de "consistencia" y posteriormente se discuten los razonamientos epistemológicos.

Consistencia de los métodos de reconstrucción. El grado de credibilidad de las hipótesis puede evaluarse si se disciernen las fuentes de incertidumbre o desconfianza. Por ejemplo, los tipos de "errores locales" que cuestionan la credibilidad de los datos debido a descripciones o mediciones equivocadas de los caracteres y estados (Patterson & Johnson, 1997) tienen un impacto diferente que el de los "errores de estimación" asociados a los métodos de la reconstrucción filogenética. Los primeros pueden detectarse y corregirse en el laboratorio mismo y tienen impacto sólo en el estudio en cuestión. Pero los del segundo tipo, implican consecuencias metodológicas y conceptuales profundas.

La idea de "consistencia" es que si un método esta libre de errores de estimación, este converge hacia el resultado "correcto" respecto a un marco de referencia, sobre todo cuando los datos son abundantes. En la teoría estadística, un estimador es "consistente" respecto a un modelo especifico cuando su distribución de probabilidad muestra una dispersión menor alrededor del valor "verdadero" conforme el tamaño de la muestra se incrementa. En la teoría filogenética, un método es "consistente" si las hipótesis que produce bajo las condiciones de un modelo particular convergen hacia una filogenia de referencia (Hillis, 1995). Con este propósito, se ha intentado comparar el desempeño de los métodos de parsimonia y los probabilísticos en su habilidad de reconstruir la filogenia. Cuando se evalúa la habilidad de una balanza para estimar el peso correcto, el marco de referencia es el kilo "Patrón" y la variación permitida por una "Norma". El problema es evidente en el caso de la estimación de la "dispersión" alrededor de la filogenia "correcta" pues los únicos marcos de referencia posibles son los escenarios evolutivos elaborados mediante simulaciones.

Uno de los primeros exámenes de la habilidad de los métodos se basó en una peculiar combinación de datos y modelos ("long branch atraction") con lo que supuestamente se demostró que parsimonia es "inconsistente", pues el método no recuperó la topología generada por los datos (Felsenstein, 1978; Kim, 1996). En contraposición, diferentes condiciones simuladas sugirieron que los métodos de verosimilitud también pueden ser "inconsistentes" en su desempeño al estimar la filogenia (Chang, 1996; Farris, 1999; Kolaczkowski & Thornton, 2004; Siddall, 1998). Los intentos de la calificación de métodos en estudios más elaborados solo han llegado a la conclusión de que diseñar simulaciones para medir "consistencia" es un problema muy complejo en el que interactúan tipos de tasas de cambio de los caracteres, tipos de modelos simples o complejos y tipos de topologías simétricas o asimétricas (Goloboff, 2003, Yang, 1996, 1997). Otros, han sugerido que los métodos de parsimonia bajo ciertos modelos son equivalentes a los de verosimilitud (de Queiroz & Poe, 2001, 2003; Steel & Penny, 2000; Tuffey & Steel, 1997).

Epistemología de los métodos de reconstrucción. Una primera linea de razonamiento se basa en la premisa de que los métodos de parsimonia y los probabilísticos representan dos enfoques filosóficos distintos (Siddall & Kluge, 1997; Kluge, 2001b; Doyle & Davis, 1998). Una diferencia entre estos dos enfoques consiste en cómo se concibe filosóficamente el problema de la inferencia de un evento único como la filogenia. Los métodos de parsimonia, bajo un enfoque Popperiano de "falsabilidad", implicarían que la reconstrucción de historia es un problema de análisis hipotético-deductivo para la identificación de hipótesis de homología (Kluge, 2001b). Epistemológicamente, los métodos cladísticos basados en modelos de parsimonia consisten de varias operaciones lógicas deductivas para proponer hipótesis discretas sobre homología filogenética y cambio de estados a posteriori según el criterio de congruencia máxima. El cladograma más parsimonioso es la mejor explicación lógica implícita en la colección de caracteres (Farris, 1983; Kluge, 2001a).

En contraste, los métodos probabilísticos, bajo un enfoque de "verificabilidad", presuponen que la inferencia filogenética es un problema inductivo de estimación estadística (Felsenstein, 1982; Yang et al., 1995; Posada, 2003). Los métodos de máxima verosimilitud calculan la probabilidad de los datos (por ejemplo, estados compartidos entre taxa) condicionados a un árbol específico, un modelo seleccionado a priori, una tasa de cambio calculada iterativamente y a un juego de estados ancestrales reconstruidos. Esto no significa que se calcule la probabilidad de que los estados compartidos sean homologos entre taxa. De hecho, mientras que parsimonia depende de hipótesis primarias de homologia, ML es independiente de tales hipótesis (Doyle & Davis, 1998). Cada carácter incrementa la probabilidad asociada a un árbol, pero no en función del concepto de homología sino en relación a un modelo que conjetura la probabilidad de cambio en las ramas entre el ancestro y los descendientes. El árbol de la máxima verosimilitud es el mejor resumen enumerativo de la contribución de cada similitud particular.

Si se acepta esta visión divergente entre "falsabilidad + deducción" y "verificabilidad + inducción" la disyuntiva epistemológica obvia que enfrentamos es decidir cual de las dos clases de métodos de reconstrucción filogenética es robusta y aceptable. ¿Parsimonia o los métodos probabilisticos? Los métodos basados en parsimonia se justificarían en el contexto filosófico y epistemológico Popperiano como un criterio extra-evidencial para decidir en la competencia entre hipótesis (Farris, 1983, 1986, 2000; Kluge, 1997, 2001a; Siddall, 2001, Siddall & Kluge, 1997; Sober, 1985). En cambio, los enfoques probabilísticos se han acreditado considerando la estimación de la filogenia como un problema inductivo de inferencia estadística (Edwards, 1996; Felsenstein, 1978, 1988; Goldman, 1990; Yang et al., 1995). Claramente, la justificación para el uso de verosimilitud pretende valorar el razonamiento estadístico como superior (Yang, 1996) al sistema lógico de parsimonia. Implícitamente se consideran científicas "on a firm scientific footing" sólo las hipótesis filogenéticas que se establecen con métodos de inferencia estadística (Felsenstein, 1982, p 399).

La segunda estrategia de argumentación se fundamenta en la proposición de que los métodos de parsimonia y los probabilísticos no implican dos enfoques epistemológicos distintos (de Queiroz, 2004; de Queiroz & Poe, 2001, 2003). En esta perspectiva, no habría diferencia entre las dos clases de métodos al abordar el problema de la inferencia de la filogenia. Por un lado, se ha discutido que "falsabilidad" no es aplicable a los métodos filogenéticos, sin importar si el enfoque analítico se basa en parsimonia o es probabilístico (Rieppel, 2003). Por otro lado, se ha cuestionado la dicotomía epistemológica entre "falsabilidad + deducción" y "verificabilidad + inducción" en los métodos filogenéticos (de Queiroz & Poe, 2003; de Queiroz, 2004). Estos autores han argumentado que la presuposición de una diferencia epistemológica entre los métodos de parsimonia y probabilisticos es falsa, ya que la epistemología Popperiana incluye a ambos enfoques metodológicos. Entonces, ninguno de los dos enfoques debería justificarse o eliminarse sobre la base de su asociación con "falsabilidad" o con "verificabilidad".

Bajo esta visión sin antagonismo epistemológico entre los enfoques de reconstrucción filogenética, la separación de los métodos de parsimonia como deductivos y los probabilísticos como inductivos tampoco sería correcta (de Queiroz & Poe, 2003). Esta proposición evidentemente esta supeditada a la tesis filosófica que establece que las hipótesis no pueden ser calificadas como verdaderas por inducción. Estos autores han interpretado que todos los métodos filogenéticos son tanto inductivos como deductivos. Los métodos de parsimonia y los probabilísticos son inductivos en el sentido de que la hipótesis (el árbol óptimo) como conclusión no es necesariamente verdadera aun si las premisas (los datos) son verdaderas. Ambos tipos de métodos también son deductivos por la manera en que se asignan los valores a los árboles, ya que dado el modelo y el árbol, la medida de parsimonia, de verosimilitud o probabilidad posterior es necesariamente verdadera a partir de los datos (De Queiroz & Poe, 2003). Por lo tanto, cualquier insistencia en señalar que un enfoque es mejor que el otro por que es "deductivo" o "inductivo" tampoco tendría sentido.

El intento de la calificación de los métodos de parsimonia o probabilísticos examinando los fundamentos epistemológicos es un ejercicio complejo pero recomendable. Comprensiblemente bajo la premisa de que existe una dicotomia entre la epistemología Popperiana y la perspectiva estadística, todavía prevalece una controversia activa en cuanto a cuál de estas dos posiciones epistemológicas es la más robusta para la reconstrucción filogenética (Carpenter, 1992; Cracraft & Helm-Bychowski, 1991; Felsenstein, 1988, 2001; Felsenstein & Sober, 1986; Goloboff, 2003; Harper, 1979; Kluge, 1997, 2002; Sanderson & Kim, 2000; Steel & Penny, 2000; Trueman, 1993). Presumiblemente dejando las diferencias filosóficas a un lado, los enfoques eclécticos son los más frecuentes bajo la sugestión de que la convergencia de resultados con parsimonia, máxima verosimilitud y probabilidades posteriores Bayesianas es una indicación de la estabilidad de las hipótesis (Cunningham, 1997; Flores-Villela et al., 2000; Giribet, 2003).

Relevancia de la Teoría y Métodos. Aunque la incorporación de los datos moleculares ha incrementado notablemente el tamaño de muestreo en cuanto al universo de caracteres a evaluar, y ha aportado otra fuente de información, no se debe olvidar la consideración de otros tipos de caracteres igualmente valiosos como es la morfología a diferentes escalas de observación (por ejemplo. anatomía, ultra estructura, morfología externa). Ninguna de las fuentes de datos contiene, por sí sola, la verdad única sobre la historia de los grupos de organismos. Cada tipo de caracteres aporta un fragmento distinto y complementario de la historia reciente o antigua de los organismos. En su conjunto, los distintos tipos de caracteres contienen diferentes velocidades de cambio. Al utilizarlos combinados se obtienen mejores hipótesis de relaciones a diferentes niveles de la filogenia de los seres vivos bajo estudio. Ante el aumento creciente en los tipos de datos y la diversidad de métodos de análisis, la preparación que requiere un sistémata actual debe incluir, al menos, conocimientos sobre filosofía de la ciencia, estadística, teoría probabilística y evolución molecular, con el fin de que se tenga un entrenamiento en cómo funcionan las diferentes propuestas tanto operacionalmente como teóricamente. Conociendo el fundamento científico y las bases operativas de cómo es que se obtienen los resultados de cada uno de los enfoques, permitirá la selección educada y congruente de los métodos a seguir en las diferentes fases de un análisis filogenético.

La incertidumbre no podrá ser eliminada dado el problema de reconstruir un evento histórico único pero complejo como la filogenia. No obstante, la construcción de grupos taxonómicos mediante el uso de algún algoritmo de agrupación (parsimonia o probabilístico) elimina la petición de una "concesión especial" a la taxonomía entre las ciencias por su naturaleza especulativa ante la dificultad de conocer la historia y medir el proceso evolutivo. La elección de la mejor hipótesis de relaciones filogenéticas y clasificación es ahora posible bajo los mismos estándares formales de otras áreas de las ciencias. Las inferencias filogenéticas sobre caracteres y grupos pueden ser justificadas como hipótesis científicas no sólo por la consideración de muchos datos sino especialmente por el procedimiento analítico de selección de topologías óptimas entre el conjunto finito de las alternativas posibles. En tal justificación, los métodos de parsimonia constituirían la opción refutacionista, mientras que los métodos probabilísticos de máxima verosimilitud y probabilidades posteriores Bayesianas representarían la expectativa verificacionista. Si esta diferencia existe, el uso de uno u otro enfoque para la reconstrucción filogenética conllevaría la adopción de una u otra posición filosófica, sea consciente o inadvertidamente. No obstante, si tal dicotomia epistemológica es inexistente entonces ambos tipos de métodos no competirían sino que se complementarían. Un resultado similar usando métodos diferentes indicaría entonces que la topología es estable a las diferencias en las presuposiciones de los modelos de parsimonia y los probabilísticos.

El papel de la teoría y los métodos filogenéticos en la sistemática es semejante al impacto del formalismo numérico alcanzado con la introducción de los modelos matemáticos y métodos estadísticos en la ecología moderna desde hace cuatro o cinco décadas. En la genética ecológica y en la ecología de comunidades entre muchos otros niveles, los métodos univariados y multivariados formalizaron la descripción y los juicios interpretativos de la variación de ambientes y fenómenos (Gauch, 1982, p. 2). Igualmente, los métodos numéricos de la reconstrucción filogenética han formalizado cuantitativamente muchos juicios e interpretaciones que cotidianamente realiza el taxónomo en el estudio de la variación de caracteres, sean morfológicos o moleculares, para la clasificación de un grupo biológico. Por ejemplo, las repercusiones del cambio teórico en los enfoques para la agrupación de organismos han alcanzado ineludiblemente la teoría sobre el concepto de especies y también la teoría y métodos de la nomenclatura biológica En relacion a las especies, se han distinguido los componentes de agrupación y de categorización en dos esferas epistemológicas distintas. La controversia continua pero ahora al nivel de qué tipo de métodos y evidencia son relevantes en cada esfera (Mishler & De Luna, 1997; Wheeler & Meier, 2000; Wilson, 1999). Aunque la nomenclatura había permanecido inmune a cuestionamientos por mucho tiempo, la extensión de la lógica cladística ha permitido examinar el uso de los nombres taxonómicos y cuestionar la presunta necesidad del sistema Linneano de siete taxa básicos en función de su concordancia con las propiedades biológicas de los grupos monofiléticos (de Queiroz, 1997; Härlin, 2003; Keller et al., 2003; Nixon & Carpenter, 2000). Además, el impacto de la teoría y métodos de reconstrucción histórica ha trascendido la taxonomía. Los métodos cladísticos han permitido replantear las hipótesis y los métodos de la investigación en otras áreas, especialmente la ecología evolutiva y la biogeografía (Brooks & McLennan, 1991, 1993; Harvey & Pagel, 1991). Esta visión de los avances de la teoría y métodos de reconstrucción filogenética destaca las necesidades educativas para formalizar la investigación en la sistemática y biología comparativa moderna.

Agradecimientos

Esta revisión debe mucho a las constantes interacciones con los estudiantes del Posgrado en el Instituto de Ecologia AC. Entre ellos especialmente agradecemos a Felipe Becerril, Alvaro Flores-Castorena, Deneb García-Avila, David A. Martínez, Roberto Munguía, Jaime Pacheco, José M. Ramírez y Tania Zuñiga por sus comentarios a versiones anteriores. Las correcciones de Kevin De Queiroz permitieron una presentación más coherente de las ideas y mejoraron la lógica y precisión de los argumentos. Las sugerencias de dos revisores anómimos ayudaron a lograr una estructuración más cuidadosa del texto y la bibliografía. Apreciamos la oportunidad brindada por el Dr. Francisco F. Pedroche y el Dr. Abel Sentíes Granados para darle cabida a este trabajo en Hidrobiológica.

Referencias

ALBERT, V. A., 2005. Parsimony, Phylogeny, and Genomics. Oxford University Press, Oxford, pp. 229. [ Links ]

ALBERT, V. A., M. W. CHASE & B. D. MISHLER. 1993. Character state weighting for cladistic analysis of protein-coding DNA sequences. Annals of the Missouri Botanical Garden 80: 752-766. [ Links ]

ALFARO, M. E., S. ZOLLER & F. LUTZONI. 2003. Bayes or Bootstrap? A simulation study comparing the performance of Bayesian Markov Chain Monte Carlo sampling and bootstraping in assessing phylogenetic confidence. Molecular Biology and Evolution 20: 255-266. [ Links ]

ARCHIE, J. W. 1985. Methods for coding variable morphological features for numerical taxonomic analysis. Systematic Zoology 34 (3): 326-345. [ Links ]

ARIAS, J. S. & D. R. MIRANDA-ESQUIVEL. 2004. Profile Parsimony (PP): an analysis under Implied Weights (IW). Cladistics 20: 56-63. [ Links ]

BANG, R., R. DESALLE & W. WHEELER. 2000. Transformationalism, taxism, and developmental biology in systematics. Systematic Biology 49 (1): 19-27. [ Links ]

BAPTESTE, E., H. BRINKMANN, J. A. LEE, D. V. MOORE, C. W. SENSEN, P. GORDON, L. DURUFLÉ, T. GAASTERLAND, P. LOPEZ, M. MÜLLER & H. PHILIPPE. 2002. The analysis of 100 genes supports the grouping of three highly divergent amoebae: Dictyostelium, Entamoeba, and Mastigamoeba. Proceedings of the National Academy of Sciences 99 (3): 1414-1419. [ Links ]

BARRETT, M., M. J. DONOGHUE & E. SOBER. 1991. Against Consensus. Systematic Zoology 40 (4): 486-493. [ Links ]

BILLERA, L. J., S. P. HOLMES & K. VOGTMANN. 2001. Geometry of the space of phylogenetic trees. Advances in Applied Mathematics 27: 733-767. [ Links ]

BOLKER, J. A. & R. A. RAFF. 1996. Developmental genetics and traditional homology. BioEssays 18 (6): 489-494. [ Links ]

BROOKS, D. R. & D. A. MCLENNAN. 1991. Phylogeny, ecology, and behavior. A research program in comparative biology. The University of Chicago Press, Chicago y Londres. 434 p. [ Links ]

BROOKS, D. R. & D. A. MCLENNAN. 1993. Historical ecology: examining phylogenetic components of community evolution. In: R. E. Ricklefs & A. D. Schwter (Eds.). Species diversity in ecological communities. University of Chicago Press. Pp. 267-296. [ Links ]

BRYANT, H. N. 2001. Character polarity and the rooting of cladograms. In: G. P. Wagner (Ed.). The character concept in evolutionary biology. Academic Press. Pp. 321-340. [ Links ]

CARPENTER, J. M. 1992. Random cladistics. Cladistics 8: 147-153. [ Links ]

CHANG, J. T. 1996. Inconsistency of evolutionary tree topology reconstruction methods when substitution rates vary across characters. Mathematical Biosciences 134: 189-215. [ Links ]

CHERNOFF, B., T. DUNCAN, T. ELIAS, M. MISHLER, E. NOVACEK, E. THERIOT, Q. D. WHEELER & D. S. WOOD. 1989. Commentary on the place of systematics. ASC Newsletter 17 (1): 1-2. [ Links ]

CRACRAFT, J. 2002. The seven great questions of systematic biology: An essential foundation for conservation and the sustainable use of diversity. Annals of the Missouri Botanical Garden 89: 127-144. [ Links ]

CRACRAFT, J. & K. HELM-BYCHOWSKI. 1991. Parsimony and phylogenetic inference using DNA sequences: some methodological strategies. In: M. M. Miyamoto & J. Cracraft (Eds.). Phylogenetic analysis of DNA sequences. Oxford University Press. Pp. 184-220. [ Links ]

CRAWFORD, D. J. & M. E. MORT. 2003. New Trends in plant systematics. Taxon 52: 3-7. [ Links ]

CRISCI, J. C. 1982. Parsimony in evolutionary theory: law or methodological prescription? Journal of Theoretical Biology 97: 35-41. [ Links ]

CUNNINGHAM, C. W. 1997. Is congruence between data partitions a reliable predictor of phylogenetic accuracy? Empirically testing an iterative procedure for choosing among phylogenetic methods. Systematic Biology 46 (3): 464-478. [ Links ]

DE BEER, G. R. 1971. Homology, an unsolved problem. Oxford University Press, London. 16 p. [ Links ]

DE LUNA, E. 1995. Bases filosóficas de los análisis cladísticos para la investigación taxonómica. Acta Botánica Mexicana 33: 63-79. [ Links ]

DE LUNA, E. 1996. Epistemología de la investigación taxonómica: Inferencias filogenéticas y su evaluación. Boletín de la Sociedad Botánica de México 58: 43-53. [ Links ]

DE LUNA, E. & B. D. MISHLER. 1996. El concepto de homología filogenética y la selección de caracteres taxonómicos. Boletín de la Sociedad Botánica de México 59: 131-146. [ Links ]

DE PINNA, M. C. 1991. Concepts and tests of homology in the cladistic paradigm. Cladistics 7: 367-394. [ Links ]

DE PINNA, M. C. 1996. Comparative biology and systematics: Some controversies in retrospective. Journal of Comparative Biology 1 (1/2): 3-16. [ Links ]

DE QUEIROZ, A., M. J. DONOGHUE & J. KIM. 1995. Separate versus combined analysis of phylogenetic evidence. Annual Review of Ecology and Systematics 26: 657-681. [ Links ]

DE QUEIROZ, K. 1997. The Linnean hierarchy and the evolutionization of taxonomy, with emphasis on the problem of nomenclature. Aliso 15(2): 125-144. [ Links ]

DE QUEIROZ, K. 2004. The measurement of test severity, significance tests for resolution, and a unified philosophy of phylogenetic inference. Zoologica Scripta 33 (5): 463-473. [ Links ]

DE QUEIROZ, K. & S. POE. 2001. Philosophy and phylogenetic inference: a comparison of likelihood and parsimony methods in the context of Karl Popper's writings on corroboration. Systematic Biology 50 (3): 305-321. [ Links ]

DE QUEIROZ, K. & S. POE. 2003. Failed refutations: further comments on parsimony and likelihood methods and their relationship to Popper's degree of corroboration. Systematic Biology 52 (3): 352-367. [ Links ]

DOUADY, C. J., F. DELSUC, Y. BOUCHER, W. F. DOOLITLE & E. J. P. DOUZERY. 2003. Comparison of Bayesian and maximum likelihood bootstrap measures of phylogenetic reliability. Molecular Biology and Evolution 20: 248-254. [ Links ]

DOYLE, J. J. 1993. DNA, phylogeny, and the flowering of plant systematics. BioScience 43 (6): 380-389. [ Links ]

DOYLE, J. J. & J. I. DAVIS. 1998. Homology in molecular phylogenetics: a parsimony perspective. In: D. E. Soltis & P. S. Soltis (Eds.). Molecular systematics of Plants II. DNA sequencing. Kluwer Academic Publishers. pp. 101-131. [ Links ]

EDWARDS, A. W. F. 1996. The origin and early development of the method of minimum evolution for the reconstruction of phylogenetic trees. Systematic Biology 45 (1): 79-91. [ Links ]

EDWARDS, A. W. F. & L. L. CAVALLI-SFORZA. 1964. Reconstruction of evolutionary trees. In: V. H. Heywood & J. McNeill (Eds.). Phenetic and phylogenetic classification. Systematics Association Publication 6. London. Pp. 67-76. [ Links ]

FARRIS, J. S. 1969. A successive approximation approach to character weighting. Systematic Zoology 18: 374-385. [ Links ]

FARRIS, J. S. 1983. The logical basis of phylogenetic analysis. Advances in Cladistics 2: 7-35. [ Links ]

FARRIS, J. S. 1986. On the boundaries of phylogenetic systematics. Cladistics 2: 14-27. [ Links ]

FARRIS, J. S. 1999. Likelihood and inconsistency. Cladistics 15: 199-204. [ Links ]

FARRIS, J. S. 2000. Corroboration versus "strongest evidence". Cladistics 16: 385-393. [ Links ]

FARRIS, J. S. 2001. Support weighting. Cladistics 17: 389-394. [ Links ]

FELSENSTEIN, J. 1978. Cases in which parsimony and compatibility methods will be positively misleading. Systematic Zoology 27: 401-410. [ Links ]

FELSENSTEIN, J. 1981. A likelihood approach to character weighting and what it tells us about parsimony and compatibility. Biological Journal of the Linnaean Society 16: 183-196. [ Links ]

FELSENSTEIN, J. 1982. Numerical methods for inferring evolutionary trees. Quarterly Review of Biology 57: 127-141. [ Links ]

FELSENSTEIN, J. 1988. Phylogenies from molecular sequences: inference and reliability. Annual Review of Genetics 22: 521-565. [ Links ]

FELSENSTEIN, J. 2001. The troubled growth of statistical phylogenetics. Systematic Biology 50 (4): 465-467. [ Links ]

FELSENSTEIN, J. 2004. Inferring phylogenies. Sinauer Associates, Inc., Massachusetts. 664 p. [ Links ]

FELSENSTEIN, J. & E. SOBER. 1986. Parsimony and likelihood: an exchange. Systematic Zoology 35: 617-626. [ Links ]

FERRARIS, J. D. & S. R. PALUMBI. 1996. Molecular zoology. Advances strategies, and protocols. Wiley-Liss, Inc., 580 p. [ Links ]

FLORES-VILLELA, O., K. M. KJER, M. BENABIB & J. W. SITES. 2000. Multiple data sets, congruence, and hypothesis testing for the phylogeny of basal groups of the lizard genus Sceloporus (Squamata, Phrynosomatidae). Systematic Biology 49 (4): 713-739. [ Links ]

FROST, D. R. & A. G. KLUGE. 1994. A consideration of epistemology in systematic biology, with special reference to species. Cladistics 10: 259-294. [ Links ]

GAUCH, H. G. 1982. Multivariate analysis in community ecology. Cambridge University Press, Cambridge. 298 p. [ Links ]

GIFT, N. & P. F. STEVENS. 1997. Vagaries in the delimitation of character states in quantitative variation- an experimental study. Systematic Biology 46 (1): 112-125. [ Links ]

GIRIBET, G. 2003. Stability in phylogenetic formulations and its relationship to nodal support. Systematic Biology 52 (4): 554-564. [ Links ]

GOLDMAN, N. 1990. Maximum likelihood inference of phylogenetic trees, with special reference to a Poisson process model of DNA substitution and to parsimony analysis. Systematic Zoology 39: 345-361. [ Links ]

GOLOBOFF, P. A. 1993. Estimating character weights during tree search. Cladistics 9: 83-91. [ Links ]

GOLOBOFF, P. A. 1999. Analyzing large data sets in reasonable times: solutions for composite optima. Cladistics 15: 415-428. [ Links ]

GOLOBOFF, P. A. 2003. Parsimony, likelihood and simplicity. Cladistics 19: 91-103. [ Links ]

GOLOBOFF, P.A., FARRIS, J.S., KÄLLERSJÖ, M., OXELMAN, B., RAMÍREZ, M.J., C.A. SZUMIK. 2003. Improvements to resampling measures of group support. Cladistics 19: 324-332. [ Links ]

GONZÁLEZ, D. 1996. Codificación de las inserciones-deleciones en el análisis filogenético de secuencias génicas. Boletín de la Sociedad Botánica de México 59: 115-129. [ Links ]

GONZÁLEZ, D. 1997. El uso de secuencias génicas para estudios taxonómicos. Boletín de la Sociedad Botánica de México 60: 137-157. [ Links ]

GONZÁLEZ, D. 1998. Marcadores moleculares para los estudios comparativos de la variación en ecología y sistemática. Revista Mexicana de Micología. 14: 1-21. [ Links ]

GRANT, T. & A. G. KLUGE. 2004. Transformation series as an ideographic character concept. Cladistics 20: 23-31. [ Links ]

GRANT, T., J. FAIVOVICH & D. POL. 2003. The perils of 'point and click' systematics. Cladistics 19 (3): 276-285. [ Links ]

GRAYBEAL, A. 1998. Is it better to add taxa or characters to a difficult phylogenetic problem? Systematic Biology 47 (1): 9-17. [ Links ]

GUERRERO, J. A., E. DE LUNA & C. SANCHEZ-HERNANDEZ. 2003. Morphometrics in the quantification of character state identity for the assessment of primary homology: an analysis of character variation of the genus Artibeus (Chiroptera: Phyllostomidae). Biological Journal of the Linnaean Society 80: 45-55. [ Links ]

HÄRLIN, M. 2003. Taxon names as paradigms: the structure of nomenclatural revolutions. Cladistics 19: 138-143. [ Links ]

HARPER, C. W. J. 1979. A Bayesian probability view of phylogenetic systematics. Systematic Zoology 28: 547-553. [ Links ]

HARVEY, P. H. & M. D. PAGEL. 1991. The comparative method in evolutionary biology. Oxford University Press, London. 239 p. [ Links ]

HAWKINGS, J. A. 2000. A survey of primary homology assessment: different botanists perceive and define characters in different ways. In: R. W. Scotland & R. T. Pennington (Eds.). Homology and Systematics. Taylor and Francis. Pp. 22-53. [ Links ]

HAWKINGS, J. A., C. E. HUGES & R. W. SCOTLAND. 1997. Primary homology assessment, characters and character states. Cladistics 13: 275-283. [ Links ]

HENDRICKSON, J. A. 1968. Clustering in numerical cladistics: a mini-mum-length directed tree problem. Mathematical Biosciences 3: 371-381. [ Links ]

HILLIS, D. M. 1991. Discriminating between phylogenetic signal and random noise in DNA sequences. In: M. M. Miyamoto & J. Cracraft (Eds.). Phylogenetic analysis of DNA sequences. Oxford University Press. Pp. 278-294. [ Links ]

HILLIS, D. M. 1995. Approaches for assessing phylogenetic accuracy. Systematic Biology 44 (1): 3-16. [ Links ]

HILLIS, D. M. 1998. Taxonomic sampling, phylogenetic accuracy, and investigator bias. Systematic Biology 47 (1): 3-8. [ Links ]

HILLIS, D. M. & J. P. HUELSENBECK. 1992. Signal, noise, and reliability in molecular phylogenetic analysis. Journal of Heredity 83: 189-195. [ Links ]

HILLIS, D. M., C. MORITZ & B. K. MABLE (EDS.). 1996. Molecular systematics. Sinauer Associates. Sunderland, Massachusetts, 655 p. [ Links ]

HOLDER, M. & P. O. LEWIS. 2003. Phylogeny estimation: Traditional and Bayesian approaches. Nature Reviews. Genetics 4: 275-284. [ Links ]

HUELSENBECK, J. P. & K. A. CRANDALL. 1997. Phylogeny estimation and hypothesis testing using maximum likelihood. Annual Review of Ecology and Systematics 28: 437-466. [ Links ]

HUELSENBECK, J. P. & F. RONQUIST. 2001. MrBAYES: Bayesian inference of phylogenetic trees. Bioinformatics 17: 754-755. [ Links ]

HUELSENBECK, J. P., B. LARGET, R. E. MILLER & F. RONQUIST. 2002. Potential applications and pitfalls of Bayesian inference of phylogeny. Systematic Biology 51 (5): 673-688. [ Links ]

HUELSENBECK, J. P., F. RONQUIST, R. NIELSEN & J. P. BOLL-BACK. 2001. Bayesian inference of phylogeny and its impact on evolutionary biology. Science 294: 2310-2314. [ Links ]

KELLER, R. A. 1998. Bases metodológicas del uso de grupo externo en los análisis cladísticos. Tesis de Licenciatura en Biología, Facultad de Ciencias, UNAM, México. 80 p. [ Links ]

KELLER, R. A., R. N. BOYD & Q. D. WHEELER. 2003. The illogical basis of phylogenetic nomenclature. The Botanical Review 69 (1): 93-110. [ Links ]

KIM, J. 1996. General inconsistency conditions for maximum parsimony: effects of branch lengths and increasing numbers of taxa. Systematic Biology 45 (3): 363-374. [ Links ]

KITCHING, I. J., P. L. FOREY, C. J. HUMPHRIES & D. M. WILLIAMS. 1998. Cladistics. The theory and practice of parsimony analysis. The Systematics Association Publication No. 11. Oxford University Press, Oxford. 228 p. [ Links ]

KLUGE, A. G. 1984. The relevance of parsimony to phylogenetic inference. In: T. Duncan & Stuessy (Eds.). Cladistics: perspectives on reconstruction of evolutionary history. Columbia University Press. Pp. 24-38. [ Links ]

KLUGE, A. G. 1997. Testability and the refutation and corroboration of cladistic hypotheses. Cladistics 13: 81-96. [ Links ]

KLUGE, A. G. 1999. The science of phylogenetic systematics: explanation, prediction, and test. Cladistics 15: 429-436. [ Links ]

KLUGE, A. G. 2001A. Parsimony with and without scientific justification. Cladistics 17: 199-210. [ Links ]

KLUGE, A. G. 2001B. Philosophical conjectures and their refutation. Systematic Biology 50 (3): 322-330. [ Links ]

KLUGE, A. G. 2002. Distinguishing "or" from "and" and the case for historical identification. Cladistics 18: 585-593. [ Links ]

KLUGE, A. G. & A. J. WOLF. 1993. Cladistics: what's in a word? Cladistics 9: 183-199. [ Links ]

KOLACZKOWSKI, B. & J. W. THORNTON. 2004. Performance of maximum parsimony and likelihood phylogenetics when evolution is heterogeneous. Nature 431: 980-984. [ Links ]

KORNET, D. J. & H. TURNER. 1999. Coding polymorphism for phylogeny reconstruction. Systematic Biology 48 (2): 365-379. [ Links ]

LEACHE, A. D. & T. W. REEDER. 2002. Molecular systematics of the Eastern fence lizard (Sceloporus undulatus): A comparison of parsimony, likelihood, and Bayesian approaches. Systematic Biology 51: 44-68. [ Links ]

LEÓN-OLEA, M. 2002. Evolución filogenética del dolor. Elementos 46: 19-23. [ Links ]

LEWIS, P. O. 1998. Maximum likelihood as an alternative to parsimony for inferring phylogeny using nucleotide sequence data. In: D. E. Soltis & P. S. Soltis (Eds.). Molecular systematics of plants II. DNA sequencing. Kluwer Academic Publishers. Pp. 132-163. [ Links ]

LEWIS, P. O. 2001. Phylogenetic systematics turns over a new leaf. Trends in Ecology and Evolution 16: 30-37. [ Links ]

MABEE, P. M. 1989. Assumptions underlaying the use of ontogenetic sequences for determining character state order. Transactions of the American Fisheries Society 118: 151-158. [ Links ]

MISHLER, B. D. 1994. Cladistic analysis of molecular and morphological data. American Journal of Physical Anthropology 94: 143-156. [ Links ]

MISHLER, B. D. & E. DE LUNA. 1997. Sistemática filogenética y el concepto de especie. Boletín de la Sociedad Botánica de México 60: 45-57. [ Links ]

MORALES, E. 2000. El método comparativo en ecología vegetal. Boletín de la Sociedad Botánica de México 66: 37-51. [ Links ]

MORRONE, J. J. & J. C. CRISCI. 1995. Historical biogeography: Introduction to methods. Annual Review of Ecology and Systematics 26: 373-401. [ Links ]

NELSON, G. 1994. Homology and systematics. In: B. K. Hall (Ed.). Homology. The hierarchical basis of comparative biology. Academic Press. Pp. 101-149. [ Links ]

NIELSEN, C. & P. MARTÍNEZ. 2003. Patterns of gene expression: homology or homocracy? Development, Genes and Evolution 213: 149-154. [ Links ]

NIXON, K. C. 1999. The parsimony ratchet, a new method for rapid parsimony analysis. Cladistics 15: 407-414. [ Links ]

NIXON, K. C. & J. M. CARPENTER. 1993. On outgroups. Cladistics 9: 413-426. [ Links ]

NIXON, K. C. & J. M. CARPENTER. 2000. On the other "phylogenetic systematics". Cladistics 16: 298-318. [ Links ]

PAGE, R. D. M. & E. C. HOLMES. 1998. Molecular evolution. A phylogenetic approach. Blackwell Science, Oxford. 346 p. [ Links ]

PATTERSON, C. 1982. Morphological characters and homology. In: K. A. Joysey & A. E. Friday (Eds.). Problems of Phylogenetic Reconstruction. Academic Press. Pp. 21-74. [ Links ]

PATTERSON, C. & G. D. JOHNSON. 1997. The data, the matrix, and the message: Comments on Begle's "Relationships of the Osmeroid fishes". Systematic Biology 46 (2): 358-365. [ Links ]

PHILLIPS, A., D. JANIES & W. WHEELER. 2000. Multiple sequence alignment in phylogenetic analysis. Molecular Phylogenetics and Evolution 16 (3): 317-330. [ Links ]

PLATNICK, N. I. & H. D. CAMERON. 1977. Cladistic methods in textual, linguistic, and phylogenetic analysis. Systematic Zoology 26: 380-385. [ Links ]

PLATNICK, N. I., C. E. GRISWOLD & J. A. CODDINGTON. 1991. On missing entries in cladistic analysis. Cladistics 7: 337-343. [ Links ]

POSADA, D. 2003. Selecting models of evolution. In: M. Salemi & A. M. Vandemme & (Eds.). The phylogenetic handbook. Cambridge University Press. Pp. 256-282. [ Links ]

POSADA, D. & K. A. CRANDALL. 2001. Selecting the best-fit model of nucleotide substitution. Systematic Biology 50 (4): 580-601. [ Links ]

PRENDINI, L. 2001. Species or supraspecific taxa as terminals in cladistic analysis? groundplans versus exemplar revisited. Systematic Biology 50 (2): 290-300. [ Links ]

RAE, T. C. 1998. The logical basis for the use of continuous characters in phylogenetic systematics. Cladistics 14: 221-228. [ Links ]

RANNALA, B. & Z. YANG. 1996. Probability distribution of molecular evolutionary trees: A new method of phylogenetic inference. Journal of Molecular Evolution 43: 304-311. [ Links ]

REICHENBACH, H. 1956. The direction of time. The University of California Press, Berkeley. 280 p. [ Links ]

REXOVÁ, K., D. FRYNTA & J. ZRZAVY. 2003. Cladistic analysis of languages: Indo-European classification based on lexicostatistical data. Cladistics 19: 120-127. [ Links ]

RICHARDSON, P. M. 1996. The systematics agenda 2000 symposium: Introduction. Annals of the Missouri Botanical Garden 83 (1): 1-2. [ Links ]

RIEPPEL, O. 1991. Things, taxa and relationships. Cladistics 7: 93-100. [ Links ]

RIEPPEL, O. 2003. Popper and systematics. Systematic Biology 52 (2): 259-271. [ Links ]

ROTH, V. L. 1984. Within and between organisms: replicators, lineages, and homologs. In: B. K. Hall. (Ed.). Homology: the hierarchical basis of comparative biology. Academic Press. Pp. 301-337. [ Links ]

SALMON, W. 1984. Scientific explanation and the causal structure of the world. Princeton University Press, Princeton. [ Links ]

SALTER, L. A. & D. K. PEARL. 2001. Stochastic search strategy for estimation of maximum likelihood phylogenetic trees. Systematic Biology 50 (1): 7-17. [ Links ]

SANDERSON, M. J. & J. KIM. 2000. Parametric phylogenetics? Systematic Biology 49: 817-829. [ Links ]

SCHULTZ, T. R., R. B. COCROFT & G. A. CHURCHILL. 1996. The reconstruction of ancestral character states. Evolution 50 (2): 504-11. [ Links ]

SEMPLE, C. & M. STEEL. 2003. Phylogenetics. Oxford University Press, London. 239 p. [ Links ]

SENNBLAD, B. & B. BREMER. 2000. Is there a justification for differential a priori weighting in coding sequences? A case study rbcL and Apocinaceae s.l. Systematic Biology 49 (1): 101-113. [ Links ]

SIDDALL, M. E. 1998. Success of parsimony in the four-taxon case: long-branch repulsion by likelihood in the Farris zone. Cladistics 14: 209-220. [ Links ]

SIDDALL, M. E. 2001. Philosophy and phylogenetic inference: a comparison of likelihood and parsimony methods in the context of Karl Popper's writings on corroboration. Cladistics 17: 395-399. [ Links ]

SIDDALL, M. E. & A. G. KLUGE. 1997. Probabilism and phylogenetic inference. Cladistics 13: 313-336. [ Links ]

SIMMONS, M. P. & J. V. FREUDENSTEIN. 2002. Artifacts of coding amino acids and other composite characters for phylogenetic analysis. Cladistics 18: 354-365. [ Links ]

SIMMONS, M. P. & H. OCHOTERENA. 2000. Gaps as characters in sequence-based phylogenetic analyses. Systematic Biology 49 (2): 369-381. [ Links ]

SNEATH, P. H. A. & R. R. SOKAL. 1973. Numerical taxonomy, the principles and practice of numerical classification. W. H. Freeman & Co., San Francisco. p. [ Links ]

SOBER, E. 1983. Parsimony in Systematics: Philosophical Issues. Annual Review of Ecology and Systematics 14: 335-357. [ Links ]

SOBER, E. 1985. A likelihood justification of parsimony. Cladistics 1: 209-233. [ Links ]

SOBER, E. 1988. Reconstructing the past: Parsimony, evolution and inference. MIT Press, Cambridge. 265 p. [ Links ]

SOBER, E. 1993. Philosophy of Biology. Oxford University Press. 231 p. [ Links ]

SOLTIS, P. & D. SOLTIS. 1996. Phylogenetic analysis of large molecular data sets. Boletín de la Sociedad Botánica de México 59: 99-113. [ Links ]

SOLTIS, D. E. & P. S. SOLTIS. 1998. Choosing an approach and an appropriate gene for phylogenetic analysis. In: D. E. Soltis & P. S. Soltis (Eds.). Molecular systematics of plants II. DNA sequencing. Kluwer Academic Publishers. Pp. 1-42. [ Links ]

STEEL, M. & D. PENNY. 2000. Parsimony, likelihood, and the role of models in molecular phylogenetics. Molecular Biology and Evolution 17 (6): 839-850. [ Links ]

SWOFFORD, D. L. & W. P. MADDISON. 1987. Reconstructing ancestral character states under Wagner parsimony. Mathematical Biosciences 87: 199-229. [ Links ]

TRUEMAN, J. W. H. 1993. Randomization confounded: a response to Carpenter. Cladistics 9: 101-109. [ Links ]

TUFFEY, C. & M. STEEL. 1997. Links between maximum likelihood and maximum parsimony under a simple model of site substitution. Bulletin of Mathematical Biology 59: 581-607. [ Links ]

VERGARA-SILVA, F. 2003. Plants and the conceptual articulation of evolutionary developmental biology. Biology and Philosophy 18: 249-284. [ Links ]

VOS, R. A. 2003. Accelerated likelihood surface exploration: the likeli-hood ratchet. Systematic Biology 52 (3): 368-373. [ Links ]

WAGNER, G. P. 2001. Characters, units and natural kinds: An introduction. In: G. P. Wagner (Ed.). The character concept in evolutionary biology. Academic Press. Pp. 1-11. [ Links ]

WAGNER, H.-J. 1981. The minimum number of mutations in an evolutionary network. Journal of Theoretical Biology 91: 621-636. [ Links ]

WANNTORP, H. E., D. R. BROOKS, T. NILSSON, S. NYLIN, F. RONQUIST, S. C. STEARNS & N. WEDELL. 1990. Phylogenetic approaches in ecology. Oikos 57: 119-132. [ Links ]

WESTON, P. H. 1994. Methods for rooting cladistic trees. In: R. W. Scotland, D. J. Siebert & D. M. Williams (Eds.) Models in Phylogeny Reconstruction. Clarendon Press. Pp. 125-155. [ Links ]

WENZEL, J. W. 2002. Phylogenetic analysis: The basic method. In: R. DeSalle, G. Giribet & W. C. Wheeler (Eds.). Techniques in Molecular Systematics and Evolution. Birkhauser. Pp. 4-30. [ Links ]

WHEELER, W. C. 2003. Implied alignment: A synapomorphy-based multiple-sequence alignment method and its use in cladogram search. Cladistics 19: 261-268. [ Links ]

WHEELER, Q. D. & R. MEIER. 2000. Species concepts and phylogenetic theory. A debate. Columbia University Press, Columbia. 230 p. [ Links ]

WIENS, J. J. 2001. Character analysis in morphological phylogenetics: problems and solutions. Systematic Biology 50 (5): 689-699. [ Links ]

WIENS, J. J. & M. R. SERVEDIO. 1997. Accuracy of phylogenetic analysis including and excluding polymorphic characters. Systematic Biology 46 (2): 332-345. [ Links ]

WILEY, E. O. 1981. Phylogenetics: The theory and practice of phylogenetic systematics. John Wiley & Sons, New York. 439 p. [ Links ]

WILLIAMS, D. M. 1992. DNA analysis: theory. In: P. L. Forey, C. J. Humphries, I. L. Kitching, R. W. Scotland, D. J. Siebert & D. M. Williams (Eds.). Cladistics: A Practical course in Systematics. Clarendon Press. Pp. 89-101. [ Links ]

WILSON, R. A. 1999. Species. New interdisciplinary essays. The MIT Press, Cambridge. 235 p. [ Links ]

YANG, Z. 1996. Phylogenetic analysis using parsimony and likelihood methods. Journal of Molecular Evolution 42: 294-307. [ Links ]

YANG, Z. 1997. How often do wrong models produce better phylogenies?. Molecular Biology and Evolution 414: 105-108. [ Links ]

YANG, Z., N. GOLDMAN & A. E. FRIDAY. 1995. Maximum likelihood trees from DNA sequences: A peculiar statistical estimation problem. Systematic Biology 44 (3): 384-399. [ Links ]