Información

¿Cómo construir un árbol filogenético sin un grupo externo?

¿Cómo construir un árbol filogenético sin un grupo externo?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Tengo secuencias alineadas del genoma completo de cuatro poblaciones de escarabajos de la misma especie. Deseo construir un árbol filogenético con los cuatro. Sin embargo, no puedo encontrar un grupo externo adecuado de la especie, por lo que no puedo usar un grupo externo para enraizar el árbol. ¿Existe un método en particular que se pueda utilizar para construir un árbol sin un grupo externo? Descubrí que el software MEGA lo hace bien. ¿Cuál es la teoría y la comprensión de la construcción de un árbol sin un grupo externo? ¿Cuáles son las implicaciones de construir un árbol sin un grupo externo? ¿Se miden las distancias entre árboles en relación con los demás?


La mayoría de los algoritmos clásicos de reconstrucción de filogenia enraizan el árbol a posteriori, según el grupo externo elegido por el usuario. En realidad, el árbol se infiere y se representa internamente sin raíz.

Por lo tanto, si utiliza un programa que le pide un grupo externo, es probable que pueda elegir uno arbitrario y luego "desarraigar" el árbol obtenido.


Construcción estudiantil de árboles filogenéticos en un curso de introducción a la biología.

Los árboles filogenéticos se han vuelto cada vez más esenciales en todas las disciplinas de la biología. En consecuencia, aprender sobre árboles filogenéticos se ha convertido en un componente importante de la educación en biología y en un área de interés para la investigación en educación en biología. Las tareas de construcción, en las que los estudiantes generan árboles filogenéticos a partir de algún tipo de datos, se utilizan a menudo para la instrucción. Sin embargo, el impacto de estos ejercicios en el aprendizaje de los estudiantes es incierto, en parte debido a nuestro conocimiento fragmentado de lo que los estudiantes construyen durante las tareas. El objetivo de este proyecto fue desarrollar un método más sólido para describir árboles filogenéticos generados por los estudiantes, que apoyará las investigaciones futuras que intentan vincular las tareas de construcción con el aprendizaje de los estudiantes.

Resultados

A través del examen iterativo de los datos de un curso de introducción a la biología, desarrollamos un método para describir los árboles filogenéticos generados por los estudiantes en términos de estilo, convencionalidad y precisión. Los estudiantes usaron el estilo diagonal con más frecuencia que el estilo de soporte para las tareas de construcción. La mayoría de los árboles filogenéticos se construyeron de manera convencional y la orientación variable de las ramas fue la característica no convencional más común. Además, la mayoría de los árboles filogenéticos se generaron correctamente (sin errores) o adecuadamente (solo errores menores) en términos de precisión. Sugerir que los taxones existentes descienden de otros taxones existentes fue el error principal más común, mientras que las ramas vacías y los nodos adicionales fueron errores menores muy comunes.

Conclusiones

El método que desarrollamos para describir árboles filogenéticos construidos por estudiantes descubrió varias tendencias que merecen una mayor investigación. Por ejemplo, mientras que los árboles filogenéticos diagonales y corchetes contienen información equivalente, la preferencia de los estudiantes por usar el estilo diagonal podría afectar la comprensión. Además, a pesar de la falta de instrucción explícita, los estudiantes generaron árboles filogenéticos que eran en gran parte convencionales y precisos. Sorprendentemente, la precisión y la convencionalidad también dependían entre sí. Nuestro método para describir árboles filogenéticos construidos por estudiantes se basa en datos de un curso de introducción a la biología en una institución, y es probable que los resultados sean limitados. Alentamos a los investigadores a utilizar nuestro método como base para desarrollar una herramienta más generalizable, que apoyará futuras investigaciones que intenten vincular las tareas de construcción con el aprendizaje de los estudiantes.


Materiales y métodos

Muestreo de taxones y caracteres

Para probar las relaciones de los crocodilomorfos talattosuquios, realicé un análisis filogenético de 394 caracteres morfológicos puntuados para ocho taxones externos y 78 endogrupos, incluidas 24 especies de talatosuquios (Apéndice 1 en línea disponible como Material complementario sobre dríadas en http: //dx.doi. org / 10.5061 / dryad.00ss6). Este nuevo conjunto de datos es una versión modificada del presentado en Wilberg (2015) con la adición de 10 nuevos caracteres y la modificación de muchos otros (Apéndice 2 en línea disponible como Material Suplementario sobre Dryad en http://dx.doi.org/ 10.5061 / dryad.00ss6). Para minimizar los errores en la codificación de caracteres, centré el muestreo intragrupal en muestras que podía observar de primera mano o en aquellas con descripciones publicadas detalladas. Hice un esfuerzo por muestrear ampliamente de todos los principales grupos de crocodilomorfos. El muestreo de taxón dentro de Thalattosuchia se centró en capturar la amplia gama de morfologías presentes en el grupo a lo largo de toda su duración temporal. El muestreo de grupos externos se incrementó a partir de análisis anteriores con la intención de caracterizar mejor la distribución de los estados de carácter en los no cocodiliformes. El suchian basal Gracilisuchus se utilizó para enraizar el árbol en función de su posición en el análisis a gran escala de Archosauria realizado por Nesbitt (2011). El rauisuchid (sensu Nesbitt 2011) Postosuchus kirkpatricki se incluyó por dos razones principales. Primero, Rauisuchidae se ha recuperado con frecuencia como el grupo hermano de Crocodylomorpha, justo fuera de la "Sphenosuchia" filogenéticamente inestable (por ejemplo, Benton y Clark 1988 Parrish 1993 Juul 1994 Nesbitt 2011). Segundo, Postosuchus kirkpatricki es bien conocido por múltiples especímenes que representan casi el esqueleto completo que permite la puntuación de la mayoría de los personajes. También se muestrearon seis taxones "esfenosuquios". Tres de estos se han recuperado como el taxón hermano de Crocodyliformes en análisis anteriores (Junggarsuchus sloani, Clark y col. 2004 Kayentasuchus walkeri, Nesbitt 2011 Almadasuchus figarii, Pol y col. 2013). La inclusión de estos taxones proporcionará una prueba más estricta de la ubicación potencial de Thalattosuchia como el grupo hermano de Crocodyliformes. Para evaluar la sensibilidad de la topología al muestreo de grupos externos, el análisis también se ejecutó en tres permutaciones: Excluyendo el suchian basal Gracilisuchus (arraigando en Postosuchus) excluyendo los taxones distintos de los cocodrilomorfos Gracilisuchus y Postosuchus (arraigando en Hesperosuchus agilis) y excluyendo todos los no cocodriliformes y el enraizamiento en el protosuquio Orthosuchus stormbergi como en algunos análisis publicados (por ejemplo, Sereno y Larsson 2009).

Al igual que con cualquier análisis filogenético paleontológico, el conjunto de datos del estudio contiene cantidades relativamente altas de datos faltantes (40,75% faltantes o inaplicables). Gran parte de los datos faltantes se concentran en los caracteres poscraneales, ya que numerosos taxones de crocodilomorfos se conocen principalmente a partir del material craneal. Tres taxones (Zaraasuchus shepardi, Eoneustes gaudryi, y Steneosaurus brevidens) son muy incompletas (80-82%), mientras que la mediana de la incompletitud por taxón es ~ 36%. Sin embargo, aunque se ha demostrado que los datos faltantes reducen la precisión filogenética (p. Ej., Wiens 2003 Prevosti y Chemisquy 2010 y sus referencias), la cantidad de datos faltantes no se correlaciona directamente con el contenido de información de un taxón. Un taxón muy incompleto aún puede aumentar la resolución si contiene información sinapomórfica informativa (Kearney y Clark 2003 Wiens 2003).

Análisis de parsimonia

El conjunto de datos filogenéticos se analizó en TNT v1.1 (Goloboff et al. 2008) utilizando una parsimonia igualmente ponderada. Se encontraron árboles de longitud mínima usando una búsqueda heurística con 1000 réplicas de árboles de Wagner usando secuencias de adición aleatorias seguidas de bisección y reconexión de árboles (TBR) intercambio de ramas. Los árboles más cortos obtenidos de estas réplicas se sometieron a una ronda final de intercambio de ramas de TBR para garantizar que se descubrieran todos los árboles de longitud mínima. Las ramas de longitud cero se colapsaron si carecían de apoyo bajo alguno de los árboles de longitud mínima (Regla 1 de Coddington y Scharff 1994). Se realizaron dos análisis separados. En el primero, para probar el efecto de conjuntos de homologías potencialmente anidados presentes en algunos caracteres multiestado, se trataron 36 caracteres como ordenados (Apéndice 2 en línea disponible como Material complementario sobre Dryad en http://dx.doi.org/10.5061/dryad .00ss6). En el segundo, los caracteres multiestado se trataron como desordenados para evitar hacer a priori supuestos sobre el proceso de evolución (aunque se ha cuestionado si tratar tales personajes como desordenados implica supuestos mejor justificados, por ejemplo, Lipscomb 1992 Slowinski 1993).

Soporte nodal

El soporte nodal se evaluó utilizando un remuestreo de navaja aplicado a los datos de los caracteres (Farris et al. 1996). El soporte Jackknife se calculó en TNT usando 1000 repeticiones con la probabilidad de eliminación de caracteres independientes establecida en 0.37 (∼e −1 como se recomienda en Farris et al. 1996). Se empleó una búsqueda heurística con cada réplica consistente en 10 secuencias de adición aleatorias, salvando 10 árboles por réplica. Las topologías resultantes se resumieron utilizando frecuencias GC (diferencia entre la frecuencia de recuperación de un grupo dado y el grupo contradictorio más frecuente Goloboff et al. 2003). Se prefieren las frecuencias GC a las frecuencias absolutas (el método estándar de contar frecuencias en los análisis bootstrap y jackknife) porque explican la evidencia en apoyo de un clado, así como la cantidad de evidencia que falsifica ese clado.

Matrices comparativas

Para evaluar el efecto del muestreo de grupos externos en la topología de los árboles, se investigaron dos matrices de caracteres taxonómicos de crocodilomorfos previamente publicadas (Turner y Buckley 2008 Sereno y Larsson 2009). El análisis de Turner y Buckley (2008) consta de 75 taxones y 290 caracteres e incluye Gracilisuchus stipanicicorum, Terrestrisuchus gracilis, y Dibothrosuchus elaphros como taxones externos (arraigados en Gracilisuchus). El análisis de Sereno y Larsson (2009) incluye 43 taxones y 252 caracteres (enraizados en el protosuquio Orthosuchus stormbergi). Ambas matrices se mantuvieron inalteradas con la excepción de la adición de nuevos taxones externos. En el caso de Turner y Buckley (2008), el taxón terminal único Postosuchus kirkpatricki fue añadido. A efectos comparativos, tanto Postosuchus y Gracilisuchus se agregaron al conjunto de datos de Sereno y Larsson (2009). Estos conjuntos de datos se analizaron utilizando parsimonia no ponderada en TNT v. 1.1 y los mismos parámetros de búsqueda descritos anteriormente. Ambos análisis incorporaron caracteres aditivos y estos se conservaron como tales. Gracilisuchus se estableció como la raíz de ambas matrices. Todos los conjuntos de datos filogenéticos están disponibles como material complementario sobre Dryad en http://dx.doi.org/10.5061/dryad.00ss6.


Cómo construir un árbol filogenético en Geneious Prime

Los árboles filogenéticos se utilizan para inferir relaciones evolutivas entre secuencias. Geneious puede construir árboles filogenéticos utilizando métodos de distancia, máxima probabilidad o bayesianos. Esta guía describe los pasos básicos para construir un árbol y manipular el visor de árboles en Geneious.

Antes de embarcarse en la construcción de su árbol, debe familiarizarse con los principios de la construcción de árboles y las fortalezas y debilidades de cada método. La revisión a continuación es un buen lugar para comenzar.

1. Alinea tus secuencias

Antes de poder construir un árbol filogenético, necesita alinear sus secuencias. Para hacer esto, seleccione todas sus secuencias y elija Alinear / Ensamblar - Alineación múltiple. Este enlace proporciona una guía de los algoritmos disponibles.

Una vez que esté satisfecho con su alineación, selecciónela y haga clic en Árbol para abrir las opciones de construcción de árboles.

2. Elija su generador de árboles y sus parámetros

En la parte superior de las opciones de construcción de árboles, verá los algoritmos de construcción de árboles disponibles. Esto incluye el Geneious Tree Builder incorporado (y el constructor de Consensus Tree) y cualquier complemento que haya instalado.

Geneious Tree Builder produce árboles de distancia utilizando los métodos de unión de vecinos o UPGMA. Además, los siguientes complementos están disponibles para producir árboles de máxima verosimilitud, parsimonia o bayesianos:

RAxML: máxima probabilidad, optimizado para grandes conjuntos de datos

FastTree: probabilidad máxima aproximada, para conjuntos de datos extremadamente grandes

PAUP *: parsimonia o probabilidad máxima (requiere su propia copia de PAUP *, ya sea la versión 4.0b10 o 4.0a149 y superior a partir de aquí)

Más información sobre los constructores de árboles de máxima probabilidad está disponible en este enlace.

Cada generador de árboles tiene una interfaz diferente para especificar el modelo evolutivo y otros parámetros. Le sugerimos que consulte el manual de usuario de cada constructor de árboles para familiarizarse con las opciones disponibles. Es posible que también desee utilizar un programa como Modeltest fuera de Geneious para determinar el mejor modelo para sus datos antes de construir el árbol.

3. Ejecute su árbol

Haga clic en Aceptar para comenzar la construcción de su árbol. El tiempo que lleva construir el árbol variará según el algoritmo que haya elegido, el tamaño de su alineación y los parámetros (como el número de réplicas de bootstrap) que haya elegido. Los árboles de distancia normalmente se completan con bastante rapidez (en minutos), pero la probabilidad máxima y los árboles bayesianos pueden tardar horas o incluso días en ejecutarse.

4. Ver su árbol

Cuando su árbol haya terminado de ejecutarse, se creará un nuevo documento de árbol y se abrirá automáticamente en el visor. De forma predeterminada, Geneious muestra los árboles en un diseño rectangular (enraizado), incluso si el árbol no está enraizado. Las opciones para formatos circulares o radiales se pueden encontrar en el General pestaña, junto con los controles de Zoom.

Si desea enraizar su árbol, haga clic en el nodo del taxón que desea especificar como el grupo externo y haga clic en Raíz. Para voltear la posición de los taxones verticalmente, sin cambiar la topología, use el Hermanos de intercambio opción.

Los controles en la parte superior del visor también contienen opciones para colorear y configurar los tamaños de fuente en su árbol. Para colorear un clado completo, seleccione el nodo en la base del clado y seleccione Nodos de color.


1 respuesta 1

Necesita soporte de bootstrap usando un algoritmo de construcción de árboles basado en modelos, a través de la máxima probabilidad (algunas personas usan Bayes). El formato de archivo es un formato phylip relajado (envíe una pregunta por separado si tiene dificultades aquí, es un poco complicado).

Utilizo RAxML estándar aquí, específicamente raxmlHPC (se puede descargar fácilmente y se compila en Linux y OSX). Los códigos son bastante complicados y los he dado a continuación.

Un árbol robusto de máxima verosimilitud es,

Este árbol arrancará para 500 réplicas, sin embargo, para empezar, usaría 100 réplicas.

Haz un árbol de consenso de los bootstraps,

Necesita soporte de arranque> 80% y repita esto con y sin 5-2 / 5-3 (todavía parece largo)

El clúster al que tiene acceso está bien para el cálculo, tomará alrededor de 24 horas completar un cálculo de arranque para un conjunto de datos y obviamente necesita paralelizar su cálculo en los 22 contigs.

Ver el árbol, FigTree (para Mac OSX) es fácil.

El enraizamiento puede ser complicado porque realmente no conozco tus bacterias.

El tema de la recombinación es más complicado, pero construiría 22 árboles a partir de sus contigs y evaluaría su congruencia. Panmixia es un problema, lo que significa demasiada recombinación.


Cómo leer un árbol filogenético

Han pasado más de 50 años desde que Willi Hennig propuso un nuevo método para determinar las relaciones genealógicas entre especies, al que llamó sistemática filogenética. Sin embargo, muchas personas todavía se acercan al método con cautela, preocupadas de tener que lidiar con una abrumadora cantidad de términos y conceptos nuevos. De hecho, leer y comprender los árboles filogenéticos no es nada difícil. Solo necesitas aprender tres palabras nuevas, autapomorfia, sinapomorfia y plesiomorfia. Todos los demás conceptos (por ejemplo, antepasados, grupos monofiléticos, grupos parafiléticos) son conceptos familiares que ya formaban parte de la evolución darwiniana antes de que Hennig llegara a la escena.

Dan Brooks y yo enseñamos un curso de biodiversidad (EEB 265) a estudiantes de segundo año en la Universidad de Toronto. Todo el curso está estructurado en torno a un marco filogenético. Comenzamos con el gran, aunque simplificado, árbol de los Metazoos, luego avanzamos desde las esponjas hasta las serpientes, enfocándonos en los personajes que unen a los grupos y los personajes que hacen que cada grupo sea único. Si estamos haciendo nuestro trabajo correctamente, nuestros estudiantes deberían poder responder las siguientes preguntas: ¿qué es este animal (cómo lo sabes)? ¿Qué hace? ¿Qué lo hace especial? ¿Qué aspectos de su biología la hacen vulnerable a la intervención antropogénica? Dado que todos los estudiantes ya habían realizado un laboratorio en el primer año de biología que cubría los fundamentos de la filogenética, asumimos que no necesitaríamos revisar la metodología filogenética en nuestro curso de biodiversidad. No nos tomó mucho tiempo darnos cuenta de que nuestra suposición era ingenua cuando muchos de los estudiantes llegaron a EEB 265, ya habían presionado el botón de borrar junto a "filogenética" en su cerebro. ¡Siempre es una lección de humildad descubrir que no todo el mundo comparte sus puntos de vista sobre las cosas interesantes e importantes de la vida!

De vuelta a la mesa de dibujo. Uno de los principales problemas de impartir un curso sobre diversidad de metazoos es que simplemente no tienes tiempo suficiente para cubrir todos los grupos. Lo último que queríamos hacer era sacrificar conferencias basadas en biología por una discusión sobre teoría. Entonces, el desafío era simple: diseñar una conferencia que, en 50 minutos, enseñara a los estudiantes a comprender lo que les decía un árbol filogenético. No era nuestra intención enseñar a los estudiantes cómo hacer árboles, solo cómo leerlos. Este artículo se basa en esa conferencia.

La palabra "filogenia" es una combinación de dos palabras griegas, phyle (tribu, en particular, la subdivisión política más grande en el antiguo estado ateniense [www.yourdictionary.com www.etymonline.com]: otra palabra que obtenemos de esto es "phylum") y geneia (origen [www.etymonline.com]: otra palabra que obtenemos de esto es “gen”). Fue acuñado por el biólogo del desarrollo Ernst Haeckel en 1866 y luego defendido por Darwin en su famosa obra, En el origen de las especies (comenzando con la quinta edición en 1869). Ambos biólogos vincularon la idea de "filogenia", el origen de los grupos, a la evolución. Por tanto, los árboles filogenéticos son simplemente diagramas que representan el origen y la evolución de grupos de organismos.

Aunque quizás no lo sepas, todos estamos familiarizados con la idea de árboles filogenéticos. La gente ha estado haciendo estos árboles durante décadas, sustituyendo la palabra "familia" por "filogenético" (Fig. 1). Así como las personas individuales de una familia durante generaciones están conectadas por lazos de "sangre" (el proceso de reproducción que produce descendencia), las especies individuales están conectadas por lazos evolutivos (procesos biológicos como la selección natural y procesos geológicos como la deriva continental o un río cambio de rumbo que producen especies). En este sentido, especiación (la producción de nuevas especies) = reproducción (la producción de nuevos individuos). En otras palabras, todos somos, desde miembros de la misma familia hasta miembros de la misma especie, conectados por genes.

Árbol genealógico de un grupo interesante de personas. En términos filogenéticos, árboles genealógicos (genealogías de personas) = ​​árboles filogenéticos (genealogías de especies)

Los árboles genealógicos tienden a dibujarse como si estuvieran colgando boca abajo, como un racimo de uvas. Los árboles filogenéticos se representan de manera algo diferente. Imagina que estás sosteniendo el árbol genealógico de los grandes felinos que se muestra en la figura 2a. Ahora, gírelo hacia los lados (gírelo 90 ° en sentido antihorario) y tendrá la imagen que se muestra en 2b. Gire esta imagen otros 90 ° en sentido antihorario, alísela y tendrá la imagen que se muestra en la Fig.2c (esta forma de árbol fue la que utilizó Darwin en En el origen de las especies). Lo importante a recordar es que las tres representaciones dicen exactamente lo mismo sobre las relaciones entre las especies de grandes felinos. La forma en que elija dibujar sus árboles filogenéticos depende, en parte, de sus preferencias personales: algunas personas encuentran más fácil leer 2b, otras prefieren 2c.

aC Tantas formas de dibujar un árbol familiar / filogenético para el género Panthera

Los árboles filogenéticos se reconstruyen mediante un método llamado "sistemática filogenética" (Fig. 3). Este método agrupa grupos de organismos basados ​​en caracteres únicos y compartidos llamados sinapomorfias. Por ejemplo, comparte la presencia de una columna vertebral con los gatos, pero no con las mariposas. La presencia de una columna vertebral nos permite plantear la hipótesis de que los seres humanos están más estrechamente relacionados con los gatos que con las mariposas (Fig. 4a) los gatos y las personas tienen una columna vertebral, las mariposas no tienen espinas Nota al pie 1. No todos los personajes son sinapomorfias. Algunos rasgos, llamados plesiomorfias, son compartidos por todos los miembros de un grupo. Al regresar a nuestro árbol, vemos que los gatos, las personas y las mariposas tienen ADN (Fig. 4b). La presencia de ADN nos permite plantear la hipótesis de que estas tres especies son parte del mismo grupo, pero no nos dice nada sobre cómo esas especies se relacionan entre sí. Piénsalo de esta manera: mi apellido me dice que soy parte del clan McLennan. Si conozco a alguien llamada Jessie McLennan, sé que estamos relacionados de alguna manera, pero no tengo ni idea de si es una prima perdida hace mucho tiempo o alguien de una rama más lejana del árbol genealógico. El último término que necesita saber es autapomorfia: Rasgos que solo se encuentran en un miembro del grupo. Por ejemplo, las mariposas se pueden distinguir de los gatos y las personas porque tienen un exoesqueleto hecho de quitina (un derivado resistente e impermeable de la glucosa). Las autapomorfias nos ayudan a identificar una especie en particular en un grupo pero, como las plesiomorfias, no nos dicen nada sobre las relaciones dentro del grupo. En general, estos tres tipos de personajes se pueden comparar con la historia de Ricitos de Oro: las plesiomorfías son demasiado calientes (demasiado generalizadas), las autapomorfias son demasiado frías (demasiado restringidas) y las sinapomorfias son las correctas (para determinar las relaciones filogenéticas).

La base de la sistemática filogenética.

Identificar tipos de caracteres en un árbol filogenético. a una sinapomorfia B una plesiomorfia C una autapomorfia

Basta de personajes por el momento de vuelta a los propios árboles. ¿Por qué las ramas de un árbol tienen nombres (por ejemplo, león, tigre, etc.), mientras que las líneas que unen diferentes ramas no los tienen (Fig. 5)? Esto se debe a que estas líneas representan antepasados. Un antepasado es una especie que ha sufrido un evento de especiación para producir especies descendientes. El antepasado suele "desaparecer" en el proceso de especiación. ¿Significa esto que el antepasado se extingue?

Encontrar ancestros en un árbol filogenético

Para responder a esto, debemos hacer algún tiempo viajando cargando un dispositivo digital que registre todo lo que vemos (Fig. 6). Imagina que viajas hacia atrás 10,000,000 años, luego te detienes, intrigado por una interesante especie de lagarto con manchas rojas en todo el lomo (especie A). Después de un tiempo, decides avanzar en el tiempo cinco millones de años más o menos y luego detenerte nuevamente. Busca a su alrededor y descubre dos nuevas especies de lagartos, una con manchas azules en la espalda (especie B) y la otra con rayas rojas (especie C), pero la especie A no se ve por ningún lado. ¿Se extinguió? Miras hacia atrás en tu grabación digital de esos cinco millones de años y descubres que la especie A se dividió en dos grupos, que se volvieron diferentes entre sí de alguna manera a lo largo del tiempo. En términos evolutivos, la especie A es un ancestro (ancestro 1) y las especies B y C son sus descendientes. Avance rápido hasta hoy (con más material digital para ver) y encontrará tres especies de lagarto: su viejo amigo, el lagarto manchado azul (especie B) y dos nuevos lagartos (descendientes de la especie C, el lagarto rayado rojo), uno con azul rayas (especie D) y la otra con dorso negro sólido (especie E). Hoy, entonces, solo hay tres especies de lagartijas vivas. Ya no ves a ninguno de los antepasados ​​(las lagartijas con manchas rojas y rayas rojas), pero todavía las mostramos en el árbol filogenético.

Viajando en el tiempo para descubrir a los antepasados

La respuesta a nuestra pregunta original "¿se extinguió el antepasado?" es así ¡No! En muchos casos, el antepasado se subdivide y la información biológica (genética) incluida en el antepasado se transmite a la especie descendiente. Con el tiempo, los descendientes cambian y se vuelven diferentes entre sí y del antepasado, al tiempo que conservan algunas cosas en común (por ejemplo, todas nuestras especies de lagartos tienen una columna vertebral). Esta es la evolución.

Entonces, ¿qué cuenta realmente como extinción? La extinción es la pérdida de información biológica, la pérdida física de una especie. Por ejemplo, considere un árbol filogenético simplificado de los dinosaurios (Fig. 7). Todos los grupos en las ramas punteadas están extintos; ninguna de las especies de esos grupos existe ya en este planeta (a pesar de Jurassic Park), lo que significa que toda la información que estaba único a cada uno de esos grupos se ha perdido. El único grupo que logró evitar la extinción fue Aves (o aves); las especies aviares son los últimos dinosaurios que quedan.

Extinciones reales. Los grupos representados con líneas punteadas están extintos, por lo que todos los rasgos genéticos, morfológicos, fisiológicos, ecológicos y de comportamiento que son únicos para cada grupo se han perdido en la biosfera.

Bien, tomemos lo que hemos aprendido sobre ancestros y grupos de agrupamiento basados ​​en caracteres únicos y compartidos (sinapomorfias) y usémoslo para descifrar la información contenida dentro de un árbol filogenético. Aquí hay un árbol que representa las relaciones entre los miembros vivos de Amniota, un gran grupo de vertebrados que incluye a la mayoría de los animales con los que está familiarizado (Fig. 8). Ya sabes que los nombres de las especies, o grupos de especies, están escritos en las puntas de las ramas del árbol. Lo siguiente que debe saber es que los personajes están representados en su punto de origen en un árbol filogenético. Entonces, en este árbol se puede ver que (1) el huevo amniótico se originó en el antepasado 1 y se transmitió a todos sus descendientes (mamíferos, antepasado 2, tortugas, antepasado 3, antepasado 4, cocodrilos, aves, antepasado 5, tuátaras y lagartijas más serpientes). En términos evolutivos, el huevo amniótico es un rasgo único que es compartido solo por el antepasado 1 y todos sus descendientes (2) un tipo especial de proteína de la piel (queratina β) se originó en el antepasado 2 y se transmitió a todos sus descendientes ( tortugas, antepasado 3, antepasado 4, cocodrilos, aves, antepasado 5, tuátaras y lagartos más serpientes). La queratina β es un rasgo único compartido por el grupo llamado “Reptilia” y (3) una cola rompible se originó en el ancestro 5 y fue transmitida a todos sus descendientes (tuátaras, lagartos más serpientes). Una cola quebradiza es un rasgo único compartido por los miembros del grupo tuataras + lagartos + serpientes.

Cómo leer caracteres en un árbol filogenético

De hecho, cada organismo es un mosaico complejo de miles de rasgos. Si no crees esto, siéntate y haz una lista de todos los rasgos que te hacen ser tú. Además de las cosas obvias como el color de ojos y el color del cabello, no olvide el hecho de que tiene ARN, ADN, células individuales, un extremo anterior y posterior, un cráneo, mandíbulas, huesos, brazos y piernas, provienen de un amniótico. huevo, tienen tres huesos en el oído interno, fueron amamantados con leche producida en las glándulas mamarias, tienen un pulgar oponible y no tienen cola. En otras palabras, cuando observe un árbol filogenético, verá que todas las ramas tienen al menos uno, y más probablemente muchos, caracteres en ellos (las marcas de barra en la Fig. 9a). Debido a esto, a menudo es difícil etiquetar todos los rasgos en un árbol porque distrae visualmente. Se ha desarrollado un método abreviado para tratar este problema: dibuje el árbol que muestre las relaciones entre los grupos (Fig. 9b) y enumere las sinapomorfias para cada rama en otra parte de una tabla. Por otro lado, si está interesado en uno o más rasgos particulares, puede resaltarlos en el árbol filogenético sin mostrar todos los demás caracteres. Por ejemplo, si quisiera discutir la evolución de los mamíferos, podría mostrar el árbol de amniote y resaltar solo las sinapomorfías de los mamíferos (por ejemplo, tres huesos del oído medio: Fig. 9c). Recuerde, ¡esto es solo una taquigrafía!

aC Representando personajes en un árbol filogenético

Hay una última cosa sobre los personajes que es importante entender: los personajes no son cosas estáticas. Evolucionan con el tiempo. En otras palabras, una "sinapomorfia" puede no "verse igual" en todas las especies que la tienen. Entonces, por ejemplo, considere el estribo, uno de los tres huesos del oído medio que son responsables de transferir las ondas sonoras del tímpano a la membrana del oído interno. Este pequeño hueso tiene una historia evolutiva larga, complicada y fascinante. Para comprender esa historia, debemos retroceder muchos cientos de millones de años hasta el origen de los Deuterostomos, un gran grupo que incluye a los Echinodermata (estrellas de mar y sus parientes), Hemichordata (gusanos, criaturas marinas) y Chordata ( amphioxus + tunicados + Craniata [organismos con cráneos]). El antepasado de este gran grupo tenía numerosas hendiduras en la faringe (llamadas arcos viscerales) que estaban involucradas con la alimentación por filtración. Pasó el tiempo y aparecieron las varillas cartilaginosas que daban soporte a los arcos, se subdividieron y modificaron. La sección superior de la segunda varilla del arco visceral es el foco de nuestro relato (Fig. 10). A medida que avanzamos aún más en el tiempo, este personaje sufre varias modificaciones estructurales y posicionales en esencia, se vuelve más grande, más robusto y participa en el soporte de las mandíbulas (en cuyo punto se llama hiomandibula), cambia de cartílago a hueso, luego comienza una reducción gradual de tamaño, se suelta del área de la mandíbula / mejilla y se mueve hacia el oído medio (en cuyo punto se llama estribo). Entonces, en general, la porción superior del segundo arco visceral —hiomandibula— estribo es la misma estructura que ha tenido tanto su forma como su función modificadas durante cientos de millones de años. Entonces, aunque la presencia de una "varilla cartilaginosa en el segundo arco visceral que se encuentra en la región de la garganta" puede ser una sinapomorfia para los Craniata, no encontrará esa estructura exacta en ningún animal de cuatro patas. En cambio, lo que encontrará es la modificación de esa varilla cartilaginosa, el estribo. La evolución continua de un carácter particular más allá de su punto de origen se denomina serie de transformación evolutiva.

Las sinapomorfias no son estáticas, pueden seguir evolucionando. Los cambios en el carácter "porción superior del segundo arco visceral" [hyomandibula, estribo] se trazan en el árbol filogenético de los Chordata (animales con notocorda). Tanto la historia como el árbol filogenético se han simplificado sustancialmente para enfatizar la idea del origen y la modificación del personaje en lugar de los detalles más finos de la evolución del personaje. Nombres en cursiva se refieren a especies extintas conocidas a partir de fósiles. Los dibujos lineales y las fotografías de varias estructuras y especies se pueden encontrar fácilmente en la web.

Lo siguiente que deben saber los estudiantes de filogenética es cómo reconocer diferentes tipos de grupos de organismos. Hay dos tipos generales de grupos, uno "bueno" y otro "malo".

Comencemos con "los buenos", un grupo monofilético (Fig. 11). La palabra "monofilético" es una combinación de dos palabras griegas, monos (soltero) y phyle (tribu). Fue acuñado por nuestro viejo amigo Ernest Haekel, quien, como recordarás, también inventó la palabra filogenia. A monophyletic group includes an ancestor and todos de sus descendientes. It is identified by the presence of shared, unique characters (synapomorphies). Each phylogenetic tree contains as many monophyletic groups as there are ancestors. For example, looking at the tree in Fig. 11, we can identify five monophyletic groups, only two of which are shown on Fig. 12 (I’ll leave it up to you to discover the other three).

Identifying monophyletic groups

Two of the five monophyletic groups on the hypothetical tree

Now onto “the bad.” The word “paraphyletic” is, once again, a combination of two Geek words, paraca (near) and phyle (tribe), so the implication is that the whole tribe is not present (Fig. 13). Paraphyletic groups include an ancestor but no todo de sus descendientes. On this hypothetical tree, species C has been eliminated from the group, even though it is a descendant of ancestor 1 just like the rest of the species. Paraphyletic groups are problematic because they mislead us about how characters evolve and how species are related to one another. For example, let’s consider the big tree for the Amniota and highlight the “old” Reptilia, one of the most famous paraphyletic groups (Fig. 14). Even today people still speak about three distinct classes, the reptiles, the birds, and the mammals. When you look at this figure, what is wrong about the class Reptilia, the way it is drawn?

Identifying paraphyletic groups

The most famous paraphyletic group, the reptiles

Right! In (Fig. 15) Ancestor 2 is the ancestor of all the reptiles but, as highlighted on this figure, the Reptilia does not include all of ancestor 2’s descendants ancestor 4 and the birds have been removed from the group. The only way to make the Reptilia a monophyletic group is to redefine the term to include crocodiles, turtles, tuataras, lizards, snakes, y aves. In the past, birds were not considered to be reptiles because they are warm-blooded (in fact, they were often grouped with mammals because of that trait). But phylogenetic studies have demonstrated that birds are indeed reptiles because they share many morphological, behavioral, and molecular characters with other reptilian species in general (synapomorphies originating in ancestor 2 e.g., β keratin), y they share many characters with crocodiles in particular (synapomorphies originating in ancestor 4 e.g., holes in the skull just in front of the eyes).

How to make the Reptilia monophyletic

Why is it important to have monophyletic groups? Say you wanted to figure out how red hair appeared in your family. What would be your chances of tracking down your original red-haired ancestor if no records were kept about the union between your great-great-great-great grandfather Sven and his Irish bride Maggie? Missing information creates problems for any research, be it genealogical or evolutionary, and paraphyletic groups are missing information. In evolutionary terms, monophyletic groups are “real” biological units that is, they are the product of descent with modification (an ancestor and all of its descendants) and as such can be used to study the evolutionary processes that produced them. Paraphyletic groups, on the other hand, are the product of “human error” arising from incomplete or flawed information (e.g., poor descriptions of characters). Using such groups to study evolutionary processes will direct us along misleading and confusing pathways.

Why do we use phylogenetic trees? There are many ways to answer this question (and many papers/books written about it), but the most general answer is that trees summarize valuable information about the evolution of organisms that allows us to understand them better. For example, here’s the family tree for the Hominoidea, the group that includes us and all of our closest relatives (Fig. 16). When you look at the distribution of characters on this tree you can see that a number of traits we associate only with human beings, such as hunting, infanticide, tool making, self-awareness, and language, originated long before Homo sapiens. In other words, human beings are not as unique as you might think. If we want to understand how and why those traits evolved, we must study their expression and function in ourselves and in our relatives. So much information from just one phylogenetic tree!


Phylogenetic Trees Tutorial

Investigate the evolutionary origins of HIV

Nota: To complete the tutorial with the referenced data please download the tutorial above and install in Geneious Prime.

In this tutorial, you will use Geneious Prime to investigate the evolutionary origins of human immunodeficiency viruses (HIVs) using molecular phylogenetic tools. You will learn how to align sequences and build a phylogenetic tree, as well as how to view and manipulate the tree to answer questions on the origins of HIV-1.

Introduction: Human and Simian Immunodeficiency Viruses

HIVs, the causes of acquired immune deficiency syndrome (AIDS), are closely related to simian (monkey and ape) immunodeficiency viruses (SIVs). These and other similar viruses are retroviruses. Retroviruses are characterised by their RNA genomes, which once inside a host cell, are reverse transcribed into DNA and then integrated into the host cell’s genome. The integrated viral genome is known as a provirus. You will be working with proviral DNA sequences.

The origins of HIVs were mysterious when these viruses were first discovered in the early 1980s. There are two types of HIVs. HIV type 1 (HIV-1) is more widespread and causes more severe disease than HIV type 2 (HIV-2). HIV-1 is also far more diverse than HIV-2. HIV-1 is classified into three major groups: M, N, and O. The viruses causing the AIDS pandemic (widespread epidemic) belong to Group M. Group M is subdivided into several subtypes. You will be analysing sequences from HIV-1 Group M Subtypes A, B, C, D, F, G, H, J, K. The HIV-1 viruses infecting people in North America, Europe and Australia are mostly from Group M Subtype B. All groups and subtypes of HIV-1 and HIV-2 are found in Africa.

Both HIV-1 and HIV-2 are closely related to SIVs found in a variety of African primate species. This lead early on to researchers hypothesising that HIVs had jumped to humans from one or more African primate species. It was suggested that close contact between humans and monkeys that were kept as pets or hunted for food had allowed the SIVs to jump hosts.

More information on HIV can be found on this Wikipedia page.

In this tutorial you will use molecular phylogenetics to determine the evolutionary relationships of HIVs and SIVs, and so determine from which African primates HIVs originated. En Ejercicio 1 you will build an alignment of the HIV and SIV sequences, then in Ejercicio 2 you will learn to build a basic phylogenetic tree. Exercises 3 and 4 provide questions and answers to further your understanding on interpreting phylogenetic trees.

SIV sequences and primate taxa

The sequences in this tutorial come from various African primate species known to be infected with different SIVs. There are also three non-African species, all from Asia, that have been infected with SIVs in captivity: the pig-tailed macaque, the rhesus macaque and the stump-tailed macaque. The SIVs from all of these primate species are referred to by the three-letter code given with each picture. For example, the SIV from the sooty mangabey is called SIVSMM and the sequence in the alignment or tree is labelled SIV-SMM.

Mona monkey
Cercopithecus mona mona [denti]
MON [DEN]

de Brazza’s monkey
Cercopithecus neglectus
DEB

Tantalus monkey
Chlorocebus tantalus
TAN

Syke’s monkey
Cercopithecus albogularis
SYK

Greater spot-nosed monkey
Cercopithecus nictitans
GSN

Green monkey
Chlorocebus sabaeus
SAB

Mustached guenon
Cercopithecus cephus
MUS

Vervet monkey
Chlorocebus pygerythrus
VER

Grivet
Chlorocebus aethiops
GRV

L’Hoest’s monkey
Cercopithecus lhoest
LST

Sooty mangabey
Cercocebus atys
SMM

Red-capped mangabey
Cercocebus torquatus
RCM

Sun-tailed monkey
Cercopithecus solatus
SOL

Mandrill
Mandrillu sphinx
MND

Taladro
Mandrillus leucophaeus
DRL

Pig-tailed macaque
Macaca nemestrina
MNE

Stump-tailed macaque
Macaca arctoides
STM

Rhesus macaque
Macaca mulatta
MAC

Common chimpanzee
Pan troglodytes
CPZ

Exercise 1: Multiple alignment of HIV and SIV sequences

Before a phylogeny can be constructed, the sequences must be aligned. The objective of sequence alignment is to maximize the similarity between sequences, inserting gaps in sequences where necessary to improve the overall alignment.

Multiple alignment algorithms use a scoring system where sequence matches and mismatches for each site are assigned a value, and gaps are penalized. The insertion of gaps in an alignment can increase the similarity of the surrounding bases, so the overall alignment score is a trade-off between the increased match/mismatches scores and the cost of opening and extending a gap.

In this exercise you will construct an alignment of 62 env sequences of HIV-1, HIV-2, and various SIVs. The SIV sequences come from various African and non-African primate species.

los env gene is found in all retroviruses. It codes for two viral envelope glycoproteins that are positioned on the virion surface and interact with host cell-surface receptors.

Click on ‘HIV_sequences’ to view the sequences.

The sequences are labelled in the format: virus type followed by the common name of the primate species for the SIV sequences, or the group or subtype for HIV-1 and HIV-2 sequences finally followed by the accession number.

To align these sequences, go to Align/Assemble -> Multiple Align. Geneious has 3 different alignment programs built in (Geneious aligner, MUSCLE, and Clustal Omega), plus a plugin for the MAFFT aligner is available. For further information on these aligners please see this article. We will use the MUSCLE aligner for this example, as it is suitable for a medium sized dataset.

Seleccione MUSCLE alignment from the alignment options. We will use the default parameters, so click on the settings cog in the bottom left of the window and choose Reset to defaults (if it is greyed out, the default parameters are already set). Haga clic en el More Options button to view the parameters if you wish. Hacer clic OK to start the alignment – it may take several minutes to complete.

Once the alignment has completed, click on it to view it and zoom in to see the bases. Note that there are many large gaps, which is characteristic of an alignment of a rapidly evolving gene in divergent species.

Exercise 2: Build a Phylogeny of HIVs and SIVs

In this exercise you will construct a phylogeny using the Neighbour-Joining tree building method and the Tamura-Nei model. Models of evolution describe expected frequencies of each nucleotide and the rate of change between nucleotides. The Tamura-Nei model assumes each base has a different equilibrium frequency and allows transitions and transversions to occur at different rates. It allows the two types of transitions (A ↔ G and C ↔ T) to have different rates. This is useful when analysing HIV sequences because HIV exhibits hyper G-to-A mutation caused by a host enzyme (APOBEC3G). You will use the Neighbour-Joining method because these sequences do not, in general, evolve in a clock-like manner.

Select the alignment you created in Exercise 1.

To construct a Neighbour-Joining tree using the Tamura-Nei model, with bootstrapping, click the Árbol button and select the Geneious Tree Builder. Check that the default parameters are initially set by clicking Reset to Defaults.

For the genetic distance model select Tamura-Nei and for the tree build method select Neighbor-Joining. Set the outgroup to “SIV-MON Mona monkey AY340701”. This sequence will be used to root the tree.

To calculate support values for the tree use bootstrapping. To do this, tick the box next to Resample tree y seleccione Bootstrap in the dropdown box next to resampling method. Set number of replicates to 100 and the support threshold to 0.

The tree building options should now look similar to this:

Hacer clic OK to build the tree.

Once the tree builder completes, the tree document will appear in the document table in Geneious and should open automatically.

Viewing and Manipulating Phylogenetic Trees

A phylogenetic tree is a branching diagram of evolutionary relationships. It contains information about the order of evolutionary divergences within, and hence about the relationships among, a group of organisms. It can also contain information about the amount of evolutionary change which occurred between any two branching events. The lines on the the tree are called branches and the intersections of these lines are called nodes. A node represents a branching event in the tree. The branching pattern of a tree is called its topology. The topology shows how organisms are related to one another.

Depending on the size of your screen and the size of the tree, it may not be physically possible to display all of the sequence names on the tree, so Geneious will only display some of the sequence names. To zoom in on the tree, use the Zoom slider under “General” in the panel on the right hand side of the tree view. To expand the distance between the branches of the tree, use the Expansión slider. As the amount of space between the branches increases, more sequence names will be displayed on the tree.

As this tree was created using an alignment in Geneious, the alignment is attached to the tree. Click on the “Alignment View” tab to view the alignment.

The sequences in the alignment are sorted according to the topology of the tree. On the left hand side of the sequence names, you can see the tree topology (this may not be visible if you are working with large trees). Select the “SIV-MON Mona monkey AY340701” sequence in the alignment then return to the “Tree View”. This sequence is now selected in the tree as well.

The sequences used to build this alignment and tree have additional meta-data associated with them (this is the data found in the “Properties” field in the “Info” tab in the individual sequence documents). This information can be displayed on the tips of the trees. To display the organism on the tips of the tree, select “Organism” from the box next to “Display” under “Show Tip Labels”.

To display the organism and host organism, hold Ctrl (on Windows) or Cmd (on Macs) and select “Organism” and “Host Organism”. Now the host organism and organism are displayed on the tips of the tree, separated by a comma. To display the sequence names on the tree, select “Names”.

Just as a sentence can be printed using different fonts, or colors of ink, without any change in meaning, so too can trees be represented in different shapes and orientations. The information encoded in the tree remains unchanged, even as the appearance changes. For example, the appearance of the tree can be changed by rotating groups of branches. To rotate the branches, select an internal node in the tree and click the Swap Siblings button at the top of the window. This will rotate the branches in that subtree however, the degree of relatedness is not altered by rotating branches in a tree. Simply having two names close together in a tree does not imply any close relationship.

Try this with the tree you have created. Select the node in the tree containing the Grivet monkey and the four Vervet monkeys and click the Swap Siblings botón.

The order of these samples will change in the tree, but the relationship between the sample from the Grivet monkey and those from the four Vervet monkeys has not changed.

Rooted Trees

Trees may be unrooted or rooted. To view the HIV tree as an unrooted tree, click one of the unrooted views under the “General” options in the panel on the right hand side of the tree view.

Unrooted trees do not tell us much about evolutionary relationships. We cannot tell which node is the ancestor and which are the descendent nodes on the tree. To establish ancestor-descendent relationships we need to identify a suitable outgroup and then root the tree on the branch separating the outgroup from the remainder of the tree (the ingroup). We can specify the root before the building the tree to produce a rooted tree, or we can specify the root after the tree is built to change an unrooted tree to a rooted tree.

When you built the tree of HIV and SIV sequences you specified an outgroup (“SIV-MON Mona monkey AY340701”) so Geneious has produced a rooted tree. To view the tree as a rooted tree, click the rooted view under the “General” options in the panel on the right hand side of the tree view.

Rooted phylogenetic trees may be oriented horizontally, as above, or vertically. Here the time axis is implicit, running from left to right. The node at the left end of the tree is the root node, which represents the oldest point on the tree. As we move from the root node, we can identify nodes which are ancestral to their descendent clades. Working in from the tips of the tree enables us to identify close and distant relatives. The degree of relatedness of any two organisms is given by how far back on a rooted tree you must go to find their common ancestor. If, in tracing back to the common ancestor of A and B, you pass the common ancestor of A and C, then you can say that A and C are more closely related than A and B.

On a rooted tree, each node and all of its descendent nodes form a clade. This is what we would commonly refer to as a “branch” on a real tree – the physical branch and all the little branches and leaves attached to it. Because an unrooted tree lacks the time axis described above, it is inappropriate to discuss clades in that context.

Phylograms and cladograms

The lengths of the branches of a tree may be arbitrary (eg. cladogram) or can represent the amount of the evolutionary change (phylogram).

In a phylogram, the lengths of the branches are proportional to the amount of change which occurred between those branching events. As the tree you built was estimated using a distance (1 – similarity) measure (i.e. NJ), the proximity of nodes represents their overall degree of similarity.

To display the lengths of the branches of the tree, in the panel on the right hand side of the tree view, select “Substitutions per site” from the dropdown box next to “Display” under “Show Branch Labels”.

On your tree, find “SIV-MAC Rhesus macaque M33262” and “SIV-MNE Pig-tailed macaque U79412” and look at the length of the branches separating these two taxa. Now find “SIV-RCM Red-capped mangabey AF382829” and “SIV-RCM Red-capped mangabey AF349680” and look at the length of these branches. The length of the branches separating the SIV-MAC and SIV-MNE sequences is shorter than the length of the branches separating the two SIV-RCM sequences. From this you can conclude that SIV-MAC is more similar to SIV-MNE, than the two SIV-RCM sequences are to each other.

If an optimality method (e.g., MP or ML) was used to estimate the tree then the proximity of two nodes reflects the number of evolutionary changes in character states estimated to have occurred between them. If the total branch length from the root of a tree to organism A at one tip is much greater than from the root to organism B at another tip, then you can say that evolution has been faster in the A lineage than in the B lineage for the characters on which the tree was based.

To transform the tree to a cladogram, tick the Transform branches box in the “Formatting” options. In the dropdown box next to Transformar Seleccione Cladogram

Notice how the branch lengths of the tree change and all of the tips of the tree are aligned on the right hand side of the tree view. With this transformation the lengths of the branches are meaningless. If you now look at “SIV-MAC Rhesus macaque M33262” and “SIV-MNE Pig-tailed macaque U79412” and then look at “SIV-RCM Red-capped mangabey AF349680” and “SIV-RCM Red-capped mangabey AF382829” you can see that the branch lengths separating SIV-MAC from SIV-MNE are the same lengths as the branches separating the two SIV-RCM sequences. With the transformed branches you can not draw any conclusions about how similar the sequences are to each other.

To convert the tree back to a phylogram, untick the option Transform branches. To hide the branch lengths, untick the box next to “Show Branch Labels”.

Displaying support values

In addition to the information conveyed by the topology of the tree and the branch lengths of the tree, further information can also be written on the nodes and/or branches of the tree. The information that is available to display will depend on the tree building method and the options used. Often, support values are displayed on the tree.

Tree building methods produce the tree which best explains the information in the alignment however, it is unlikely this tree will explain all of the variation in the alignment. Not all of the sites in the alignment will support this tree and not all of the clades in the tree will necessarily be strongly supported by the alignment. For example, with rapid speciation events, there may be insufficient information in the alignment to determine the branching pattern of a group of species, and some of the clades in the tree may have only marginally more support than alternative possible clades.

If you look at the tree you have built it is difficult to tell which clades are strongly supported and which are not. For example, does the clade containing “SIV-RCM Red-capped mangabey AF382829” and “SIV-RCM Red-capped mangabey AF349680” have the same support from the alignment as the clade containing “SIV-MND Mandrill AY159322” and “SIV-MND Mandrill AF367411”?

To find out how strongly the alignment supports each of the clades in the tree, we can calculate support values. In the tree building options you selected the “Bootstrap” resampling method. The bootstrap statistic for a clade in the tree is the percentage of times that clade appeared in the set of bootstrap replicate trees. This percentage ranges from 0% (the clade did not appear in any of the bootstrap trees) to 100% (the clade appeared in all of the bootstrap trees). A bootstrap replicate tree is generated by randomly sampling sites, with replacement, from the alignment, to create a new randomised alignment and then building a tree from this sampled alignment. This process is repeated for the specified number of bootstrap replicates (in your case, this was 100).

To show the bootstrap values on the tree, tick the box next to Show Branch Labels y seleccione Consensus Support (%) from the dropdown box next to “Display”.

The bootstrap value for a clade will appears to the left of the most recent common ancestral node for that clade.

Now the bootstrap values are displayed on the tree, you can see that there is strong support (100%) for the clade containing the SIV-RCM sequences. However the clade containing the two mandrill sequences has less support (55%). Note that due to the nature of the bootstrapping process, the support values on your tree may be slightly different.

Sometimes it is useful to collapse nodes that have little bootstrap support so that these do not contribute to the topology of the tree. This can be done in the bootstrapping options when the tree is built by changing the Support threshold valor. If this is set on 50%, nodes with bootstrap support of less than 50% will be collapsed into polytomies. The screenshot below shows an example where the nodes with 38% and 36% bootstrap support in (A) are collapsed when the support threshold is set to 50% (B).


PHYLOGENETIC TREE CONSTRUCTION NOTES

A speculatively rooted tree for rRNA genes, showing the three life domains Bacteria, Archaea, and Eucaryota, and linking the three branches of living organisms to the LUCA (the black trunk at the bottom of the tree) cf. next graphic.

A rooted phylogenetic tree, illustrating how Eukaryota and Archaea are more closely related to each other than to Bacteria (based on Cavalier-Smith‘s theory of bacterial evolution). Neomura is a clade composed of two life domains, Archaea and Eukaryota. LUCA, a variant of LUA, stands for last universal common ancestor.

A árbol filogenético o evolutionary tree is a branching diagram or “tree” showing the inferred evolutionary relationships among various biological species or other entities—their filogenia—based upon similarities and differences in their physical or genetic characteristics. The taxa joined together in the tree are implied to have descended from a common ancestor. Phylogenetic trees are central to the field of phylogenetics.

en un arraigado phylogenetic tree, each node with descendants represents the inferred most recent common ancestor of the descendants, and the edge lengths in some trees may be interpreted as time estimates. Each node is called a taxonomic unit. Internal nodes are generally called hypothetical taxonomic units, as they cannot be directly observed. Trees are useful in fields of biology such as bioinformatics, systematics, and phylogenetic comparative methods.

Unrooted trees illustrate only the relatedness of the leaf nodes and do not require the ancestral root to be known or inferred.

The idea of a “tree of life” arose from ancient notions of a ladder-like progression from lower to higher forms of life (such as in the Great Chain of Being). Early representations of “branching” phylogenetic trees include a “paleontological chart” showing the geological relationships among plants and animals in the book Elementary Geology, by Edward Hitchcock (first edition: 1840).

Charles Darwin (1859) also produced one of the first illustrations and crucially popularized the notion of an evolutionary “tree” in his seminal book El origen de las especies. Over a century later, evolutionary biologists still use tree diagrams to depict evolution because such diagrams effectively convey the concept that speciation occurs through the adaptive and semirandom splitting of lineages. Over time, species classification has become less static and more dynamic.

Rooted tree

A rooted phylogenetic tree (see two graphics at top) is a directed tree with a unique node corresponding to the (usually imputed) most recent common ancestor of all the entities at the leaves of the tree. The most common method for rooting trees is the use of an uncontroversial outgroup—close enough to allow inference from trait data or molecular sequencing, but far enough to be a clear outgroup.

Unrooted tree

An unrooted phylogenetic tree for myosin, a superfamily of proteins. [1]

Unrooted trees illustrate the relatedness of the leaf nodes without making assumptions about ancestry. They do not require the ancestral root to be known or inferred. [2] Unrooted trees can always be generated from rooted ones by simply omitting the root. By contrast, inferring the root of an unrooted tree requires some means of identifying ancestry. This is normally done by including an outgroup in the input data so that the root is necessarily between the outgroup and the rest of the taxa in the tree, or by introducing additional assumptions about the relative rates of evolution on each branch, such as an application of the molecular clock hypothesis. [3]

Bifurcating tree

Both rooted and unrooted phylogenetic trees can be either bifurcating or multifurcating, and either labeled or unlabeled. A rooted bifurcating tree has exactly two descendants arising from each interior node (that is, it forms a binary tree), and an unrooted bifurcating tree takes the form of an unrooted binary tree, a free tree with exactly three neighbors at each internal node. In contrast, a rooted multifurcating tree may have more than two children at some nodes and an unrooted multifurcating tree may have more than three neighbors at some nodes. A labeled tree has specific values assigned to its leaves, while an unlabeled tree, sometimes called a tree shape, defines a topology only. The number of possible trees for a given number of leaf nodes depends on the specific type of tree, but there are always more multifurcating than bifurcating trees, more labeled than unlabeled trees, and more rooted than unrooted trees. The last distinction is the most biologically relevant it arises because there are many places on an unrooted tree to put the root. For labeled bifurcating trees, there are:

total unrooted trees, where n represents the number of leaf nodes. Among labeled bifurcating trees, the number of unrooted trees with n leaves is equal to the number of rooted trees with n − 1 leaves. [4]

Special tree types

This section no cite alguna fuentes. Please help improve this section by adding citations to reliable sources. El material no obtenido puede ser cuestionado y eliminado. (October 2012) (Learn how and when to remove this template message)

A spindle diagram, showing the evolution of the vertebrates at class level, width of spindles indicating number of families. Spindle diagrams are often used in evolutionary taxonomy.

A highly resolved, automatically generated tree of life, based on completely sequenced genomes. [5] [6]

  • A dendrogram is a broad term for the diagrammatic representation of a phylogenetic tree.
  • A cladogram is a phylogenetic tree formed using cladistic methods. This type of tree only represents a branching pattern i.e., its branch spans do not represent time or relative amount of character change.
  • A phylogram is a phylogenetic tree that has branch spans proportional to the amount of character change.
  • A chronogram is a phylogenetic tree that explicitly represents evolutionary time through its branch spans.
  • A spindle diagram (often called a Romerogram after the American palaeontologist Alfred Romer) is the representation of the evolution and abundance of the various taxa through time.
  • A Dahlgrenogram is a diagram representing a cross section of a phylogenetic tree
  • A phylogenetic network is not strictly speaking a tree, but rather a more general graph, or a directed acyclic graph in the case of rooted networks. They are used to overcome some of the limitations inherent to trees.

Construcción

Phylogenetic trees composed with a nontrivial number of input sequences are constructed using computational phylogenetics methods. Distance-matrix methods such as neighbor-joining or UPGMA, which calculate genetic distance from multiple sequence alignments, are simplest to implement, but do not invoke an evolutionary model. Many sequence alignment methods such as ClustalW also create trees by using the simpler algorithms (i.e. those based on distance) of tree construction. Maximum parsimony is another simple method of estimating phylogenetic trees, but implies an implicit model of evolution (i.e. parsimony). More advanced methods use the optimality criterion of maximum likelihood, often within a Bayesian Framework, and apply an explicit model of evolution to phylogenetic tree estimation. [4] Identifying the optimal tree using many of these techniques is NP-hard, [4] so heuristic search and optimization methods are used in combination with tree-scoring functions to identify a reasonably good tree that fits the data.

Tree-building methods can be assessed on the basis of several criteria: [7]

  • efficiency (how long does it take to compute the answer, how much memory does it need?)
  • power (does it make good use of the data, or is information being wasted?)
  • consistency (will it converge on the same answer repeatedly, if each time given different data for the same model problem?)
  • robustness (does it cope well with violations of the assumptions of the underlying model?)
  • falsifiability (does it alert us when it is not good to use, i.e. when assumptions are violated?)

Tree-building techniques have also gained the attention of mathematicians. Trees can also be built using T-theory. [8]

Although phylogenetic trees produced on the basis of sequenced genes or genomic data in different species can provide evolutionary insight, they have important limitations. Most importantly, they do not necessarily accurately represent the evolutionary history of the included taxa. In fact, they are literally scientific hypotheses, subject to falsification by further study (e.g., gathering of additional data, analyzing the existing data with improved methods). The data on which they are based is noisy the analysis can be confounded by genetic recombination, [9] horizontal gene transfer, [10] hybridisation between species that were not nearest neighbors on the tree before hybridisation takes place, convergent evolution, and conserved sequences.

Also, there are problems in basing the analysis on a single type of character, such as a single gene or protein or only on morphological analysis, because such trees constructed from another unrelated data source often differ from the first, and therefore great care is needed in inferring phylogenetic relationships among species. This is most true of genetic material that is subject to lateral gene transfer and recombination, where different haplotype blocks can have different histories. In general, the output tree of a phylogenetic analysis is an estimate of the character’s phylogeny (i.e. a gene tree) and not the phylogeny of the taxa (i.e. species tree) from which these characters were sampled, though ideally, both should be very close. For this reason, serious phylogenetic studies generally use a combination of genes that come from different genomic sources (e.g., from mitochondrial or plastid vs. nuclear genomes), or genes that would be expected to evolve under different selective regimes, so that homoplasy (false homology) would be unlikely to result from natural selection.

When extinct species are included in a tree, they are terminal nodes, as it is unlikely that they are direct ancestors of any extant species. Skepticism might be applied when extinct species are included in trees that are wholly or partly based on DNA sequence data, because little useful “ancient DNA” is preserved for longer than 100,000 years, and except in the most unusual circumstances no DNA sequences long enough for use in phylogenetic analyses have yet been recovered from material over 1 million years old.

The range of useful DNA materials has expanded with advances in extraction and sequencing technologies. Development of technologies able to infer sequences from smaller fragments, or from spatial patterns of DNA degradation products, would further expand the range of DNA considered useful.

In some organisms, endosymbionts have an independent genetic history from the host.

Phylogenetic networks are used when bifurcating trees are not suitable, due to these complications which suggest a more reticulate evolutionary history of the organisms sampled.


Rooting

Evolutionary trees are (almost) always starting with an ancestor and then dividing, so you can always identify the root (if there is one) as the point where all the branches converge. Historically, it was drawn at the bottom like a real tree (as with the great Molluscan tree in OUMNH and the OneZoom Tree of Life Explorer). These days, it is usually drawn on the left as in these diagrams but I have seen trees with the root at the top, bottom or even on the right. (The latter is usually only used when mirroring another tree.) I have posted before on how to root a phylogenetic tree, so I won't go over that again here. The rooting method deberían be given in the methods but, when it is missing, you can often guess from the shape of the tree and using the root-to-tip branch lengths again:
Unrooted trees are pretty obvious when shown in the "radiation" style. If the tree is rooted, it is almost certainly either midpoint rooted or outgroup rooted (see "how to root a phylogenetic tree"). Midpoint rooting can be identified by virtue of the fact that the two longest root-to-tip distances will (a) be the same length and (b) be either side of the root. If either of these conditions is broken, it is not midpoint rooted and is probably outgroup rooted. (Note that if both conditions están met, it is still possible that the tree is outgroup rooted. Indeed, if the evolutionary rates are fairly consistent, outgroup rooting and midpoint rooting should be the same.)

Ideally, a rooted tree should have the root marked. Sometimes, however, it is left off, as in the bottom left. This can be confusing as tree visualising programs will often display trees in the "traditional" style even when they are not rooted. This is particularly a problem when branch lengths are no shown as it will not be at all obvious when the tree is rooted or not. The time that I see this catch people out most is when making a Maximum Parsimony tree using the popular software, MEGA - these trees are displayed randomly rooted and without branch lengths by default.


Phylogenetic Tools for Comparative Biology

Utilizando el function drop.tip() we can easily excise a single taxon or a list of taxa from our "phylo" tree object in R. However, it is not immediately obvious how to prune the tree to incluir, rather than exclude, a specific list of tips. Trina Roberts (now at NESCent) shared a trick to do this with me some time ago, and I thought I'd pass it along to the readers of this blog.

First, let's start with a tree of 10 species:

> tree write.tree(tree)
[1] "(t8:0.22,((((t3:0.9,(t7:0.48,t2:0.5):0.12):0.47,t6:0.55):0.08,(t5:0.49,(t9:0.71,t10:0.13):0.15):0.7):0.87,(t1:0.72,t4:0.62):0.55):0.47)"

Now, say we want to keep the species t2 , t4 , t6 , t8 , and t10 in our pruned tree, we just put these tip names into a vector:

[More commonly, this vector will probably come from the row names in our data matrix, or we might read it from a text file.]

We create the pruned tree with one command:

Now we have our pruned tree, as desired:

28 comments:

If there are tips in the "species" vector that are not in the tree, match(species,tree$tip.label) will one or mulitple NAs, and the procedure will fail. To avoid this problem, one can just do:
> pruned.tree<-drop.tip(tree, tree$tip.label[-na.omit(match(species, tree$tip.label))])

Even less code than the -match trick:

pruned.tree<-drop.tip(tree, setdiff(tree$tip.label, species))

setdiff is very handy. (as is intersect and %in%)

Dan's method will also work even if some of the labels in "species" are not in "tree."


Ver el vídeo: Entender y crear árboles filogenéticos. Biología. Khan Academy en Español (Julio 2022).


Comentarios:

  1. Shaktisho

    información muy valiosa

  2. Kennedy

    Se ha detenido en un foro y ha visto este tema. ¿Me permites ayudar?

  3. Barret

    Felicitaciones, esto es solo un gran pensamiento.

  4. Bennett

    Uno siente que el tema no está del todo cerca del autor.

  5. Lippo

    Los felicito, que palabras tan adecuadas..., el pensamiento magnifico

  6. Gogis

    Mejor, tal vez, me quedaré en silencio



Escribe un mensaje