Informations

Contrôle du signal phylogénétique - qu'est-ce qui est statistiquement approprié ?

Contrôle du signal phylogénétique - qu'est-ce qui est statistiquement approprié ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Je collabore actuellement avec un collègue doctorant. Nous sommes tous les deux dans le même département de biologie, mais mon collaborateur est plus un historien naturel, donc je m'occupe du côté statistique des choses.

Il a publié quelques articles en utilisant uniquement des modèles browniens et les $lambda$ (avec un autre collaborateur). Cependant, il semble y avoir une pluralité de méthodes différentes disponibles - Grafen, Blomberg et Martin, pour n'en nommer que quelques-unes. Les modèles d'OU semblent inappropriés pour nos données car nous avons des phylogénies relativement petites (Cooper 2016). La littérature semble indiquer que Pagel $lambda$ est plus robuste que celui de Blomberg $kappa$, et en général une méthode correcte pour vérifier le signal phylogénétique. J'ai également constaté que certaines personnes jettent tout et l'évier de la cuisine sur leurs données, puis comparent les log-vraisemblances, AIC, BIC, avec les rapports de log-vraisemblance pour toutes les comparaisons imbriquées.

Ma première question est donc la suivante : devriez-vous avoir des hypothèses a priori sur la méthode qui conviendra à vos données ?

Je suis encore novice en PCM, j'ai donc utilisé d'anciens scripts R et un papier AmNat (de 2019) comme référence. J'utilise également les mêmes phylogénies que ce papier AmNat. À partir de cet article et de ces scripts, seuls deux modèles ont été utilisés, un modèle brownien (qui est essentiellement $lambda$ = 1, de toute façon) et une estimation de $lambda$. Ils ont comparé les deux modèles, ont choisi le modèle le plus approprié par rapport de log-vraisemblance et c'est tout.

Ma deuxième question est, ne devriez-vous pas toujours comparer vos modèles à un modèle avec $lambda$=0?

Par exemple, j'ai la sortie suivante dans R,

#Brownian Model pglsModel_BM <- gls(sum_dep ~ ContGroup, corrélation = corPagel(1, phy = UltTree, fixed = TRUE), data = temp, method = "ML") #Estimated Lambda Model pglsModel_E <- gls(sum_dep ~ ContGroup, corrélation = corPagel(0.50, phy = UltTree, fixed = FALSE), data = temp, method = "ML") ###Le résultat de la comparaison est… Modèle df AIC BIC logLik Test L.Ratio p-value pglsModel_BM 1 3 528.4584 534.5344 -261,2292 pglsModel_E 2 4 528,0454 536,1468 -260,0227 1 vs 2 2,412992 0,1203 ### Sortie ANOVA du modèle préféré Denom. DF : 54 numDF Valeur F Valeur p (Interception) 1 7,039370 0,0104 ContGroup 1 6,480427 0,0138

Et le modèle brownien a obtenu le feu vert. Il semble que le brownien soit traité comme un modèle nul, mais je ne peux pas comprendre pourquoi $lambda =0$ n'est pas non plus un modèle nul ou les modèle nul. Aller de l'avant avec mon hypothèse,

###Ajout dans un modèle lambda=0 pglsModel_0<- gls(sum_dep ~ ContGroup, corrélation = corPagel(0, phy = UltTree, fixed = TRUE), data = temp, method = "ML") ###Utilisation d'anova pour comparaison de modèles Modèle df AIC BIC logLik pglsModel_0 1 3 524.0962 530.1723 -259.0481 pglsModel_BM 2 3 528.4584 534.5344 -261.2292 ###vérification du modèle 0… Dénom. DF : 54 numDF Valeur F Valeur p (Interception) 1 289,67228 < 0,0001 ContGroup 1 0,21234 0,6468

Je me rends compte que les différences sont plutôt petites, mais toutes les méthodes indiquent $lambda =0$ comme modèle « plus probable ».

Ma troisième question est -- bien que, éventuellement répondue par la deuxième question -- supposons-nous qu'il y a doit être une certaine quantité de signal phylogénétique en raison de l'histoire partagée, de sorte qu'il suffit de tester uniquement pour $hat{lambda}$ et comparer avec $lambda = 1$?

Remarque : Pour être sûr, j'ai comparé tous les modèles browniens avec corBrownian à leur $lambda = 1$équivalents, et a obtenu exactement les mêmes sorties.


J'ai une réponse provisoire à ma question.

Dans la publication du package R phylosignal (Keck, 2016), ils déclarent :

Pour tester la présence d'un signal phylogénétique, l'hypothèse nulle est que les valeurs des traits sont distribuées au hasard dans la phylogénie. Une autre hypothèse nulle pourrait être que les valeurs des traits suivent un modèle de mouvement brownien, mais il est moins souvent utilisé et mis en œuvre.

Il semblerait donc qu'il y ait bien deux hypothèses nulles, cependant il semble fallacieux de ne pas tester les deux, d'autant plus que c'est relativement simple à faire. Et des deux, si, pour une raison quelconque, vous vous en limitiez à un, en testant $lambda = 0$ (ou la log-vraisemblance d'un modèle linéaire général) devrait être votre premier choix.

Un autre problème était avec corPagel du paquet singe. Il faut une valeur initiale pour estimer la valeur de Pagel $lambda$ (À moins que vous ne fixiez la valeur, bien sûr). La convergence n'est pas garantie et nécessite parfois un réglage fin de la valeur initiale. Cela a déclenché un peu un drapeau rouge, j'ai donc collecté le lambda médian à partir de 5000 sous-ensembles de mes données (j'utilise une famille/phylogénie/ensemble de données différent, où le $hat{lambda}$ modèle est préféré à un brownien, mais pas $lambda = 0$).

Je pense que c'est une argumentation plus forte pour un signal phylogénétique, bien qu'un signal faible.

#sortie de comparaison lambda=0, lambda=1 et lambda médiane Modèle df AIC BIC logLik pglsModel_0 1 3 636.9876 643.6899 -315.4938 pglsModel_1 2 3 681.9784 688.6807 -337.9892 pglsModel_MEDIAN 3 3 636.4831 -putda 643.18 lambda de l'ensemble de données complet Modèle df AIC BIC test logLik L.Ratio p-value pglsModel_MEDIAN 1 3 636.4812 643.1836 -315.2406 pglsModel_FULL 2 4 637.7024 646.6388 -314.8512 1 vs 2 0.7788265 0.3775

Par la preuve de la distribution des lambdas et de l'AIC, du BIC et de la log-vraisemblance du modèle médian, nous pouvons argumenter en faveur du modèle médian. Les résidus semblent également normaux et aléatoires. Des intervalles de confiance doivent également être obtenus. Mais, en réalité, ici, la différence entre un signal phylogénétique faible et aucun signal est infime.


Identification des corrélats environnementaux et phylogénétiques de l'écologie comportementale chez les gibbons : implications pour la gestion de la conservation du singe le plus rare au monde

Pour que la conservation des espèces hautement menacées soit efficace, il est crucial de différencier les paramètres naturels de la population des caractéristiques comportementales, écologiques et démographiques atypiques associées aux perturbations humaines et à la dégradation de l'habitat, qui peuvent freiner la croissance et le rétablissement de la population. Malheureusement, ces paramètres peuvent être très difficiles à déterminer pour des espèces d'une extrême rareté. Le gibbon de Hainan (Nomascus hainanus), le singe le plus rare au monde, se compose d'une seule population d'environ 25 individus, mais la gestion intensive est limitée par une compréhension limitée des caractéristiques de population attendues de l'espèce et des exigences environnementales. Afin de générer une base de preuves plus solide pour la conservation du gibbon de Hainan, nous avons utilisé une approche comparative pour identifier les facteurs intrinsèques et extrinsèques de variation des principaux traits écologiques et comportementaux (taille du domaine vital, taille du groupe social, système d'accouplement) à travers les Hylobatidae tout en contrôler la non-indépendance phylogénétique.

Résultats

Les trois traits étudiés montrent de forts signaux phylogénétiques chez les Hylobatidae. Bien que le gibbon de Hainan et certaines espèces étroitement apparentées aient de grandes tailles de groupe signalées, aucune taille de groupe de gibbon observée n'est significativement différente des valeurs attendues sur la base de la seule relation phylogénétique. Cependant, le gibbon de Hainan et deux autres Nomasque espèce (N. concolor, N. nasutus) montrent des valeurs de domaine vital plus élevées que prévu par rapport à toutes les autres espèces de gibbons. Les modèles prédictifs incorporant la variation des traits intraspécifiques mais contrôlant la covariance entre les échantillons de population en raison de la parenté phylogénétique révèlent des déterminants environnementaux et biologiques supplémentaires de la variation des exigences de répartition des gibbons et de la structure sociale, mais pas ceux immédiatement associés à la dégradation récente de l'habitat.

Conclusion

Notre étude représente la première évaluation systématique des modèles de traits comportementaux et écologiques chez les Hylobatidae en utilisant des approches récentes d'analyse comparative. En contextualisant formellement les caractéristiques comportementales et écologiques observées du gibbon de Hainan au sein de la variation à l'échelle de la famille des gibbons, nous sommes en mesure de déterminer les paramètres de population naturels attendus pour cette espèce en danger critique d'extinction, ainsi que des corrélats plus larges de variation pour les caractéristiques de population clés à travers les Hylobatidae. Cette approche révèle des informations clés ayant un impact direct sur la future planification de la conservation du gibbon de Hainan et démontre l'utilité de l'approche comparative pour informer la gestion des espèces préoccupantes pour la conservation.


Résumé

Le signal phylogénétique est la tendance des espèces étroitement apparentées à afficher des valeurs de traits similaires en raison de leur proximité phylogénétique. Les écologistes et les biologistes évolutionnistes s'intéressent de plus en plus à l'étude du signal phylogénétique et des processus qui déterminent les modèles de valeurs des traits dans la phylogénie. Ici, nous présentons un nouveau package R, phylosignal, qui fournit une collection d'outils pour explorer le signal phylogénétique pour les traits biologiques continus. Ces outils sont principalement basés sur le concept d'autocorrélation et ont d'abord été développés dans le domaine des statistiques spatiales. Pour illustrer l'utilisation du package, nous analysons le signal phylogénétique en sensibilité à la pollution pour 17 espèces de diatomées.


Méthodes

Collecte et traitement des données

Les génomes de référence ont été téléchargés avec leurs fichiers correspondants au format général des caractéristiques (GFF3) à partir de la base de données du National Center for Biotechnology Information (NCBI) 18,19,20,21 en août 2018 à l'aide du site FTP du NCBI : ftp://ftp.ncbi. nlm.nih.gov/genomes/refseq/. Nous avons utilisé la version d'assemblage de référence la plus récente pour chacune des 247 espèces de vertébrés (voir les notes supplémentaires S1 et S2 pour la liste des espèces utilisées dans cette étude). Le groupe taxonomique des mammifères a été analysé (114 espèces de mammifères), ainsi que leur sous-groupe de vertébrés non-mammifères (133 espèces non-mammifères). Nos analyses n'incluent que les espèces de vertébrés car des séquences de rampe orthologues insuffisantes ont été identifiées dans d'autres groupes taxonomiques. Parmi les archées, les bactéries, les champignons, les invertébrés, les mammifères vertébrés, les autres vertébrés, les plantes, les protozoaires et les virus, seuls les vertébrés ont satisfait à nos critères de filtrage pour garantir que les orthologues contenaient des séquences de rampe dans au moins 5 % des espèces disponibles et ne contenaient pas de séquences de rampe dans au moins 5% des espèces disponibles. Au moins 5 % de tous les orthologues annotés devaient satisfaire à ces critères de filtrage pour qu'un groupe taxonomique soit inclus dans nos analyses.

Nous avons ensuite évalué la congruence du signal phylogénétique des séquences de rampe au sein des espèces de mammifères et de leur sous-groupe de vertébrés. Toutes les données de séquences codantes (CDS) ont été extraites des génomes de référence à l'aide d'un analyseur GFF3 inclus dans JustOrthologs 22 . Toutes les séquences avec des exceptions annotées, telles que des exceptions de traduction, des divergences de transcription non classées et des erreurs suspectées, ont été supprimées de l'ensemble de données. Nos analyses comprenaient toutes les annotations du gène NCBI. Les annotations de gènes NCBI sont calculées par le pipeline d'annotations de génomes eucaryotes de NCBI pour l'ensemble de données NCBI Gene. Ils utilisent une combinaison de similarité de séquence de protéines et d'informations de synténie locale pour établir l'orthologie. Un conservateur manuel peut en outre attribuer des relations de gènes orthologues. La base de données du NCBI comprend 34 202 orthologues pour les mammifères et 41 337 orthologues pour les vertébrés non mammifères.

Identification des séquences de rampe

Les séquences de rampe ont été identifiées en utilisant ExtRamp (Fig. 1). L'adaptabilité relative des codons a été calculée pour chaque codon en utilisant sa fréquence dans le génome. Le taux de traduction à chaque codon dans le gène a ensuite été estimé en utilisant l'efficacité traductionnelle moyenne d'une fenêtre de codons. Une fenêtre coulissante à neuf codons a été utilisée pour approximer l'envergure d'un ribosome, comme recommandé dans la documentation ExtRamp 9 . Des séquences de rampe ont été identifiées lorsque de faibles régions aberrantes d'efficacité de traduction de codon (c'est-à-dire des goulots d'étranglement de traduction) se sont produites au début des séquences de gènes. ExtRamp a été exécuté sur chaque espèce de fichier FASTA (.fasta) contenant tous les gènes en utilisant les options pour sortir la séquence de rampe et la partie après la séquence de rampe, comme décrit dans le fichier ExtRamp README (https://github.com/ridgelab/ExtRamp ) La commande exacte utilisée est incluse dans la note supplémentaire S3.

Identification des séquences de rampe à l'aide d'ExtRamp. Organigramme pour trouver des séquences de rampe à l'aide d'ExtRamp.

Récupérer des phylogénies en utilisant la présence et l'absence de rampes

La présence ou l'absence d'une séquence de rampe dans chaque orthologue annoté a été codée dans une matrice binaire. Si une séquence de rampe était présente dans un orthologue, elle était codée dans la matrice comme un « 1 », et si elle était absente, elle était codée comme un « 0 ». Les espèces qui ne contenaient pas l'orthologue ont reçu un '?' pour une valeur manquante, similaire à d'autres méthodes qui ont trouvé des signaux phylogénétiques dans les biais d'utilisation des codons 23,24,25. L'effet des données manquantes a été limité en appliquant un filtre supplémentaire aux données. Un gène orthologue n'a été inclus dans les analyses que si une séquence rampe dans ce gène a été trouvée dans au moins 5 % des espèces. De plus, toutes les espèces devaient contenir des annotations orthologues pour au moins 5 % des orthologues passant ce filtre initial. Après application de ce filtre, les espèces de mammifères avaient une moyenne de 16,31 % ± 7,81 % de données manquantes, et les vertébrés non mammifères avaient une moyenne de 28,50 % ± 13,11 % de données manquantes.

Les arbres phylogénétiques de parcimonie ont été récupérés à l'aide de l'analyse des arbres à l'aide de la nouvelle technologie (TNT) 26 . Les arbres les plus parcimonieux ont été trouvés en sauvegardant plusieurs arbres à l'aide de l'échange de branches par reconnexion de bissection d'arbres (tbr) 27 . Les arbres à probabilité maximale ont été récupérés en utilisant IQTREE 28 .

Récupération des phylogénies de référence

Afin de déterminer la congruence du signal phylogénétique des séquences de rampe, chacune des phylogénies récupérées (c. Bien que cette phylogénie ne puisse pas être considérée comme le « vrai » arbre, elle est créée à partir d'un conglomérat de nombreuses études phylogénétiques et fournit une ressource utile pour comparer les séquences de rampe en tant que nouvel état de caractère. La phylogénie synthétique a été extraite de l'OTL à l'aide d'un analyseur précédemment publié, getOTLtree.py 30 , qui fait référence à l'interface de programmation d'application (API) OTL pour obtenir les identifiants de taxonomie OTL pour chaque espèce et récupère la phylogénie à partir de la base de données OTL. La commande exacte est incluse dans la note supplémentaire S4.

Comparaisons avec l'arbre synthétique OTL

L'exactitude des phylogénies récupérées sur la base de la présence ou de l'absence de séquence de rampe a été évaluée en comparant chaque arbre à la phylogénie synthétique OTL. La différence a été quantifiée à l'aide de comparaisons de pourcentage de branches, telles que mises en œuvre par la boîte à outils Environment for Tree Exploration ete3 compare le module 31,32. Cette métrique calcule le pourcentage de similarité de branche entre deux arbres, où un pourcentage élevé correspond à des arbres plus similaires. Cette métrique a été sélectionnée en raison de sa capacité à comparer les grands arbres, y compris les arbres non racinés et les arbres polytomisés. La performance de base de la métrique d'identité de pourcentage de branche ete3 a été déterminée en comparant 1 000 permutations aléatoires des topologies de mammifères et d'autres vertébrés à l'OTL.

Séquences de rampe de notation

En utilisant la matrice binaire des séquences de rampe dans chaque orthologue, la mesure dans laquelle les séquences de rampe sont homoplasiques a été quantifiée en mappant chaque séquence de rampe à l'OTL. Pour chaque séquence de rampe, les espèces ont été divisées en deux partitions basées sur la présence ou l'absence de la séquence de rampe. Étant donné que les autapomorphies ne fournissent pas d'informations phylogénétiques, une séquence de rampe orthologue devait être présente chez au moins deux espèces et absente chez au moins deux espèces, en supposant un arbre entièrement résolu. Pour chaque séquence de rampe, le nombre de parallélismes et d'inversions qui se sont produits a été quantifié. Les parallélismes se produisent lorsqu'un personnage apparaît plusieurs fois indépendamment en raison d'une évolution convergente. Les inversions se produisent lorsqu'un caractère dérivé est perdu ou lorsque le caractère revient à son état ancestral. Une séquence de rampe a été déterminée comme orthologue si elle séparait correctement les espèces en fonction de leurs relations signalées dans l'OTL et si le nombre total d'événements de gain/perte était égal à un, comme précédemment calculé pour d'autres biais d'utilisation des codons 23,24. Le nombre d'événements d'origine et de perte a ensuite été utilisé pour calculer l'indice de rétention pour chaque séquence de rampe 33, où un indice de rétention de zéro représente un caractère totalement homoplasique, et un indice de rétention de un représente un caractère dans lequel aucun des états n'est homoplasique. .

Calculs statistiques par test de permutation aléatoire

Des permutations aléatoires ont été effectuées afin de déterminer dans quelle mesure l'indice de rétention moyen observé des séquences de rampe se compare au hasard. Les tests de permutation (également appelés tests de randomisation) sont des tests statistiques non paramétriques qui déterminent la signification statistique en réarrangeant de manière aléatoire les étiquettes d'un ensemble de données 34 . Les taxons de l'OTL ont été mélangés 1000 fois pour générer des arbres aléatoires. La topologie arborescente de l'OTL a été maintenue pour éviter tout biais dû à la topologie arborescente. Les indices de rétention des séquences de rampe ont été calculés pour chaque arbre aléatoire afin de créer une distribution nulle des indices de rétention en raison du hasard. L'indice de rétention moyen réel de la rampe a été comparé à cette distribution et une valeur p empirique a été calculée comme la proportion d'indices de rétention permutés inférieur ou égal à l'indice de rétention observé de l'OTL.

Calcul statistique de rampes complètement orthologues

Une séquence de rampe a été considérée comme orthologue si toutes les espèces qui ont ou n'ont pas la séquence de rampe forment un groupe monophylétique. Pour chaque séquence de rampe orthologue, la probabilité qu'elle forme un groupe monophylétique en accord avec la topologie OTL en raison du hasard a été calculée. Les espèces ont été divisées en deux groupes : les espèces avec des séquences de rampe et les espèces sans séquences de rampe. La probabilité conditionnelle a ensuite été calculée qu'un groupe d'espèces se diviserait au hasard en un groupe monophylétique concordant à l'OTL en utilisant la méthode précédemment décrite dans Miller, et al. 23 , qui décrit comment (t) espèces totales avec (s) nombre d'espèces dans le plus petit des deux groupes (c. (1).

Par exemple, si trois espèces contiennent une séquence rampe dans un gène orthologue et qu'il y a sept espèces au total, alors la probabilité que les trois espèces contenant une séquence rampe dans le gène orthologue forment un groupe monophylétique en accord avec la topologie OTL par hasard est comme suit:

Pour chaque séquence de rampe orthologue, le nombre attendu de séquences de rampe a été calculé en multipliant la probabilité conditionnelle par le nombre total de séquences de rampe avec la même distribution taxonomique (par exemple, si l'ensemble de données contenait 15 gènes orthologues avec des séquences de rampe où il y avait trois espèces dans le plus petit groupe et sept espèces au total, alors le nombre attendu de rampes orthologues à travers cette distribution serait (P*15= frac<1><15>*15=1) ). Une analyse du chi carré a été effectuée en utilisant le nombre attendu de séquences de rampe orthologues par rapport aux nombres observés afin de calculer une valeur p pour l'ensemble de données.

Comparaisons de contrôle avec des séquences raccourcies

Nous avons effectué une analyse de contrôle supplémentaire pour nous assurer qu'ExtRamp a identifié les séquences de rampe qui ont probablement affecté l'efficacité de la traduction au lieu des artefacts génomiques en supprimant les 50 premiers codons de tous les gènes et en réexécutant notre pipeline d'analyse. Étant donné que la séquence de rampe se produit généralement dans les 50 premiers codons d'un gène, nous nous attendions à ce que cette analyse de contrôle identifie beaucoup moins de séquences de rampe que l'ensemble de données d'origine. Nous avons évalué cette différence à l'aide d'une statistique du chi carré et d'une valeur p.

Récupération de phylogénies à l'aide de données de séquence alignées

Afin d'étudier l'hypothèse selon laquelle les nucléotides des séquences en rampe fournissent un signal phylogénétique différent des autres portions du gène, les séquences alignées ont été analysées en utilisant le maximum de vraisemblance et de parcimonie. Les séquences de rampe pour chaque groupe orthologue ont été alignées à l'aide de Clustal Omega 35 (voir la note supplémentaire S5 pour la commande). Les séquences ont été alignées en utilisant l'alignement de séquences nucléotidiques par opposition à l'alignement de séquences d'acides aminés pour tenir compte des différences potentielles dans les cadres de lecture des sites d'épissage entre les espèces. Les alignements de séquences nucléotidiques permettent d'aligner des gènes homologues pouvant contenir des exons à double codage, qui se produisent lorsqu'une partie d'une séquence peut être codée en utilisant différents cadres de lecture.

La matrice de caractères a été codée en concaténant d'abord les séquences de rampe alignées de chaque orthologue. Ensuite, si un orthologue n'était pas présent dans une espèce, chaque caractère nucléotidique de cette séquence était codé sous la forme d'un « ? » pour les données manquantes. Le max a ensuite été utilisé dans IQ-TREE 28 pour sélectionner le meilleur modèle 36 et effectuer une estimation du maximum de vraisemblance de la phylogénie. La matrice a également été utilisée en TNT pour récupérer des phylogénies avec parcimonie.

Les phylogénies ont été récupérées de la même manière en utilisant la séquence alignée après la rampe et la séquence complète du gène pour chaque gène orthologue. Pour l'analyse du maximum de vraisemblance, la taille de l'ensemble de données pour la partie après la séquence de rampe et la séquence complète ont rendu la sélection automatique du modèle peu pratique en raison des exigences de calcul. Par conséquent, nous avons sélectionné les mêmes modèles qui ont été utilisés sur la séquence de rampe pour évaluer la séquence de gènes après la séquence de rampe et la séquence de gènes complète, qui étaient GTR + F + R5 pour les mammifères et GTR + F + R8 pour les vertébrés non mammifères.


Discussion

Les EST et autres séquences partielles de gènes sont la principale source de données de séquences pour un ensemble d'espèces vaste et taxonomiquement diversifié. Ces séquences sont extrêmement précieuses pour la découverte de gènes, l'annotation du génome, la génomique comparative, le développement de marqueurs et diverses autres utilisations [11, 33]. Cependant, pour les études de l'évolution des familles de gènes ou pour les analyses à grande échelle des familles de gènes, il faut faire face à la grande quantité de données manquantes dans les alignements dérivés de séquences partielles. Par exemple, sur les ≈27 000 familles de la base de données Phytome [30] pour lesquelles il existe trois séquences ou plus, la proportion moyenne de lacunes d'alignement est de 37 %.

Ces données manquantes sont-elles vraiment un problème ? Nous avons découvert qu'il était possible de récupérer des arbres précis à partir d'alignements dans lesquels les résidus manquants étaient regroupés en colonnes. Même si la moitié des alignements simulés avaient entre 50 et 60 % de données manquantes, la médiane stQD pour les arbres NJ et ML étaient de 0, et la médiane stQD pour les arbres MP était de 0,004. Ces résultats confirment que la présence de données manquantes elle-même ne conduit pas à une phylogénie incorrecte tant que des données suffisantes sont disponibles pour l'analyse [20, 22, 24, 25].

Cependant, les alignements gappy de type EST semblent être qualitativement différents. Lorsque la même quantité de données manquantes était distribuée selon un schéma typique des unigenes EST, les phylogénies étaient beaucoup moins précises : stQD pour les arbres calculés à partir de ces alignements variaient de 0,17 pour ML à 0,34 pour MP. Lors de l'utilisation de NJ, la précision phylogénétique était encore plus faible pour les alignements gappy de type EST que pour les alignements dans lesquels le même nombre de résidus a été supprimé au hasard. Une explication de ces résultats est que pour les alignements supprimés au hasard, il existe au moins un certain chevauchement entre toutes les paires de séquences. Pour les alignements gappy de type EST, d'autre part, il est courant que certaines paires de séquences ne partagent aucune colonne dans laquelle des données sont présentes (par exemple, voir les modèles d'écart 5, 6, 9 et 10), et donc aucune distance ne peut être calculé. Ceci pose des problèmes particuliers pour les méthodes à distance. Par exemple, PHYLIP signale une distance de "-1,0" pour deux séquences quelconques qui ne se chevauchent pas dans l'alignement d'entrée. Ceci est pris pour argent comptant lors de l'exécution de l'algorithme NJ, conduisant à un biais systématique vers des relations trop étroites entre les séquences de l'arbre en raison de l'absence de chevauchement entre elles. L'importance de la distribution, et pas seulement de la quantité, des données manquantes, a été montrée précédemment dans un contexte différent par Wiens [24]. Dans cette étude, une précision moindre a été obtenue lorsque les gènes manquants étaient répartis au hasard parmi les taxons échantillonnés, par rapport aux ensembles de données dans lesquels les gènes manquants étaient limités à des sous-ensembles monophylétiques de taxons.

Nous avons montré que l'on peut améliorer la précision phylogénétique en adoptant l'une ou l'autre des deux approches diamétralement opposées. Dans la première approche, on exclut les colonnes et les séquences vides de l'analyse par masquage d'alignement. Dans notre implémentation du masquage (REAP), nous imitons la manière dont il serait effectué sur des données réelles en excluant également les colonnes et les lignes qui montrent des signes de désalignement, même s'il n'y a pas d'erreur d'alignement dans notre simulation. La plupart des arbres calculés à partir d'alignements masqués utilisant les méthodes NJ ou ML étaient comparables à ceux calculés à partir d'alignements sans aucune donnée manquante (moyenne stQD de 0,0022 et 0,0026 contre 0,0 pour les alignements complets). Même pour les arbres MP, le masquage de l'alignement a permis d'améliorer les arbres approximativement au niveau des arbres NJ non masqués (stQD de 0,2286). Bien que cela puisse être dû uniquement à la suppression des lacunes, cela peut également refléter la suppression des positions d'alignement qui ont subi de multiples substitutions, rendant ainsi le signal phylogénétique plus clair dans celles qui restent. Quoi qu'il en soit, on ne peut pas échapper au paradoxe selon lequel la phylogénie est rendue plus précise en ignorant l'entrée d'alignement sans erreur. Un autre point important est que le masquage de l'alignement se fait au prix de ne pas conserver toutes les séquences. En moyenne, 27% des séquences dans un alignement de type EST ont été exclues par masquage dans nos expériences.

Une approche très différente consiste à tenter de modéliser les données manquantes, ce que nous avons fait grâce à une technique que nous appelons subdivision d'alignement. Par rapport au masquage, nous avons constaté que notre mise en œuvre de la subdivision d'alignement (SIA) était capable de conserver une proportion beaucoup plus élevée de séquences, la proportion médiane de séquences retenues à l'aide de SIA était de 100%. SIA généralement, mais pas universellement, a conduit à des arbres plus précis que ceux calculés directement à partir de l'alignement gappy. Les plus grandes améliorations de la précision sous SIA ont été observées dans les familles qui présentaient de nombreux sous-alignements. Lorsque les alignements incomplets ont été divisés en 12 sous-alignements ou plus, la SIA a abouti à une phylogénie plus précise dans presque tous les cas. D'autre part, lorsqu'il n'y avait que deux sous-alignements, la phylogénie calculée directement à partir de l'alignement d'origine était plus précise les deux tiers du temps. Il n'est peut-être pas surprenant que le nombre de sous-alignements soit étroitement associé au modèle d'écart utilisé dans la simulation. Les modèles d'espacement 1, 2, 3 et 8 n'ont généralement entraîné qu'un à quatre sous-alignements, tandis que les modèles d'espacement 6, 9 et 10 ont généralement entraîné un nombre beaucoup plus important. Ainsi, certains modèles d'espacement sont intrinsèquement plus susceptibles de voir une amélioration sous SIA que d'autres.

L'amélioration de la précision phylogénétique était généralement beaucoup plus élevée avec le masquage qu'avec la subdivision. Les arbres NJ calculés à partir d'alignements de type EST étaient plus de 100 fois plus précis avec le masquage d'alignement (stQD = 0,002) que lorsqu'il est calculé directement (stQD = 0,246). Le même différentiel n'était que d'environ deux fois lors de l'utilisation de SIA (stQD = 0,127). La précision phylogénétique utilisant SIA était donc comparable aux arbres MP masqués et aux arbres ML non masqués. De plus, l'approche SIA est laborieuse en termes de calcul. Pris ensemble, nos résultats suggèrent que le masquage d'alignement est l'approche préférée lorsque la distribution des données manquantes est de nature EST.

Bien qu'il ressorte de nos résultats que le masquage d'alignement n'est pas nécessaire lorsque ML est utilisé pour déduire la phylogénie, cela peut refléter l'absence d'erreur d'alignement dans les données simulées. Bien que dans certaines circonstances, le choix de la méthode d'inférence phylogénétique soit connu pour avoir un effet majeur sur la précision phylogénétique [34], des études antérieures ont montré que la précision de l'alignement [35-37] et le rapport signal/bruit phylogénétique dans l'alignement [ 38] peut être encore plus important que le choix de la méthode phylogénétique. Bien que nous n'ayons pas étudié les effets du désalignement dû à l'utilisation de séquences de gènes partielles comme entrée, nous suggérons que l'erreur d'alignement est susceptible d'améliorer les performances relatives du masquage.

En modélisant les données d'alignement manquantes, nous avons estimé la matrice de distance que nous nous attendrions à voir en l'absence d'observations manquantes. Pour développer et optimiser davantage la méthode SIA, d'autres approches pour combiner les sous-alignements peuvent être testées dans des études futures. Par exemple, nous avons imputé des distances par paires qui n'ont pas pu être calculées à partir des sous-matrices en utilisant une métrique à quatre points [18, 39]. Les futures implémentations de SIA pourraient être améliorées en incorporant une métrique à trois points ou une imputation par les moindres carrés pondérés [18, 23, 40]. Cependant, comme seulement 17,5 % des cellules des matrices combinées manquaient, nous nous attendons à ce que la différence de qualité d'imputation n'ait que des effets mineurs sur les résultats. Des approches alternatives qui modélisent les données d'alignement manquantes de manière probabiliste ou par imputation permettraient d'appliquer des techniques phylogénétiques plus précises (vraisemblables ou bayésiennes) tout en conservant toutes les séquences d'entrée. Une autre approche intéressante serait d'inférer les phylogénies séparément pour chaque sous-alignement, puis de calculer un super-arbre pour l'ensemble de données complet [41].


Mots clés

Botryosphaeriales phytopathogènes et endophytes connus par culture

Vous êtes libre de partager – de copier, de distribuer et de transmettre l'œuvre, dans les conditions suivantes :

Attribution: Vous devez attribuer l'œuvre de la manière spécifiée par l'auteur ou le concédant de licence (mais pas d'une manière qui suggère qu'ils vous approuvent ou approuvent votre utilisation de l'œuvre).

Non commercial : Vous ne pouvez pas utiliser ce travail à des fins commerciales.

Pas d'œuvres dérivées : Vous ne pouvez pas modifier, transformer ou construire sur ce travail.


C ASE U NIVARIÉ : S IGNAL P HYLOGÉNÉTIQUE

Le cas univarié correspond à une régression logistique phylogénétique appliquée en l'absence de variables indépendantes, il n'y a donc qu'un seul paramètre qui détermine la moyenne. Pour ce cas, nous construisons un modèle de changement phylogénétique d'un trait binaire en supposant que le trait évolue vers le haut d'un arbre phylogénétique. Pendant chaque petit incrément de temps, il y a une certaine probabilité α1 que le trait passe à 1 s'il est actuellement 0 et une autre probabilité α0 que le trait passe à 0 s'il est actuellement 1, l'évolution vers le haut de l'arbre phylogénétique prend la forme d'un processus de Markov, comme cela a été utilisé dans les modèles précédents d'évolution de traits binaires (par exemple, Pagel 1994). Ce processus d'évolution conduit à une distribution de probabilité pour les valeurs des traits aux extrémités de l'arbre phylogénétique. Les grandeurs absolues de0 et1 définir les taux de transition entre 0 et 1 et donc affecter la force des corrélations phylogénétiques observées parmi les espèces de pointe. Par exemple, si0 et1 ont des valeurs élevées, alors les transitions entre 0 et 1 se produisent rapidement, ce qui brisera la tendance des espèces étroitement apparentées à se ressembler.

Bien que nous fassions ces hypothèses spécifiques sur le processus évolutif pour produire un modèle statistique, nous reconnaissons qu'il est peu probable que l'évolution d'un trait réel à travers le temps suive ce processus avec précision. Par exemple, la probabilité de transition peut varier entre les branches de l'arbre phylogénétique. Néanmoins, fonder nos analyses autour d'un modèle spécifique (et assez simple) de changement évolutif permet de dériver une distribution statistique explicite des valeurs d'un trait binaire entre les espèces.

Nous avons choisi d'utiliser μ et comme paramètres dans notre modèle statistique car ils ont des interprétations intuitives et augmentent la correspondance entre le modèle et la régression logistique standard. Néanmoins, le modèle pourrait également être formulé dans d'autres paramètres, par exemple, α0 et1 (c'est-à-dire les taux de transition). Une limitation statistique importante, cependant, est que seuls 2 éléments d'information sont disponibles à partir des ensembles de données, la valeur moyenne de Oui et la corrélation dans Oui parmi les espèces. Par conséquent, il n'est possible d'estimer que 2 paramètres. Cette limitation explique certaines décisions stratégiques que nous avons prises dans la formulation du modèle. Par exemple, en dérivant la matrice de corrélation C(α) nous avons supposé que le processus est stationnaire, de sorte que la probabilité que le trait à la base de l'arbre phylogénétique ait l'état 1 est égale à , la même qu'aux extrémités de l'arbre. Si nous devions supposer que le processus n'était pas stationnaire, alors la matrice de corrélation serait , où m est la valeur de trait attendue aux extrémités et m0 est la valeur de trait attendue à la base de l'arbre phylogénétique. Cependant, ce modèle a maintenant 3 paramètres (m, m0, et ) et seulement 2 peuvent être estimés, donc rien n'est gagné par cette formulation. Par conséquent, parce que cela ne conduit pas à une perte de généralité, nous avons utilisé l'hypothèse que le processus est à la stationnarité.

La matrice de corrélation C(α) a une structure différente de celle de la matrice de corrélation utilisée pour la régression phylogénétique des caractères à valeur continue ( Martins et Hansen 1997 Garland et Ives 2000 Lavin et al. 2008). Pour les traits à valeur continue sous l'évolution du mouvement brownien, les corrélations dans les valeurs des traits entre les espèces sont proportionnelles aux longueurs des branches partagées (hors diagonales) données dans la matrice W, alors que pour notre modèle évolutif d'un processus binaire les corrélations sont données par C(α). La structure de C(α) est identique à celui produit pour les traits à valeur continue suivant un modèle d'évolution OU sous l'hypothèse que le processus est stationnaire ( Hansen et Martins 1996 Martins et Hansen 1997 Butler et King 2004). La dérivation du processus OU donnée dans Blomberg et al. (2003) diffère de celle donnée dans ces citations en supposant que la valeur du trait à la base de l'arbre phylogénétique est connue avec une variance nulle, cela a l'avantage de produire une transformation qui renvoie l'arbre d'origine (c'est-à-dire, W) lorsque le paramètre donnant le signal phylogénétique = 1. Cette hypothèse n'est pas une option pour le cas des variables binaires car la variance est déterminée strictement par la moyenne. Bien que la matrice C(α) n'est jamais identique à W, lorsque = 1, les forces des corrélations phylogénétiques (éléments hors diagonale) sont de magnitude globale similaire pour C(α) et W, et donc α = 1 sert de point de référence approximatif pour évaluer la force du signal phylogénétique. En d'autres termes, lorsque = 1, l'amplitude des corrélations phylogénétiques entre les valeurs de pointe du trait est approximativement de la même amplitude que les corrélations phylogénétiques auxquelles on s'attendrait pour des traits à valeur continue évoluant selon un mouvement brownien dans le même arbre. La relation entre C(α) et W, cependant, dépend de la structure de W et doit donc être considéré au cas par cas, le programme PLogReg.m génère la matrice C(α) afin qu'il puisse être examiné directement (voir Matériel supplémentaire).

Parce que le modèle statistique nécessite la saisie de la matrice W qui donne les corrélations phylogénétiques attendues entre les espèces, une attention particulière doit être apportée lorsqu'un arbre phylogénétique a des extrémités non contemporaines. Les corrélations phylogénétiques dans notre modèle (équation (1)) dépendent des distances de longueur de branche (patristique) entre les extrémités de l'arbre phylogénétique données par les éléments hors diagonale de 2(1 − W). Pour préserver les distances relatives pour un arbre avec des pointes non contemporaines, soit la matrice avec des éléments donnant les longueurs de branches partagées entre les pointes je et j (mesurée à n'importe quelle échelle, par exemple, les estimations de temps, la divergence de l'ADN). Si T est la matrice dont les éléments sont égaux à la longueur moyenne de la base aux pointes je et j, et si max( ⁠⁠ ) est la valeur maximale des éléments dans ⁠ , alors donne les distances de bout en bout sur l'arbre phylogénétique standardisé pour que la distance maximale entre les bouts soit 2. Ainsi, dans l'équation (1) nous laisser pour donner un moyen standardisé d'incorporer des arbres phylogénétiques avec des pointes non contemporaines.

À titre d'exemple explicite, considérons le cas dans lequel les espèces A et B ont une longueur de base à pointe 2, l'espèce C a une longueur de base à pointe 8 et les espèces B et C partagent une longueur de branche 1, donnant ainsi ⁠ . Les longueurs de branches d'espèce à espèce sont alors ⁠ , et donc la matrice de distance normalisée ⁠ . Ici, les espèces A et B sont les plus proches et ont donc l'élément correspondant le plus bas de 2(1 − W), même si dans l'arbre initial , les espèces B et C sont les espèces phylogénétiquement apparentées.

Estimation des paramètres

Bien qu'il soit possible de dériver la fonction de vraisemblance pour le processus évolutif que nous avons décrit ci-dessus (par exemple, Pagel 1994) et donc d'estimer les paramètres μ et en utilisant l'estimation ML, nous utilisons à la place une procédure plus flexible et numériquement plus efficace. Plus précisément, nous estimons μ étant donné α à l'aide de la fonction de quasi-vraisemblance, puis estimons α étant donné μ à l'aide de l'estimation des moindres carrés, en alternant à plusieurs reprises entre l'estimation de μ et α jusqu'à ce que les deux valeurs convergent.L'estimation de la quasi-vraisemblance et des moindres carrés nécessitent de connaître uniquement les 2 premiers moments statistiques de la distribution de probabilité des valeurs de traits parmi les espèces de pointe. Cependant, pour un processus binomial, les 2 premiers moments spécifient pleinement la distribution, et donc la procédure d'estimation utilise toutes les informations fournis par les données.

La fonction de quasi-vraisemblance est dérivée de l'espérance et de la variance de la distribution de Oui. Bien que pour toute distribution, la fonction de quasi-vraisemblance n'approxime que la fonction de vraisemblance, les estimations de quasi-vraisemblance sont les mêmes que les estimations ML, et les propriétés asymptotiques des estimateurs qui sont utilisés pour dériver, par exemple, les intervalles de confiance approximatifs sont les mêmes ( McCullagh et Nelder 1989). Dans le processus évolutif décrit ci-dessus, l'attente de tous les éléments de Oui est simplement μ, et la structure de corrélation de la distribution de Oui est donné par C(α) (équation (1)), qui définissent ensemble la fonction de quasi-vraisemblance pour une valeur donnée de . L'estimation de la quasi-vraisemblance sous-tend la GEE ( Liang et Zeger 1986 Zeger et Liang 1986 Zeger et al. 1988). Les GEE proposées pour les analyses phylogénétiques de données comparatives ( Paradis et Claude 2002 Forsyth et al. 2004) ont été des approximations de premier ordre (GEE1), alors qu'il est également possible d'utiliser des approximations de second ordre (GEE2) qui intègrent à la fois les composantes moyennes des modèles (coefficients de régression) et des composantes de la variance (celles qui affectent la matrice de covariance, comme le paramètre α) ( Prentice 1988 Zhao et Prentice 1990 Liang et al. 1992). Cependant, pour notre application, le GEE2 de second ordre est d'une complexité prohibitive et le GEE1 de premier ordre avait souvent de mauvaises propriétés de convergence (résultats non présentés). Nous avons donc utilisé directement des fonctions de quasi-vraisemblance, en utilisant la minimisation du simplexe pour trouver les valeurs des paramètres ML plutôt que la minimisation de Newton-Raphson qui est généralement utilisée dans l'approche GEE.


Introduction à la phylosymbiose

La phylosymbiose a été récemment formulée pour soutenir un cadre fondé sur des hypothèses pour la caractérisation d'une nouvelle tendance inter-systèmes dans les microbiomes associés à l'hôte. En définissant la phylosymbiose comme « des relations avec la communauté microbienne qui récapitulent la phylogénie de leur hôte », nous passons en revue la littérature et les données pertinentes de la dernière décennie, en mettant l'accent sur les méthodes fréquemment utilisées et les modèles réguliers observés dans les analyses. Le soutien quantitatif de la phylosymbiose est fourni par des méthodes statistiques évaluant une variation plus élevée du microbiome entre les espèces hôtes qu'au sein des espèces hôtes, des similitudes topologiques entre la phylogénie de l'hôte et le dendrogramme du microbiome, et une association positive entre les relations génétiques de l'hôte et la diversité bêta du microbiome. Des degrés significatifs de phylosymbiose sont répandus, mais pas universels, dans les microbiomes des plantes et des animaux des habitats terrestres et aquatiques. Conformément à la sélection naturelle façonnant la phylosymbiose, les expériences de transplantation de microbiome démontrent une réduction des performances et/ou de la forme physique de l'hôte en cas de non-concordance hôte-microbiome. L'hybridation peut également perturber les microbiomes phylosymbiotiques et provoquer des pathologies hybrides. L'omniprésence de la phylosymbiose comporte plusieurs implications importantes pour l'avancement des connaissances sur les processus éco-évolutifs qui ont un impact sur les interactions hôte-microbiome et les applications futures de la microbiologie de précision. Les prochaines étapes importantes consisteront à examiner la phylosymbiose au-delà des communautés bactériennes, à appliquer une modélisation évolutive pour une compréhension de plus en plus sophistiquée de la phylosymbiose et à démêler les mécanismes hôtes et microbiens qui contribuent au modèle. Cette revue sert de passerelle vers les thèmes expérimentaux, conceptuels et quantitatifs de la phylosymbiose et décrit les opportunités mûres pour l'enquête dans une diversité de disciplines.

1. Introduction

La dernière décennie a suscité un regain d'intérêt pour la complexité des micro-organismes vivant en association avec des hôtes, donnant un certain nombre de nouveaux résultats empiriques, concepts philosophiques et opportunités de recherche [1,2]. Toute discussion sur l'étude des interactions hôte-microbiome doit commencer par des définitions claires. Ici, nous utilisons le terme de symbiose (symbole-'ensemble', biographie— « vie » en grec) pour englober les associations entre deux ou plusieurs organismes d'espèces différentes et sans restriction de la durée de l'association ou des phénotypes produits par les espèces en interaction. Étant donné que la variation temporelle et fonctionnelle de la symbiose dépend du contexte, les interactions symbiotiques peuvent inclure une gamme d'associations obligatoires, facultatives, transitoires et permanentes avec divers degrés de spécificité et de coûts et avantages fonctionnels.

Les deux dernières décennies de recherche et de progrès technologiques ont placé la symbiose microbienne comme lien entre de nombreuses sous-disciplines au sein et au-delà de la biologie. Les chercheurs disposent désormais d'une suite d'outils et d'une prise de conscience accrue des principales questions auxquelles il faut répondre. Celles-ci incluent des approches holistiques pour l'identification des facteurs écologiques [3] et hôtes [4-7] de la diversité taxonomique et fonctionnelle microbienne, ainsi que des approches réductionnistes qui fournissent des informations évolutives et mécanistes sur les processus de transmission [8] et les résultats phénotypiques de la symbiose [ 1]. L'abondance d'enquêtes empiriques et théoriques sur l'écologie et l'évolution des symbioses simples constitue également un terrain fertile pour jeter les bases du domaine du microbiome qui étudie fréquemment les associations complexes entre les hôtes et leurs multiples associés microbiens. Un domaine de recherche en croissance rapide dans divers systèmes est le modèle récemment défini de la phylosymbiose [9]. Cette revue vise à synthétiser le sujet pour fournir : (i) une définition durable du terme (ii) un guide pratique pour tester la phylosymbiose (iii) un aperçu de la prévalence de la phylosymbiose (iv) un discours sur la signification biologique de la phylosymbiose et (v) les orientations futures de la recherche sur la phylosymbiose.

2. Qu'est-ce que la phylosymbiose et qu'est-ce qui n'est pas ?

Nous utilisons la citation suivante pour décrire notre définition initiale et de base de la phylosymbiose, à savoir « les relations avec la communauté microbienne qui récapitulent la phylogénie de leur hôte » [9]. La phylosymbiose est avant tout une association significative entre les relations phylogénétiques de l'hôte et les relations avec la communauté microbienne associée à l'hôte, où « phylo » fait référence au clade hôte et « symbiose » à la communauté microbienne dans ou sur l'hôte.

Avant l'introduction du terme phylosymbiose dans une étude de Nasonia espèces de guêpes parasitoïdes [9], les premières investigations ont précisé les relations entre la phylogénie de l'hôte ou les distances génétiques avec la diversité bêta microbienne chez le maïs [10], les insectes [5,11] et les mammifères [4,12]. Ces études ont utilisé le séquençage du gène de l'ARNr 16S bactérien sur plusieurs espèces hôtes pour démontrer que les espèces étroitement apparentées abritent des microbiomes plus similaires que les espèces éloignées. Par exemple, l'espèce sœur N. giraulti et N. longicornis ont divergé d'environ 0,4 Ma et abritent des microbiomes larvaires, pupes et adultes de 2e stade plus similaires que le microbiome de leurs espèces exogroupe N. vitripennis [9,11], qui a divergé d'environ 1,0 Ma des deux espèces sœurs [13].

La phylosymbiose peut résulter de forces évolutives et écologiques stochastiques et/ou déterministes. Par exemple, les effets stochastiques incluent les fluctuations de dispersion dans les communautés microbiennes (dérive écologique) ou les changements dans l'aire de répartition géographique des hôtes [14]. La phylosymbiose peut également être façonnée par la variation de niche écologique [15-17] et alimentaire [4] entre les lignées d'hôtes. Les effets déterministes incluent les préférences de colonisation microbienne pour certains antécédents d'hôte ou la régulation de l'hôte dans laquelle la composition de la communauté microbienne est influencée par le(s) trait(s) de l'hôte [18]. La première étude établissant un lien entre les modèles phylosymbiotiques et la fonction de gènes hôtes spécifiques a révélé que le knockdown de la Hydre phylosymbiose perturbée par le peptide antimicrobien d'arménine [6] couramment observée dans plusieurs eaux douces et en laboratoire Hydre espèces [19]. Bien que la phylosymbiose puisse potentiellement résulter d'associations intimes hôte-microbe à long terme au cours de l'évolution, telles que la coévolution hôte-microbe, la co-diversification [20] et la cospéciation [21], elle peut également être entraînée par des changements à relativement court terme dans composition microbienne. En effet, une récente Drosophila melanogaster Une étude a révélé les effets des changements du microbiome intestinal sur la divergence génomique de l'hôte en aussi peu que cinq générations [22]. Cela suggère qu'au lieu d'être des agents passifs de la phylosymbiose, les communautés microbiennes ont le potentiel d'induire des changements génomiques de l'hôte qui pourraient, à leur tour, avoir un impact sur l'établissement, le maintien ou la rupture de la phylosymbiose.

Alors que la phylosymbiose se distingue de la non-phylosymbiose par un degré significatif d'association entre les relations entre la communauté phylogénétique de l'hôte et celle du microbiome, elle n'est pas universelle (§5) et fournit donc une hypothèse vérifiable. Déterminer la présence d'une phylosymbiose est une première étape précédant d'autres investigations sur les mécanismes éco-évolutifs, tels que la nature des associations espèce-espèce, les forces sélectives ou neutres guidant la phylosymbiose et les (in)conséquences du modèle sur l'hôte et les phénotypes microbiens. . Si la phylosymbiose résulte d'une pression sélective évolutive, des diminutions de l'aptitude de l'hôte ou microbienne sont attendues lors de l'exposition de l'hôte aux microbiomes de différentes lignées d'hôtes d'une manière informée sur l'évolution. Les pressions sélectives évolutives qui entraînent la phylosymbiose pourraient entraîner la propagation de traits de l'hôte qui régulent la composition du microbiome ou des traits microbiens qui améliorent la colonisation de l'hôte. Dans cette optique générale, nous nous référons à la « phylosymbiose fonctionnelle » lorsque l'hôte et/ou les phénotypes microbiens ont un impact ou sont impactés par des associations phylosymbiotiques.

Les expériences de transplantation de microbiome interspécifique sont utiles pour élucider la phylosymbiose fonctionnelle. Une étude de phylosymbiose à grande échelle couvrant 24 espèces dans quatre clades hôtes élevés en laboratoire (Nasonia guêpes, Drosophile mouches, moustiques et Peromysque souris sylvestres) a démontré que les greffes interspécifiques de communautés microbiennes intestinales entre Peromysque espèces ont diminué la digestibilité de la matière sèche et augmenté l'apport alimentaire, tandis que les transplantations entre Nasonia les espèces ont considérablement réduit leur survie jusqu'à l'âge adulte de près de la moitié [23]. De plus, les microbiomes interspécifiques sont plus coûteux à Nasonia croissance larvaire et nymphose que les microbiomes intraspécifiques [24]. De même, les greffes réciproques de symbiotes maternels entre deux Ontophage les espèces de bousiers ont causé un retard de développement et une mortalité élevée chez les hôtes non indigènes qui ont persisté jusqu'à la génération suivante [25]. Collectivement, les associations phylosymbiotiques qui ont un impact sur la forme physique de l'hôte soutiennent l'hypothèse selon laquelle les hôtes sont adaptés à leurs microbiomes natifs plutôt qu'aux microbiomes non natifs, bien que davantage d'études soient nécessaires pour confirmer ces associations et ces effets dans les populations d'hôtes captifs et sauvages.

L'hybridation entre les espèces hôtes provoque des inadéquations hôte-microbiome, car la combinaison de génotypes d'hôtes évolués indépendamment dans un hybride peut entraîner une rupture des préférences de colonisation microbienne pour certains hôtes ou du contrôle du microbiome par l'hôte. Comme démontré dans Nasonia [9], les souris domestiques [26] et les corégones [27], les hybrides ont un microbiome altéré par rapport au microbiome parental, suggérant une capacité réduite des hôtes à réguler leurs microbiomes et une capacité accrue des microbes pathogènes à fleurir. Ces ruptures dans les interactions hôte-microbiome peuvent être associées à des phénotypes inadaptés chez les hybrides, notamment un dysfonctionnement immunitaire, une pathologie, l'inviabilité et la stérilité [9,26] qui peuvent réduire les croisements entre espèces ou populations. Dans Nasonia, la létalité des hybrides entre la paire d'espèces plus âgée a été sauvée par un élevage sans germe et restaurée en nourrissant un inoculum d'espèces bactériennes intestinales sélectionnées et résidentes, des parents aux hybrides sans germe [9]. En revanche, les hybrides entre un jeune Nasonia paire d'espèces n'a pas de microbiome altéré et n'a pas subi de coûts fonctionnels. Collectivement, les résultats des expériences de transplantation de microbiome interspécifique et des études d'hybridation d'hôtes illustrent que les interactions hôte-microbiome entre les espèces hôtes peuvent avoir des conséquences fonctionnelles importantes qui ont un impact sur les événements évolutifs au sein et entre les espèces, y compris le calage des populations hôtes dans les espèces.

Ayant maintenant résumé la phylosymbiose, nous accentuons brièvement ce que la phylosymbiose n'est pas, pour plus de clarté. La phylosymbiose n'implique pas nécessairement une transmission verticale, des interactions mutualistes ou une séparation évolutive d'un ancêtre commun via la coévolution, la cospéciation, la co-diversification ou la cocladogénèse. Bien que ces processus puissent conduire à la phylosymbiose, le modèle peut également résulter d'interactions antagonistes et/ou d'une transmission microbienne horizontale où les interactions entre les hôtes et les microbes environnementaux établissent la phylosymbiose à chaque génération. En tant que telle, la phylosymbiose a des fondements variés soumis à une enquête empirique, et elle peut apparaître à certains moments et dans l'espace plutôt que d'être stable tout au long de la durée de vie d'un hôte.

3. Un guide pratique pour étudier la phylosymbiose

Les investigations sur la phylosymbiose varient en termes d'approche (qualitative versus quantitative), de méthodologie et de puissance statistique [18]. Ainsi, un flux de travail clair, cohérent et robuste pour détecter la phylosymbiose est souhaitable pour les nouveaux arrivants et les experts. Ici, nous suggérons un flux de travail complet pour examiner la phylosymbiose (figure 1).

Figure 1. Aperçu séquentiel des méthodes bioinformatiques couramment utilisées pour les analyses de phylosymbiose. (Version en ligne en couleur.)

(a) Taxons hôtes et données d'entrée

Étant donné que la détection de la phylosymbiose implique la collecte d'échantillons répliqués sur plusieurs taxons, l'optimisation de la sensibilité statistique [28] et de la spécificité [18], ainsi que la minimisation des effets de lot de séquençage, sont cruciales pour différencier le bruit et le signal. Bien que notre étude de 2016 ait montré que les arbres enracinés avec quatre Nasonia espèces sont suffisantes pour détecter la phylosymbiose au sein du clade [23], nous suggérons l'utilisation d'analyses de puissance et de taille d'effet appropriées (revues dans [29] pour les données sur le microbiome) pour déterminer suffisamment de répétitions et de taxons pour l'optimisation de la puissance statistique [28]. L'échantillonnage de plusieurs individus par espèce aidera à résoudre le bruit du signal dans les relations de la communauté microbienne, mais une étude plus approfondie est nécessaire sur la meilleure façon d'utiliser les réplicats d'échantillons inter- et intra-espèces pour étudier la phylosymbiose entre les clades hôtes qui peuvent varier dans les temps de divergence. S'ils sont disponibles, les modèles expérimentaux d'études de phylosymbiose réussies avec des types d'échantillons similaires peuvent également être adaptés en conséquence [30]. Des études antérieures ont détecté avec succès la phylosymbiose dans des taxons hôtes couvrant environ 0,3 à 100 Myr d'histoire évolutive [21,23], et si des périodes plus longues depuis un dernier ancêtre commun ont un impact sur la détection de la phylosymbiose nécessite une étude plus approfondie. Les séquences de nucléotides ou d'acides aminés d'espèces hôtes peuvent être utilisées pour générer un arbre phylogénétique ou phylogénomique qui est soutenu en toute confiance au niveau des nœuds de ramification avec bootstrap [31] ou d'autres mesures [32] et à travers plusieurs méthodes d'inférence phylogénétique (par exemple, le maximum de vraisemblance [ 33] et inférence bayésienne [34]). Parce qu'une topologie phylogénétique précise de l'hôte est essentielle pour évaluer la phylosymbiose, l'arbre doit être exempt d'artefacts systématiques tels que l'attraction des branches longues et les polytomies doivent être résolues dans la phylogénie de l'hôte lorsque cela est possible. Comme les méthodes utilisées pour reconstruire la phylogénie de l'hôte à partir d'un alignement de séquences ont été largement revues [35], nous ne les discuterons pas davantage ici. Avec un arbre évolutif d'hôte, les distances d'hôte par paires peuvent également être représentées comme des distances cophénétiques, calculées comme la somme des longueurs de branches reliant une paire de nœuds terminaux sur un arbre phylogénétique [36].

(b) Données d'entrée du microbiome

L'analyse de la phylosymbiose nécessite des données sur la diversité microbienne de chaque lignée hôte. Le séquençage à lecture courte des gènes marqueurs phylogénétiques microbiens (par exemple, le gène de l'ARNr 16S) est courant et économique pour le profilage microbien. Les lectures séquencées traitées peuvent être analysées par l'une des deux méthodes actuelles. Premièrement, ils peuvent être regroupés en unités taxonomiques opérationnelles (OTU) à différents seuils de séquence (par exemple 97% et 99%) avec et/ou sans base de données de séquences de référence [37,38]. Les seuils de regroupement OTU reflètent les distances génétiques entre les taxons au cours du temps évolutif et peuvent affecter la détection de la phylosymbiose [39] une telle variabilité a également été observée dans la pratique (revue dans [18]). Deuxièmement, les lectures peuvent être résolues en variantes de séquence d'amplicons (ASV) sans regroupement, ce qui peut offrir une résolution d'un seul nucléotide, bien que les taux d'erreur de séquençage doivent être pris en compte [40]. Pour la plus grande sensibilité dans l'évaluation de la phylosymbiose, les ensembles de données méta-omiques sont avantageux car un profil taxonomique et fonctionnel à plus petite échelle peut être réalisé [41]. Les données de séquence métagénomique ont été utilisées pour démontrer la phylosymbiose virale dans Nasonia [42] ainsi que les effets variables de la phylogénie et de l'écologie de l'hôte sur la composition et les fonctions des microbiomes intestinaux des primates non humains [43,44].

(c) Mesures de la diversité bêta microbienne

La diversité bêta microbienne, qui mesure les dissemblances dans la composition et la structure microbiennes entre les échantillons d'hôtes, est classiquement utilisée pour mesurer la phylosymbiose. Les mesures binaires, telles que la distance Jaccard et la distance Sørensen-Dice [45,46], sont calculées avec les données de présence/absence OTU. Les descripteurs quantitatifs des abondances d'OTU peuvent également calculer la diversité bêta, y compris la dissemblance Bray-Curtis [47] dérivée de Motyka et al.coefficient de [48]. Les métriques basées sur la phylogénie, telles que la fraction unique pondérée et non pondérée (UniFrac), utilisent les distances phylogénétiques entre les communautés (échantillons) pour calculer les différences de communauté microbienne, nécessitant l'utilisation d'un arbre phylogénétique microbien comme entrée pour calculer la distance totale de la communauté [49].

Parce que les métriques de diversité bêta reflètent différents aspects de la dissemblance, le choix de la métrique est spécifique à l'étude et dépend en partie de la composition microbienne et de l'histoire évolutive des lignées étudiées. Les métriques binaires basées sur la présence/l'absence sont plus sensibles aux variations des taxons rares et ont été mises en œuvre pour étudier la spécificité de l'hôte des microbiomes d'éponges, où les taxons rares comprenaient plus de 90 % des OTU distinctes [50]. Les métriques binaires peuvent également être sensibles à la diversification microbienne récente, car les OTU/ASV récemment divergentes exerceront le même effet que les OTU/ASV avec un historique de divergence plus long [39]. En revanche, les métriques quantitatives sont plus sensibles aux variations des taxons abondants.Outre les études de phylosymbiose basées sur la taxonomie [23,51-53], des métriques quantitatives ont également été appliquées aux données de métagénomique [42,43]. Les métriques qui prennent en compte les relations phylogénétiques entre les OTU, telles que les distances UniFrac, [54] sont appliquées dans de nombreuses autres études de phylosymbiose, y compris les chauves-souris [55], les coraux [20] et les mammifères [4,43].

La distinction du microbiome, ou la caractéristique de pouvoir différencier de manière significative les communautés microbiennes des lignées hôtes en cours d'évaluation, est une condition préalable à la phylosymbiose et doit être testée avant d'évaluer la prédiction de la phylosymbiose selon laquelle des espèces hôtes plus similaires abritent des microbiomes plus similaires [20,23,51– 53]. La distinction du microbiome peut être visualisée à partir des données de diversité bêta et des données de regroupement d'échantillons catégoriques à l'aide de graphiques d'ordination, tels que l'analyse des coordonnées principales (PCoA) et les graphiques de mise à l'échelle multidimensionnelle non métrique (NMDS) [56]. De plus, la distinction du microbiome peut être évaluée davantage à l'aide d'analyses multivariées typiquement non paramétriques, telles que l'analyse des similitudes (ANOSIM) [57] et les variantes de l'analyse multivariée permutationnelle de la variance (PERMANOVA) [58]. Des comparaisons spécifiques par paires des distances de diversité bêta microbienne intra- et interspécifique peuvent également être effectuées avec un test à deux échantillons non paramétrique approprié [23].

(d) Quantification de la phylosymbiose

La détermination de la phylosymbiose repose sur l'évaluation d'une association significative entre les relations phylogénétiques de l'hôte et les distances de la communauté microbienne associée à l'hôte. À cette fin, les tests de congruence topologique comparent directement les topologies d'un arbre phylogénétique hôte et un dendrogramme du microbiome [23,42,51–53,59]. Pour générer un dendrogramme hiérarchique, plusieurs méthodes de clustering hiérarchique agglomératif (examinées dans [56]) peuvent regrouper les distances de diversité bêta microbienne. La méthode la plus couramment utilisée, la méthode des groupes de paires non pondérées avec moyenne arithmétique (UPGMA), effectue un regroupement d'échantillons par paires à partir de leurs valeurs de dissimilarité moyennes et donne à tous les échantillons des poids égaux [60]. Par rapport aux approches de clustering par liaison, UPGMA priorise les relations entre les groupes plutôt que les échantillons individuels [56]. En attribuant des poids égaux à tous les échantillons, UPGMA suppose que les échantillons de chaque groupe sont représentatifs des groupes de la population de référence plus large [56]. En tant que tel, il peut être sensible à la taille des échantillons et peut générer des topologies instables avec des données déséquilibrées où certains groupes sont suréchantillonnés tandis que d'autres sont sous-échantillonnés. Les nouvelles méthodes de clustering, telles que la méthode de clustering de courge phylogénétiquement consciente, calculent directement les distances entre les échantillons (plutôt que les différences entre les distances de diversité bêta) en fonction de leurs positions sur un arbre phylogénétique microbien [61]. En général, les effets des méthodes de regroupement sur la détection de la phylosymbiose nécessitent une étude plus approfondie.

Les métriques de comparaison topologique, telles que la métrique de Robinson-Foulds et la métrique de cluster d'appariement plus robuste et sensible, sont fréquemment utilisées pour détecter la phylosymbiose [23,42,51,52,59,62]. Robinson-Foulds analyse la distance entre deux arbres comme le plus petit nombre d'opérations nécessaires pour convertir une topologie en une autre [63], tandis que le cluster de correspondance considère la congruence au niveau du sous-arbre et constitue donc une évaluation plus fine des petits changements topologiques qui affecter l'incongruence [64]. Signification statistique (p-values) a été évaluée en déterminant la probabilité de 100 000 topologies de dendrogrammes bifurquants randomisés produisant des modèles phylosymbiotiques équivalents ou plus congruents que le dendrogramme du microbiome [23]. À l'avenir, des techniques de randomisation améliorées qui préservent les relations conspécifiques seront utiles pour réduire les faux positifs. Les scores de Robinson-Foulds normalisés et les scores de cluster correspondants peuvent être calculés comme le nombre de différences entre les deux topologies divisé par le total des scores de congruence possibles pour les deux arbres, avec des distances normalisées allant de 0 (congruence complète) à 1 (incongruence complète) [23 ].

Les méthodes de corrélation matricielle identifient la phylosymbiose en comparant les similitudes entre les matrices de distance dérivées de l'hôte et celles dérivées des microbes. Les méthodes mises en œuvre dans les études de phylosymbiose [20,21,39,50,65–72] incluent des variantes du test de Mantel, qui évalue statistiquement la corrélation linéaire entre tous les éléments correspondants de deux matrices indépendantes par permutation [73] et la superposition de Procuste plus puissante approche, qui tourne et ajuste deux matrices pour minimiser leur association de différences [74]. Les tests de Mantel partiel [75] mesurant les corrélations entre deux matrices tout en contrôlant les effets d'une troisième variable décrite dans une autre matrice sont également utilisés pour évaluer les associations entre les communautés microbiennes et de multiples aspects des caractéristiques de l'hôte, tels que la phylogénie, l'identité, les distances génétiques et géographiques. distances [39,66,67,69].

Bien que les tests basés sur la topologie et sur la matrice soient suffisamment spécifiques et sensibles pour détecter la phylosymbiose dans une variété de cas empiriques, il existe plusieurs différences entre eux. Les métriques de comparaison topologique n'utilisent pas les informations de longueur de branche car il n'y a pas a priori raison de supposer que les taux d'évolution de l'hôte dans chaque lignée devraient être égaux aux taux de changement de la communauté écologique dans le microbiome. En effet, on peut s'attendre à ce que les taux de changement du microbiome soient beaucoup plus rapides que l'évolution progressive des changements génétiques de l'hôte. En tant que tels, les tests de topologie sans longueurs de branches relatives sont prudents par rapport aux méthodes de corrélation matricielle qui reposent directement sur des comparaisons de la divergence génétique de l'hôte avec la dissemblance de la communauté microbienne. Une analyse de simulation a suggéré que le test de Mantel a une sensibilité et une puissance plus élevées que la métrique de Robinson-Foulds lorsque la phylosymbiose est basée sur l'hypothèse de préférences microbiennes pour un trait d'hôte [19]. La pertinence pratique de cette conclusion n'est pas claire car la phylosymbiose découlera de raisons autres que les préférences de colonisation microbienne, telles que les préférences de l'hôte, les processus neutres et les interactions microbe-microbe. De plus, les performances entre le test de Mantel et la distance de cluster d'appariement plus sensible basée sur la topologie n'ont pas été évaluées dans cette simulation, et de telles comparaisons sont susceptibles de donner des informations différentes. L'analyse comparative systématique des taux d'erreur de type I et II des méthodes de mesure de la phylosymbiose dans divers scénarios possibles facilitera la conception expérimentale et l'interprétation des résultats. En tant que tel, les opportunités de recherche pour le développement et la mise en œuvre de méthodes améliorées de détection de la phylosymbiose sont nombreuses.

(e) Sélection des paramètres

La détection de la phylosymbiose implique la sélection de divers paramètres, tels que le seuil d'identité OTU, la métrique de diversité bêta, la méthode de regroupement et le test de congruence, chacun avec ses forces et ses limites qui varieront selon la conception et les questions de l'étude. Bien que diverses combinaisons de paramètres puissent être testées et comparées simultanément [39], dans le cas où seules quelques combinaisons de paramètres possibles détectent la phylosymbiose, nous recommandons une interprétation prudente des résultats par rapport aux paramètres choisis. S'ils sont disponibles, les résultats doivent également être comparés à ceux d'études de phylosymbiose antérieures avec des types d'échantillons similaires utilisant les mêmes combinaisons de paramètres. La réplication expérimentale est également nécessaire pour confirmer la phylosymbiose, surtout lorsqu'elle n'est pas systématiquement détectée.

(f) Méthodes comparatives phylogénétiques

Les effets du signal phylogénétique, défini comme « une tendance des espèces apparentées à se ressembler plus qu'elles ne ressemblent à des espèces tirées au hasard de l'arbre » [76], sur les traits univariés (par exemple la diversité alpha microbienne) ont été examinés en parallèle avec la phylosymbiose études [66,67]. Indices de signal phylogénétique comme celui de Pagel ?? [77] et Blomberg K [78] sont basés sur un modèle brownien aléatoire d'évolution des traits [79], mais peuvent également être utilisés et comparés à des modèles plus complexes qui prennent en compte la sélection naturelle. Bien que ces méthodes soient moins couramment utilisées sur des données multivariées et n'aient pas encore été appliquées pour évaluer explicitement la phylosymbiose, elles constituent des alternatives prometteuses non seulement pour examiner le signal phylogénétique de l'hôte sur la diversité bêta microbienne, mais également pour tester des modèles évolutifs pertinents pour la phylosymbiose.

Les méthodes comparatives phylogénétiques, telles que les contrastes phylogénétiques indépendants [79] et les modèles mixtes linéaires généralisés phylogénétiques (pGLMM) [80], prédisent la corrélation évolutive entre deux ou plusieurs traits discrets ou continus étant donné une phylogénie connue et un modèle évolutif. Ceux-ci peuvent également être intégrés dans des études de phylosymbiose. Les pGLMMs ont été récemment mis en œuvre dans des études sur le microbiome corallien [20] et le microbiome des plumes de passereau [71] pour examiner les effets de la latitude et de la taille de la colonie sur la diversité alpha des coraux, les relations cophylogénétiques entre les coraux et les bactéries et les relations entre la diversité alpha et l'abondance relative des bactéries productrices de bactériocines. les bactéries et les bactéries kératinolytiques qui endommagent les plumes. Parce que la phylosymbiose peut résulter de forces écologiques (entre autres), ces méthodes peuvent être utiles pour comprendre les diverses interactions écologiques qui sous-tendent éventuellement la phylosymbiose.

Dans l'ensemble, alors que les analyses de méta-omique et d'évolution des traits deviennent plus largement applicables à la phylosymbiose, une direction convaincante des futures recherches sur la phylosymbiose in silico est de s'aventurer au-delà des effets phylogénétiques de l'hôte sur la diversité microbienne pour résoudre les liens entre la phylogénie de l'hôte, les fonctions de l'hôte, la diversité microbienne, les fonctions microbiennes, les forces sélectives et les facteurs environnementaux.

4. La prévalence de la phylosymbiose

Un objectif majeur de la science du microbiome est de trouver des paradigmes généraux et des règles, le cas échéant, qui soient comparables entre des systèmes variés. Dans cette optique, la phylosymbiose apparaît comme une tendance de bonne foi en raison de sa récurrence fréquente dans les systèmes hôtes eucaryotes (figure 2). La phylosymbiose chez les insectes comprend des viromes de Nasonia les guêpes bijou parasitoïdes [42] et les microbiomes intestinaux des cafards, des termites [81], des moustiques élevés en laboratoire [23] et des moustiques sauvages [59], Céphalotes les fourmis tortues [39] et Apis abeilles corbiculées sociales [69]. Dans Drosophile mouches, les profils de phylosymbiose sont soit faiblement étayés [23] soit non détectés [82] dans les souches de laboratoire et les populations sauvages.

Figure 2. Diversité représentative de la phylosymbiose à travers les espèces hôtes, les tissus, les habitats et les fonctions. Les astérisques désignent les taxons avec des preuves mitigées de phylosymbiose. (Version en ligne en couleur.)

La première étude de phylosymbiose sur les microbiomes intestinaux des mammifères [4] a démontré les effets de la phylogénie animale et du régime alimentaire sur la dissemblance de la communauté microbienne intestinale [12,21,23,39,70,83]. Des études axées sur les microbiomes intestinaux de groupes d'animaux spécifiques ont détecté une phylosymbiose chez les pikas américains [51] et Peromysque souris sylvestre [23,52], pas de phylosymbiose chez les tamias occidentaux [84] et preuves mitigées de phylosymbiose chez les primates [17,43,44,70], les chauves-souris [55,85] et les oiseaux [62,68,86,87 ]. Une étude récente à grande échelle a révélé des effets beaucoup plus forts de la phylogénie de l'hôte et du régime alimentaire sur les microbiomes intestinaux des mammifères non volants que ceux des chauves-souris et des oiseaux [72]. Outre les microbiomes intestinaux ou fécaux, les microbiomes de surface des animaux ont également été analysés pour les associations phylosymbiotiques [88], qui se produisent par exemple sur la peau des mammifères [53] et les plumes des passereaux [71], mais pas sur la peau des amphibiens [3]. Une méta-analyse de la littérature sur la phylosymbiose a mis en évidence une prévalence accrue de la tendance des microbiomes habitant les compartiments internes de l'hôte par rapport à ceux habitant les compartiments externes de l'hôte [18]. Cependant, la conclusion peut être intrinsèquement biaisée en raison du plus grand nombre d'études portant sur la phylosymbiose dans l'intestin par rapport à d'autres compartiments externes de l'hôte.

Au-delà des habitats terrestres et associés, l'intérêt de la recherche pour les associations phylosymbiotiques dans les habitats aquatiques ne cesse de croître (figure 2), couvrant les enquêtes mondiales sur le microbiome des éponges [67,89,90] et les enquêtes sur les éponges spécifiques à un taxon [50,65,66] avec des résultats mitigés. . Deux études antérieures sur des éponges ont montré des corrélations significatives entre la phylogénie de l'hôte et la diversité bêta microbienne [66,67]. Chez les coraux scléractiniaires australiens, la phylosymbiose a généralement été observée dans les compartiments tissulaires et squelettiques, mais pas dans les spécimens de mucus qui sont principalement influencés par l'environnement [20], suggérant différents impacts anatomiques sur le motif. La phylosymbiose et les impacts alimentaires de l'hôte se produisent également sur les microbiomes cutanés de 44 espèces de poissons de l'océan Indien occidental [91], mais n'existent pas sur les microbiomes de surface des espèces de varech sympatrique [92].

La phylosymbiose a été évaluée chez les plantes, principalement pour distinguer les effets de la phylogénie de l'hôte et des déterminants du sol sur la diversité bêta microbienne. Une analyse comparative des lycopodes, des fougères, des gymnospermes et des angiospermes dans une chronoséquence de sol tropical côtier a indiqué que la phylogénie de l'hôte est un facteur secondaire mais statistiquement significatif qui façonne la structure de la communauté bactérienne associée aux racines, après l'âge du sol [15]. Des études plus restreintes taxonomiquement et/ou spatialement ont également révélé une phylosymbiose entre les communautés rhizobactériennes et Poacées plantes cultivées [93], communautés bactériennes de l'endosphère et 30 espèces végétales [94], communautés fongiques associées à la rhizosphère et saules provenant de sols contaminés par des hydrocarbures [95], communautés fongiques eumycotanes associées aux racines et Astéracées des plantes à fleurs dans une prairie sèche [96], des communautés fongiques ectomycorhiziennes et des arbres forestiers de conifères à feuilles larges [97], et des communautés fongiques ectomycorhiziennes et des saules Salicacées estoniens [98]. Au contraire, une incongruité qualitative entre la phylogénie des hôtes des Brassicacées et leurs microbiomes racinaires a été observée [99], alors que des corrélations phylosymbiotiques non statistiquement significatives ont été rapportées dans d'autres études sur le microbiome végétal [16,100].

5. Importance et orientations futures de la phylosymbiose

La recherche sur le microbiome continuera d'être révolutionnée par l'ère multi-omique, où un déluge de données a permis d'obtenir des informations sans précédent sur la vaste composition taxonomique, génétique et fonctionnelle des communautés microbiennes et de leurs hôtes associés. Une telle accumulation à grande échelle de découvertes empiriques et théoriques peut potentialiser le développement de nouvelles hypothèses, unifiant les concepts et les cadres à travers divers systèmes hôte-microbiome. En effet, la récurrence de la phylosymbiose à travers les systèmes hôtes se prête à de vastes études comparatives à travers les règnes de la vie qui peuvent révéler les restrictions de l'aire taxonomique de la phylosymbiose ainsi que les paramètres environnementaux (par exemple les propriétés du sol et de l'eau) et les interactions écologiques (par exemple le régime alimentaire et les prédateurs-proies). relations) qui déterminent les limites du lieu et du moment de la phylosymbiose. Si le domaine du microbiome aura des tendances générales à tester dans de nouveaux systèmes, la phylosymbiose est bien placée pour cette circonstance.

La phylosymbiose se distingue de la non-phylosymbiose en caractérisant un degré significatif d'association entre les relations entre la communauté phylogénétique de l'hôte et celle du microbiome. Il fournit une hypothèse vérifiable, reflète la variation susceptible d'être observée dans la nature et se prête à une explication par des mécanismes qui nécessitent une enquête plus approfondie. La détermination de la présence ou non de la phylosymbiose est une première étape avant d'autres investigations sur les détails mécanistiques, tels que la nature des associations espèce-espèce et le(s) type(s) de processus génétiques écologiques et évolutifs sous-tendant la phylosymbiose.

La phylosymbiose engendre également une vision holistique de l'écologie et de l'évolution dans laquelle les hôtes sont des communautés ou des holobiontes dont les membres microbiens peuvent contribuer à la variation génétique et phénotypique soumise à la sélection naturelle. Plusieurs questions ont été classiquement négligées. Par exemple, quels sont les effets microbiens sur la fréquence des allèles de l'hôte ? Le flux de gènes hôtes dans les populations naturelles a-t-il un impact sur la variation du microbiome et la phylosymbiose ? La phylosymbiose est-elle associée à l'accélération ou à la décélération de la spéciation de l'hôte ? Quels sont les facteurs génétiques et mécanistes qui régulent la phylosymbiose et comment ces facteurs varient-ils d'une population ou d'une espèce à l'autre ? Collectivement, les études déterminant l'ampleur des forces écologiques, évolutives et génétiques dans la structuration de la phylosymbiose représentent un domaine important de recherche future.

6. Conclusion

La phylosymbiose définit un lien entre les relations évolutives de l'hôte et la diversité microbienne qui est quantifiable et applicable à travers les systèmes vivants. À mesure que la recherche dans ce domaine prolifère, une définition, un cadre conceptuel et un flux de travail pour évaluer la phylosymbiose faciliteront l'identification des interactions hôte-microbe phylosymbiotiques. Les futures études de cause à effet de la phylosymbiose apporteront une meilleure compréhension mécaniste des bases évolutives, génétiques et moléculaires. Tout comme aucune théorie mature de la génétique évolutive n'était possible jusqu'à ce que nous comprenions le mode d'hérédité, aucun principe mature d'écologie évolutive pour les microbiomes associés à l'hôte ne semble possible tant que nous ne comprenons pas les mécanismes généraux établissant les associations hôte-microbiome.


Étude de cas I : le pire scénario de Felsenstein

Plus que toute autre chose, c'est la célèbre série de figures représentant le « pire scénario » (Figs. 5, 6 et 7 dans l'original notre Fig. 2) de l'article emblématique de Felsenstein de 1985 « Phylogenies and the comparative method » qui a éveillé les biologistes à la nécessité de la pensée arborescente et a lancé une révolution dans la biologie comparée moderne. L'idée est simple : en raison de l'ascendance partagée, les mesures prises sur une espèce ne seront pas indépendantes de celles recueillies sur une autre et surtout si les deux espèces sont étroitement apparentées. Cette non-indépendance peut créer des corrélations apparentes entre des traits qui, en vérité, évoluent indépendamment. Pour illustrer l'effet de la non-indépendance des personnages, Felsenstein a généré un scénario dans lequel deux clades sont séparés par de longues branches (notre Fig. 2). Il a ensuite fait évoluer les traits selon un processus BM le long de la phylogénie, il a récupéré une pente de régression significative en utilisant les moindres carrés ordinaires (OLS) malgré l'absence de covariance évolutive entre les traits.

Le pire des cas de Felsenstein ( Felsenstein 1985) illustre un problème assez similaire à celui identifié par Maddison et FitzJohn. Ici, nous modifions le processus de génération original de Felsenstein du simple BM à A) BM avec un seul éclat se produisant sur la branche de tige de l'un des deux clades (indiqué par un tiret vertical). B) La distribution des valeurs des traits produit un chiffre très similaire au scénario original de Felsenstein, mais aboutit à C) un contraste unique (noir) qui n'est pas bien décrit par le processus BM estimé, et génère ainsi une régression significative de PIC Y et PIC X (ligne pointillée) bien que X et Y dans le décalage et les distributions BM ne soient pas corrélés.D) À mesure que le rapport de la variance de décalage à la variance BM augmente, la proportion de régressions de contraste qui renvoient un résultat significatif augmente considérablement (chaque point représente 200 simulations pour une phylogénie fixe, avec à la fois le processus BM et le tirage aléatoire du décalage distribution n'étant pas corrélée avec une variance égale pour les deux caractères). Alors que IC corrige les événements singuliers cohérents avec BM, il ne corrige pas le phénomène plus général des événements singuliers dramatiques conduisant à des résultats significatifs dans les analyses comparatives. Notez que la non-indépendance des espèces n'est pas en cause.

Le pire des cas de Felsenstein ( Felsenstein 1985) illustre un problème assez similaire à celui identifié par Maddison et FitzJohn. Ici, nous modifions le processus de génération original de Felsenstein du simple BM à A) BM avec un seul éclat se produisant sur la branche de tige de l'un des deux clades (indiqué par un tiret vertical). B) La distribution des valeurs des traits produit un chiffre très similaire au scénario original de Felsenstein, mais aboutit à C) un contraste unique (noir) qui n'est pas bien décrit par le processus BM estimé, et génère ainsi une régression significative de PIC Y et PIC X (ligne pointillée) bien que X et Y dans le décalage et les distributions BM ne soient pas corrélés. D) À mesure que le rapport de la variance de décalage à la variance BM augmente, la proportion de régressions de contraste qui renvoient un résultat significatif augmente considérablement (chaque point représente 200 simulations pour une phylogénie fixe, avec à la fois le processus BM et le tirage aléatoire du décalage distribution n'étant pas corrélée avec une variance égale pour les deux caractères). Alors que IC corrige les événements singuliers cohérents avec BM, il ne corrige pas le phénomène plus général des événements singuliers dramatiques conduisant à des résultats significatifs dans les analyses comparatives. Notez que la non-indépendance des espèces n'est pas le problème.

Alors que d'autres chercheurs avaient découvert des notions similaires au début des années 1980 (par exemple, Clutton-Brock et Harvey 1980 Mace et al. 1981 Ridley 1983 Stearns 1983 Cheverud et al. 1985), aucune d'entre elles n'a eu l'impact dominant que la présentation de Felsenstein a eu (voir par exemple, Losos 2011 qui reproduit les chiffres et le raisonnement qui les accompagne dans son discours présidentiel pour l'American Society of Naturalists). Le problème est tellement évident - les données de différents clades se regroupant dans différentes parties du graphique bivarié - tout ce que vous avez à faire est de regarder. Et bien que sa solution proposée, les « contrastes indépendants » (IC), ait été largement adoptée, nous soupçonnons que c'est la clarté avec laquelle Felsenstein a articulé le problème qui a fait de son article une caractéristique de l'éducation biologique et un témoignage de l'importance de l'arbre. -pensée, même si sa méthode a été largement supplantée par les moindres carrés ( Grafen 1989) (qui est identique à IC si BM est utilisé pour modéliser la covariance des erreurs : Rohlf 2001 Blomberg et al. 2012) et le modèle mixte ( Lynch 1991 Housworth et al. 2004 Hadfield et Nakagawa 2010).

Cependant, une partie importante de cette histoire est souvent manquée : Felsenstein a également noté que le problème de la non-indépendance ne se pose pas si « les personnages répondent essentiellement instantanément à la sélection naturelle dans l'environnement actuel, de sorte que l'inertie phylogénétique est essentiellement absente » (p. 6) . Malgré ce commentaire, un malentendu courant de son argument est que le problème inhérent à une régression non phylogénétique de données structurées phylogénétiquement est que les espèces ne sont pas indépendantes. En fait, l'indépendance des données n'est pas du tout une hypothèse de régression linéaire standard (non phylogénétique). Au contraire, la régression linéaire standard suppose que le les erreurs du modèle ajusté sont indépendantes et distribuées de manière identique (i.i.d.). En conséquence, de nombreuses applications d'une « correction phylogénétique » semblent manquer l'essentiel ( Revell 2010 Hansen et Bartoszek 2012) : si tout le signal phylogénétique d'un ensemble de données est présent dans le trait prédicteur et que les erreurs sont iid, alors aucune correction phylogénétique n'est nécessaire ( Rohlf 2001, 2006). (Cependant, des analyses phylogénétiques sont presque toujours nécessaires pour déterminer cette condition en premier lieu.)

Nous suggérons que ce qui a fait de Felsenstein à première vue L'argument si convaincant était qu'il faisait appel à l'intuition des biologistes selon laquelle de nombreux grands clades d'organismes sont simplement différents de plusieurs manières potentiellement idiosyncratiques (Vermeij 2006). Si l'association apparente entre les traits trouvés dans une analyse de régression non phylogénétique est simplement le résultat de ces différences idiosyncratiques entre les clades, alors nous déduirions une relation à partir de données non répliquées (Nee et al. 1996), indépendamment de la considération purement statistique de savoir si les erreurs sont iid

Ici, nous revisitons le pire des cas de Felsenstein afin de démontrer que l'IC et les moindres carrés généralisés phylogénétiques (PGLS) ne résolvent pas complètement le problème que nous avons tendance à penser qu'ils le font - ces méthodes sont toujours sensibles à des événements évolutifs singuliers. Pour le démontrer, nous ajoutons une légère torsion à l'exemple original de Felsenstein. Tout d'abord, nous avons utilisé une phylogénie à deux clades, dont chacun n'est pas résolu en interne, similaire à celle de l'article de 1985. Nous soulignons que la seule structure phylogénétique est celle issue de la scission la plus profonde. Nous avons ensuite simulé deux traits sous des processus BM indépendants, chacun avec un taux d'évolution ( ⁠|$sigma^2$|⁠ ) de 1. Cependant, à un certain point sur une branche de tige de l'un des deux clades, nous introduisons un singulier « événement »—c'est-à-dire un changement spectaculaire dans le phénotype d'une lignée—tiré d'une distribution normale multivariée avec des divergences non corrélées et des variances égales qui sont un multiple scalaire de |$sigma^2$|⁠ . La distribution des données qui en résulte suggère une situation très similaire au pire des cas de Felsenstein - et ce que nous soupçonnons est le type de problème envisagé par la plupart des biologistes lorsqu'ils avertissent leurs étudiants des dangers d'ignorer la phylogénie.

On pourrait espérer que nos outils de « correction de la phylogénie » reconnaîtraient que la relation apparemment forte entre les deux traits dans notre exemple n'était motivée que par un seul contraste. Cependant, ce n'est pas le cas. Ce contraste unique se traduit par une valeur aberrante statistique à très fort effet de levier qui augmente la signification à mesure que la taille du changement augmente (Fig. 2). Nous pouvons répéter le même exercice avec des données plus structurées phylogénétiquement (où les deux clades d'intérêt bifurquent complètement à la suite d'un processus de Yule) et obtenir des résultats identiques (Fig. 2, voir le matériel supplémentaire disponible sur Dryad à http://dx.doi. org/10.5061/dryad.p8066hd). Ceci est déconcertant car notre intuition suggère que nous n'avons pas de preuves convaincantes d'une relation causale entre ces deux traits (c'est-à-dire qu'il y a très peu de raisons pour nous de croire à partir de cette seule corrélation qu'un trait est une adaptation à l'autre).

Comment pouvons-nous formuler un meilleur ensemble de modèles qui peuvent rendre compte de ce que notre intuition nous dit être une situation dangereuse pour l'inférence causale ? Nous pouvons le faire en incluant un autre modèle phylogénétiquement plausible : les corrélations de traits résultent d'un seul décalage aléatoire, tiré d'une distribution différente de celle utilisée pour modéliser l'évolution des traits dans le reste des branches.

Considérons une situation tout à fait distincte du scénario multivarié BM (mvBM) de Felsenstein. Ici, les traits n'évoluent pas par mvBM, mais subissent plutôt un changement en un seul point (peut-être un ancien événement de dispersion où un clade a envahi un nouvel environnement). Dans un tel scénario, il suffit de considérer la phylogénie dans la mesure où une espèce donnée existe de part et d'autre de l'événement en question. On peut alors ériger deux modèles statistiques : un modèle de régression linéaire et un modèle d'événement singulier.

Alternativement, |$X$| et |$Y$| peuvent ne pas être du tout liés les uns aux autres. Au contraire, ils peuvent être les produits d'événements évolutifs aléatoires singuliers notés |$E1$|⁠ , et |$E2$|⁠ , qui se sont produits sur la branche séparant deux clades.

Les modèles de régression linéaire et d'événements singuliers conduisent à des distributions potentiellement très différentes des données de traits aux extrémités. Par exemple, sous le modèle d'événement singulier, la distribution de Y est conditionnellement indépendante de X après avoir pris en compte |$L_, eta_Y, eta_$| — une prédiction empirique vérifiable qui aboutira souvent à ce que ces deux modèles soient facilement distinguables avec la sélection du modèle. Mais ne pas considérer le modèle d'événement singulier comme une possibilité est un problème : même pour le cas simple de deux traits continus, nous avons montré avec quelle facilité les données simulées sous le modèle d'événement singulier peuvent entraîner des régressions très significatives pour OLS, PGLS et IC régressions, que les erreurs soient simulées comme indépendantes ou corrélées phylogénétiquement par rapport au modèle et à la phylogénie. Notons également que l'estimation d'un |$lambda$| transformation pour les erreurs ( Pagel 1999 Freckleton et al. 2002) ne sauvera pas l'analyse la valeur estimée de |$lambda$| se situera entre 0 et 1 et nous avons trouvé que ces deux cas les plus extrêmes (OLS et IC, respectivement) sont sensibles.

On pourrait soutenir que la situation que nous décrivons est la violation de l'hypothèse d'un modèle d'évolution BM – et ce serait, bien sûr, correct (voir aussi Maddison et FitzJohn 2015). En effet, depuis des décennies, il est de pratique courante (mais malheureusement pas universellement) de tester si les contrastes sont i.i.d. après avoir mené une analyse à l'aide d'IC ​​( Garland et al. 1992 Purvis et Rambaut 1995 Slater et Pennell 2013 Pennell et al. 2015) et de nombreux chercheurs ont suivi Jones et Purvis (1997) en abandonnant les contrastes extrêmes des régressions. Felsenstein a reconnu cette vulnérabilité particulière dans sa méthode et a correctement prédit que le modèle sous-jacent était un « point évident pour le développement futur » (p. 14). Alors qu'aujourd'hui nous avons un choix beaucoup plus large de modèles comparatifs parmi lesquels certains permettent des changements adaptatifs, la plupart des modèles de traits continus sont gaussiens (par exemple, Pagel 1999 Blomberg et al. 2003 Butler et King 2004 O'Meara et al. 2006 Eastman et al. 2011 Beaulieu et al. 2012 Uyeda et Harmon 2014) et ne tiennent pas compte des changements brusques et discontinus des phénotypes. Ce n'est que récemment que des classes alternatives de modèles ont été envisagées ( Landis et al. 2012 Elliot et Mooers 2014 Schraiber et Landis 2015 Blomberg 2017 Boucher et al. 2017 Duchen et al. 2017). La question de savoir si ces autres types de modèles peuvent suffisamment rendre compte d'événements rares et singuliers sera examinée dans la section suivante.

Néanmoins, notre point principal ici est de suggérer que le phénomène qui a rendu l'argument de Felsenstein si intuitif n'est pas la violation de i.i.d. des erreurs mais plutôt la réalisation biologiquement intuitive que des différences non répliquées colocalisées sur une seule branche ne fournissent qu'une faible preuve d'une relation causale entre les traits. De plus, les modèles qui décrivent réellement de tels scénarios, comme notre modèle « événements singuliers », sont rarement pris en compte dans les analyses comparatives. Certes, adapter de tels modèles à des cas biologiquement réalistes plus complexes que le scénario de Felsenstein nécessitera d'estimer l'emplacement et le nombre d'événements et nous considérons donc notre modèle « événements singuliers » comme principalement une solution alternative illustrative à l'expérience de pensée de Felsenstein. Néanmoins, l'exemple illustre que la phylogénie pose un défi à l'inférence d'associations significatives entre les traits non pas parce qu'elle rend les erreurs non indépendantes, mais parce que la structure de la phylogénie permet des facteurs de causalité anciens, potentiellement inconnaissables (qui peuvent être peu nombreux ou même singuliers) pour conduire des associations répandues entre les traits. L'évaluation de la validité de ces associations comme preuve d'une relation significative, même dans le cas de traits continus, est précisément le défi non résolu identifié par Maddison et FitzJohn (2015) dans le cas de corrélations de caractères discrètes (comme nous le développerons plus en détail dans l'étude de cas III).


La méthode comparative en biologie de la conservation

L'approche comparative phylogénétique est une méthode statistique pour analyser les corrélations entre les traits à travers les espèces. Alors qu'il a révolutionné la biologie évolutive, peut-il fonctionner pour la biologie de la conservation ? Bien qu'elle soit corrélative, les partisans de la méthode comparative espèrent qu'elle révélera les mécanismes généraux de la conservation, fournira des raccourcis pour prioriser la recherche en conservation et nous permettra de prédire quelles espèces connaîtront (ou créeront) des problèmes à l'avenir. Ici, nous demandons si ces objectifs de gestion énoncés sont atteints. Nous concluons que les méthodes comparatives stimulent la recherche sur les mécanismes écologiques qui sous-tendent la conservation et fournissent des informations pour le dépistage préventif des espèces à problèmes. Mais les analyses comparatives du risque d'extinction à ce jour ont eu tendance à avoir une portée trop large pour fournir des raccourcis vers la conservation d'espèces menacées particulières. Les corrélats de la vulnérabilité aux problèmes de conservation sont souvent spécifiques au taxon, à la région et à la menace, de sorte que les modèles doivent être étroitement ciblés pour être d'une utilisation pratique maximale.


Voir la vidéo: Construction dun arbre phylogénétique (Juillet 2022).


Commentaires:

  1. Ovidiu

    Je pense que vous n'avez pas raison. Je suis sûr. Nous discuterons.

  2. Lidmann

    Ici et donc ça arrive aussi :)

  3. Dorrance

    un charmant message

  4. Sevy

    Quels sont les mots corrects ... Super, phrase brillante

  5. Taule

    Exactement ce qui est nécessaire. Ensemble, nous pouvons arriver à la bonne réponse. Je suis sûr.

  6. Caldwell

    Je considère que vous n'avez pas raison. Je peux le prouver.

  7. Oran

    Je félicite, votre pensée est tout simplement excellente



Écrire un message