
We are searching data for your request:
Upon completion, a link will appear to access the found materials.
Qu'est-ce que la différenciation génétique neutre ? Vraisemblablement, c'est une mesure de la distance entre les organismes en termes de génétique, mais à quoi fait référence « neutre » ?
La variation génétique neutre est une variation qui n'a aucun effet sur la forme physique. Je suggère de lire plus sur la théorie neutre sur wikipedia.
La différenciation génétique neutre est une façon de parler de variation génétique neutre qui suit un modèle historique, par exemple, deux populations isolées l'une de l'autre pendant longtemps présenteront une différenciation génétique neutre même si elles sont individuellement en équilibre Hardy-Weinberg. En d'autres termes, les deux populations auront des fréquences alléliques quelque peu différentes l'une de l'autre sans aucune raison liée à la sélection naturelle mais plutôt à cause d'un échantillonnage aléatoire et d'une dérive génétique au fil du temps.
On pense généralement que la plupart des variations génétiques sont neutres ou presque neutres. Par exemple, la majeure partie du génome humain est constituée d'ADN inutile ou de parasites génomiques tels que des transposons. Presque toute la variation génétique qui se produit dans ces régions n'est pas importante pour la forme physique humaine, en d'autres termes, elle est « neutre ».
Références assorties
Les organismes adultes sont composés d'un certain nombre de types cellulaires distincts. Les cellules sont organisées en tissus, dont chacun contient généralement un petit nombre de types cellulaires et est consacré à une fonction physiologique spécifique. Par exemple, le tissu épithélial qui tapisse l'intestin grêle…
… anomalies du développement ou de la différenciation des tissus. Ils comprennent des tumeurs de types tissulaires uniques ou mixtes, affectant potentiellement n'importe quelle partie du corps, avec un risque de transformation maligne. La plupart sont sporadiques, mais certains sont principalement héréditaires. Dans de nombreuses dysplasies, les mutations génétiques sont inégales et nécessitent la perte de la normale…
…les animaux mais permettent également la différenciation des cellules souches pluripotentes (cellules ayant le potentiel de devenir l'un des nombreux types de cellules). En d'autres termes, les changements épigénétiques permettent aux cellules qui partagent toutes le même ADN et sont finalement dérivées d'un ovule fécondé de se spécialiser, par exemple en tant que foie…
Occurrence dans
La différenciation est simplement le processus de devenir différent. Si, en rapport avec le développement biologique, la morphogenèse est mise de côté comme une composante pour une considération séparée, il y a deux types distincts de différenciation. Dans le premier type, une partie d'un système en développement va changer en…
La différenciation des tissus embryonnaires se déroule rapidement au début du développement, et une grande partie de ce qui deviendra des structures cutanées adultes - y compris les glandes et les appendices - est déposée avant la naissance de l'animal, souvent à un stade latent, pour reprendre son développement plus tard.
… la forme est une forme de différenciation cellulaire, le terme au sens plus général fait référence à un changement de fonction, généralement accompagné d'une spécialisation et d'une perte de la capacité de division ultérieure. La différenciation biochimique implique souvent un changement dans le caractère des organites cellulaires, comme lorsqu'un potentiel généralisé…
Dans un organisme en développement, la différenciation implique une complexité structurelle et fonctionnelle croissante. Un type de différenciation concerne les changements de forme et d'organisation bruts. De telles activités, liées au moulage du corps et de ses parties intégrantes en une forme et un motif, comprennent les processus appelés morphogenèse. Les processus de morphogenèse sont relativement simples…
Théorie de
… une compréhension plus approfondie de la différenciation biologique, en particulier des facteurs qui contrôlent la différenciation. Le développement à la fin du 20e siècle de méthodes de culture tissulaire qui permettaient la croissance de cellules souches embryonnaires de mammifères - et finalement de cellules souches embryonnaires humaines - sur des plaques de culture était crucial pour ces études.
… en biologie l'interprétation selon laquelle des matériaux indifférenciés se spécialisent progressivement, de manière ordonnée, en structures adultes. Bien que ce processus épigénétique soit maintenant accepté comme caractérisant la nature générale du développement chez les plantes et les animaux, de nombreuses questions restent à résoudre. Le médecin français Marie François Xavier Bichat a déclaré…
Contenu
Charles Darwin a commenté l'idée de mutation neutre dans son travail, en émettant l'hypothèse que les mutations qui ne donnent pas d'avantage ou d'inconvénient peuvent fluctuer ou se fixer en dehors de la sélection naturelle. « Les variations ni utiles ni nuisibles ne seraient pas affectées par la sélection naturelle, et resteraient soit un élément fluctuant, comme on le voit peut-être chez certaines espèces polymorphes, soit finiraient par se fixer, en raison de la nature de l'organisme et de la nature de l'organisme. conditions." Alors que Darwin est largement crédité d'avoir introduit l'idée de sélection naturelle qui était au centre de ses études, il a également vu la possibilité de changements qui n'ont pas profité ou nui à un organisme. [1]
Le point de vue de Darwin selon lequel le changement est principalement motivé par des traits qui offrent un avantage a été largement accepté jusque dans les années 1960. [2] En recherchant des mutations qui produisent des substitutions de nucléotides en 1968, Motoo Kimura a découvert que le taux de substitution était si élevé que si chaque mutation améliorait la forme physique, l'écart entre le génotype le plus adapté et le plus typique serait invraisemblablement grand. Cependant, Kimura a expliqué ce taux rapide de mutation en suggérant que la majorité des mutations étaient neutres, c'est-à-dire qu'elles avaient peu ou pas d'effet sur la forme physique de l'organisme. Kimura a développé des modèles mathématiques du comportement de mutations neutres soumises à une dérive génétique aléatoire dans les populations biologiques. Cette théorie est connue sous le nom de théorie neutre de l'évolution moléculaire. [3]
La technologie ayant permis une meilleure analyse des données génomiques, les recherches se sont poursuivies dans ce domaine. Alors que la sélection naturelle peut encourager l'adaptation à un environnement changeant, une mutation neutre peut pousser à la divergence des espèces en raison d'une dérive génétique presque aléatoire. [2]
La mutation neutre est devenue une partie de la théorie neutre de l'évolution moléculaire, proposée dans les années 1960. Cette théorie suggère que les mutations neutres sont responsables d'une grande partie des changements de séquence d'ADN dans une espèce. Par exemple, l'insuline bovine et l'insuline humaine, bien qu'elles diffèrent par leur séquence d'acides aminés, sont toujours capables de remplir la même fonction. Les substitutions d'acides aminés entre espèces se sont donc révélées neutres ou sans impact sur la fonction de la protéine. La mutation neutre et la théorie neutre de l'évolution moléculaire ne sont pas séparées de la sélection naturelle mais s'ajoutent aux pensées originales de Darwin. Les mutations peuvent donner un avantage, créer un inconvénient ou ne faire aucune différence mesurable pour la survie d'un organisme. [4]
Un certain nombre d'observations associées à une mutation neutre ont été prédites dans la théorie neutre, notamment : les acides aminés ayant des propriétés biochimiques similaires devraient être substitués plus souvent que les acides aminés biochimiquement différents les substitutions de bases synonymes devraient être observées plus souvent que les substitutions non synonymes les introns devraient évoluer au même rythme que les mutations synonymes dans les exons codants et les pseudogènes devraient également évoluer à un rythme similaire. Ces prédictions ont été confirmées par l'introduction de données génétiques supplémentaires depuis l'introduction de la théorie. [2]
Mutation synonyme de bases Modifier
Lorsqu'un nucléotide incorrect est inséré pendant la réplication ou la transcription d'une région codante, cela peut affecter la traduction éventuelle de la séquence en acides aminés. Étant donné que plusieurs codons sont utilisés pour les mêmes acides aminés, un changement dans une seule base peut toujours conduire à la traduction du même acide aminé. Ce phénomène est appelé dégénérescence et permet une variété de combinaisons de codons conduisant à la production du même acide aminé. Par exemple, les codes TCT, TCC, TCA, TCG, AGT et AGC codent tous pour l'acide aminé sérine. Cela peut s'expliquer par le concept d'oscillation. Francis Crick a proposé cette théorie pour expliquer pourquoi des molécules d'ARNt spécifiques pourraient reconnaître plusieurs codons. La zone de l'ARNt qui reconnaît le codon appelé anticodon est capable de lier plusieurs bases interchangeables à son extrémité 5' en raison de sa liberté spatiale. Une cinquième base appelée inosine peut également être substituée sur un ARNt et est capable de se lier à A, U ou C. Cette flexibilité permet des changements de bases dans les codons conduisant à la traduction du même acide aminé. [5] Le changement d'une base dans un codon sans le changement de l'acide aminé traduit est appelé une mutation synonyme. Étant donné que l'acide aminé traduit reste le même, une mutation synonyme a traditionnellement été considérée comme une mutation neutre. [6] Certaines recherches ont suggéré qu'il existe un biais dans la sélection de la substitution de base dans la mutation synonyme. Cela pourrait être dû à une pression sélective pour améliorer l'efficacité de la traduction associée aux ARNt les plus disponibles ou simplement à un biais mutationnel. [7] Si ces mutations influencent le taux de traduction ou la capacité d'un organisme à fabriquer des protéines, elles peuvent en fait influencer la forme physique de l'organisme affecté. [6]
Propriétés biochimiques des acides aminés | Non polaire | Polaire | De base | Acide | Terminaison : codon d'arrêt |
1er base | 2e socle | 3e base | |||||||
---|---|---|---|---|---|---|---|---|---|
T | C | UNE | g | ||||||
T | TTT | (Phe/F) Phénylalanine | TCT | (Ser/S) Sérine | TAT | (Tyr/Y) Tyrosine | TGT | (Cys/C) Cystéine | T |
TTC | CCT | TAC | TGC | C | |||||
TTA | (Leu/L) Leucine | TCA | AAT | Arrêter (Ocre) [B] | ATG | Arrêter (Opale) [B] | UNE | ||
TTG [A] | JCC | ÉTIQUETER | Arrêter (ambre) [B] | TGG | (Trp/W) Tryptophane | g | |||
C | CTT | CCT | (Pro/P) Proline | CHAT | (Son/H) Histidine | CGT | (Arg/R) Arginine | T | |
CCT | CCC | CAC | CCG | C | |||||
CTA | ACC | CAA | (Gln/Q) Glutamine | CGA | UNE | ||||
CTG [A] | GCC | CAG | CGG | g | |||||
UNE | ATT | (Ile/I) Isoleucine | ACTE | (Thr/T) Thréonine | AAT | (Asn/N) Asparagine | AGT | (Ser/S) Sérine | T |
ATC | CAC | CAA | CAG | C | |||||
À | ACA | AAA | (Lys/K) Lysine | AGA | (Arg/R) Arginine | UNE | |||
ATG [A] | (Met/M) Méthionine | ACG | AAG | AGG | g | ||||
g | GTT | (Val/V) Valine | TCG | (Ala/A) Alanine | FLINGUE | (Asp/D) Acide aspartique | GGT | (Gly/G) Glycine | T |
CGV | CCG | GAC | GGC | C | |||||
RGT | GCA | GAA | (Glu/E) Acide glutamique | GGA | UNE | ||||
GTG | GCG | GAG | GGG | g |
Substitution d'acides aminés neutres Modifier
Alors que la substitution d'une base dans une zone non codante d'un génome peut faire peu de différence et être considérée comme neutre, les substitutions de bases dans ou autour des gènes peuvent avoir un impact sur l'organisme. Certaines substitutions de bases conduisent à une mutation synonyme et aucune différence dans l'acide aminé traduit comme indiqué ci-dessus. Cependant, une substitution de base peut également modifier le code génétique de sorte qu'un acide aminé différent soit traduit. Ce type de substitution a généralement un effet négatif sur la protéine en formation et sera éliminée de la population par sélection purificatrice. Cependant, si le changement a une influence positive, la mutation peut devenir de plus en plus courante dans une population jusqu'à ce qu'elle devienne un élément génétique fixe de cette population. Les organismes changeant via ces deux options constituent la vision classique de la sélection naturelle. Une troisième possibilité est que la substitution d'acides aminés fasse peu ou pas de différence positive ou négative pour la protéine affectée. [12] Les protéines démontrent une certaine tolérance aux changements dans la structure des acides aminés. Cela dépend quelque peu de l'endroit où la substitution a lieu dans la protéine. Si elle se produit dans une zone structurelle importante ou dans le site actif, une substitution d'acide aminé peut inactiver ou modifier substantiellement la fonctionnalité de la protéine. Les substitutions dans d'autres domaines peuvent être presque neutres et dériver de manière aléatoire au fil du temps. [13]
Les mutations neutres sont mesurées dans la génétique des populations et de l'évolution souvent en examinant la variation des populations. Celles-ci ont été mesurées historiquement par électrophorèse sur gel pour déterminer les fréquences des allozymes. [14] Les analyses statistiques de ces données sont utilisées pour comparer la variation aux valeurs prédites basées sur la taille de la population, les taux de mutation et la taille effective de la population. Les premières observations qui indiquaient une hétérozygotie et une variation globale plus élevées que prévu au sein des isoformes protéiques étudiées, ont conduit à des arguments quant au rôle de la sélection dans le maintien de cette variation par rapport à l'existence d'une variation par les effets des mutations neutres apparaissant et leur distribution aléatoire due à la dérive génétique. [15] [16] [17] L'accumulation de données basées sur le polymorphisme observé a conduit à la formation de la théorie neutre de l'évolution. [15] Selon la théorie neutre de l'évolution, le taux de fixation dans une population d'une mutation neutre sera directement lié au taux de formation de l'allèle neutre. [18]
Dans les calculs originaux de Kimura, les mutations avec |2 Ns|<1 ou |s|≤1/(2N) sont définis comme neutres. [15] [17] Dans cette équation, N est la taille effective de la population et est une mesure quantitative de la taille idéale de la population qui suppose des constantes telles que des rapports sexuels égaux et aucune émigration, migration, mutation ni sélection. [19] Par prudence, on suppose souvent que la taille effective de la population est d'environ un cinquième de la taille de la population totale. [20] s est le coefficient de sélection et est une valeur comprise entre 0 et 1. C'est une mesure de la contribution d'un génotype à la génération suivante où une valeur de 1 serait complètement sélectionnée et n'apporterait aucune contribution et 0 n'est pas du tout sélectionné. [21] Cette définition de mutation neutre a été critiquée en raison du fait que de très grandes tailles de population efficaces peuvent faire apparaître des mutations avec de petits coefficients de sélection non neutres. De plus, les mutations avec des coefficients de sélection élevés peuvent apparaître neutres dans de très petites populations. [17] L'hypothèse testable de Kimura et d'autres a montré que le polymorphisme au sein des espèces est approximativement celui qui serait attendu dans un modèle évolutif neutre. [17] [22] [23]
Pour de nombreuses approches de biologie moléculaire, par opposition à la génétique mathématique, les mutations neutres sont généralement supposées être les mutations qui n'ont pas d'effet appréciable sur la fonction des gènes. Cette simplification élimine l'effet des différences alléliques mineures de fitness et évite les problèmes lorsqu'une sélection n'a qu'un effet mineur. [17]
Les premières preuves convaincantes de cette définition de la mutation neutre ont été démontrées par les taux de mutation plus faibles dans les parties fonctionnellement importantes des gènes telles que le cytochrome c par rapport aux parties moins importantes [24] et la nature fonctionnellement interchangeable du cytochrome c des mammifères dans les études in vitro. [25] Les pseudogènes non fonctionnels fournissent plus de preuves du rôle des mutations neutres dans l'évolution. Il a été démontré que les taux de mutation dans les pseudogènes de la globine chez les mammifères sont beaucoup plus élevés que les taux dans les gènes fonctionnels. [26] [27] Selon l'évolution néo-darwinienne, de telles mutations devraient rarement exister car ces séquences sont sans fonction et la sélection positive ne pourrait pas opérer. [17]
Le test de McDonald-Kreitman [28] a été utilisé pour étudier la sélection sur de longues périodes d'évolution. Il s'agit d'un test statistique qui compare le polymorphisme dans les sites neutres et fonctionnels et estime sur quelle fraction de substitutions a été agi la sélection positive. [29] Le test utilise souvent des substitutions synonymes dans les gènes codant pour les protéines comme composant neutre, cependant, il a été démontré que les mutations synonymes étaient soumises à une sélection purificatrice dans de nombreux cas. [30] [31]
Les horloges moléculaires peuvent être utilisées pour estimer le temps écoulé depuis la divergence de deux espèces et pour situer les événements évolutifs dans le temps. [32] Pauling et Zuckerkandl, ont proposé l'idée de l'horloge moléculaire en 1962 sur la base de l'observation que le processus de mutation aléatoire se produit à un taux constant approximatif. Les protéines individuelles se sont avérées avoir des taux linéaires de changements d'acides aminés au cours du temps évolutif. [33] Malgré la controverse de certains biologistes soutenant que l'évolution morphologique ne se déroulerait pas à un rythme constant, il a été démontré que de nombreux changements d'acides aminés s'accumulaient de manière constante. Kimura et Ohta ont expliqué ces taux dans le cadre de la théorie neutre. Ces mutations ont été considérées comme neutres car la sélection positive devrait être rare et les mutations délétères devraient être éliminées rapidement d'une population. [34] Par ce raisonnement, l'accumulation de ces mutations neutres ne devrait être influencée que par le taux de mutation. Par conséquent, le taux de mutation neutre dans les organismes individuels devrait correspondre au taux d'évolution moléculaire des espèces au cours du temps évolutif. Le taux de mutation neutre est affecté par la quantité de sites neutres dans une protéine ou une séquence d'ADN par rapport à la quantité de mutation dans des sites qui sont fonctionnellement contraints. En quantifiant ces mutations neutres dans les protéines et/ou l'ADN et en les comparant entre les espèces ou d'autres groupes d'intérêt, les taux de divergence peuvent être déterminés. [32] [35]
Les horloges moléculaires ont suscité la controverse en raison des dates qu'elles dérivent d'événements tels que les radiations explosives observées après des événements d'extinction comme l'explosion cambrienne et les radiations de mammifères et d'oiseaux. Des différences doubles existent dans les dates dérivées des horloges moléculaires et des archives fossiles. Alors que certains paléontologues soutiennent que les horloges moléculaires sont systématiquement inexactes, d'autres attribuent les écarts au manque de données fossiles robustes et aux biais dans l'échantillonnage. [36] Bien que non sans constance et divergences avec les archives fossiles, les données des horloges moléculaires ont montré comment l'évolution est dominée par les mécanismes d'un modèle neutre et est moins influencée par l'action de la sélection naturelle. [32]
Une introduction au développement informatique
Sanjeev Kumar , Peter J. Bentley , dans Sur la croissance, la forme et les ordinateurs , 2003
Différenciation cellulaire
La différenciation cellulaire, le quatrième processus, est un processus graduel par lequel les cellules acquièrent une structure et une fonction différentes les unes des autres, entraînant l'émergence de types cellulaires distincts, par exemple des neurones ou des cellules de la peau. La différenciation concerne fondamentalement les différentes protéines que contiennent les cellules.Si une cellule s'est différenciée de manière terminale, elle continue à produire ces protéines en raison d'un changement dans l'expression des gènes qui provoque un schéma stable d'activité des gènes, sinon la cellule peut continuer à se différencier au cours de divisions cellulaires successives. La différenciation est donc influencée par au moins les deux processus suivants :
signalisation cellulaire – communication intercellulaire et
division asymétrique - division qui entraîne la répartition asymétrique de facteurs (protéines) dans la cellule mère, ce qui amène les cellules mères et filles à acquérir des destins de développement différents. Il agit également comme un mécanisme de rupture de symétrie ( Turing, 1952 Wolpert, 1998 Stewart, chapitre 10 de ce volume).
Afficher/masquer les mots à connaître
Différenciation: lorsqu'une cellule choisit un chemin particulier déterminé génétiquement qui l'oblige à effectuer seulement quelques tâches spécialisées. Suite
ADN (acide désoxyribonucléique): instructions moléculaires qui guident le développement et le fonctionnement de tous les êtres vivants. Suite
Œuf: un gamète femelle, qui conserve toutes les parties d'une cellule après fusion avec un spermatozoïde.
Gamète: cellules spécialisées trouvées dans vos organes reproducteurs qui ont la moitié de la quantité d'ADN des cellules somatiques. Ces cellules se combinent pour former un ovule fécondé. Suite
Gène: une région d'ADN qui indique à la cellule comment construire des protéines. En tant qu'humain, vous recevez généralement un ensemble d'instructions de votre mère et un autre de votre père. Suite
Noyau: où l'ADN reste dans la cellule, le pluriel est noyaux.
Organisme: un être vivant qui peut être petit comme une bactérie ou grand comme un éléphant.
Cellules somatiques: les cellules de votre corps, à l'exception des gamètes. Soma signifie corps en latin.
Sperme: un gamète mâle, qui ne transfère son ADN qu'à l'œuf. Suite
Résumé
Ein Vergleich der neutralen genetischen Differenzierung und genetischen Diversität zwischen ziehenden und sesshaften Populationen des Indianergoldhähnchens ( Regulus satrapa )
Viele Tierarten ziehen saisonbedingt zwischen Brut- und Nichtbrutgebieten. Diese jährlichen Wanderungen können wesentliche Auswirkungen auf die genetische Struktur der Population haben. Wir genotypisierten 281 Individuen aus elf Populationen anhand sieben verschiedener Mikrosatelliten-Loci, um die Muster der neutralen genetischen Differenzierung und der genetischen Diversität zwischen ziehenden und sesshaften Brutpopulationen des IndianergoldhähnchensRegulus satrapa), einer weitverbreiteten nordamerikanischen Singvogelart, zu vergleichen. Davon ausgehend, dass das Zugverhalten den Genfluss verstärkt, trafen wir die Vorhersage, dass sesshafte Populationen eine größere genetische Differenzierung und geringere genetische Diversität als ziehende Populationen aufweisen. Das Ausmaß der genetischen Differenzierung und der genetischen Diversität zwischen ziehenden und sesshaften Populationen war vergleichbar. Die größte Differenzierung wurde beim Paarvergleich zwischen der Population in der Provinz Ontario und allen westlichen Populationen festgestellt. Distanzbasierte Redundanz-Modelle und Redundanz-Modelle zeigten, dass die Muster der neutralen genetischen Differenzierung und der neutralen genetischen Diversität einem „Isolation-durch-Distanz “ Modell (eng. isolation-by-distance model) folgten und nicht nicht dem korten korten korten Generell scheint es so, dass die genetischen Muster mit der eiszeitlichen Geschichte im Pleistozän zusammenhängen, wie es bereits in einer vorherigen Studie vermutet wurde.
Remerciements
Nous remercions J. Lyons, S. Barribeau, E. Sternberg et A. Mongue pour la discussion et le soutien technique au cours des phases initiales de ce projet M. Maudsley, B. Ballister, D. Cook, R. Rarick, E. Osburn, R Bartel, E. Rendon, D. Frey et R. Obregon pour leur aide avec les collections sur le terrain et le laboratoire De Roode et L. Morran pour leurs commentaires utiles sur une version précédente du manuscrit.
Déclaration de financement
A.A.P. a été soutenu par la subvention de formation NIH no. 5T32AI055404-10 (L. Real, PI) J.C.d.R. a été soutenu par les subventions NSF nos DEB-1019746 et DEB-1257160 J.F.H. a été soutenu par la Fundación Migres M.R.K. a été soutenu par la subvention NSF no. DEB-1316037 et S.A. a été soutenu par NSF no. accorde pas. DEB-0643831.
Matériaux et méthodes
Mesurer la différenciation génétique entre les populations
FST est une mesure de la différenciation génétique des populations qui quantifie la proportion de la variance des fréquences alléliques entre les populations par rapport à la variance totale (la somme de la variance au sein des individus, au sein des populations et entre les populations). Plusieurs estimateurs de FST ont été proposées au fil des ans (revue dans Weir et Hill 2002 Holsinger et Weir 2009).
Il y a un débat considérable sur les définitions de FST. Certains chercheurs considèrent FST être un paramètre de modèle (par exemple., Balding et Nichols 1995 Nicholson et al. 2002 Holsinger et al. 2002), tandis que d'autres considèrent qu'il s'agit d'une statistique (par exemple., Reynolds et al. 1983 Weir et Cockerham 1984 Hudson et al. 1992). Même en considérant FST en tant que paramètre, il y a une discussion considérable sur le modèle dont il est un paramètre et comment il devrait être estimé (Marchini et Cardon 2002 Balding 2003). L'objectif de cet article n'est pas de comparer ces approches, qui diffèrent à la fois par ce qu'elles estiment et par le fonctionnement de la procédure d'estimation. Nous restons agnostiques quant au débat sur l'interprétation et la définition des FST, bien que nous utilisions le mot « estimateur » partout. Au lieu de cela, nous montrons comment certains des estimateurs les plus couramment appliqués de FST peut être modifié en présence de données de couverture faible et moyenne pour refléter plus précisément ce que l'original FST les estimateurs étaient destinés à saisir c'est à dire., l'objectif sera de dériver des estimateurs applicables aux données NGS qui produisent des résultats similaires à ceux qui auraient été obtenus à partir de l'estimateur original basé sur des données de génotype complètes sans aucune erreur. Il est à noter que d'autres estimateurs, non considérés ici, pourraient potentiellement être modifiés de la même manière.
Estimation de la méthode des moments :
Nous commençons par considérer les estimateurs de la méthode des moments les plus simples de FST. Ils ne reposent sur aucune hypothèse sur la forme de la distribution d'échantillonnage, au-delà des moments utilisés pour estimer les paramètres, et ils sont faciles à mettre en œuvre grâce à des expressions algébriques simples. Pour ces raisons, les estimateurs de la méthode des moments sont populaires et souvent utilisés.
Notre premier objectif est d'étendre la méthode des moments FST estimateur proposé par Reynolds et al. (1983), car il s'agit de l'un des estimateurs les plus populaires et les plus motivés de FST, pour prendre en compte l'incertitude du génotypage. En supposant un SNP biallélique, avec un allèle de non référence à des fréquences estimées de , , et pour la population je, j, et mis en commun, la variance génétique entre et au sein des populations au site s est respectivement (1) et (2) où mje et mj sont le nombre d'individus échantillonnés par population, , et . Le tableau 1 décrit la nomenclature utilisée tout au long de ce manuscrit.
L'estimation de FST pour un seul site est alors (3) tandis que pour un lieu de m des sites c'est
Estimation de vraisemblance maximale:
Méthodes ML pour l'estimation FST nécessitent la spécification d'une distribution de probabilité d'échantillonnage. Une fois cette distribution définie, on peut maximiser une fonction de vraisemblance pour obtenir des estimateurs ML pour les paramètres de la distribution. estimateurs ML de FST ont été très populaires, en particulier pour détecter des signatures de sélection naturelle adaptative parmi les populations (par exemple., Beaumont et Balding 2004 Riebler et al. 2008 Foll et Gaggiotti 2008).
En supposant un site biallélique s avec des fréquences alléliques à distribution bêta, la probabilité des fréquences alléliques de l'échantillon au niveau de la population je peut être exprimé comme une distribution bêta-binomiale avec les paramètres 2mje (taille de l'échantillon), FST, et pet,s, la fréquence des allèles de la population ancestrale. Cette paramétrisation suppose une divergence par rapport à une population ancestrale commune et que la divergence subséquente est bien modélisée par la distribution bêta. La distribution marginale d'échantillonnage dans la population je est alors donné par (Balding et Nichols 1995 Balding 2003) (5) où k est le nombre de l'allèle de non référence (ou dérivé), B est la fonction bêta, (6) et
La fonction de vraisemblance complète est le produit de cette distribution d'échantillonnage pour toutes les populations, car les populations sont indépendantes conditionnellement à pet,s. Pour deux populations je et j, on a (8) où les indices sur m et indiquer l'identité de la population. Nous maximisons numériquement l'équation 8 en utilisant l'algorithme de Broyden-Fletcher-Goldfarb-Shanno (BFGS) (Fletcher 1987 Press et al. 2007).
Quantifier la différenciation génétique des populations en appelant des génotypes
Une stratégie naïve pour estimer les fréquences alléliques des échantillons et FST est d'appeler d'abord les génotypes sur chaque site, puis de simplement compter l'occurrence d'allèles non-référencés ou dérivés parmi tous les individus.
Nous avons d'abord évalué l'exactitude de plusieurs stratégies d'appel de génotype (Informations à l'appui, Fichier S1). Ces méthodes incluent des approches basées sur des comptages directs de bases de lecture, sur des probabilités de génotype et sur des probabilités postérieures de génotype. Une approche prometteuse consiste à utiliser des méthodes bayésiennes pour attribuer des génotypes individuels en calculant les probabilités postérieures de génotype. P(g|X) à partir des vraisemblances du génotype et d'un a priori spécifique P(g) sur le génotype g. Le théorème de Bayes est utilisé pour calculer P(g|X), la probabilité postérieure de génotype g compte tenu des données observées X (1000 Genomes Project Consortium 2010). Le prior peut être défini à l'aide de données étrangères, telles que la séquence de référence, des séquences dans une base de données, une estimation de la fréquence allélique et/ou des coefficients de consanguinité, etc. (par exemple., 1000 Genomes Project Consortium 2010 Li 2011 Nielsen et al. 2012).
Les résultats montrent que l'appel de génotypes à partir de probabilités postérieures de génotype fournit la précision d'appel de génotype et de SNP la plus stable et la plus précise dans presque tous les scénarios expérimentaux testés (tableau S1, tableau S2 et tableau S3). Nous avons adopté cette stratégie pour appeler les génotypes dans le reste de l'étude. Plus précisément, nous avons compté les allèles non de référence de ces génotypes appelés pour déduire les fréquences alléliques et calculé un estimateur de la méthode des moments de FST, que nous avons nommé (équations 10 et 11). Nous avons adopté cette stratégie d'appel de génotype pour calculer un estimateur ML de FST, (Équations 5 et 8).
Une stratégie alternative pour l'informatique FST est d'éviter complètement l'appel de génotype afin que l'inférence soit basée directement sur les probabilités postérieures (par exemple., Yi et al. 2010 Nielsen et al. 2012). Nous décrivons ces méthodes dans les sections suivantes.
Quantifier la différenciation génétique des populations sans appeler les génotypes
Nous proposons ici d'utiliser un cadre probabiliste bayésien pour estimer FST à partir des probabilités postérieures des fréquences d'allèles d'échantillon de chaque population à chaque site sans appeler de génotypes spécifiques. Dans nos applications, nous calculons une estimation de vraisemblance maximale du spectre de fréquence du site à partir des vraisemblances du génotype, comme proposé précédemment par Nielsen et al. (2012). En utilisant cette estimation ML de la SFS comme a priori dans une approche empirique de Bayes, nous estimons la probabilité postérieure pour toutes les fréquences alléliques possibles sur chaque site (Nielsen et al. 2012).
Estimation de la méthode des moments :
Soit la probabilité postérieure qu'un site dans la population je a dérivé la fréquence d'allèle d'échantillon, dans un échantillon de mje individus diploïdes, compte tenu des données lues Oui(je,s). Cette probabilité peut être calculée à partir des probabilités de génotype en utilisant l'algorithme de Nielsen et al. (2012). L'étiquetage des allèles par rapport à l'allèle dérivé est arbitraire et tout autre étiquetage des allèles aurait pu être choisi si l'identification de l'état ancestral et dérivé n'est pas possible.
A partir de ces quantités, nous calculons l'espérance a posteriori de la variance génétique entre et au sein des populations (voir les équations 1 et 2) au site s comme (10) et (11) où et sont des variances génétiques de Reynolds et al. (1983) formule, avec k- et z-dérivé d'allèles dans les populations je et j, respectivement, et Ouis sont les données de séquençage sur le site s. La variance totale attendue, E[cs|Ouis], à chaque site, est alors E[cs|Ouis] = E[unes|Ouis] + E[bs|Ouis].
L'estimation de FST pour un seul site est donnée par le rapport de E[unes|Ouis] à E[cs|Ouis] (Équation 3). Cependant, étant donné que les deux composantes de la variance ne sont pas indépendantes et que ce calcul implique l'espérance d'un ratio, nous l'approchons en utilisant la méthode delta (Rice 2008 Rice et Papadopoulos 2009) pour obtenir l'estimateur suivant de FST sur le site s, (12) oùcvous> est le vousmoment central de cs et <une, cvous〉 est le moment central mixte, qui peut être calculé comme (13) et (14) où est la variance génétique totale de Reynolds et al. (1983) formule, avec k- et z-dérivé d'allèles dans les populations je et j, respectivement. À des fins de calcul, nous n'utilisons que les premiers moments centraux et mixtes.
peut être calculé en utilisant le maximum de vraisemblance de la même manière que la méthode utilisée pour calculer pour une seule population (Nielsen et al. 2012). Cependant, ce calcul peut ne pas être souhaitable en raison de la variance élevée associée à l'estimation de tant de paramètres.
Une approche alternative consiste à calculer une estimation du spectre de fréquence du site bidimensionnel (2D-SFS), , comme (15) où et sont les probabilités marginales d'observer k et z allèles de non-référence à la population je et j, respectivement, sur le site s, tel que présenté dans Nielsen et al. (2012).
est ensuite utilisé comme a priori pour calculer la probabilité postérieure des quantités d'intérêt. Par exemple, l'espérance de la variance génétique entre les populations (voir l'équation 10) peut être calculée comme (16) Enfin, un estimateur de la méthode des moments de FST plus de m sites est donnée par l'équation 4. Lors de l'analyse de plusieurs sites, nous n'ajoutons pas le facteur de correction au rapport de E[une|X] à E[c|X] à chaque site car, pour un grand nombre de sites, l'erreur introduite en prenant le rapport de deux attentes non indépendantes sera minime. Nous avons également testé la performance d'autres méthodes pour estimer FST à partir des données de séquençage dérivées des attentes des fréquences alléliques de l'échantillon (Fichier S1).
Ces méthodes peuvent être étendues à des définitions non par paires de FST (Weir 1996). Ces formulations nécessitent l'estimation d'une SFS conjointe parmi toutes les populations, qui peut être estimée de la même manière que dans l'équation 15.
Estimation de vraisemblance maximale:
Nous étendons également la procédure d'estimation ML de FST et panc sous la distribution bêta-binomiale (Balding et Nichols 1995 Balding 2003) (équation 8) au cas des génotypes inconnus. Ces estimations, que nous appelons FST.ML, sont obtenus en maximisant la fonction de vraisemblance (17) où Oui(je,s) et Oui(j,s) sont les données de lecture observées sur le site s pour la population je et j, respectivement, et et sont à nouveau les probabilités marginales de la fréquence des allèles de l'échantillon pour la population je et j, calculé comme dans Nielsen et al. (2012).
Analyse des composantes principales
Une approche similaire à celle utilisée pour corriger les estimations de FST peut être utilisé en PCA. La méthode désormais standard de calcul de l'ACP en génétique des populations est basée sur Patterson et al. (2006). Pour m individus et m sites une matrice de covariance normalisée C est calculé comme (18) où est la fréquence d'allèle dérivée au site s (l'étiquetage est encore arbitraire) et g(w,s) est le nombre d'allèles dérivés pour l'individu w sur le site s (g ∈ <0, 1, 2>dans le cas diploïde). Le dénominateur est inséré pour tenir compte de la dérive génétique et normalise les fréquences alléliques standardisées pour avoir la même variance (Patterson et al. 2006). Cependant, d'autres normalisations peuvent être choisies. Une décomposition de vecteur propre de C est alors calculé.
De plus, le C matrice est pondérée par la probabilité que chaque site soit variable. Ceci est motivé par le fait que, à une couverture de séquençage faible à moyenne, les sites qui ont une faible probabilité d'être variable dans l'échantillon peuvent avoir une contribution faible mais non négligeable à la matrice. C. Comme ils sont de plusieurs ordres de grandeur plus invariables que les sites variables, cela peut avoir un effet profond sur les analyses, même en pondérant avec des probabilités de génotype. Au lieu d'utiliser un seuil d'appel SNP discret arbitraire, ou une fréquence d'allèle mineur, nous proposons de pondérer les sites en fonction de leur probabilité d'être variable.
On estime donc la matrice C pour ce qui est de w ≠ oui) (19) où la probabilité de site s étant variable, Pvar,s, est calculé comme (20) Nous soulignons que cette approche ne fournit pas une forme d'analyse PCA bayésienne. C'est plutôt une modification du Patterson et al. (2006) pour l'analyse PCA dans le contexte de la génétique des populations, modifiée pour incorporer l'incertitude dans les appels de génotypes en utilisant une pondération appropriée des différents génotypes en utilisant leurs probabilités postérieures respectives.
Nous notons également que (21) pour les individus non apparentés sous HWE en supposant des fréquences alléliques connues et un a priori dérivé de HWE pour les probabilités de génotype. Cela montre que la fonction de covariance pour les individus non apparentés devrait en fait être nulle en utilisant cet estimateur, une propriété nécessaire et souhaitable pour que la méthode fonctionne bien. La preuve de l'équation 21 est fournie dans le annexe. Comme nous le soutenons, l'ACP résultante est grandement améliorée par rapport aux méthodes naïves utilisant l'appel de génotypes dans tous les scénarios explorés.
Cette approche pourrait être étendue à différentes stratégies pour effectuer l'ACP à partir d'une matrice de probabilités a posteriori de génotype, par exemple, les méthodes ML qui tiennent compte des contributions de bruit de chaque variable (Wentzell et al. 1997) ou des méthodes bayésiennes utilisant des informations externes sur les données (Nounou et al. 2002).
Simulation de données de séquençage pour plusieurs populations
Nous avons effectué des simulations pour comparer les performances de ces méthodes pour estimer la différenciation génétique des populations, ainsi que pour quantifier la précision du génotypage et de l'appel SNP, dans un large éventail de conditions expérimentales. Comme dans les études précédentes (Kim et al. 2010, 2011), nous avons simulé des données de séquençage plutôt que des lectures de séquençage brutes pour une efficacité de calcul.Nous avons traité les sites comme indépendants les uns des autres et simulé les génotypes pour chaque individu en supposant HWE et une fréquence d'allèle de population spécifique. Plus précisément, nous avons répété la procédure suivante pour chaque site.
Tout d'abord, pour chaque site, nous avons tracé une fréquence d'allèle ancestrale panc à partir d'une distribution en [5 × 10 −3 , 1 − (5 × 10 −3 )] de densité proportionnelle à 1/X. Cette distribution est la distribution attendue de la fréquence des allèles sous un modèle standard de sites infinis neutres, tronquée aux limites correspondant à une taille de population de 200 individus (voir, par exemple., Ewens 2004). Nous avons ensuite simulé les fréquences alléliques pour deux populations en utilisant le modèle Balding-Nichols (Balding et Nichols 1995) avec une moyenne égale à panc, comme dans les études précédentes (Pritchard et Donnelly 2001 Price et al. 2006). Nous avons simulé deux échantillons indépendants, conditionnellement à FST et panc, à partir de cette distribution pour obtenir des fréquences alléliques pour deux populations (voir l'équation 5). À partir de ces fréquences d'allèles de population, nous avons attribué des génotypes selon HWE pour chaque individu.
Pour simuler les données de trois populations, nous avons d'abord dessiné les fréquences d'allèles de population à partir du modèle Balding-Nichols pour deux populations comme décrit ci-dessus. Nous avons ensuite attribué la première fréquence d'allèle à la population 1 et utilisé la deuxième fréquence d'allèle comme fréquence d'allèle ancestrale pour les populations 2 et 3. Nous avons ensuite tiré deux fréquences d'allèle de population à partir du modèle Balding-Nichols pour une valeur différente de FST et attribué ces fréquences alléliques aux populations 2 et 3.
Pour simuler les données NGS, le nombre de lectures à chaque locus pour chaque individu a été simulé à partir d'une distribution de Poisson comme dans Kim et al. (2010, 2011). De plus, des erreurs ont été introduites au hasard de manière uniforme parmi les nucléotides à un taux de 0,0075. Cette valeur est comparable aux taux d'erreur trouvés dans les études précédentes (1000 Genomes Project Consortium 2010 Li et al. 2010 et al. 2010). La probabilité qu'un site soit polymorphe, Pvar, variait de 0,02 à 1.