Informations

Qu'est-ce que la différenciation génétique neutre ?

Qu'est-ce que la différenciation génétique neutre ?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Qu'est-ce que la différenciation génétique neutre ? Vraisemblablement, c'est une mesure de la distance entre les organismes en termes de génétique, mais à quoi fait référence « neutre » ?


La variation génétique neutre est une variation qui n'a aucun effet sur la forme physique. Je suggère de lire plus sur la théorie neutre sur wikipedia.

La différenciation génétique neutre est une façon de parler de variation génétique neutre qui suit un modèle historique, par exemple, deux populations isolées l'une de l'autre pendant longtemps présenteront une différenciation génétique neutre même si elles sont individuellement en équilibre Hardy-Weinberg. En d'autres termes, les deux populations auront des fréquences alléliques quelque peu différentes l'une de l'autre sans aucune raison liée à la sélection naturelle mais plutôt à cause d'un échantillonnage aléatoire et d'une dérive génétique au fil du temps.

On pense généralement que la plupart des variations génétiques sont neutres ou presque neutres. Par exemple, la majeure partie du génome humain est constituée d'ADN inutile ou de parasites génomiques tels que des transposons. Presque toute la variation génétique qui se produit dans ces régions n'est pas importante pour la forme physique humaine, en d'autres termes, elle est « neutre ».


Références assorties

Les organismes adultes sont composés d'un certain nombre de types cellulaires distincts. Les cellules sont organisées en tissus, dont chacun contient généralement un petit nombre de types cellulaires et est consacré à une fonction physiologique spécifique. Par exemple, le tissu épithélial qui tapisse l'intestin grêle…

… anomalies du développement ou de la différenciation des tissus. Ils comprennent des tumeurs de types tissulaires uniques ou mixtes, affectant potentiellement n'importe quelle partie du corps, avec un risque de transformation maligne. La plupart sont sporadiques, mais certains sont principalement héréditaires. Dans de nombreuses dysplasies, les mutations génétiques sont inégales et nécessitent la perte de la normale…

…les animaux mais permettent également la différenciation des cellules souches pluripotentes (cellules ayant le potentiel de devenir l'un des nombreux types de cellules). En d'autres termes, les changements épigénétiques permettent aux cellules qui partagent toutes le même ADN et sont finalement dérivées d'un ovule fécondé de se spécialiser, par exemple en tant que foie…

Occurrence dans

La différenciation est simplement le processus de devenir différent. Si, en rapport avec le développement biologique, la morphogenèse est mise de côté comme une composante pour une considération séparée, il y a deux types distincts de différenciation. Dans le premier type, une partie d'un système en développement va changer en…

La différenciation des tissus embryonnaires se déroule rapidement au début du développement, et une grande partie de ce qui deviendra des structures cutanées adultes - y compris les glandes et les appendices - est déposée avant la naissance de l'animal, souvent à un stade latent, pour reprendre son développement plus tard.

… la forme est une forme de différenciation cellulaire, le terme au sens plus général fait référence à un changement de fonction, généralement accompagné d'une spécialisation et d'une perte de la capacité de division ultérieure. La différenciation biochimique implique souvent un changement dans le caractère des organites cellulaires, comme lorsqu'un potentiel généralisé…

Dans un organisme en développement, la différenciation implique une complexité structurelle et fonctionnelle croissante. Un type de différenciation concerne les changements de forme et d'organisation bruts. De telles activités, liées au moulage du corps et de ses parties intégrantes en une forme et un motif, comprennent les processus appelés morphogenèse. Les processus de morphogenèse sont relativement simples…

Théorie de

… une compréhension plus approfondie de la différenciation biologique, en particulier des facteurs qui contrôlent la différenciation. Le développement à la fin du 20e siècle de méthodes de culture tissulaire qui permettaient la croissance de cellules souches embryonnaires de mammifères - et finalement de cellules souches embryonnaires humaines - sur des plaques de culture était crucial pour ces études.

… en biologie l'interprétation selon laquelle des matériaux indifférenciés se spécialisent progressivement, de manière ordonnée, en structures adultes. Bien que ce processus épigénétique soit maintenant accepté comme caractérisant la nature générale du développement chez les plantes et les animaux, de nombreuses questions restent à résoudre. Le médecin français Marie François Xavier Bichat a déclaré…


Contenu

Charles Darwin a commenté l'idée de mutation neutre dans son travail, en émettant l'hypothèse que les mutations qui ne donnent pas d'avantage ou d'inconvénient peuvent fluctuer ou se fixer en dehors de la sélection naturelle. « Les variations ni utiles ni nuisibles ne seraient pas affectées par la sélection naturelle, et resteraient soit un élément fluctuant, comme on le voit peut-être chez certaines espèces polymorphes, soit finiraient par se fixer, en raison de la nature de l'organisme et de la nature de l'organisme. conditions." Alors que Darwin est largement crédité d'avoir introduit l'idée de sélection naturelle qui était au centre de ses études, il a également vu la possibilité de changements qui n'ont pas profité ou nui à un organisme. [1]

Le point de vue de Darwin selon lequel le changement est principalement motivé par des traits qui offrent un avantage a été largement accepté jusque dans les années 1960. [2] En recherchant des mutations qui produisent des substitutions de nucléotides en 1968, Motoo Kimura a découvert que le taux de substitution était si élevé que si chaque mutation améliorait la forme physique, l'écart entre le génotype le plus adapté et le plus typique serait invraisemblablement grand. Cependant, Kimura a expliqué ce taux rapide de mutation en suggérant que la majorité des mutations étaient neutres, c'est-à-dire qu'elles avaient peu ou pas d'effet sur la forme physique de l'organisme. Kimura a développé des modèles mathématiques du comportement de mutations neutres soumises à une dérive génétique aléatoire dans les populations biologiques. Cette théorie est connue sous le nom de théorie neutre de l'évolution moléculaire. [3]

La technologie ayant permis une meilleure analyse des données génomiques, les recherches se sont poursuivies dans ce domaine. Alors que la sélection naturelle peut encourager l'adaptation à un environnement changeant, une mutation neutre peut pousser à la divergence des espèces en raison d'une dérive génétique presque aléatoire. [2]

La mutation neutre est devenue une partie de la théorie neutre de l'évolution moléculaire, proposée dans les années 1960. Cette théorie suggère que les mutations neutres sont responsables d'une grande partie des changements de séquence d'ADN dans une espèce. Par exemple, l'insuline bovine et l'insuline humaine, bien qu'elles diffèrent par leur séquence d'acides aminés, sont toujours capables de remplir la même fonction. Les substitutions d'acides aminés entre espèces se sont donc révélées neutres ou sans impact sur la fonction de la protéine. La mutation neutre et la théorie neutre de l'évolution moléculaire ne sont pas séparées de la sélection naturelle mais s'ajoutent aux pensées originales de Darwin. Les mutations peuvent donner un avantage, créer un inconvénient ou ne faire aucune différence mesurable pour la survie d'un organisme. [4]

Un certain nombre d'observations associées à une mutation neutre ont été prédites dans la théorie neutre, notamment : les acides aminés ayant des propriétés biochimiques similaires devraient être substitués plus souvent que les acides aminés biochimiquement différents les substitutions de bases synonymes devraient être observées plus souvent que les substitutions non synonymes les introns devraient évoluer au même rythme que les mutations synonymes dans les exons codants et les pseudogènes devraient également évoluer à un rythme similaire. Ces prédictions ont été confirmées par l'introduction de données génétiques supplémentaires depuis l'introduction de la théorie. [2]

Mutation synonyme de bases Modifier

Lorsqu'un nucléotide incorrect est inséré pendant la réplication ou la transcription d'une région codante, cela peut affecter la traduction éventuelle de la séquence en acides aminés. Étant donné que plusieurs codons sont utilisés pour les mêmes acides aminés, un changement dans une seule base peut toujours conduire à la traduction du même acide aminé. Ce phénomène est appelé dégénérescence et permet une variété de combinaisons de codons conduisant à la production du même acide aminé. Par exemple, les codes TCT, TCC, TCA, TCG, AGT et AGC codent tous pour l'acide aminé sérine. Cela peut s'expliquer par le concept d'oscillation. Francis Crick a proposé cette théorie pour expliquer pourquoi des molécules d'ARNt spécifiques pourraient reconnaître plusieurs codons. La zone de l'ARNt qui reconnaît le codon appelé anticodon est capable de lier plusieurs bases interchangeables à son extrémité 5' en raison de sa liberté spatiale. Une cinquième base appelée inosine peut également être substituée sur un ARNt et est capable de se lier à A, U ou C. Cette flexibilité permet des changements de bases dans les codons conduisant à la traduction du même acide aminé. [5] Le changement d'une base dans un codon sans le changement de l'acide aminé traduit est appelé une mutation synonyme. Étant donné que l'acide aminé traduit reste le même, une mutation synonyme a traditionnellement été considérée comme une mutation neutre. [6] Certaines recherches ont suggéré qu'il existe un biais dans la sélection de la substitution de base dans la mutation synonyme. Cela pourrait être dû à une pression sélective pour améliorer l'efficacité de la traduction associée aux ARNt les plus disponibles ou simplement à un biais mutationnel. [7] Si ces mutations influencent le taux de traduction ou la capacité d'un organisme à fabriquer des protéines, elles peuvent en fait influencer la forme physique de l'organisme affecté. [6]

Propriétés biochimiques des acides aminés Non polaire Polaire De base Acide Terminaison : codon d'arrêt
Code génétique standard
1er
base
2e socle 3e
base
T C UNE g
T TTT (Phe/F) Phénylalanine TCT (Ser/S) Sérine TAT (Tyr/Y) Tyrosine TGT (Cys/C) Cystéine T
TTC CCT TAC TGC C
TTA (Leu/L) Leucine TCA AAT Arrêter (Ocre) [B] ATG Arrêter (Opale) [B] UNE
TTG [A] JCC ÉTIQUETER Arrêter (ambre) [B] TGG (Trp/W) Tryptophane g
C CTT CCT (Pro/P) Proline CHAT (Son/H) Histidine CGT (Arg/R) Arginine T
CCT CCC CAC CCG C
CTA ACC CAA (Gln/Q) Glutamine CGA UNE
CTG [A] GCC CAG CGG g
UNE ATT (Ile/I) Isoleucine ACTE (Thr/T) Thréonine AAT (Asn/N) Asparagine AGT (Ser/S) Sérine T
ATC CAC CAA CAG C
À ACA AAA (Lys/K) Lysine AGA (Arg/R) Arginine UNE
ATG [A] (Met/M) Méthionine ACG AAG AGG g
g GTT (Val/V) Valine TCG (Ala/A) Alanine FLINGUE (Asp/D) Acide aspartique GGT (Gly/G) Glycine T
CGV CCG GAC GGC C
RGT GCA GAA (Glu/E) Acide glutamique GGA UNE
GTG GCG GAG GGG g
UNE Le codon ATG code à la fois pour la méthionine et sert de site d'initiation : le premier ATG dans la région codante d'un ARNm est le point de départ de la traduction en protéine. [8] Les autres codons de départ répertoriés par GenBank sont rares chez les eucaryotes et codent généralement pour Met/fMet. [9] B ^ ^ ^ La base historique pour désigner les codons stop comme ambre, ocre et opale est décrite dans une autobiographie de Sydney Brenner [10] et dans un article historique de Bob Edgar. [11]

Substitution d'acides aminés neutres Modifier

Alors que la substitution d'une base dans une zone non codante d'un génome peut faire peu de différence et être considérée comme neutre, les substitutions de bases dans ou autour des gènes peuvent avoir un impact sur l'organisme. Certaines substitutions de bases conduisent à une mutation synonyme et aucune différence dans l'acide aminé traduit comme indiqué ci-dessus. Cependant, une substitution de base peut également modifier le code génétique de sorte qu'un acide aminé différent soit traduit. Ce type de substitution a généralement un effet négatif sur la protéine en formation et sera éliminée de la population par sélection purificatrice. Cependant, si le changement a une influence positive, la mutation peut devenir de plus en plus courante dans une population jusqu'à ce qu'elle devienne un élément génétique fixe de cette population. Les organismes changeant via ces deux options constituent la vision classique de la sélection naturelle. Une troisième possibilité est que la substitution d'acides aminés fasse peu ou pas de différence positive ou négative pour la protéine affectée. [12] Les protéines démontrent une certaine tolérance aux changements dans la structure des acides aminés. Cela dépend quelque peu de l'endroit où la substitution a lieu dans la protéine. Si elle se produit dans une zone structurelle importante ou dans le site actif, une substitution d'acide aminé peut inactiver ou modifier substantiellement la fonctionnalité de la protéine. Les substitutions dans d'autres domaines peuvent être presque neutres et dériver de manière aléatoire au fil du temps. [13]

Les mutations neutres sont mesurées dans la génétique des populations et de l'évolution souvent en examinant la variation des populations. Celles-ci ont été mesurées historiquement par électrophorèse sur gel pour déterminer les fréquences des allozymes. [14] Les analyses statistiques de ces données sont utilisées pour comparer la variation aux valeurs prédites basées sur la taille de la population, les taux de mutation et la taille effective de la population. Les premières observations qui indiquaient une hétérozygotie et une variation globale plus élevées que prévu au sein des isoformes protéiques étudiées, ont conduit à des arguments quant au rôle de la sélection dans le maintien de cette variation par rapport à l'existence d'une variation par les effets des mutations neutres apparaissant et leur distribution aléatoire due à la dérive génétique. [15] [16] [17] L'accumulation de données basées sur le polymorphisme observé a conduit à la formation de la théorie neutre de l'évolution. [15] Selon la théorie neutre de l'évolution, le taux de fixation dans une population d'une mutation neutre sera directement lié au taux de formation de l'allèle neutre. [18]

Dans les calculs originaux de Kimura, les mutations avec |2 Ns|<1 ou |s|≤1/(2N) sont définis comme neutres. [15] [17] Dans cette équation, N est la taille effective de la population et est une mesure quantitative de la taille idéale de la population qui suppose des constantes telles que des rapports sexuels égaux et aucune émigration, migration, mutation ni sélection. [19] Par prudence, on suppose souvent que la taille effective de la population est d'environ un cinquième de la taille de la population totale. [20] s est le coefficient de sélection et est une valeur comprise entre 0 et 1. C'est une mesure de la contribution d'un génotype à la génération suivante où une valeur de 1 serait complètement sélectionnée et n'apporterait aucune contribution et 0 n'est pas du tout sélectionné. [21] Cette définition de mutation neutre a été critiquée en raison du fait que de très grandes tailles de population efficaces peuvent faire apparaître des mutations avec de petits coefficients de sélection non neutres. De plus, les mutations avec des coefficients de sélection élevés peuvent apparaître neutres dans de très petites populations. [17] L'hypothèse testable de Kimura et d'autres a montré que le polymorphisme au sein des espèces est approximativement celui qui serait attendu dans un modèle évolutif neutre. [17] [22] [23]

Pour de nombreuses approches de biologie moléculaire, par opposition à la génétique mathématique, les mutations neutres sont généralement supposées être les mutations qui n'ont pas d'effet appréciable sur la fonction des gènes. Cette simplification élimine l'effet des différences alléliques mineures de fitness et évite les problèmes lorsqu'une sélection n'a qu'un effet mineur. [17]

Les premières preuves convaincantes de cette définition de la mutation neutre ont été démontrées par les taux de mutation plus faibles dans les parties fonctionnellement importantes des gènes telles que le cytochrome c par rapport aux parties moins importantes [24] et la nature fonctionnellement interchangeable du cytochrome c des mammifères dans les études in vitro. [25] Les pseudogènes non fonctionnels fournissent plus de preuves du rôle des mutations neutres dans l'évolution. Il a été démontré que les taux de mutation dans les pseudogènes de la globine chez les mammifères sont beaucoup plus élevés que les taux dans les gènes fonctionnels. [26] [27] Selon l'évolution néo-darwinienne, de telles mutations devraient rarement exister car ces séquences sont sans fonction et la sélection positive ne pourrait pas opérer. [17]

Le test de McDonald-Kreitman [28] a été utilisé pour étudier la sélection sur de longues périodes d'évolution. Il s'agit d'un test statistique qui compare le polymorphisme dans les sites neutres et fonctionnels et estime sur quelle fraction de substitutions a été agi la sélection positive. [29] Le test utilise souvent des substitutions synonymes dans les gènes codant pour les protéines comme composant neutre, cependant, il a été démontré que les mutations synonymes étaient soumises à une sélection purificatrice dans de nombreux cas. [30] [31]

Les horloges moléculaires peuvent être utilisées pour estimer le temps écoulé depuis la divergence de deux espèces et pour situer les événements évolutifs dans le temps. [32] Pauling et Zuckerkandl, ont proposé l'idée de l'horloge moléculaire en 1962 sur la base de l'observation que le processus de mutation aléatoire se produit à un taux constant approximatif. Les protéines individuelles se sont avérées avoir des taux linéaires de changements d'acides aminés au cours du temps évolutif. [33] Malgré la controverse de certains biologistes soutenant que l'évolution morphologique ne se déroulerait pas à un rythme constant, il a été démontré que de nombreux changements d'acides aminés s'accumulaient de manière constante. Kimura et Ohta ont expliqué ces taux dans le cadre de la théorie neutre. Ces mutations ont été considérées comme neutres car la sélection positive devrait être rare et les mutations délétères devraient être éliminées rapidement d'une population. [34] Par ce raisonnement, l'accumulation de ces mutations neutres ne devrait être influencée que par le taux de mutation. Par conséquent, le taux de mutation neutre dans les organismes individuels devrait correspondre au taux d'évolution moléculaire des espèces au cours du temps évolutif. Le taux de mutation neutre est affecté par la quantité de sites neutres dans une protéine ou une séquence d'ADN par rapport à la quantité de mutation dans des sites qui sont fonctionnellement contraints. En quantifiant ces mutations neutres dans les protéines et/ou l'ADN et en les comparant entre les espèces ou d'autres groupes d'intérêt, les taux de divergence peuvent être déterminés. [32] [35]

Les horloges moléculaires ont suscité la controverse en raison des dates qu'elles dérivent d'événements tels que les radiations explosives observées après des événements d'extinction comme l'explosion cambrienne et les radiations de mammifères et d'oiseaux. Des différences doubles existent dans les dates dérivées des horloges moléculaires et des archives fossiles. Alors que certains paléontologues soutiennent que les horloges moléculaires sont systématiquement inexactes, d'autres attribuent les écarts au manque de données fossiles robustes et aux biais dans l'échantillonnage. [36] Bien que non sans constance et divergences avec les archives fossiles, les données des horloges moléculaires ont montré comment l'évolution est dominée par les mécanismes d'un modèle neutre et est moins influencée par l'action de la sélection naturelle. [32]


Une introduction au développement informatique

Sanjeev Kumar , Peter J. Bentley , dans Sur la croissance, la forme et les ordinateurs , 2003

Différenciation cellulaire

La différenciation cellulaire, le quatrième processus, est un processus graduel par lequel les cellules acquièrent une structure et une fonction différentes les unes des autres, entraînant l'émergence de types cellulaires distincts, par exemple des neurones ou des cellules de la peau. La différenciation concerne fondamentalement les différentes protéines que contiennent les cellules.Si une cellule s'est différenciée de manière terminale, elle continue à produire ces protéines en raison d'un changement dans l'expression des gènes qui provoque un schéma stable d'activité des gènes, sinon la cellule peut continuer à se différencier au cours de divisions cellulaires successives. La différenciation est donc influencée par au moins les deux processus suivants :

signalisation cellulaire – communication intercellulaire et

division asymétrique - division qui entraîne la répartition asymétrique de facteurs (protéines) dans la cellule mère, ce qui amène les cellules mères et filles à acquérir des destins de développement différents. Il agit également comme un mécanisme de rupture de symétrie ( Turing, 1952 Wolpert, 1998 Stewart, chapitre 10 de ce volume).


Afficher/masquer les mots à connaître

Différenciation: lorsqu'une cellule choisit un chemin particulier déterminé génétiquement qui l'oblige à effectuer seulement quelques tâches spécialisées. Suite

ADN (acide désoxyribonucléique): instructions moléculaires qui guident le développement et le fonctionnement de tous les êtres vivants. Suite

Œuf: un gamète femelle, qui conserve toutes les parties d'une cellule après fusion avec un spermatozoïde.

Gamète: cellules spécialisées trouvées dans vos organes reproducteurs qui ont la moitié de la quantité d'ADN des cellules somatiques. Ces cellules se combinent pour former un ovule fécondé. Suite

Gène: une région d'ADN qui indique à la cellule comment construire des protéines. En tant qu'humain, vous recevez généralement un ensemble d'instructions de votre mère et un autre de votre père. Suite

Noyau: où l'ADN reste dans la cellule, le pluriel est noyaux.

Organisme: un être vivant qui peut être petit comme une bactérie ou grand comme un éléphant.

Cellules somatiques: les cellules de votre corps, à l'exception des gamètes. Soma signifie corps en latin.

Sperme: un gamète mâle, qui ne transfère son ADN qu'à l'œuf. Suite


Résumé

Ein Vergleich der neutralen genetischen Differenzierung und genetischen Diversität zwischen ziehenden und sesshaften Populationen des Indianergoldhähnchens ( Regulus satrapa )

Viele Tierarten ziehen saisonbedingt zwischen Brut- und Nichtbrutgebieten. Diese jährlichen Wanderungen können wesentliche Auswirkungen auf die genetische Struktur der Population haben. Wir genotypisierten 281 Individuen aus elf Populationen anhand sieben verschiedener Mikrosatelliten-Loci, um die Muster der neutralen genetischen Differenzierung und der genetischen Diversität zwischen ziehenden und sesshaften Brutpopulationen des IndianergoldhähnchensRegulus satrapa), einer weitverbreiteten nordamerikanischen Singvogelart, zu vergleichen. Davon ausgehend, dass das Zugverhalten den Genfluss verstärkt, trafen wir die Vorhersage, dass sesshafte Populationen eine größere genetische Differenzierung und geringere genetische Diversität als ziehende Populationen aufweisen. Das Ausmaß der genetischen Differenzierung und der genetischen Diversität zwischen ziehenden und sesshaften Populationen war vergleichbar. Die größte Differenzierung wurde beim Paarvergleich zwischen der Population in der Provinz Ontario und allen westlichen Populationen festgestellt. Distanzbasierte Redundanz-Modelle und Redundanz-Modelle zeigten, dass die Muster der neutralen genetischen Differenzierung und der neutralen genetischen Diversität einem „Isolation-durch-Distanz “ Modell (eng. isolation-by-distance model) folgten und nicht nicht dem korten korten korten Generell scheint es so, dass die genetischen Muster mit der eiszeitlichen Geschichte im Pleistozän zusammenhängen, wie es bereits in einer vorherigen Studie vermutet wurde.


Remerciements

Nous remercions J. Lyons, S. Barribeau, E. Sternberg et A. Mongue pour la discussion et le soutien technique au cours des phases initiales de ce projet M. Maudsley, B. Ballister, D. Cook, R. Rarick, E. Osburn, R Bartel, E. Rendon, D. Frey et R. Obregon pour leur aide avec les collections sur le terrain et le laboratoire De Roode et L. Morran pour leurs commentaires utiles sur une version précédente du manuscrit.

Déclaration de financement

A.A.P. a été soutenu par la subvention de formation NIH no. 5T32AI055404-10 (L. Real, PI) J.C.d.R. a été soutenu par les subventions NSF nos DEB-1019746 et DEB-1257160 J.F.H. a été soutenu par la Fundación Migres M.R.K. a été soutenu par la subvention NSF no. DEB-1316037 et S.A. a été soutenu par NSF no. accorde pas. DEB-0643831.


Matériaux et méthodes

Mesurer la différenciation génétique entre les populations

FST est une mesure de la différenciation génétique des populations qui quantifie la proportion de la variance des fréquences alléliques entre les populations par rapport à la variance totale (la somme de la variance au sein des individus, au sein des populations et entre les populations). Plusieurs estimateurs de FST ont été proposées au fil des ans (revue dans Weir et Hill 2002 Holsinger et Weir 2009).

Il y a un débat considérable sur les définitions de FST. Certains chercheurs considèrent FST être un paramètre de modèle (par exemple., Balding et Nichols 1995 Nicholson et al. 2002 Holsinger et al. 2002), tandis que d'autres considèrent qu'il s'agit d'une statistique (par exemple., Reynolds et al. 1983 Weir et Cockerham 1984 Hudson et al. 1992). Même en considérant FST en tant que paramètre, il y a une discussion considérable sur le modèle dont il est un paramètre et comment il devrait être estimé (Marchini et Cardon 2002 Balding 2003). L'objectif de cet article n'est pas de comparer ces approches, qui diffèrent à la fois par ce qu'elles estiment et par le fonctionnement de la procédure d'estimation. Nous restons agnostiques quant au débat sur l'interprétation et la définition des FST, bien que nous utilisions le mot « estimateur » partout. Au lieu de cela, nous montrons comment certains des estimateurs les plus couramment appliqués de FST peut être modifié en présence de données de couverture faible et moyenne pour refléter plus précisément ce que l'original FST les estimateurs étaient destinés à saisir c'est à dire., l'objectif sera de dériver des estimateurs applicables aux données NGS qui produisent des résultats similaires à ceux qui auraient été obtenus à partir de l'estimateur original basé sur des données de génotype complètes sans aucune erreur. Il est à noter que d'autres estimateurs, non considérés ici, pourraient potentiellement être modifiés de la même manière.

Estimation de la méthode des moments :

Nous commençons par considérer les estimateurs de la méthode des moments les plus simples de FST. Ils ne reposent sur aucune hypothèse sur la forme de la distribution d'échantillonnage, au-delà des moments utilisés pour estimer les paramètres, et ils sont faciles à mettre en œuvre grâce à des expressions algébriques simples. Pour ces raisons, les estimateurs de la méthode des moments sont populaires et souvent utilisés.

Notre premier objectif est d'étendre la méthode des moments FST estimateur proposé par Reynolds et al. (1983), car il s'agit de l'un des estimateurs les plus populaires et les plus motivés de FST, pour prendre en compte l'incertitude du génotypage. En supposant un SNP biallélique, avec un allèle de non référence à des fréquences estimées de , , et pour la population je, j, et mis en commun, la variance génétique entre et au sein des populations au site s est respectivement (1) et (2) où mje et mj sont le nombre d'individus échantillonnés par population, , et . Le tableau 1 décrit la nomenclature utilisée tout au long de ce manuscrit.

L'estimation de FST pour un seul site est alors (3) tandis que pour un lieu de m des sites c'est

Estimation de vraisemblance maximale:

Méthodes ML pour l'estimation FST nécessitent la spécification d'une distribution de probabilité d'échantillonnage. Une fois cette distribution définie, on peut maximiser une fonction de vraisemblance pour obtenir des estimateurs ML pour les paramètres de la distribution. estimateurs ML de FST ont été très populaires, en particulier pour détecter des signatures de sélection naturelle adaptative parmi les populations (par exemple., Beaumont et Balding 2004 Riebler et al. 2008 Foll et Gaggiotti 2008).

En supposant un site biallélique s avec des fréquences alléliques à distribution bêta, la probabilité des fréquences alléliques de l'échantillon au niveau de la population je peut être exprimé comme une distribution bêta-binomiale avec les paramètres 2mje (taille de l'échantillon), FST, et pet,s, la fréquence des allèles de la population ancestrale. Cette paramétrisation suppose une divergence par rapport à une population ancestrale commune et que la divergence subséquente est bien modélisée par la distribution bêta. La distribution marginale d'échantillonnage dans la population je est alors donné par (Balding et Nichols 1995 Balding 2003) (5) où k est le nombre de l'allèle de non référence (ou dérivé), B est la fonction bêta, (6) et

La fonction de vraisemblance complète est le produit de cette distribution d'échantillonnage pour toutes les populations, car les populations sont indépendantes conditionnellement à pet,s. Pour deux populations je et j, on a (8) où les indices sur m et indiquer l'identité de la population. Nous maximisons numériquement l'équation 8 en utilisant l'algorithme de Broyden-Fletcher-Goldfarb-Shanno (BFGS) (Fletcher 1987 Press et al. 2007).

Quantifier la différenciation génétique des populations en appelant des génotypes

Une stratégie naïve pour estimer les fréquences alléliques des échantillons et FST est d'appeler d'abord les génotypes sur chaque site, puis de simplement compter l'occurrence d'allèles non-référencés ou dérivés parmi tous les individus.

Nous avons d'abord évalué l'exactitude de plusieurs stratégies d'appel de génotype (Informations à l'appui, Fichier S1). Ces méthodes incluent des approches basées sur des comptages directs de bases de lecture, sur des probabilités de génotype et sur des probabilités postérieures de génotype. Une approche prometteuse consiste à utiliser des méthodes bayésiennes pour attribuer des génotypes individuels en calculant les probabilités postérieures de génotype. P(g|X) à partir des vraisemblances du génotype et d'un a priori spécifique P(g) sur le génotype g. Le théorème de Bayes est utilisé pour calculer P(g|X), la probabilité postérieure de génotype g compte tenu des données observées X (1000 Genomes Project Consortium 2010). Le prior peut être défini à l'aide de données étrangères, telles que la séquence de référence, des séquences dans une base de données, une estimation de la fréquence allélique et/ou des coefficients de consanguinité, etc. (par exemple., 1000 Genomes Project Consortium 2010 Li 2011 Nielsen et al. 2012).

Les résultats montrent que l'appel de génotypes à partir de probabilités postérieures de génotype fournit la précision d'appel de génotype et de SNP la plus stable et la plus précise dans presque tous les scénarios expérimentaux testés (tableau S1, tableau S2 et tableau S3). Nous avons adopté cette stratégie pour appeler les génotypes dans le reste de l'étude. Plus précisément, nous avons compté les allèles non de référence de ces génotypes appelés pour déduire les fréquences alléliques et calculé un estimateur de la méthode des moments de FST, que nous avons nommé (équations 10 et 11). Nous avons adopté cette stratégie d'appel de génotype pour calculer un estimateur ML de FST, (Équations 5 et 8).

Une stratégie alternative pour l'informatique FST est d'éviter complètement l'appel de génotype afin que l'inférence soit basée directement sur les probabilités postérieures (par exemple., Yi et al. 2010 Nielsen et al. 2012). Nous décrivons ces méthodes dans les sections suivantes.

Quantifier la différenciation génétique des populations sans appeler les génotypes

Nous proposons ici d'utiliser un cadre probabiliste bayésien pour estimer FST à partir des probabilités postérieures des fréquences d'allèles d'échantillon de chaque population à chaque site sans appeler de génotypes spécifiques. Dans nos applications, nous calculons une estimation de vraisemblance maximale du spectre de fréquence du site à partir des vraisemblances du génotype, comme proposé précédemment par Nielsen et al. (2012). En utilisant cette estimation ML de la SFS comme a priori dans une approche empirique de Bayes, nous estimons la probabilité postérieure pour toutes les fréquences alléliques possibles sur chaque site (Nielsen et al. 2012).

Estimation de la méthode des moments :

Soit la probabilité postérieure qu'un site dans la population je a dérivé la fréquence d'allèle d'échantillon, dans un échantillon de mje individus diploïdes, compte tenu des données lues Oui(je,s). Cette probabilité peut être calculée à partir des probabilités de génotype en utilisant l'algorithme de Nielsen et al. (2012). L'étiquetage des allèles par rapport à l'allèle dérivé est arbitraire et tout autre étiquetage des allèles aurait pu être choisi si l'identification de l'état ancestral et dérivé n'est pas possible.

A partir de ces quantités, nous calculons l'espérance a posteriori de la variance génétique entre et au sein des populations (voir les équations 1 et 2) au site s comme (10) et (11) où et sont des variances génétiques de Reynolds et al. (1983) formule, avec k- et z-dérivé d'allèles dans les populations je et j, respectivement, et Ouis sont les données de séquençage sur le site s. La variance totale attendue, E[cs|Ouis], à chaque site, est alors E[cs|Ouis] = E[unes|Ouis] + E[bs|Ouis].

L'estimation de FST pour un seul site est donnée par le rapport de E[unes|Ouis] à E[cs|Ouis] (Équation 3). Cependant, étant donné que les deux composantes de la variance ne sont pas indépendantes et que ce calcul implique l'espérance d'un ratio, nous l'approchons en utilisant la méthode delta (Rice 2008 Rice et Papadopoulos 2009) pour obtenir l'estimateur suivant de FST sur le site s, (12) oùcvous> est le vousmoment central de cs et <une, cvous〉 est le moment central mixte, qui peut être calculé comme (13) et (14) où est la variance génétique totale de Reynolds et al. (1983) formule, avec k- et z-dérivé d'allèles dans les populations je et j, respectivement. À des fins de calcul, nous n'utilisons que les premiers moments centraux et mixtes.

peut être calculé en utilisant le maximum de vraisemblance de la même manière que la méthode utilisée pour calculer pour une seule population (Nielsen et al. 2012). Cependant, ce calcul peut ne pas être souhaitable en raison de la variance élevée associée à l'estimation de tant de paramètres.

Une approche alternative consiste à calculer une estimation du spectre de fréquence du site bidimensionnel (2D-SFS), , comme (15) où et sont les probabilités marginales d'observer k et z allèles de non-référence à la population je et j, respectivement, sur le site s, tel que présenté dans Nielsen et al. (2012).

est ensuite utilisé comme a priori pour calculer la probabilité postérieure des quantités d'intérêt. Par exemple, l'espérance de la variance génétique entre les populations (voir l'équation 10) peut être calculée comme (16) Enfin, un estimateur de la méthode des moments de FST plus de m sites est donnée par l'équation 4. Lors de l'analyse de plusieurs sites, nous n'ajoutons pas le facteur de correction au rapport de E[une|X] à E[c|X] à chaque site car, pour un grand nombre de sites, l'erreur introduite en prenant le rapport de deux attentes non indépendantes sera minime. Nous avons également testé la performance d'autres méthodes pour estimer FST à partir des données de séquençage dérivées des attentes des fréquences alléliques de l'échantillon (Fichier S1).

Ces méthodes peuvent être étendues à des définitions non par paires de FST (Weir 1996). Ces formulations nécessitent l'estimation d'une SFS conjointe parmi toutes les populations, qui peut être estimée de la même manière que dans l'équation 15.

Estimation de vraisemblance maximale:

Nous étendons également la procédure d'estimation ML de FST et panc sous la distribution bêta-binomiale (Balding et Nichols 1995 Balding 2003) (équation 8) au cas des génotypes inconnus. Ces estimations, que nous appelons FST.ML, sont obtenus en maximisant la fonction de vraisemblance (17) où Oui(je,s) et Oui(j,s) sont les données de lecture observées sur le site s pour la population je et j, respectivement, et et sont à nouveau les probabilités marginales de la fréquence des allèles de l'échantillon pour la population je et j, calculé comme dans Nielsen et al. (2012).

Analyse des composantes principales

Une approche similaire à celle utilisée pour corriger les estimations de FST peut être utilisé en PCA. La méthode désormais standard de calcul de l'ACP en génétique des populations est basée sur Patterson et al. (2006). Pour m individus et m sites une matrice de covariance normalisée C est calculé comme (18) où est la fréquence d'allèle dérivée au site s (l'étiquetage est encore arbitraire) et g(w,s) est le nombre d'allèles dérivés pour l'individu w sur le site s (g ∈ <0, 1, 2>dans le cas diploïde). Le dénominateur est inséré pour tenir compte de la dérive génétique et normalise les fréquences alléliques standardisées pour avoir la même variance (Patterson et al. 2006). Cependant, d'autres normalisations peuvent être choisies. Une décomposition de vecteur propre de C est alors calculé.

De plus, le C matrice est pondérée par la probabilité que chaque site soit variable. Ceci est motivé par le fait que, à une couverture de séquençage faible à moyenne, les sites qui ont une faible probabilité d'être variable dans l'échantillon peuvent avoir une contribution faible mais non négligeable à la matrice. C. Comme ils sont de plusieurs ordres de grandeur plus invariables que les sites variables, cela peut avoir un effet profond sur les analyses, même en pondérant avec des probabilités de génotype. Au lieu d'utiliser un seuil d'appel SNP discret arbitraire, ou une fréquence d'allèle mineur, nous proposons de pondérer les sites en fonction de leur probabilité d'être variable.

On estime donc la matrice C pour ce qui est de woui) (19) où la probabilité de site s étant variable, Pvar,s, est calculé comme (20) Nous soulignons que cette approche ne fournit pas une forme d'analyse PCA bayésienne. C'est plutôt une modification du Patterson et al. (2006) pour l'analyse PCA dans le contexte de la génétique des populations, modifiée pour incorporer l'incertitude dans les appels de génotypes en utilisant une pondération appropriée des différents génotypes en utilisant leurs probabilités postérieures respectives.

Nous notons également que (21) pour les individus non apparentés sous HWE en supposant des fréquences alléliques connues et un a priori dérivé de HWE pour les probabilités de génotype. Cela montre que la fonction de covariance pour les individus non apparentés devrait en fait être nulle en utilisant cet estimateur, une propriété nécessaire et souhaitable pour que la méthode fonctionne bien. La preuve de l'équation 21 est fournie dans le annexe. Comme nous le soutenons, l'ACP résultante est grandement améliorée par rapport aux méthodes naïves utilisant l'appel de génotypes dans tous les scénarios explorés.

Cette approche pourrait être étendue à différentes stratégies pour effectuer l'ACP à partir d'une matrice de probabilités a posteriori de génotype, par exemple, les méthodes ML qui tiennent compte des contributions de bruit de chaque variable (Wentzell et al. 1997) ou des méthodes bayésiennes utilisant des informations externes sur les données (Nounou et al. 2002).

Simulation de données de séquençage pour plusieurs populations

Nous avons effectué des simulations pour comparer les performances de ces méthodes pour estimer la différenciation génétique des populations, ainsi que pour quantifier la précision du génotypage et de l'appel SNP, dans un large éventail de conditions expérimentales. Comme dans les études précédentes (Kim et al. 2010, 2011), nous avons simulé des données de séquençage plutôt que des lectures de séquençage brutes pour une efficacité de calcul.Nous avons traité les sites comme indépendants les uns des autres et simulé les génotypes pour chaque individu en supposant HWE et une fréquence d'allèle de population spécifique. Plus précisément, nous avons répété la procédure suivante pour chaque site.

Tout d'abord, pour chaque site, nous avons tracé une fréquence d'allèle ancestrale panc à partir d'une distribution en [5 × 10 −3 , 1 − (5 × 10 −3 )] de densité proportionnelle à 1/X. Cette distribution est la distribution attendue de la fréquence des allèles sous un modèle standard de sites infinis neutres, tronquée aux limites correspondant à une taille de population de 200 individus (voir, par exemple., Ewens 2004). Nous avons ensuite simulé les fréquences alléliques pour deux populations en utilisant le modèle Balding-Nichols (Balding et Nichols 1995) avec une moyenne égale à panc, comme dans les études précédentes (Pritchard et Donnelly 2001 Price et al. 2006). Nous avons simulé deux échantillons indépendants, conditionnellement à FST et panc, à partir de cette distribution pour obtenir des fréquences alléliques pour deux populations (voir l'équation 5). À partir de ces fréquences d'allèles de population, nous avons attribué des génotypes selon HWE pour chaque individu.

Pour simuler les données de trois populations, nous avons d'abord dessiné les fréquences d'allèles de population à partir du modèle Balding-Nichols pour deux populations comme décrit ci-dessus. Nous avons ensuite attribué la première fréquence d'allèle à la population 1 et utilisé la deuxième fréquence d'allèle comme fréquence d'allèle ancestrale pour les populations 2 et 3. Nous avons ensuite tiré deux fréquences d'allèle de population à partir du modèle Balding-Nichols pour une valeur différente de FST et attribué ces fréquences alléliques aux populations 2 et 3.

Pour simuler les données NGS, le nombre de lectures à chaque locus pour chaque individu a été simulé à partir d'une distribution de Poisson comme dans Kim et al. (2010, 2011). De plus, des erreurs ont été introduites au hasard de manière uniforme parmi les nucléotides à un taux de 0,0075. Cette valeur est comparable aux taux d'erreur trouvés dans les études précédentes (1000 Genomes Project Consortium 2010 Li et al. 2010 et al. 2010). La probabilité qu'un site soit polymorphe, Pvar, variait de 0,02 à 1.

Nous avons calculé les probabilités de génotype à partir de lectures de séquençage simulées. Les probabilités de génotype dépendent à la fois des appels de base et des scores de qualité et sont proportionnelles à la probabilité, P(X|g), des données de lecture observées, X, sur un site pour chaque individu donné un certain génotype g. Dans le cas le plus simple, pour lire z sur le site s, nous avons calculé la vraisemblance du génotype d'une base particulière v, L(z,v,s) avec vcomme L(z,v,s) = (1 − e) si v est la base observée à la lecture z, et L(z,v,s) = e/3 sinon. Ici e est l'erreur de séquençage utilisée dans le cadre de la simulation. Il existe de nombreuses autres méthodes d'estimation e, y compris les méthodes pour l'estimer directement à partir des données (par exemple., Kim et al. 2011). Probabilités de génotype sur le site s pour particulier w sont ensuite calculés en faisant le produit des vraisemblances sur l'ensemble r se lit comme suit : (22) En utilisant cette procédure, nous avons calculé les probabilités de génotype pour chaque individu sur chaque site pour les 10 génotypes possibles. Nous avons ensuite calculé les probabilités postérieures des génotypes et des fréquences d'allèles d'échantillon, comme décrit précédemment (voir l'équation 9).

Lors de l'appel de génotypes, nous avons attribué des génotypes avec une probabilité postérieure <0.90 comme données manquantes. Nous avons supprimé les sites où plus de la moitié des individus avaient des génotypes manquants. Avec cette procédure, nous avons filtré ∼25% du total des sites à une couverture de séquençage 2×. nous avons calculé FST uniquement sur les génotypes non manquants, tandis que pour l'ACP, nous avons imputé les données manquantes aux génotypes ayant la probabilité postérieure la plus élevée.

Pour évaluer l'exactitude des estimations par site de FST, nous avons simulé deux ensembles de données de 10k et 1k sites pour chaque scénario expérimental afin d'évaluer respectivement la méthode des moments et les estimations ML, avec FST variant de 0,01 à 0,4, et avec Pvar = 1. Nous avons vérifié la convergence des algorithmes d'optimisation pour les estimateurs ML de FST et les sites rejetés où cette condition n'était pas remplie. Nous avons également simulé 1M de sites en concaténant 100 ensembles de 10k sites simulés avec FST valeurs tirées d'une distribution normale N(0,2, 0,2) tronqué à 0,02 et 0,90, et Pvar = 0,10 pour évaluer l'exactitude des estimations multi-sites de FST. Nous avons simulé 20 individus par population avec une couverture de séquençage faible (2×), moyenne (6×) et élevée (20×).

Évaluer la performance de différentes méthodes d'estimation FST, nous avons calculé deux mesures de l'écart par rapport au vrai FST plus de m sites : la déviation quadratique moyenne (RMSD), (23) et le biais moyen (24) où et est la valeur estimée FST sur le site s du cas des génotypes connus et des données de séquençage, respectivement.

Pour évaluer la précision de la méthode PCA, nous avons simulé 10 000 sites pour chaque scénario avec des valeurs de FST allant de 0,02 à 0,4 et avec Pvar = 0,02, 0,1 ou 1. Nous avons simulé trois populations avec 20 individus chacune à une couverture de séquençage 2×, 6× et 20×. Nous avons effectué 10 simulations distinctes pour chaque condition expérimentale afin d'assurer la robustesse de nos résultats. Nous avons évalué l'exactitude des graphiques PCA inférés à l'aide de l'analyse de Procrustes (Wang et al. 2010). En bref, nous avons mesuré l'écart de PC1 et PC2 calculé à partir du cas des génotypes connus et du cas des génotypes inconnus en utilisant la somme des carrés (SS), où les valeurs de SS plus proches de 0 indiquent de meilleurs ajustements.

Applications aux données réelles

Nous avons analysé un ensemble de données d'espèces sauvages et domestiquées de vers à soie, B. mori (Xia et al. 2009). Les données se composaient de 40 échantillons représentant 29 lignées domestiquées et 11 lignées sauvages. Les lignées domestiquées sont phénotypiquement et géographiquement séparées en sous-groupes alors que toutes les lignées sauvages sont originaires de Chine. Les échantillons ont été séquencés avec une couverture moyenne approximative par site de 3×. Nous avons analysé le chromosome 2 en utilisant les probabilités de génotype d'origine en supprimant les sites où nous n'avions aucune information pour au moins un individu. Des détails sur le calcul des probabilités de génotype peuvent être trouvés dans l'article original (Xia et al. 2009). Environ 200 000 sites ont été analysés au total.

Nous avons calculé les probabilités postérieures des fréquences alléliques et des génotypes des échantillons à l'aide du logiciel ANGSD (disponible sur http://www.popgen.dk/angsd). Nous avons ensuite effectué une ACP et estimé FST en utilisant les nouvelles méthodes proposées implémentées dans un ensemble de programmes C/C++ (disponibles sur https://github.com/mfumagalli/ngstools). Toutes les analyses statistiques ont été réalisées dans l'environnement R (http://www.r-project.org).


Principes d'évolution, d'écologie et de comportement

Chapitre 1. Introduction [00:00:00]

Professeur Stephen Stearns : La conférence d'aujourd'hui porte sur l'évolution neutre. Alors allons-y. Je tiens à vous rappeler que lorsque les gens pensent à l'évolution, ils pensent souvent que ce n'est que de la sélection naturelle. Mais ce n'est pas le cas. C'est à la fois micro et macro. Ainsi, la macro nous donne une histoire et des contraintes, et la micro consiste essentiellement en une sélection naturelle et une dérive et la biologie du développement est impliquée dans les deux.

Donc, ce dont nous allons parler aujourd'hui, c'est essentiellement une évolution neutre. Qu'arrive-t-il aux gènes ou aux traits qui ne subissent pas de sélection naturelle parce qu'ils ne font aucune différence dans le succès de la reproduction ? Il y a en fait beaucoup de choses qui se passent, et c'est très utile que cela se produise. Cela nous donne une base de référence, cela nous donne une méthode de mesure des choses et cela nous donne beaucoup d'informations sur l'histoire.

Il y aura donc trois messages dont je veux que vous vous souveniez aujourd'hui. L'un d'eux sera la façon dont la méiose est comme une pièce de monnaie équitable. La probabilité qu'un gène pénètre dans un gamète spécifique au cours de la méiose est de 50 %. Le deuxième point est de savoir comment la fixation d'un allèle neutre dans une population est comme la désintégration radioactive et c'est comme ça dans ce sens : ni dans le cas de la fixation d'allèles neutres, ni dans le cas de l'observation d'un gramme de uranium-238, savez-vous quelle mutation sera fixée ou quel atome se désintégrera. Mais, parce qu'il y en a tellement, dans les deux cas, vous savez très précisément combien d'événements se produiront dans un certain laps de temps. D'accord?

C'est une sorte de loi des grands nombres pour les événements aléatoires. Si beaucoup d'événements aléatoires se produisent, la moyenne est une chose très prévisible. Mais si vous examinez simplement un nucléotide dans un génome, ou un atome dans un gramme d'uranium, vous ne pouvez pas prédire quand il mutera, quand il pourrait être fixé, quand il se désintégrera.

La troisième chose dont je veux que vous vous souveniez est cette fixation régulière d'allèles neutres, ce processus constant par lequel si vous regardez un génome entier, sur une période de temps donnée� ans, 100 000 ans–une certaine moyenne très prévisible le nombre de mutations sera fixé si elles sont neutres. Donc, si vous pouvez localiser les neutres dans le génome, vous pouvez les utiliser pour estimer les relations et les temps jusqu'aux derniers ancêtres communs. D'accord?

Il y a donc en fait des idées intéressantes, plutôt abstraites et plutôt grandes dans cette conférence. Le hasard n'est pas quelque chose que tout le monde trouve intuitif. Nos cerveaux ne sont apparemment pas conçus par la sélection naturelle pour traiter extrêmement bien avec Las Vegas ou le marché boursier. D'accord? Nous devons donc affiner un peu votre intuition sur le fonctionnement des processus aléatoires.

Soit dit en passant, les personnes qui réussissent très bien en calcul et en analyse trouvent souvent leur introduction aux probabilités et aux statistiques un peu déroutante. Ce qui se passe ici, c'est que vous devez apprendre à penser à des populations entières de choses et à des distributions et fréquences de choses, plutôt qu'à des boules de billard qui se heurtent sur une table ou à des planètes attirées par le soleil, par gravité . C'est une autre façon de penser. C'est la pensée de la population.

Le plan de la conférence est donc un peu sur la façon dont la neutralité surgit. Je veux que vous sachiez mécaniquement pourquoi certains gènes sont neutres les raisons pour lesquelles la variation génétique pourrait ne produire aucune variation de la forme physique - c'est ce que nous entendons par neutre, il y a une variation à un niveau mais cela n'en fait pas différence au succès reproducteur les mécanismes qui provoquent des changements aléatoires, puis l'importance de la neutralité pour l'évolution moléculaire. Et maintenant, je vais brièvement mentionner l'évolution inadaptée afin que vous puissiez voir comment un processus évolutif peut en fait aboutir à une situation où les organismes ne sont pas bien adaptés à leurs habitats. Et avec cela, nous aurons couvert les principaux résultats possibles de l'évolution : l'adaptation, la neutralité et la maladaptation.

Chapitre 2. Modifications des gènes et des acides aminés non reflétées dans les phénotypes [00:04:56]

D'accord, voici un joli diagramme abstrait pour expliquer pourquoi la neutralité se pose. Ce que je veux que vous imaginiez, c'est un espace génotypique dans lequel tous les génotypes possibles pour cet organisme pourraient se produire. Pensez simplement à cela comme à toutes les différentes manières dont vous auriez pu être construit si tous les événements de recombinaison possibles chez votre père et votre mère avaient produit tous les gamètes possibles et tous les zygotes possibles. Il y a un espace de génotype pour vous.

Beaucoup de ces génotypes produiront le même phénotype, et cela parce que de nombreux gènes et de nombreux nucléotides du génome, de nombreuses séquences d'ADN du génome, ne font aucune différence pour les protéines qui sont produites. Il se passe d'autres choses et nous allons les parcourir. De nombreux phénotypes ont la même fitness.

Combien d'entre vous viennent de familles à enfant unique ? OK, tous tes parents ont la même forme physique. Combien de familles de deux enfants ? Tous vos parents ont la même forme physique. D'accord? Cela arrive beaucoup. Fondamentalement, lorsque nous disons que de nombreux phénotypes ont la même fitness, nous voulons simplement dire que dans n'importe quelle population, il y aura beaucoup d'organismes qui ont tous deux descendants ou tous trois descendants ou quelque chose comme ça. Les deux classes de progéniture ont toutes la même forme physique.

Ensuite, lorsque nous regardons l'ensemble à mi-chemin [cela n'aurait de sens qu'en regardant la figure] ici, nous pouvons voir que G1, G2 et G3 sont neutres l'un par rapport à l'autre, lorsqu'ils sont mesurés dans un certain environnement, mais ils diffèrent de G4. Nous avons donc ici beaucoup de variations génétiques qui sont neutres, et elles sont neutres pour diverses raisons. Nous allons passer en revue certaines de ces raisons.

Premièrement, certaines des mutations dans les séquences d'ADN sont synonymes. Cela signifie qu'ils ne produisent aucun changement dans les acides aminés codés dans les protéines. Deuxièmement, il existe des pseudogènes et d'autres types d'ADN non transcrit dans le génome. Un pseudogène est un gène qui résulte d'un événement de duplication de gène dans le passé et qui ne s'est jamais habitué à fabriquer quoi que ce soit. Et si vous parcourez un génome entier, ce que vous pouvez maintenant faire pour de nombreux organismes, à la recherche de ces choses, vous constaterez qu'elles sont partout.

Il y a eu de nombreuses duplications de gènes dans le passé, et certaines d'entre elles ont abouti à des gènes qui ont ensuite été acquis par sélection et utilisés au cours du développement pour certaines fonctions. D'autres ne l'étaient pas. Les pseudogènes sont ceux qui n'ont pas été utilisés. Leur destin habituel est d'être érodé par la mutation. Donc, progressivement, les informations utiles qui s'y trouvaient sont détruites par mutation, et s'ils restent assez longtemps, ils ne sont plus détectables, vous ne pouvez plus dire qu'ils étaient autrefois vraiment un gène fonctionnel, avant qu'ils ne soient dupliqués.

Il existe une variation neutre des acides aminés, pour diverses raisons. Certains acides aminés ont une taille moléculaire et des propriétés de charge très similaires, de sorte que si vous les remplacez dans une protéine, ils ne font pas vraiment de différence sur la forme ou la distribution de charge sur la protéine. Et si vous regardez une protéine entière, ce qui est généralement assez important, disons que si c'est une enzyme, normalement elle aura un site actif qui se trouve dans une très petite partie spatiale de celle-ci, de sorte que les sous-stations d'acides aminés qui se produisent directement sur le site actif font une grande différence pour sa fonction, puis potentiellement sur la ligne de remise en forme, et les substitutions d'acides aminés qui se produisent loin de ce site actif ont peu d'impact sur la fonction de la protéine , même s'ils ont une taille différente ou une structure de charge différente.

Il y a donc une variation neutre des acides aminés, et enfin il y a quelque chose d'un peu plus abstrait, et en gros c'est abstrait parce que nous ne le comprenons pas très bien, c'est un phénomène réel mais nous ne le comprenons pas. toujours savoir quels sont les mécanismes et c'est la canalisation du développement. Je vais donc les parcourir et essayer d'expliquer un peu la canalisation en quelques diapositives.

Voici, euh, le code génétique, et en gros vous pouvez voir ici les triplets de nucléotides qui sont traduits en divers acides aminés. Et le point à retenir, le premier point à retenir de ceci, est que pour tout acide aminé particulier – la phénylalanine, par exemple, il y a ici deux codes pour la phénylalanine, et regardez, il y a six codes pour la leucine. Ainsi, tout changement au sein de cet ensemble de séquences nucléotidiques ne produit aucun changement dans l'acide aminé qui entre dans la protéine. Ils sont neutres les uns par rapport aux autres, car ils sont synonymes.

Et vous pouvez obtenir un indice d'un autre niveau de synonymie en examinant les classes d'acides aminés chargés positivement-négativement, les acides aminés aromatiques, etc. Les substitutions entre l'acide aspartique et l'acide glutamique, qui sont tous deux chargés négativement, sont moins susceptibles de faire une différence de fitness qu'une substitution, par exemple, de la lysine, pour l'acide glutamique. Il y a donc aussi un niveau dans la protéine.

Les pseudogènes dont j'ai parlé un peu. Ils ne sont pas transcrits et tous leurs nucléotides sont libres de diverger au hasard. Cela signifie qu'il n'y a pas de véritable processus d'édition en cours et que la sélection naturelle ne préfère pas une mutation à une autre. Il n'est pas plus susceptible d'apparaître chez les enfants ou les petits-enfants qu'un autre. Ce gène a été désactivé, et il sera inévitablement érodé car toutes les séquences d'ADN sont sujettes à mutation et si une mutation se produit dans un pseudogène, il n'y a aucune raison particulière pour que les mécanismes de réparation y prêtent plus d'attention qu'eux. à quoi que ce soit d'autre. D'accord?

Donc, ces choses ne sont pas spécialement réparées par les mécanismes de réparation et elles ne sont pas du tout réparées par la sélection naturelle. Ce commentaire s'appliquera donc à une grande partie de l'ADN qui n'est pas transcrit. Il y a maintenant quinze, vingt ans, lorsque cette classe d'ADN a été découverte, les gens l'ont appelée « ADN indésirable » parce qu'ils ne pensaient pas qu'elle faisait quoi que ce soit, et bien sûr, c'était alors le plaisir des jeunes scientifiques de montrer aux plus anciens. que ce genre de choses a souvent une fonction, généralement c'est une fonction de régulation. Une partie fabrique de petites molécules d'ARN qui sont utilisées dans la régulation, mais une partie est également utilisée comme, euh, sites et voies de signalisation et aide à réguler le développement.

Cependant, certains d'entre eux sont vraiment indésirables. Par exemple, il existe un processus constant par lequel des virus de toutes sortes s'épissent dans les génomes de leurs hôtes, et cela fait partie de la stratégie adaptative des virus qu'ils sont capables de couvrir leurs paris en se collant dans un génome et en traînant. pendant un certain temps, puis surgir, à un point qui pourrait leur être avantageux mais peu pratique pour leur hôte.

Cependant, c'est une stratégie dangereuse car parfois ils se collent dans des parties de génomes qui ne sont jamais transcrites, et ils n'en sortent jamais. En fait, les génomes de la plupart des organismes sur terre sont jonchés de squelettes fossiles de virus. J'ai lu une fois une estimation selon laquelle le génome humain contenait un pourcentage substantiel de virus fossiles. J'ai oublié le chiffre exact à l'époque. Ce genre de chose était populaire lorsque les séquences d'ADN ont commencé à sortir en grand nombre. Mais sachez-le. D'accord?

Il y a donc de l'ADN indésirable, et certains d'entre eux sont là parce que des virus fossiles ou des transposons, des gènes sauteurs, se sont retrouvés dans des positions où ils ne pouvaient plus être transcrits, et ils deviennent alors un cimetière. Une sorte de pensée inconfortable n'est-ce pas, que vous ne faites que transporter un cimetière viral? Mais vous êtes.

Chapitre 3. Évolution neutre dans l'histoire de la vie [00:14:29]

D'accord, variation d'acides aminés neutres. J'en ai parlé un peu lorsque j'ai présenté le code génétique. Ce sont donc des substitutions d'acides aminés qui ne produisent aucun changement de géométrie ou aucun changement de charge dans la géométrie et l'électrochimie d'un site fonctionnel au sein d'une protéine. Et j'aimerais parler un peu d'un cas très précoce d'évolution moléculaire qui est le cas de l'alpha-globine. Votre hémoglobine a donc deux chaînes alpha et deux chaînes non alpha. Il a une chaîne bêta si vous êtes un adulte et il a une chaîne gamma si vous êtes un embryon.La raison pour laquelle il passe d'un gamma à un bêta est de modifier les propriétés de liaison de l'oxygène, car les embryons doivent aspirer l'oxygène du sang de leur mère. D'accord?

Si nous examinons ces séquences d'alpha-globine, sur une assez large gamme de vertébrés, et que nous prélevons des échantillons de manière à pouvoir remonter assez loin dans le temps, nous pouvons dater ces points de branchement approximativement à partir des archives fossiles. D'accord? Ainsi, les chiens et les humains ont partagé un ancêtre probablement quelque part vers la fin du Crétacé, mi-fin mi-Crétacé. Notre dernier ancêtre commun avec le kangourou était à environ 140 millions d'années peut-être. Les mammifères étaient là pendant que les dinosaures étaient là. C'étaient juste des petits gars, mais il y avait des mammifères là-bas. Notre dernier ancêtre commun avec le requin remonte à environ 440 millions d'années.

Prenez donc les séquences de toutes les hémoglobines alpha que vous extrayez de ces choses - c'est une molécule pratique, vous avez juste besoin d'un échantillon de sang et tracez-les sur un graphique. Donc vous estimez le temps à partir des fossiles et vous estimez les différences moyennes. Ce "k" est une mesure des différences d'acides aminés dans une protéine, et la ligne droite est ce que vous vous attendriez à obtenir si le taux de substitution d'acides aminés est aléatoire, juste uniforme, juste stable. D'accord?

C'est assez proche de la ligne. Il y a quelques écarts. Mais c'est l'une des premières preuves - c'était avant que le séquençage de l'ADN ne devienne facile, c'était à l'époque où le séquençage des protéines était plus facile que le séquençage de l'ADN - c'était l'une des premières preuves qu'il existe quelque chose comme une horloge moléculaire. En d'autres termes, si nous avions un vertébré que nous n'avions jamais vu auparavant, vivant dans une jungle oubliée, et qu'il avait une morphologie étrange et que nous ne savions pas qui étaient ses parents, et nous voulions savoir quand il aurait pu a partagé un ancêtre avec quelque chose que nous avions, et il a tracé ici sa différence avec quelque chose avec lequel nous le comparions en ce moment, tracé ici, alors nous aurions une bonne estimation du temps jusqu'au dernier ancêtre commun, pour ce nouveau, des espèces inconnues, en partant du principe qu'elle était en train de vivre une évolution comme tous ces autres types.

D'accord, la quatrième raison pour laquelle la variation génétique pourrait être neutre est la canalisation. Maintenant, la canalisation en général signifie qu'il existe des mécanismes de développement qui limitent la gamme de variation phénotypique, de sorte que même s'il y a une mutation dans le génome, ou s'il y a un effet environnemental perturbateur sur une voie génétiquement contrôlée, vous continuez pour obtenir le même phénotype.

Certaines choses concernant votre phénotype sont extrêmement stables. Ils ne répondent pas du tout à la mutation. Le fait que vous ayez quatre membres, le fait que vous ayez cinq doigts, des choses comme ça sont anciennes et stables et il existe des mécanismes de développement tampon qui les maintiennent ainsi. Donc ces choses, ces mécanismes de canalisation, résistent à la tendance de la variation des facteurs génétiques ou environnementaux à perturber le phénotype, ils le maintiennent dans un état stable.

Alors, qu'arrive-t-il aux gènes qui forment ce phénotype, mais ils sont tamponnés par ces mécanismes de développement ? Eh bien, ils sont alors plus libres d'accumuler des variations neutres, car fondamentalement, les conséquences sur la fitness d'une mutation dans ces gènes ont été supprimées, elles ont été tamponnées. Maintenant, il y a eu beaucoup de spéculations sur les raisons pour lesquelles la canalisation pourrait évoluer, ou si elle pourrait simplement être un sous-produit. Et franchement, dans la plupart des cas, nous n'en avons aucune idée. Il s'agit d'une question de recherche ouverte.

Donc, l'une des raisons pour lesquelles les gens pensent que des traits d'organisme entier, comme cinq doigts ou quatre membres, pourraient être tamponnés n'est pas à cause de la sélection pour tamponner ces traits, mais parce qu'il existe des forces de sélection très, très fortes opérant au niveau micro dans les cellules sur les voies de signalisation des gènes. Donc, vous les tamponnez, puis en tant que sous-produit, vous obtenez une mise en mémoire tampon à un niveau supérieur. Nous ne savons pas ce qui se passe, mais nous savons que la canalisation existe et nous savons qu'elle a pour conséquence qu'elle permet à la variation génétique cachée de s'accumuler. C'est donc la quatrième raison majeure pour laquelle il peut y avoir des gènes neutres.

Maintenant, qu'est-ce qui cause la dérive aléatoire ou génétique ? Cela va générer la neutralité, mais alors qu'arrive-t-il aux gènes qui sont neutres ? Eh bien ce sont les mécanismes qui peuvent introduire le hasard dans l'évolution la plupart d'entre eux, il y en a probablement quelques autres.

Chapitre 4. Mécanismes d'évolution neutre ou aléatoire [00:20:38]

Le premier est la mutation. La seconde est la loterie mendélienne, qui est l'idée que la méiose est comme une pièce de monnaie équitable. Ensuite, nous avons des effets au niveau de la population. Donc, la mutation que vous pouvez considérer comme un événement moléculaire. La loterie mendélienne est un événement cellulaire. Les effets fondateurs et les goulots d'étranglement génétiques sont des effets de population. Et puis nous avons un effet démographique, qui est la variation du succès de reproduction dans une population de toute taille. Toutes ces choses contribuent au changement aléatoire. Et maintenant, je veux les parcourir et vous donner une idée plus concrète de leur fonctionnement.

Dans certains sens, la mutation n'est pas aléatoire. D'accord? Les mutations se produisent sur certains sites plus fréquemment que sur d'autres. Dans une bactérie pathogène qui rencontre un environnement difficile, elle augmentera tout son taux de mutation en régulant à la baisse sa réparation de l'ADN. C'est une chose assez simple d'augmenter le taux de mutation sur un génome entier. Vous négligez simplement de le réparer et il mutera plus rapidement. D'accord? Ainsi, si des bactéries sont déplacées dans un nouvel environnement ou, par exemple, si une bactérie pathogène est introduite dans un vertébré doté d'un système immunitaire très actif et menaçant, cela augmente son taux de mutation.

Les transitions entre les classes de nucléotides, donc de purine à purine, de pyrimidine à pyrimidine, sont plus fréquentes que les transversions. Ainsi, les purines muteront en purines plus fréquemment que les purines ne muteront en pyrmidines.

Et les mutations ne produisent pas de changements aléatoires dans l'espace phénotypique. Celui-ci est encore un peu abstrait. D'accord? Mais une mutation ne peut que provoquer un changement dans l'ensemble des possibilités héritées. Il y a très, très peu de variance mutationnelle dans la population humaine pour un sixième ensemble d'appendices, poussant au milieu de notre dos, qui pourraient très peu être transformés en ailes d'anges. D'accord? Il y a très peu de variance mutationnelle dans une palourde pour tout organe qui pourrait être impliqué dans la respiration de l'air.

Les mutations ne couvrent donc pas tout l'espace phénotypique imaginable. Les mutations ne causent que des perturbations dans l'ensemble hérité de possibilités qu'une lignée évolutive donnée a produit. Donc, ils ne font pas de changements aléatoires dans l'espace phénotypique. Mais ils sont aléatoires dans un sens extrêmement important. Il n'y a pas de relation systématique entre l'effet phénotypique d'une mutation et le besoin de l'organisme dans lequel elle se produit. Ils sont aléatoires en ce qui concerne la forme physique.

Ainsi, lorsque ces bactéries pénètrent dans le système immunitaire des vertébrés et qu'il serait extrêmement pratique pour elles d'avoir une mutation qui était exactement la bonne chose dont elles avaient besoin pour éviter cette manœuvre défensive particulière de la part de leur hôte, elles ne le font pas. tu piges. D'accord? Tout ce que la nature leur donnera, ce sont des mutations aléatoires par rapport à cette fonction particulière, et puis s'ils ont beaucoup de descendance, l'un d'eux peut avoir la bonne par chance.

De même, dans votre cas, il pourrait être extrêmement pratique pour vous d'avoir une adaptation qui vous permette de regarder un écran d'ordinateur pendant 48 heures sans avoir mal à la tête et sans avoir à vous lever pour aller aux toilettes. D'accord? Cette mutation ne se produira pas, car vous avez besoin de cette fonction. Votre génome va être couvert de mutations aléatoires, et il se peut très bien qu'un de vos enfants soit capable de regarder cet écran un peu plus longtemps que vous. Mais ce sera parce que cela s'est produit au hasard, pas parce que le développement ou l'évolution pourraient anticiper que cette fonction allait être utile.

Ainsi, le processus de mutation produit beaucoup de variations, puis la sélection naturelle les modifie, les trie, les filtre. Et au moment où cette variation est produite, la fonction potentielle de la variation n'est pas une question, ce n'est pas un problème, il s'agit simplement de faire des variations.

D'accord, deuxièmement, la méiose est comme une pièce de monnaie équitable. C'est donc quelque chose que vous pouvez trouver ennuyeux. Vous avez tous entendu parler de la méiose. Vous avez tous entendu parler des lois de Mendel. Vous savez que la probabilité qu'un gamète pénètre dans un gamète particulier et qu'un gène pénètre dans un gamète particulier est de 50 %. Et vous connaissez tous cela parce que vous savez que la probabilité qu'un enfant soit un garçon ou une fille est de 50 %, et c'est parce qu'au niveau des chromosomes sexuels, et de tous les autres chromosomes que nous avons, la probabilité que le chromosome ira dans un sens ou dans l'autre est de 50%.

C'est absolument incroyable. Pourquoi mes chromosomes Y n'ont-ils pas 80% de l'action ? Pourquoi est-ce 50 % ? Il y a en fait quelque chose de très profond ici. Si vous construisez un système dans lequel chacun des éléments potentiellement concurrents a été contraint d'avoir la même chance, ces éléments doivent alors coopérer, car la seule façon pour eux d'augmenter leurs propres chances est d'augmenter également celles de tous les autres.

Et c'est pourquoi cet effet particulier est appelé le parlement des gènes. C'est une découverte que la nature, il y a probablement deux milliards d'années, a trouvé sur un principe que la science politique humaine n'a pas découvert avant les Lumières, à savoir que les démocraties sont stables. La méiose est une démocratie. Dans la méiose, chaque gène a une chance équitable, et cela signifie que, dans un sens, vous avez une situation à un gène, une voix.

Je reviendrai donc à cette équité de la ségrégation méiotique, mais il y a une idée générale derrière cela. Je viens de vous donner un petit scénario qui suggérerait pourquoi il a été sélectionné, il a été sélectionné pour réprimer le conflit. Tous les autres aspects de la génétique ont évolué. Ainsi, lorsque vous prenez la génétique, ou la biologie cellulaire, ou la biologie du développement, il y avait des processus sélectifs qui produisent ce que vous étudiez, et il y avait des alternatives qui ont été rejetées, et vous ne regardez qu'un échantillon de ce que vous étudiez. la nature peut produire. Et cela en soi devient un programme de recherche intéressant.

Bon, revenons au parlement des gènes. J'ai parlé de conflit. Voici le conflit. Il y a des choses appelées conducteurs méiotiques. Il existe donc des gènes qui modifient réellement les lois de Mendel, ils modifient la probabilité qu'ils entrent dans la génération suivante. Quelqu'un a-t-il déjà entendu comment fonctionne un pilote méiotique ? C'est une sorte de système cool. Ils utilisent un poison à longue portée et un antidote à courte portée. Ainsi, un conducteur méiotique opère généralement en tuant toute cellule qui n'a pas de copie d'elle-même, de son gène, et en donnant un antidote à sa propre cellule.

Ainsi, alors que les cellules se trouvent là, dans l'ovaire ou dans les testicules ou dans n'importe quel organe de cet organisme particulier, les moteurs biotiques éliminent essentiellement la concurrence et favorisent leurs propres intérêts. Ces choses sont partout. Ils sont courants chez la drosophile, et il existe des preuves qu'il y a eu des moteurs méiotiques dans le génome humain. D'accord?

Une fois que l'état diploïde a évolué, il y a eu une longue histoire d'invasion par les conducteurs méiotiques, et la réponse à cela est que tous les autres gènes voulaient faire disparaître ces conducteurs méiotiques. Ils déformaient leurs propres intérêts. Vous êtes assis là sur un chromosome, vous êtes innocent. Un bandit sauvage arrive et détourne vos intérêts, et maintenant votre probabilité d'entrer dans la prochaine génération n'est que de 20 % au lieu de 50 %. Qui veut ça, tu sais ? Ce n'est pas une bonne affaire. Ainsi, à travers le génome, divers mécanismes sont apparus pour réprimer la pulsion méiotique et le résultat était un mécanisme très compliqué et nous l'appelons la méiose.

Ce n'est donc pas la seule raison possible de la complexité de l'équité de la méiose. C'est plausible. Je vous invite à considérer l'évolution culturelle de la démocratie et à décider si elle aussi a pu être motivée par une histoire de tricherie, en particulier la défection de dirigeants qui ne représentaient plus les intérêts de leur peuple. Je pense qu'il y a une similitude, et je pense que vous la trouverez articulée dans la Déclaration d'indépendance.

D'accord, les mécanismes qui provoquent des changements aléatoires se produisent également au niveau de la population. L'un d'eux est l'effet fondateur. Supposons que je devais fonder une nouvelle population avec seulement vous, il y aurait une forte probabilité d'avoir les yeux bleus. Et avec vous, il y aurait une forte probabilité d'avoir les yeux marrons. Et pour te choisir, j'ai lancé une pièce. D'accord? Lors de la fondation de cette population, il y a eu un événement aléatoire, qui consistait simplement à échantillonner quelques individus parmi une grande population.

Et il en résulte qu'il y a certaines maladies, les maladies génétiques humaines, qui sont rares dans la population humaine en général, mais qui sont courantes dans des populations fondées par quelques personnes, dont la maladie de Tay-Sachs au Québec, la porphyrie chez les Afrikaners du Cap et le diabète sur l'île de Pitcairn. Donc, vous prélevez juste un petit échantillon d'une grande population et vous obtenez quelque chose qui n'est pas représentatif, et parfois qui contient une maladie génétique.

Un autre phénomène au niveau de la population qui produit un caractère aléatoire est un goulot d'étranglement. Cela se produira donc lorsqu'une population s'effondrera jusqu'à atteindre une très, très petite taille, et que seuls quelques allèles y parviendront. Donc, vous pourriez avoir beaucoup de versions d'un gène dans une grande population, mais si vous ne fondez qu'une nouvelle population avec deux ou trois individus, ils sont et ils sont diploïdes, eh bien, deux individus ne portent que quatre copies de le gène. Donc, s'il y avait eu vingt allèles dans la population d'origine, le nombre maximum possible qui pourrait traverser ce goulot d'étranglement n'est que de quatre que vous avez laissé seize.

Il semble que c'est ce qui s'est passé avec les guépards. Et ils sont apparemment presque complètement homozygotes, en particulier en ce qui concerne leurs gènes immunitaires. C'est un fait biologique étrange que vous puissiez prendre une greffe de peau sur un guépard et la greffer sur un guépard, n'importe quel autre guépard dans le monde, et la greffe prendra. En d'autres termes, leur système immunitaire trouve qu'un échantillon de peau de n'importe quel autre guépard dans le monde est sa propre peau. Ils ne détectent pas de différence. Et c'est probablement un signal que les guépards ont traversé un très petit goulot d'étranglement de la population au cours des derniers milliers d'années.

La dérive génétique est alors une conséquence de la neutralité. C'est l'errance aléatoire des fréquences des gènes neutres. Si vous regardez à travers un microscope, le mouvement brownien est le tremblement de petites particules de poussière que vous voyez au microscope, et c'est en fait le résultat des impacts aléatoires des molécules d'eau frappant cette particule de poussière. Eh bien, l'analogue au niveau de la population de la chaleur dans l'eau est la variation de la taille de la population, excusez-moi, la variation de la taille de la famille. Un gène passé par la loterie mendélienne de la méiose atterrit dans un zygote. D'accord? Il est entré dans le zygote. Le zygote grandit.

Ce gène particulier est neutre. Cela ne fait aucune différence pour le succès de la reproduction. Mais cet individu particulier dans lequel il a atterri pourrait avoir une petite ou une grande famille, pour des raisons qui n'ont rien à voir avec la fonction du gène. Ce n'est qu'un jeu de hasard qui détermine si ce sera dans une famille qui produira deux enfants, aucun enfant ou beaucoup d'enfants. D'accord?

C'est donc ce que je veux dire en combinant la loterie de la méiose avec la variation du succès de reproduction. Et c'est un processus qui se poursuit dans toutes les populations. Lorsque les gens apprennent pour la première fois la dérive génétique, ils pensent oh, c'est quelque chose qui se passe dans les petites populations, car les petites populations n'ont pas tous les effets de lissage de la loi des grands nombres. Mais cela se produira dans une population de toute taille. D'accord? Et fondamentalement, ce que je veux dire par là, c'est cette conséquence intéressante de la variation du succès de reproduction. S'il est corrélé à un trait ou à un gène, fortement, il produit une sélection naturelle. S'il n'est pas corrélé, cela produit une dérive.

Chapitre 5. L'horloge moléculaire de l'évolution neutre [00:35:29]

Ainsi, l'une des véritables énigmes de l'évolution concerne ce qui fait qu'un gène se retrouve au hasard chez un individu faisant une, deux ou trois, voire zéro recrues par vie, ce qui fait la différence entre un gène adaptatif et un gène neutre. J'ai esquissé quatre réponses possibles à cette question. Dans aucun cas particulier, nous ne savons normalement pas exactement lequel contribue le plus à cela.

Alors, qu'arrive-t-il aux allèles neutres ? [Ça ne va pas marcher. Je n'ai qu'à dessiner dessus.] Si nous dessinons le temps sur l'axe X, et la fréquence sur l'axe Y, et qu'une mutation se produit, la chose habituelle qui arrivera à une mutation est qu'elle augmentera un peu et disparaître. Ensuite, nous attendons un moment, une autre mutation se produit. Soit dit en passant, nous recherchons de nombreux gènes différents dans la population. On attend un peu, une autre mutation se produit. Il entre dans la population.

La probabilité qu'il soit réparé un jour est assez faible car la probabilité est proportionnelle à la fréquence excusez-moi, est proportionnelle à 1/N, fréquence égale à 1/N. Lorsqu'il est rare, sa fréquence est très faible et donc sa probabilité d'être réparé est faible. Mais de temps en temps, une mutation survient qui parvient à traverser toute cette dérive et à traverser des organismes qui ont, en moyenne, plus de deux descendants par vie, et elle est corrigée.

Et si vous regardez simplement cette classe de mutations, le temps qu'il leur faut pour corriger est proportionnel à la taille de la population. Ainsi, les choses s'arrangeront plus rapidement dans les petites populations que dans les grandes. Il y en aura plus, plus de mutations se produiront dans une grande population, mais il leur faudra plus de temps pour être corrigées.

Maintenant, parce que les plus grandes populations ont plus de mutations, il s'avère que leur taille compense exactement les temps de fixation plus longs. Donc, si vous comptez simplement combien de mutations sont corrigées, peu importe que vous soyez dans une petite ou une grande population, le même nombre de mutations est corrigé dans les deux cas. Cela signifie qu'au cours de l'histoire de l'évolution, les populations auraient pu subir des accidents et des explosions, et à la fin, si vous êtes un généticien étudiant l'ADN, avec le recul, cela ne fait aucune différence que les populations aient crashs et explosions, en termes de nombre d'allèles neutres corrigés. Ils étaient juste en train de se fixer régulièrement, sans aucun effet de la taille de la population.

Nous ne savons donc pas lequel sera corrigé. Nous savons combien seront corrigés. C'est pourquoi l'horloge moléculaire est comme une horloge atomique, elle est entraînée par la désintégration radioactive. Nous ne savons pas combien d'atomes, nous ne savons pas quel atome se désintégrera, mais en une seconde, nous savons combien le feront, pour une substance radioactive donnée.

La raison en est qu'il y a de la régularité en grand nombre. Il émerge parce qu'il y a un grand nombre d'événements indépendants. Notre génome haploïde compte environ trois milliards de paires de bases. Une mole d'uranium a environ 6 fois 10 23 atomes, en fait, si c'est une mole, elle a exactement autant d'atomes et ces grands nombres donnent la régularité du processus.

D'accord, c'est donc ce qui relie la microévolution à la macroévolution. Il crée des taux de substitution uniformes dans les parties neutres du génome. Et c'est l'hypothèse que fait l'évolution moléculaire lorsqu'elle reconstruit l'Arbre de Vie. Il nous permet d'estimer les longueurs de branches et les points de branches jusqu'aux derniers ancêtres communs. Il nous permet de faire des inférences comparatives sur les arbres phylogénétiques. Et donc l'évolution neutre est en fait un outil central dans la construction du cadre évolutif. Ce n'est pas quelque chose à négliger, c'est quelque chose à comprendre, car cela nous donne une source de régularité qui peut nous replonger dans le temps.

À titre d'exemple, voici les substitutions de nucléotides se produisant dans la grippe. Ce sont des isolats qui sont encore au congélateur. D'accord? Et ils fonctionnent ici d'environ 1925 à 1990. Nous n'avons aucune, aucune erreur d'estimation de l'âge que nous connaissons lorsqu'ils ont été isolés. D'accord? La taille des populations a considérablement fluctué. À un moment donné, certaines de ces souches de grippe étaient présentes chez quelques canards ou porcs dans le sud-est de la Chine. À d'autres endroits, ils habitaient un milliard de personnes dans le monde. Ils ont connu d'énormes fluctuations et un bon taux de substitution constant. D'accord?

Tous les mécanismes de dérive génétique sont en jeu ici, sauf la méiose, car la grippe est un virus, ne passe pas par la méiose. L'effet de la variation de la taille de la population a été exactement compensé par le taux beaucoup plus lent de fixation des mutations neutres dans les populations plus importantes. Ainsi, même dans une maladie épidémique, comme la grippe, l'horloge moléculaire est stable et stable.

Quelques mises en garde à ce sujet. Différentes protéines et différentes parties de protéines évoluent à des rythmes différents. Ils n'utilisent que des séquences d'ADN non transcrites. Il existe des différences entre les lignées en raison des temps de génération différents.

Et je ne vais pas parler de maladaptation parce que j'ai mis trop de temps à parler de neutralité. Vous pouvez donc lire sur la maladaptation, et je vais juste vous donner l'idée de base. Voici l'idée de base de la maladaptation. Si la sélection naturelle est forte à un endroit et que les organismes s'y adaptent vraiment bien, mais qu'ils se déplacent vers un autre endroit, où ils ne réussissent pas bien, pour une raison quelconque, nous appelons l'endroit qui produit un excès d'organismes la source, et l'endroit qui n'est pas bon pour les organismes un évier. Les gènes du puits représentent des organismes généralement adaptés à la source. Donc, si les organismes s'adaptent bien à un endroit et se déplacent vers un autre qui est tout à fait différent, et qu'ils n'ont jamais l'occasion d'entrer en équilibre évolutif avec ce nouvel endroit, que nous appelons le puits, alors ils sont inadaptés au puits. C'est l'idée de base derrière la façon dont la maladaptation peut se produire. D'accord?

Alors, laissez-moi aller de l'avant. Je vais juste parcourir rapidement ces exemples et arriver à la fin, juste pour vous faire savoir ce qui se passera la prochaine fois. Ce sont les clés dont je veux que vous vous souveniez. Je veux que vous vous souveniez que la méiose est comme une pièce de monnaie équitable. Je veux que vous vous rappeliez comment la fixation d'un allèle neutre est comme la désintégration radioactive. Et je veux que vous vous souveniez que la fixation régulière d'allèles neutres génère une horloge moléculaire qui nous permet de connecter la micro à la macroévolution. D'accord, c'est tout.


La différenciation génétique est déterminée par la distance géographique dans Clarkia pulchella

Les différences environnementales et les distances géographiques peuvent contribuer à la différenciation génétique des populations dans le paysage. Comprendre l'importance relative de ces facteurs est d'un intérêt particulier dans le contexte des limites de l'aire de répartition géographique, car l'afflux de flux de gènes et le manque de diversité génétique sont des causes présumées des limites de l'aire de répartition. Nous avons étudié la structure génétique du paysage de 32 populations de fleurs sauvages annuelles Clarkia pulchella de l'ensemble de l'aire de répartition géographique de l'espèce dans le nord-ouest du Pacifique intérieur. Nous avons testé si les différences climatiques entre les populations influençaient l'ampleur de leur différenciation génétique. Nous avons également étudié les modèles de structure de la population et les gradients géographiques de la diversité génétique. Contrairement à nos attentes, nous avons constaté une augmentation de la diversité génétique près de la limite nord de l'aire de répartition de l'espèce. Nous n'avons trouvé aucune contribution notable des différences climatiques à la différenciation génétique, ce qui indique que les processus qui pourraient opérer pour différencier les populations en fonction de la température ou des précipitations n'affectent pas les loci présumés neutres dans ces analyses. Au contraire, ces résultats soutiennent le mouvement des graines et du pollen à des distances limitées par rapport à l'aire de répartition de l'espèce et que ce mouvement et l'incorporation subséquente d'immigrants dans le pool génétique local ne sont pas influencés par les similitudes de température ou de précipitation entre les populations. Nous avons constaté que les populations des parties nord et sud de l'aire de répartition avaient tendance à appartenir à des groupes génétiques distincts et que les populations du centre et de l'est étaient mélangées entre ces deux groupes. Ce modèle pourrait être le résultat d'une barrière géographique passée ou actuelle associée au plateau Columbia, ou il pourrait être le résultat d'une propagation à partir d'ensembles distincts de refuges après le dernier maximum glaciaire.


Vers une meilleure compréhension de la différenciation des cellules sanguines

La régulation de la différenciation des cellules souches joue un rôle essentiel dans le maintien du processus normal de formation du sang », a expliqué Timm Schroeder, professeur au département de science et d'ingénierie des biosystèmes de l'ETH Zurich. "Si ce système commence à mal fonctionner, il peut entraîner des maladies mortelles telles que l'anémie et la leucémie. Nous devons donc mieux comprendre le mécanisme moléculaire impliqué dans cette régulation.»

Il y a deux protéines - GATA1 et PU.1 - qui ont fait l'objet de la recherche. On pense que ces protéines jouent un rôle essentiel dans le mécanisme de différenciation des cellules sanguines. "Ce sont des facteurs de transcription capables d'activer ou de désactiver des programmes génétiques complets avec de nombreux gènes cibles. Cela en fait de puissants régulateurs du destin des cellules », a déclaré Schroeder.

La mesure des protéines GATA1 et PU.1 dans des cellules individuelles a permis aux chercheurs de constater que ces protéines ne sont pas des acteurs centraux de la différenciation des cellules sanguines. "Pendant des décennies, on a pensé que ces deux facteurs de transcription étaient responsables de la prise de décisions sur la lignée des cellules souches. Maintenant, nous sommes en mesure de montrer que ce n'est pas le cas, mais que d'autres mécanismes doivent être responsables de ces décisions », explique le professeur Schroeder.

Les recherches futures doivent maintenant interroger des mécanismes moléculaires alternatifs pour mieux comprendre le mode incroyablement compliqué de différenciation des cellules souches sanguines et potentiellement aider les personnes souffrant de maladies des cellules sanguines.