Informations

Comment déterminer la probabilité qu'une mutation soit perdue/corrigée ?

Comment déterminer la probabilité qu'une mutation soit perdue/corrigée ?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

J'ai une question sur la façon de déterminer la probabilité qu'une mutation soit perdue ou corrigée après 1 ou 2 générations en génétique des populations.

Disons que nous avons une population mélangée aléatoirement, avec N individus diploïdes (N=5), et qu'une mutation apparaît. Je sais qu'il devrait suivre une distribution binomiale, mais j'ai aussi entendu dire qu'il pourrait suivre une distribution de Poisson… et tout ce que j'ai envie de dire, c'est que la probabilité d'être corrigé est la même que la fréquence au temps 0, qui est 1/2N, ou ici 1/10.

De plus, comment calculez-vous la probabilité qu'il existe en 2 exemplaires ?


Comment déterminer la probabilité qu'une mutation soit perdue/corrigée ?

La probabilité qu'une mutation neutre soit corrigée après un temps infini est égale à sa fréquence $p$ comme vous l'avez dit. Par conséquent, la probabilité d'être perdu est de $1-p$. Ce post propose une explication mais il y a plusieurs façons de faire la démonstration. Vous voudrez peut-être jeter un œil à n'importe quel bon livre sur la génétique des populations pour cette démo. Voici des recommandations de livres.

comment calcule-t-on la probabilité qu'il existe en 2 exemplaires ?

Une probabilité dépend toujours d'un a priori. Quels sont vos a priori ? Supposons que nous sachions que la fréquence allélique était $frac{4}{10}$ au pas de temps précédent.

Dans le modèle de Wright-Fisher, la probabilité d'avoir 2 copies dans la prochaine génération est donnée par la distribution binomiale. Soit $N=5$ et donc $2N=10$ et soit la fréquence de l'allèle d'intérêt $frac{4}{10}$, la probabilité d'avoir deux allèles à la prochaine génération est ${10 choose 2} left(frac{4}{10} ight)^2 left(frac{6}{10} ight)^8 0,12$.

Dans le modèle de Moran, cette probabilité est nulle. Le modèle de Moran est un modèle naissance-mort (modèle de Markov) et donc la transition entre les pas de temps ne peut qu'ajouter ou soustraire (ou ne faire aucun changement) un seul allèle. Vous remarquerez que le pas de temps ne veut pas dire la même chose pour les deux modèles. La perte d'hétérozygotie est deux fois plus rapide sous le modèle de Wright-Fisher mais cette discussion n'est certainement pas ce que vous demandiez !


Dérive génétique

Dérive génétique (dérive allélique ou la Effet Sewall Wright) [1] est le changement de la fréquence d'un variant de gène existant (allèle) dans une population en raison d'un échantillonnage aléatoire d'organismes. [2] Les allèles de la progéniture sont un échantillon de ceux des parents, et le hasard a un rôle à jouer pour déterminer si un individu donné survit et se reproduit. La fréquence allélique d'une population est la fraction des copies d'un gène qui partagent une forme particulière. [3]

La dérive génétique peut entraîner la disparition complète des variantes génétiques et ainsi réduire la variation génétique. [4] Cela peut également faire en sorte que les allèles initialement rares deviennent beaucoup plus fréquents et même fixés.

Quand il y a peu de copies d'un allèle, l'effet de la dérive génétique est plus important, et quand il y a beaucoup de copies, l'effet est plus petit. Au milieu du 20e siècle, des débats vigoureux ont eu lieu sur l'importance relative de la sélection naturelle par rapport aux processus neutres, y compris la dérive génétique. Ronald Fisher, qui a expliqué la sélection naturelle en utilisant la génétique mendélienne, [5] a estimé que la dérive génétique joue tout au plus un rôle mineur dans l'évolution, et cela est resté le point de vue dominant pendant plusieurs décennies. En 1968, le généticien des populations Motoo Kimura a ravivé le débat avec sa théorie neutre de l'évolution moléculaire, qui prétend que la plupart des cas où un changement génétique se propage à travers une population (bien que pas nécessairement des changements dans les phénotypes) sont causés par une dérive génétique agissant sur des mutations neutres. [6] [7]


Comment déterminer la probabilité qu'une mutation soit perdue/corrigée ? - La biologie

Comme discuté dans l'introduction, les mutations sont des changements dans le code génétique qui conduisent à l'apparition de différents traits. Ces mutations peuvent être transmises génétiquement et être perdues ou fixées. Comme la mutation affecte généralement un seul individu dans une population, la fraction initiale est faible et la probabilité de fixation est donc également faible (forte probabilité de perte). Cependant, dans les grandes populations, même avec une petite fraction initiale, la perte d'une mutation peut prendre beaucoup de temps pour être complète. Par exemple, dans une population de 10 000 humains, le temps moyen jusqu'à la fixation ou la perte d'une mutation d'un individu est d'environ 20 générations ou 500 ans !

Voici quelques exemples de mutations chez les plantes, les animaux et les humains :

Une mutation dans ces roses de mousse de jardin (illustrées à gauche) a fait pousser certaines fleurs en orange plutôt qu'en jaune. Crédit photo : http://en.wikipedia.org/wiki/Mutation . A droite, une mutation assez courante chez la souris provoque des bandes dans le pelage autour du corps. Crédit photo : http://www.thefunmouse.com/varieties/marked.cfm

Enfin, une mutation courante chez l'homme provoque la formation de globules rouges en forme de faucille, comme indiqué ci-dessus en haut à gauche. Cette mutation est connue sous le nom d'anémie falciforme. Crédit photo : http://www.emedicinehealth.com/sickle_cell_crisis/article_em.htm

Pour relier l'idée de mutations à notre discussion sur l'ADN et les protéines, voici quelques exemples de la façon dont une mutation de l'ADN peut entraîner un changement dans la protéine :

1) Un nombre de nucléotides non divisible par trois est soit inséré dans l'ADN soit supprimé de celui-ci. Cela décale la position des codons lus pour créer des acides aminés et est connu sous le nom de mutation de décalage du cadre de lecture. Par exemple, si la séquence d'origine est CCC CAG AGA (correspondant aux acides aminés proline, glutamine et arginine) et qu'il y a une insertion (en rouge) menant à la séquence CC GA CC AGA GA, les acides aminés correspondants se transformeront en proline, la thréonine et l'arginine et déplaceront les bases qui se trouvent dans les codons dans le reste de l'ARN lu après cette séquence.

2) Une mutation non-sens est un changement de base à un point de l'ADN qui provoque un signal d'arrêt là où il ne faut pas et arrête la création d'une protéine au milieu.

3) Une mutation faux-sens est un changement de base en un point de l'ADN qui entraîne la substitution d'un acide aminé différent de celui initialement prévu à un certain point dans la protéine. Cela peut modifier ou inhiber la fonction de la protéine.

4) Une mutation neutre est une mutation conduisant à une substitution d'un acide aminé différent de celui initialement prévu, mais pas à une mutation qui modifie la fonction de la protéine.

5) Une mutation silencieuse est une mutation qui n'entraîne pas de changement dans la séquence d'acides aminés d'une protéine.


Introduction

Parce que la plupart des mutations sont délétères, le taux de mutation ne peut pas être trop élevé en fait, dans une population infiniment grande, pour une large classe de fonctions de fitness, il a été démontré qu'il existe un seuil d'erreur au-dessus duquel les effets délétères de la mutation ne peuvent être compensés par sélection (Eigen 1971 Jain et Krug 2007 ). Le taux de mutation n'est pas nul non plus (Baer et al. 2007 ), et il a été avancé que les fluctuations stochastiques dans une population finie limitent l'évolution des taux de mutation en dessous d'un certain niveau puisque dans des populations suffisamment petites, l'avantage obtenu en abaissant le le taux de mutation ne peut pas compenser l'effet de la dérive génétique aléatoire (Lynch 2010 ). Les données empiriques pour les organismes avec une taille de population effective très différente montrent une corrélation négative entre le taux de mutation délétère et la taille de la population (Sung et al. 2012 ), et des informations quantitatives sur cette relation ont été obtenues en traitant toutes les mutations délétères comme mortelles ( Lynch 2011). Cependant, il s'agit clairement d'un scénario extrême, et il est important de se demander comment évolue le taux de mutation délétère lorsque les mutations ne sont que faiblement délétères.

De nombreuses investigations théoriques et expérimentales ont également montré que dans une population asexuée en adaptation, un allèle mutateur provoquant un taux de mutation plus élevé que celui du non-mutateur peut être corrigé [voir une revue récente de Raynes et Sniegowski (2014)]. Comme les mutants produisent non seulement des mutations délétères mais aussi bénéfiques à un taux plus élevé que les non-mutateurs, l'allèle mutateur peut faire de l'auto-stop jusqu'à la fixation avec des mutations favorables (Smith et Haigh 1974 Taddei et al. 1997). Cependant, une fois que la population a atteint un niveau de fitness élevé, des taux de mutation élevés sont préjudiciables car la plupart des mutations seront désormais délétères, et dans une telle situation, le taux de mutation devrait diminuer (Liberman et Feldman 1986). En effet, dans certaines expériences (Tröbner et Piechocki 1984 Notley-McRobb et al. 2002 McDonald et al. 2012 Turrientes et al. 2013 Wielgoss et al. 2013 ), le taux de mutation d'une population adaptée portant un allèle mutateur a été vu diminuer et le temps de fixation a été mesuré, mais une compréhension théorique de cette échelle de temps fait défaut.

Pour résoudre les problèmes évoqués ci-dessus, nous étudions le devenir d'un non-mutateur rare dans une grande population asexuée de mutants en utilisant un processus de ramification multitype (Patwa et Wahl 2008). Une différence importante entre les travaux précédents sur l'auto-stop mutateur (Taddei et al. 1997 Andre et Godelle 2006 Wylie et al. 2009 Desai et Fisher 2011 ) et notre étude est qu'ici la population de mutateurs est supposée être à l'équilibre mutation-sélection et est donc pas sous sélection positive. Cependant, des mutations compensatoires qui atténuent l'effet des mutations délétères sont incluses dans notre modèle. Nous constatons que lorsque seules des mutations délétères sont présentes, un non-mutateur peut être corrigé avec une probabilité qui augmente avec le taux de mutation délétère du mutant. On s'attend à ce que les mutations compensatoires dans la population de mutants diminuent la probabilité de fixation du non-mutateur, et nous constatons que cette intuition est en effet correcte lorsque les mutations délétères dans le mutant sont effectivement mortelles. Mais, étonnamment, lorsque les mutations délétères sont légèrement nocives, la probabilité de fixation augmente initialement puis diminue à mesure que le taux de mutations compensatoires augmente. Notre étude identifie ainsi les conditions dans lesquelles la propagation des non-mutateurs est supprimée en l'absence de sélection positive, et complète des travaux antérieurs dans lesquels un mutateur fait de l'auto-stop avec des mutations bénéfiques à la fixation (Taddei et al. 1997 Andre et Godelle 2006 Wylie et al. 2009 Desai et Fisher 2011).

En utilisant nos résultats pour la probabilité de fixation et un argument de barrière de dérive qui affirme que l'avantage offert par une diminution du taux de mutation délétère est limité par une dérive génétique aléatoire dans une population finie (Lynch 2010), nous constatons que le taux de mutation délétère diminue avec l'augmentation de la taille de la population conformément aux données expérimentales (Sung et al. 2012 ). Cependant, contrairement aux travaux théoriques précédents qui traitent les mutations délétères comme étant effectivement mortelles (Lynch 2011), nous considérons ici à la fois les mutations fortement et faiblement délétères, et non seulement reproduisons le résultat de Lynch ( 2011 ), mais trouvons également une nouvelle loi d'échelle dans ce dernier cas. Nous utilisons également les résultats de la probabilité de fixation pour trouver le temps de réduire le taux de mutation dans une population adaptée de mutants et comparer nos résultats théoriques avec des expériences récentes (McDonald et al. 2012 Wielgoss et al. 2013).


Discussion

Erreur de séquençage dans NGS

Le développement du NGS a considérablement accéléré la découverte de la variation génétique tout en réduisant considérablement le temps et le coût. Cependant, le taux d'erreur de séquençage plus élevé de NGS présente également un défi de calcul pour les biologistes [23]. Généralement, l'erreur de séquençage peut être classée en deux types : erreur de machine, causée par des clusters mixtes, une décroissance de l'intensité du signal ou un problème de phasage (pour Illumina Genome Analyzer (GA)), et doit donc être distribuée de manière aléatoire sur la séquence cible et l'erreur systématique, causé par des produits chimiques/capteurs/technologie imparfaits, ce qui entraîne des points chauds de taux d'erreur à des emplacements génomiques spécifiques [7, 10, 24].

La plupart des erreurs de la machine pourraient être supprimées grâce à une série de filtres pour le score de qualité et/ou les numéros de non-concordance [24]. En revanche, distinguer l'erreur systématique est beaucoup plus difficile, car le score de qualité ne reflète pas le véritable taux d'erreur aux points chauds d'erreur [7, 9]. Récemment, certaines caractéristiques des erreurs systématiques ont été proposées qui peuvent aider à leur identification. Par exemple, les positions G-error-G et G-error-A ont le taux d'erreur le plus élevé [8], tandis que les points chauds d'erreur de séquençage ont tendance à être situés après les répétitions inversées et les séquences GGC ou GGT [7, 9, 10]. Bien que nous ayons également constaté que ces caractéristiques sont statistiquement corrélées avec des erreurs systématiques, elles ne peuvent expliquer qu'une partie limitée de la variance du taux d'erreur, car la position suivant ces motifs a montré un taux d'erreur avec une variation jusqu'à dix fois (Figure S3 dans le fichier supplémentaire 1), comme cela a également été noté récemment ailleurs [10].

Dans notre étude, nous avons constaté que les erreurs de séquençage se produisent souvent à la même position chez différents individus, en particulier pour les positions avec le taux d'erreur le plus élevé (Figure 3). Il est peu probable que cette tendance soit causée par la machine de séquençage particulière car la corrélation pourrait également être observée entre les données générées par les machines de différence. Cette observation suggère que le taux d'erreur pour une séquence d'intérêt pourrait être estimé à partir d'un panel de référence ayant la même séquence. De plus, en examinant le taux d'erreur pour différentes parties des lectures et pour les lectures de différents brins, après notre filtre de qualité, nous avons constaté que : 1) l'erreur de séquençage varie selon les différentes parties de la lecture et à différentes positions (Figure 2 Tableaux S5 et S6 dans les fichiers supplémentaires 3) et 2), le taux d'erreur est spécifique au brin (Figure 2), car les contextes de séquençage sur les deux brins sont la plupart du temps différents. Par conséquent, la position et l'orientation des lectures mappées à la position interrogée doivent être prises en compte lors de l'estimation du taux d'erreur de séquençage.

Un autre problème est de savoir s'il faut ou non supprimer les lectures en double, car celles-ci peuvent refléter la même molécule modèle de départ. D'une part, l'inclusion de lectures en double pourrait amplifier le signal d'erreur résultant d'erreurs de PCR, mais d'autre part, la suppression des lectures en double basée uniquement sur la coordonnée de départ sur le génome entraîne une réduction significative de la couverture (pour les lectures à une seule extrémité) . En analysant les données appariées de deux bibliothèques de séquençage d'ADNmt avec des profondeurs de séquençage équivalentes, nous avons constaté que chaque segment de la bibliothèque était dupliqué en moyenne 1,19 fois, avec 454 segments (0,01 %) dupliqués plus de 10 fois, et le segment le plus dupliqué présent en 247 exemplaires. Pour les échantillons mélangés artificiellement, en supprimant les lectures en double, nous avons perdu plus de 90% des lectures et 4 positions LLM ont été manquées par notre méthode. Par conséquent, il serait raisonnable de conserver toutes les lectures dans l'analyse tout en tenant compte des lectures en double lors de l'identification du LLM.

Caractéristiques de notre méthode

Comprendre l'erreur de séquençage permet de distinguer les erreurs des vrais LLM. Bien que diverses méthodes soient disponibles qui utilisent différentes caractéristiques d'erreurs de séquençage, nous avons développé une méthode qui fonctionne mieux que les autres méthodes pour détecter les LLM (basée sur des échantillons artificiellement mélangés, où la profondeur de séquençage/le nombre d'allèles mineurs est bien inférieur à celui utilisé/suggéré dans d'autres études [14, 17]). De plus, les méthodes de génotypage standard disponibles ne sont pas conçues pour la détection LLM. Par exemple, pour la boîte à outils GATK largement utilisée [11], il n'y a que trois fréquences alléliques possibles (0%, 50%, 100%), alors qu'il existe une gamme de fréquences beaucoup plus large pour les LLM. De plus, GATK nécessite une base de données SNP fiable, qui n'existe pas pour les LLM, et GATK utilise des métriques pour évaluer/affiner les nouveaux appels SNP (tels que le rapport transitions/transversions) qui n'existent pas pour les LLM.

La méthode présentée ici repose sur plusieurs caractéristiques. Premièrement, notre méthode estime le taux d'erreur à partir des données de reséquençage de la population. Pour chaque position dans la région cible, le taux d'erreur empirique est estimé à partir de toutes les lectures mappées sur les échantillons de référence qui ont le même nucléotide consensus. Par conséquent, nous utilisons le contexte de séquençage complet, plutôt qu'un contexte plus limité ou entièrement différent, pour estimer l'erreur de séquence. De plus, étant donné que tous les échantillons sont analysés en suivant le même pipeline, toute erreur introduite lors de l'analyse (telle qu'une erreur de mappage) est également prise en compte.

Deuxièmement, la distribution des lectures est prise en compte. Comme indiqué ci-dessus, toutes les lectures mappées à la même position n'ont pas le même taux d'erreur. Par conséquent, nous catégorisons les lectures dans des bacs en fonction de leur position et de leur orientation mappées sur la séquence cible. Comme le taux d'erreur dans chaque bin est estimé séparément, les lectures dans différents bins donnent des poids différents lors de l'appel des LLM. De plus, la contribution de chaque bac au score de qualité final a une limite supérieure, pour éviter les faux positifs causés par des lectures en double.

Troisièmement, une fréquence absolue ou une coupure de couverture n'est pas requise. Un seuil de fréquence est largement utilisé pour distinguer les LLM des erreurs de séquençage, mais un tel seuil de fréquence doit dépendre de la couverture, c'est-à-dire que le seuil de fréquence devient plus petit avec une couverture plus élevée. Étant donné que la profondeur de séquençage est inégalement répartie le long du génome, un seuil de fréquence unique surestimerait ou sous-estimerait le nombre réel de LLM. Au lieu de cela, dans notre méthode un P-valeur est calculée pour représenter la probabilité de l'observation sous l'hypothèse nulle (l'allèle mineur est causé par une erreur de séquençage).

Quatrièmement, notre méthode donne un score de qualité compréhensible de type Phred, qui reflète la fiabilité de l'allèle mineur pour chaque position. Cela facilite l'application de différentes stratégies de découverte, selon les souhaits de l'investigateur, c'est-à-dire un taux de faux positifs plus élevé avec un taux de faux négatifs plus faible, ou un taux de faux positifs plus faible avec un taux de faux négatifs plus élevé.

Flexibilité de notre méthode

Idéalement, les échantillons de référence utilisés pour estimer le taux d'erreur ne devraient pas avoir de LLM, ou seulement un petit nombre de LLM à la même position. En pratique, cette hypothèse est valable pour la plupart des positions LLM, cependant, pour une variation commune où un taux d'erreur significativement plus élevé serait observé dans la plupart des cases, un taux d'erreur fixe pourrait être utilisé (comme mis en œuvre dans la méthode de Poisson). Par exemple, en utilisant un taux d'erreur de 0,01 lorsque le taux d'erreur de référence est significativement supérieur à 0,01, nous avons détecté avec succès toutes les variations courantes dans l'ensemble de données PhiX174 sans aucun faux positif (Figure S8 dans le fichier supplémentaire 1). Cependant, si les échantillons de référence manquent pour la région d'intérêt, un taux d'erreur estimé à partir des données de contrôle, du score de qualité ou d'un autre ensemble de données pour toutes les positions et toutes les cases pourrait être utilisé. Dans la présente étude, nous n'avons observé aucun hotspot d'erreur ayant un taux d'erreur significativement supérieur au taux d'erreur global dans notre méthode (c'est-à-dire qui a dépassé notre seuil pour appeler un LLM). Cependant, l'utilisation d'un taux d'erreur moyen peut entraîner un taux de faux négatifs plus élevé.

En raison de l'incertitude de la distribution sous-jacente de l'erreur de séquençage à travers la séquence cible, nous avons introduit trois méthodes pour calculer le P-valeur de l'écart de l'observation par rapport à l'attente. La méthode de Poisson suppose que le taux d'erreur de séquençage suit une distribution de Poisson ou binomiale, tandis que les méthodes exacte et empirique de Fisher ne supposent aucune distribution spécifique pour les erreurs de séquençage. Les méthodes exactes de Poisson et Fisher mesurent la différence absolue entre la fréquence des allèles mineurs observée et le taux d'erreur, tandis que la méthode empirique mesure le classement de la fréquence des allèles mineurs parmi tous les taux d'erreur de référence. Dans notre étude, les trois méthodes ont montré une bonne spécificité (taux de fausses découvertes < 1%). La méthode empirique a une sensibilité plus élevée lorsque la fréquence de l'allèle mineur est faible (< 5%), auquel cas la différence entre la fréquence de l'allèle mineur et les taux d'erreur a tendance à être amplifiée en classant la fréquence de l'allèle mineur (par exemple, l'allèle mineur fréquence qui s'est classée en premier pourrait encore être très proche des observations restantes). Cependant, la méthode empirique doit être utilisée avec prudence lors du traitement des données de différentes pistes/séries de séquençage, car une différence d'erreur de séquençage intrinsèque peut exister entre les échantillons de référence et les échantillons de test en raison de la variation entre les pistes/séries (Figure S4 dans le fichier supplémentaire 1 ), et une telle différence parasite peut être capturée comme un signal de LLM.

Bien que les données de cette étude proviennent uniquement de la plate-forme Illumina, l'entrée de notre pipeline est un fichier SAM [25], ce qui permet de traiter les données à partir de n'importe quelle plate-forme pour laquelle les données peuvent être converties au format SAM. Il est également simple de mettre en œuvre d'autres processus personnalisés (par exemple, le recalibrage ou le réalignement du score de qualité de base) avant d'appliquer notre méthode. Bien que le profil d'erreur de séquençage varie considérablement entre les différentes technologies/appelants de base, notre méthode ne nécessite aucune connaissance préalable du profil d'erreur, car toutes les informations pertinentes sont extraites de l'ensemble de données de re-séquençage.

Une autre application de la méthode pourrait inclure l'estimation du génotypage standard pour les séquences diploïdes. Cependant, plusieurs problèmes devraient être résolus, notamment : comment estimer le taux d'erreur lorsque les hétérozygotes sont pris en compte, comment classer les lectures lorsque la couverture est faible et comment calculer le score de qualité pour les hétérozygotes.

Autres problèmes de détection des LLM

L'erreur de séquençage n'est pas le seul problème dans la détection des LLM. La contamination croisée est un autre problème majeur, en particulier lors de la manipulation simultanée d'un grand nombre d'échantillons. Bien que normalement la fraction de contamination soit très petite, le nucléotide dérivé du composant de contamination mineur se comporte exactement de la même manière qu'un LLM. Par conséquent, il est impossible de distinguer un allèle de contamination d'un vrai LLM. Ici, nous proposons un moyen simple d'identifier la contamination : après avoir produit la liste des LLM potentiels, nous pouvons déduire la contamination en fonction soit du nombre total d'allèles mineurs (si ceux-ci dépassent une valeur attendue), soit de la similitude avec d'autres échantillons de la même bibliothèque. , ou dans d'autres bibliothèques, ou dans des bases de données. Par exemple, avec les données de séquençage du génome de l'ADNmt, si plus de cinq LLM sont détectés dans un échantillon, il serait suspecté d'être un mélange, car il est peu probable qu'un seul individu héberge plus de cinq positions hétéroplasmiques [1, 3, 12]. Pour de tels mélanges suspects, nous examinons ensuite d'autres séquences de la même bibliothèque (ainsi que d'autres bibliothèques préparées en même temps) pour déterminer si le composant LLM pourrait être expliqué par le mélange d'un échantillon spécifique. Nous utilisons également des bases de données telles que Phylotree [26] pour déterminer si les allèles mineurs sont susceptibles de provenir d'un haplogroupe spécifique. Dans notre étude, nous avons pu détecter une contamination jusqu'à 2 à 3%, et près de la moitié des allèles mineurs attendus sont récupérés avec précision à ce niveau avec une couverture moyenne d'environ 500×. Cela suggère qu'il serait possible de trouver une contamination à un niveau inférieur avec une couverture plus élevée. Cependant, la capacité à détecter une contamination repose sur le nombre de positions variables entre les échantillons qui contribuent au mélange : s'ils sont très similaires, il serait alors très difficile de dire s'il s'agit d'un vrai LLM ou d'une contamination. L'examen d'autres régions génomiques serait nécessaire.

Les lectures chimériques sont également un problème potentiel avec le séquençage multiplex, car les lectures proviennent non seulement de l'échantillon cible, mais également d'autres échantillons de la même bibliothèque de séquençage. Les doubles index permettent de détecter les lectures chimériques, et en appliquant des doubles index dans quatre bibliothèques, nous avons trouvé que 10 à 15 % des lectures avaient des index incompatibles (Figure 6). C'est beaucoup plus élevé que les 0,3% rapportés précédemment [22], peut-être parce que la densité de clusters dans notre étude était 1,5 fois plus élevée que dans la leur et plus d'échantillons (hétérogènes) ont été multiplexés dans nos bibliothèques. La contamination de l'index est une autre source potentielle de lectures chimériques, mais il est peu probable qu'elle soit un facteur contributif dans notre étude car les index P5 non appariés semblent être dérivés aléatoirement d'autres index (Figure 6). En considérant la composition de la bibliothèque à chaque position, nous avons trouvé que jusqu'à environ 70 % de l'allèle mineur pouvait être expliqué par des lectures chimériques. Bien que tous les LLM ne soient pas de faux positifs, les lectures chimériques restent une préoccupation sérieuse et les doubles index sont conseillés.


Remerciements

Nous remercions John M. Coffin, Richard A. Neher et Boris I. Shraiman pour leurs commentaires et discussions utiles. Ce travail a été soutenu en partie par une bourse de recherche d'études supérieures de la National Science Foundation (B.H.G.), la Max Planck Society (O.H.), et la James S. Mcdonnell Foundation et le Harvard Milton Fund (M.M.D). I.M.R. a été soutenu par le National Institute of Health Grants R01AI 063926 (à I.M.R.) et R37CA 089441 (à John M. Coffin). D.J.B. a été soutenu par National Institutes of Health Grant R01GM 086793 (à Boris I. Shraiman). Les simulations présentées dans cet article ont été réalisées sur le cluster Odyssey soutenu par le Research Computing Group de l'Université Harvard.


Stratégies pour minimiser la dérive génétique

Contenu sponsorisé qui vous est proposé par

L'importance de la stabilité génétique dans la recherche sur la souris

Pour le chercheur moyen en sciences de la vie, le patrimoine génétique d'une souris peut être une réflexion après coup, voire même une pensée. Les principales priorités d'un chercheur peuvent être de comprendre la maladie, de publier et d'obtenir des financements. Cependant, pour atteindre avec succès ces objectifs, le maintien de la stabilité génétique, ou la prévention de la dérive génétique, dans une colonie de souris devrait être d'une grande importance.

Les souris de laboratoire sont des éléments vivants uniques de la recherche scientifique qui changent au cours de leur vie et, surtout, d'une génération à l'autre. Après tout, les modifications héréditaires de la séquence d'ADN sont à la base de la diversité et de l'évolution des espèces dans la nature. Même en l'absence de pression évolutive, des changements dans la séquence d'ADN se produisent. À première vue, ces mutations semblent être des fluctuations silencieuses et sans importance de la constitution génétique d'un individu. Cependant, ces mutations apparemment insignifiantes peuvent devenir la source d'irreproductibilité expérimentale inexplicable.

Les chercheurs sur la souris sont alors confrontés à une énigme. Générer des souris pour la recherche nécessite une reproduction. Mais, avec la sélection vient le risque inhérent de propager la diversité génétique et donc, de propager la diversité expérimentale. D'une expérimentation à l'autre et d'une publication à l'autre, la diversité des données est peu propice au progrès scientifique.

Le but de cet article est d'éduquer les chercheurs sur la souris sur le potentiel de dérive génétique d'avoir un impact sur les progrès de la recherche, de mettre en évidence les meilleures pratiques pour minimiser la dérive et de fournir des solutions pour inverser la dérive si elle survient dans une colonie de souris. L'utilisation de la nomenclature officielle complète des souches de souris et la communication minutieuse des informations sur la génération de reproducteurs dans les publications et les propositions de subventions sont des pratiques simples que les chercheurs peuvent adopter pour promouvoir la reproductibilité et l'utilisation responsable des animaux.

Comment survient la dérive génétique et sa prévalence dans les colonies de souris

La consanguinité, ou accouplement entre frères et sœurs, est une méthode puissante pour réduire l'hétérozygotie à chaque locus génétique du génome de la souris, permettant l'uniformité du phénotype et constituant la base de la reproductibilité expérimentale. L'homozygotie génétique permet la comparaison d'une seule variable entre un groupe témoin et un groupe expérimental, et ainsi, de pouvoir attribuer toute différence de lecture à cette variable.

Tout comme les espèces à l'état sauvage, deux populations de souches de souris de laboratoire consanguines maintenues isolées l'une de l'autre changeront au fil du temps. Des mutations spontanées peuvent se produire sous la forme de polymorphismes nucléotidiques simples (SNP), de délétions, d'inversions, de duplications et d'autres erreurs de ce type lors de la réplication de l'ADN et de la méiose. Ce processus d'apparition, de disparition ou de fixation spontanée de mutations spontanées dans une population est appelé dérive génétique (Lee Silver, 1995).

L'ampleur de la dérive génétique survenant dans toute colonie reproductrice active varie, mais on prévoit qu'elle sera assez fréquente. La génération moyenne de reproduction dure de 3 à 4 mois, les souris atteignant la maturité sexuelle vers l'âge de 5 à 8 semaines. La progéniture naît généralement environ 3 semaines après l'accouplement. Sur la base des taux de mutation spontanée calculés à partir des mutations de la couleur du pelage mesurées chez plus d'un million de souris, une mutation phénotypique peut survenir toutes les 1,8 générations de reproduction (Drake et al., 1998 Russell et Russell, 1996).

Le risque d'élever une souris porteuse d'une mutation spontanée dans la lignée germinale, et donc de propager cette mutation, est plus élevé dans les petites colonies que dans les grandes colonies (Figure 1A). Pour toute mutation germinale donnée chez une souris, environ la moitié de sa progéniture sera hétérozygote pour cette mutation (Figure 1B). Dans les colonies de reproduction consanguine, il y a 25 % de chances que ces mutations se fixent (homozygotes) dans la population (Chamary et Hurst, 2004 Drake et al., 1998).

Figure 1. Le risque de propagation d'une mutation spontanée est plus élevé dans les petites colonies que dans les grandes colonies. A) La probabilité d'utiliser une souris porteuse d'une mutation donnée (bleu clair) pour la reproduction est plus élevée dans une petite colonie que dans une grande colonie. B) À chaque cycle de sélection, il y a 25 % de chances qu'une nouvelle mutation s'établisse davantage dans la population. Par exemple, l'hérédité mendélienne prédit que la génération F1 sera composée à 50 % de type sauvage (gris) et à 50 % d'hétérozygotes pour la mutation (bleu clair). Si par hasard, 2 hétérozygotes sont utilisés comme reproducteurs, la génération F2 sera composée de 25 % de type sauvage, 50 % d'hétérozygotes et 25 % d'homozygotes (bleu foncé). Cela peut continuer jusqu'à ce que la colonie entière soit fixée homozygote pour la mutation (F3, F4). Cependant, le génome peut dériver dans les deux sens en fonction des génotypes des souris utilisées pour la reproduction - la probabilité que la mutation devienne fixe est équivalente à la probabilité qu'elle soit entièrement perdue de la colonie.

Indications qu'une dérive génétique s'est produite : désignations de sous-souches

Tableau 1. Codes de laboratoire communs trouvés dans la nomenclature des sous-souches de souris. L'Institute for Laboratory Animal Research (ILAR) attribue et maintient des identifiants uniques pour les instituts, les laboratoires ou les chercheurs individuels qui créent et maintiennent des colonies de souris.

Une sous-souche est une branche d'une souche consanguine suspectée ou connue d'être génétiquement différente de la colonie parente (www.informatics.jax.org/mgihome/nomen/strains.shtml#substrains). Étant donné que la dérive génétique peut se produire différemment dans deux populations d'une souche consanguine donnée, la désignation de la sous-souche est un élément crucial de la nomenclature. Les sous-souches sont désignées en ajoutant un code de laboratoire unique attribué par l'Institute for Laboratory Animal Research (ILAR) (dels.nas.edu/global/ilar/Lab-Codes). Un code de laboratoire identifie l'institut, le laboratoire ou l'investigateur qui a produit ou maintient une souche animale particulière (Tableau 1). Because lab codes accumulate in the nomenclature, the strain’s genealogy is understood from the name alone. For example, strain C57BL/6NJ was maintained for many years at the National Institutes of Health (N) and is now distributed by The Jackson Laboratory (J) (figure 3). By extension, the substrain nomenclature gives a general indication that genetic variation between two strains exists.

Suspected genetic differences: Generation number

Figure 2. Substrain development. Substrains develop after 20 consecutive generations of inbreeding. While these labs have not surpassed 20 breeding generations individually, Lab A and Lab B are separated from each other by 20 generations. Appending laboratory codes to strain names can give a general indication of whether genetic drift has occurred in one substrain versus another.

Any strain that has been maintained separately from the parental strain for 20 consecutive inbred generations (

5-6 years) is suspected to carry genetic differences, and is therefore considered a substrain. Additionally, breeding generations are cumulative, such that if two labs obtain mice from the same common ancestor and breed for 10 generations, each lab has a different substrain from one another because the two strains are considered 20 generations apart (Figure 2).

The very first inbred mouse strains (including C57BL/6, DBA, C3H, BALB, CBA, and others) used for biological research were established almost 100 years ago and continue to be heavily published today. Because these strains exceed 200 inbred generations and because multiple institutions worldwide breed them, a considerable amount of genetic drift has occurred over time in all of these strains. Because of genetic drift, it is possible that observations made in existing substrains differ from observations made in the parental inbred strains from which they were derived.

Known genetic differences: Substrain designation by observed phenotypic differences

Additionally, substrains are designated when a difference in phenotype is observed between two groups of inbred mice. However, unless these spontaneous mutations manifest obvious phenotypes, frequently after they become fixed homozygous in the colony, and attentive colony managers or researchers recognize something “off” about the mice, the mutations may be carried in a strain unnoticed for years. Thus, identifying drift may depend on individual labs asking questions whose answers happen to rely on such mutations, to recognize that “unexpected results” are more than just “failed experiments,” and later to identify the mutation that is responsible for the aberrant phenotype.

For example, the parental inbred strain C3H gave rise to two substrains from two Jackson Laboratory researchers, which for many years, did not seem to differ. Dr. Walter Heston bred the strain in the 1930’s (now C3H/HeJ). In 1952, Heston transferred some of his mice to another Jackson Laboratory researcher, Dr. Henry Outzen (now C3H/HeOuJ). In the late 1960s, Heston’s strain was found to be resistant to lipopolysaccharide (LPS), whereas Outzen’s strain remained sensitive.

Later, the mutation was mapped to Tlr4, a gene involved in pathogen recognition and innate immune system activation (Poltorak et al., 1998a Watson et al., 1978). By the time the C to A substitution at nucleotide 2342 was identified in Tlr4, it had already become fixed in the Heston substrain, likely between 1958 and 1965 (Poltorak et al., 1998b). Had Heston’s C3H substrain never been treated with LPS, it is possible that the Tlr4 mutation would not have been identified and conclusions involving basic immunology in these strains may have become highly controversial.

Known genomic sequences are substrain-specific

Aside from chance discoveries, the only way to definitively identify whether genetic drift has occurred is to sequence the strain and compare to reference genomes. A C57BL/6J female was the first mouse to be completely sequenced by the Mouse Genome Sequencing Consortium (Chinwalla et al., 2002), www.ensembl.org/Mus_musculus). To date, 15 other major inbred mouse strains have been fully sequenced, all of which are “J” substrains, the official ILAR laboratory code for The Jackson Laboratory (Adams et al., 2015), www.ensembl.org/Mus_musculus/Info/Strains) (Tableau 2).

An additional 20+ inbred strains have been sequenced using short-read approaches to identify SNPs, indels, and structural variations relative to the C57BL/6J mouse reference genome (Frazer et al., 2007 and www.sanger. ac.uk/science/data/mouse-genomes-project). Furthermore, known SNP data for specific substrains can be found and compared in the Mouse Phenome Database (MPD), a collaborative standardized collection of genotypic and phenotypic data on the most commonly published mouse strains (phenome.jax.org).

Table 2. Common laboratory codes found in mouse substrain nomenclature. The Institute for Laboratory Animal Research (ILAR) assigns and maintains unique identifiers for institutes, laboratories, or individual investigators who create and maintain mouse colonies.

Genetic background impacts research conclusions

As described earlier with the C3H example, substrains may acquire spontaneous mutations that have the potential to influence research conclusions. If these experiments are not properly controlled for, such as through use of appropriate substrain, disastrous consequences on experimental reproducibility may ensue. Whether these spontaneous mutations arise in a repository, from a vendor, or in individual laboratories, how can researchers know which is the “best” substrain to use for their experiments?

Unfortunately, there isn’t an easy answer. The best way to determine whether genetic background matters is to perform controlled, side-by-side experiments and compare. Since it is impossible to test every substrain that exists for a particular experimental readout, the next best way to understand the potential impact of genetic background on research conclusions is to rely on what other researchers have observed, in the form of peer-reviewed, published literature and to continue experiments that build on such knowledge using identical substrains.

Conclusion

Genetic drift is an inevitable reality in actively breeding mouse colonies and may deeply impact research conclusions and reproducibility. While genetic drift cannot be eliminated completely, colony management strategies can be implemented both in individual laboratories and in large mouse repositories and vendors to maintain genetic stability. Reproducibility and scientific discovery rely on careful reporting of complete mouse substrain 17


One gene, many mutations: Key that controls coat color in mice evolved nine times

For deer mice living in the Nebraska Sandhills, color can be the difference between life and death.

When the dark-coated mice first colonized the region, they stood out starkly against the light-colored, sandy soil, making them easy prey for predators. Over the next 8,000 years, however, the mice evolved a system of camouflage, with lighter coats, changes in the stripe on their tails, and changes in body pigment that allowed them to blend into their habitat.

Now Harvard researchers are using their example to answer one of the fundamental questions about evolution. Is it a process marked by large leaps -- single mutations that result in dramatic changes in an organism -- or is it the result of many smaller changes that accumulate over time?

As described in a March 15 paper in the journal Science, a team of researchers, including former Harvard postdoctoral fellow Catherine Linnen, now an assistant professor at the University of Kentucky, and led by Hopi Hoekstra, Harvard professor of organismic and evolutionary biology and molecular and cellular biology, were able to show that the changes in mouse coat color were the result not of a single mutation but of at least nine mutations within a single gene.

"The findings demonstrate how the cumulative effect of natural selection, acting on many small genetic changes, can produce rapid and dramatic change," said Linnen, the first author of the paper. "This helps us to understand, from a genetic perspective, the uncanny fit between so many organisms and their environments. By acting on many small changes, rather than a handful of large ones, natural selection can produce very finely honed adaptations."

Surprisingly, Hoekstra said, that honing occurred in a single gene.

The role of this gene, called agouti, in camouflage was first discovered by Linnen, Hoekstra, and colleagues in 2009, and it is responsible for changes in pigmentation in the coats of many animals. Every domesticated black cat, for example, has a DNA deletion in the gene.

What surprised Hoekstra and her team, however, wasn't that the gene was involved, but that each of the nine mutations were tied to a unique change in the animal's coats, that all the new mutations led to more camouflaging color, and that the mutations occurred in a relatively short, 8,000-year timeframe.

"Essentially, it seems as though these mutations -- each of which makes the mouse a little lighter and more camouflaged -- have accumulated over time," Hoekstra said.

Focusing on these mutations, researchers then examined the DNA of natural populations of the mice to determine whether the mutations are actually beneficial.

"For each of the mutations associated with color change, we also find a signal that's consistent with positive selection," Hoekstra said. "That implies that each of the specific changes to pigmentation is beneficial. This is consistent with the story we are telling, about how these mutations are fine-tuning this trait."

While the findings offer valuable insight into the way that natural selection operates, Hoekstra said they also highlight the importance of following research questions to their ultimate end.

"The question has always been whether evolution is dominated by these big leaps or smaller steps," she said. "When we first implicated the agouti gene, we could have stopped there and concluded that evolution takes these big steps as only one major gene was involved, but that would have been wrong. When we looked more closely, within this gene, we found that even within this single locus, there are, in fact, many small steps."

Going forward, Hoekstra said, her team hopes to understand the order in which the mutations happened, which would allow it to reconstruct how the mice changed over time.

"For evolutionary biologists, this is exciting because we want to learn about the past, but we only have data from the present to study it," she said. "This ability to go back in time and reconstruct an evolutionary path is very exciting, and I think this data set is uniquely suited for this type of time travel."

Taking the time to understand not only which genes are involved but which specific mutations may be driving natural selection, Hoekstra said, can give researchers a much fuller picture of not only the molecular mechanisms by which mutations alter traits, but also the evolutionary history of an organism.

"By doing this, we've discovered all kinds of new things," she said. "While we often think about changes happening in the entire genome, our results suggest that even within a very basic unit -- the gene -- we can see evidence for evolutionary fine-tuning."


The Model

We consider a large population of haploid individuals with time-dependent population size Nt. The population dynamics are modeled as a time-inhomogeneous birth–death process with birth and death rates b(t, Nt) et (t, Nt):

The impact of the changes in the external environment on the population size is reflected in the explicit time-dependence of the rates on t. The dependence on Nt accounts for density-dependence [par exemple., logistic: ]. We call the growth parameter. Obviously, the expected change of Nt over a small time interval dt reads

Consider now two alleles, a beneficial mutant allele UNE and the ancestral (resident) allele une, that segregate in the population at a single locus. Recurrent mutations in both directions are ignored. In general, birth and death rates might be different for residents and mutants. These rates can depend on time and on the (absolute) frequencies of both allelic types, allowing for general frequency-dependent selection. As a consequence, also the population dynamics depend on the allelic composition and cannot be described by Equation 1 anymore. We discuss this model in the annexe. For the main part of the article, however, we assume that the rates are the same for mutants and residents and that all model parameters are independent of allele frequencies. This means in particular that selection is soft c'est à dire., changes in the allelic composition due to selection or drift do not interfere with the population dynamics. Population growth and decline of the polymorphic population are then correctly described by Equation 1.

In this setting, selection is modeled as competitive replacement between individuals, which does not change the population size, and is implemented as follows: At per capita rate ξ(t, Nt) + s(t, Nt), a mutant additionally reproduces and succeeds in replacing a randomly chosen individual from the population by its offspring. Residents do the same at rate ξ(t, Nt). Again, the selective advantage s(t, Nt) of the mutant may thus depend on the external environment (modeled by the dependence of s(t, Nt) on t) and the population size (modeled by the dependence on Nt). Changes in the number of mutants then occur at rates

The model corresponds to a continuous-time Moran model, but with a population size that may change in time. Putting b(t, Nt) = (t, Nt) = 0, ξ(t, Nt) = 1, and s(t, Nt) = s = const. reproduces the standard Moran model (Moran 1958a,b Novozhilov et al. 2006). The free parameter ξ(t, Nt) has been introduced to our model to allow for easy interpolation to other models (see below) and additionally to make the analysis of density-dependent competition possible.

To further clarify the relation to other models, we calculate how the frequency of mutants Xt := mt/Nt changes over time. Let ΔX be its change in an infinitesimal time interval dt. The expectation and the variance of ΔX are calculated to be (4a) (4b) with the time-dependent variance effective population size (5) In the last step we approximated Nt + 1 ≈ Nt et Nt − 1 ≈ Nt (see section S3 of File S1 for the derivation of Equations 4a and 4b).

We see that the strength of drift, measured as , is proportional to the total rate of events in the model. The choice coincides with the strength of drift in the standard Moran model, while is consistent with the scaling in the Wright–Fisher model. In contrast to many diffusion or coalescent approaches, we do not rescale time with the effective population size (which would be impractical since itself depends on t). Generation time in the continuous-time Moran model is defined as the inverse of the total death rate of an individual, , and may again depend on time in our model.


Les références

Cabot EL, Davis AW, Johnson NA, Wu CI (1994). Genetics of reproductive isolation in the Drosophila simulans clade: complex epistasis underlying hybrid male sterility. La génétique 137: 175–189.

Coyne JA, Orr HA (2004). Speciation. Sinauer Associates Inc.: Sunderland, MA.

Gavrilets S (2003). Models of speciation: What have we learned in 40 years? Évolution 57: 2197–2215.

Gavrilets S (2004). Fitness Landscapes and the Origin of Species. Princeton University Press: Princeton, New Jersey.

Gillespie JH (1984). Molecular evolution over the mutational landscape. Évolution 38: 1116–1129.

Gillespie JH (1991). The Causes of Molecular Evolution. Oxford University Press: New York.

Haldane JBS (1927). A mathematical theory of natural and artificial selection, part V: selection and mutation. Proc Camb Phil Soc 28: 838–844.

Joyce P, Rokyta DR, Beisel CJ, Orr HA (2008). A general extreme value theory model for the adaptation of DNA sequences under strong selection and weak mutation. La génétique 180: 1627–1643.

Kondrashov AS (2003). Accumulation of Dobzhansky–Muller incompatibilities within a spatially structured population. Évolution 57: 151–153.

Muller HJ (1942). Isolation mechanisms, evolution and temperature. Biol Symp 6: 71–125.

Navarro A, Barton NH (2003). Accumulating postzygotic isolation genes in parapatry: a new twist on chromosomal speciation. Évolution 57: 447–459.

Nei M (1976). Mathematical models of speciation and genetic distance. In: Karlin S, Nevo E (eds). Population genetics and ecology. Academic Press Inc.: New York.

Orr HA (1995). The population genetics of speciation: the evolution of hybrid incompatibilities. La génétique 139: 1805–1813.

Orr HA (2003). The distribution of fitness effects among beneficial mutations. La génétique 163: 1519–1526.

Orr HA (2005). The probability of parallel evolution. Évolution 59: 216–220.

Orr HA, Masly JP, Phadnis N (2007). Speciation in Drosophile: from phenotypes to molecules. J Hered 98: 103–110.

Wood TE, Burke JM, Rieseberg LH (2005). Parallel genotypic evolution: when evolution repeats itself. Génétique 123: 157–170.