Informations

Dans la recherche sur le génome, quel est le problème de cartographie qui peut être causé par des lectures trop courtes ?

Dans la recherche sur le génome, quel est le problème de cartographie qui peut être causé par des lectures trop courtes ?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Dans le scénario suivant : Vous avez reçu de courtes lectures de séquences d'ARN végétal obtenu à partir d'une machine de séquençage de nouvelle génération (fragments de 20 à 30 nucléotides de long). Vous essayez de les reconstituer au génome, mais une proportion importante d'entre eux ne s'alignent pas.

La question est : donner des explications évidentes pour lesquelles l'alignement de séquences courtes peut échouer, en dehors d'une éventuelle contamination ou de difficultés techniques lors de la préparation de l'ARN.

Je répondrais comme parce que les lectures sont courtes et à cause des introns (puisque c'est de l'ARN)

Autre scénario : il y a certaines indications que les séquences problématiques proviennent d'un virus à ARN végétal non caractérisé. Que ferais-tu ensuite? Quelles sont les mises en garde spécifiques aux lectures de séquences courtes ?

J'ai eu les questions ci-dessus, je suis un étudiant en informatique faisant de la bioinformatique, tout biologiste pourrait y répondre sera très apprécié


Étant bioinformaticien également, je ne suis pas vraiment ce que vous demandez, mais je travaille avec la génétique végétale, donc je vais essayer de répondre quand même.

Ce que vous cartographiez, c'est l'ARN. Donc, comme vous l'avez déjà compris, événements d'épissage sera un problème pour le mappage de bout en bout des lectures. Cependant, il existe des outils qui gèrent cela, supposons donc que vous en avez utilisé un et que beaucoup de vos lectures ne correspondent toujours pas. Pour mettre dans le bon point de WYSIWIG : Un autre événement qui peut gâcher vos alignements est Édition d'ARN, bien qu'il ne soit pas trop probable qu'une proportion élevée de lectures ne s'aligne pas du tout.

Certains aligneurs peuvent filtre des requêtes "trop ​​courtes", alors assurez-vous que vous n'utilisez pas l'une d'entre elles.

Alors, avez-vous prétraité tes lectures ? Si ce n'est pas le cas, il se peut qu'il reste des séquences d'adaptateurs. Ou peut-être que les lectures sont de très mauvaise qualité, sont donc également alignées avec une mauvaise qualité, et peuvent donc être comptées comme non alignées.

Et puis vérifiez sur quoi vous vous alignez. De nombreux génomes végétaux publiés sont également qualité mineure, y compris beaucoup de bases non affectées. Ainsi, il pourrait y avoir de grandes proportions de votre génome de référence qui comptent dans la longueur du génome, mais ne sont que des N et rien ne s'y alignera.

Enfin et surtout, votre idée d'un virus pourrait également être juste. Selon l'expérience, il peut y avoir ARN pathogène dans votre échantillon, alors vérifiez par rapport à une base de données appropriée.

Si le problème est seulement que les lectures sont "trop ​​courtes" pour une raison quelconque, essayez de faire assemblage du transcriptome avant de comparer à votre référence.


Je ne pense pas qu'il soit possible de répondre à la partie 1 sans plus d'informations. Plus précisément, utilisez-vous un mappeur sensible aux épissures, comme Tophat ? Utilisez-vous un gtf prédéterminé avec des coordonnées d'exon putatives ? Si oui, est-ce pour une plante extrêmement bien étudiée, comme Arabidopsis, ou quelque chose de tout nouveau ? Votre réponse n'est pas juste, les introns s'aligneraient bien sur le génome. L'aligneur ne sait pas ou ne se soucie pas que ces séquences ne devraient pas être dans l'échantillon, cela n'affectera pas le mappage. Personnellement, je ne pense pas qu'il y ait une très bonne réponse à la question. Les lectures courtes ne sont pas plus susceptibles d'échouer que les lectures plus longues. Ils sont plus susceptibles de se mapper au mauvais endroit, mais ce n'est pas un échec de mappage.


Regarder mes gènes : que peuvent-ils me dire sur ma santé mentale ?

Les troubles mentaux sont des problèmes de santé qui affectent la façon dont une personne pense, se sent et agit. Ces troubles peuvent avoir un impact significatif sur la vie d'une personne, notamment sur la façon dont elle fait face aux événements de la vie, gagne sa vie et entretient des relations avec les autres.

"Pourquoi est-ce arrivé?" C'est une question courante que les patients et leurs familles se posent à la suite d'un épisode psychotique, d'une tentative de suicide ou du diagnostic d'un trouble mental.

Des recherches menées et financées par l'Institut national de la santé mentale (NIMH) ont révélé que de nombreux troubles mentaux sont causés par une combinaison de facteurs biologiques, environnementaux, psychologiques et génétiques. En fait, un nombre croissant de recherches a révélé que certains gènes et variations génétiques sont associés aux troubles mentaux. Alors, quelle est la meilleure façon de « regarder vos gènes » et de déterminer votre risque personnel ?


Quels sont les symptômes de l'achondroplasie ?

Les personnes atteintes d'achondroplasie ont une croissance osseuse anormale qui provoque les symptômes cliniques suivants : petite taille avec des bras et des jambes disproportionnés, des doigts courts, une grosse tête (macrocéphalie) et des traits du visage spécifiques avec un front proéminent (bossage frontal) et une hypoplasie au milieu du visage .

L'intelligence et la durée de vie des personnes atteintes d'achondroplasie sont généralement normales.

Les nourrissons nés avec une achondroplasie ont généralement un faible tonus musculaire (hypotonie). En raison de l'hypotonie, il peut y avoir des retards dans la marche et d'autres habiletés motrices. La compression de la moelle épinière et/ou l'obstruction des voies aériennes supérieures augmente le risque de décès chez les nourrissons.

Les personnes atteintes d'achondroplasie ont généralement des problèmes respiratoires dans lesquels la respiration s'arrête ou ralentit pendant de courtes périodes (apnée). D'autres problèmes de santé incluent l'obésité et les otites récurrentes. Les adultes atteints d'achondroplasie peuvent développer un balancement prononcé et permanent du bas du dos (lordose) et des jambes arquées. Les problèmes avec le bas du dos peuvent causer des maux de dos entraînant des difficultés à marcher.

Les personnes atteintes d'achondroplasie ont une croissance osseuse anormale qui provoque les symptômes cliniques suivants : petite taille avec des bras et des jambes disproportionnés, des doigts courts, une grosse tête (macrocéphalie) et des traits du visage spécifiques avec un front proéminent (bossage frontal) et une hypoplasie au milieu du visage .

L'intelligence et la durée de vie des personnes atteintes d'achondroplasie sont généralement normales.

Les nourrissons nés avec une achondroplasie ont généralement un faible tonus musculaire (hypotonie). En raison de l'hypotonie, il peut y avoir des retards dans la marche et d'autres habiletés motrices. La compression de la moelle épinière et/ou l'obstruction des voies aériennes supérieures augmentent le risque de décès chez les nourrissons.

Les personnes atteintes d'achondroplasie ont généralement des problèmes respiratoires dans lesquels la respiration s'arrête ou ralentit pendant de courtes périodes (apnée). D'autres problèmes de santé incluent l'obésité et les otites récurrentes. Les adultes atteints d'achondroplasie peuvent développer un balancement prononcé et permanent du bas du dos (lordose) et des jambes arquées. Les problèmes avec le bas du dos peuvent causer des maux de dos entraînant des difficultés à marcher.


Possibilités d'accès

Obtenez un accès complet au journal pendant 1 an

Tous les prix sont des prix NET.
La TVA sera ajoutée plus tard dans la caisse.
Le calcul des taxes sera finalisé lors du paiement.

Obtenez un accès limité ou complet aux articles sur ReadCube.

Tous les prix sont des prix NET.


Qu'est-ce que le séquençage de l'ADN ?

Le séquençage consiste à déterminer l'ordre exact des paires de bases dans un segment d'ADN. Les chromosomes humains varient en taille d'environ 50 000 000 à 300 000 000 de paires de bases. Étant donné que les bases existent sous forme de paires et que l'identité de l'une des bases de la paire détermine l'autre membre de la paire, les scientifiques n'ont pas à déclarer les deux bases de la paire.

La principale méthode utilisée par le HGP pour produire la version finale du code génétique humain était le séquençage basé sur une carte ou basé sur le BAC. BAC est l'acronyme de "chromosome artificiel bactérien". L'ADN humain est fragmenté en morceaux relativement gros mais toujours de taille gérable (entre 150 000 et 200 000 paires de bases). Les fragments sont clonés dans des bactéries, qui stockent et répliquent l'ADN humain afin qu'il puisse être préparé en quantités suffisamment importantes pour le séquençage. S'ils sont soigneusement choisis pour minimiser le chevauchement, il faut environ 20 000 clones BAC différents pour contenir les 3 milliards de paires de bases du génome humain. Une collection de clones BAC contenant l'intégralité du génome humain est appelée « bibliothèque BAC ».

Dans la méthode basée sur BAC, chaque clone BAC est « cartographié » pour déterminer d'où provient l'ADN des clones BAC dans le génome humain. L'utilisation de cette approche garantit que les scientifiques connaissent à la fois l'emplacement précis des lettres d'ADN qui sont séquencées à partir de chaque clone et leur relation spatiale avec l'ADN humain séquencé dans d'autres clones BAC.

Pour le séquençage, chaque clone BAC est découpé en fragments encore plus petits d'environ 2 000 bases de long. Ces pièces sont appelées "sous-clones". Une « réaction de séquençage » est réalisée sur ces sous-clones. Les produits de la réaction de séquençage sont ensuite chargés dans la machine de séquençage (séquenceur). Le séquenceur génère environ 500 à 800 paires de bases de A, T, C et G à partir de chaque réaction de séquençage, de sorte que chaque base est séquencée environ 10 fois. Un ordinateur assemble ensuite ces courtes séquences en séquences contiguës représentant l'ADN humain dans le clone BAC.

Le séquençage consiste à déterminer l'ordre exact des paires de bases dans un segment d'ADN. Les chromosomes humains varient en taille d'environ 50 000 000 à 300 000 000 de paires de bases. Étant donné que les bases existent sous forme de paires et que l'identité de l'une des bases de la paire détermine l'autre membre de la paire, les scientifiques n'ont pas à déclarer les deux bases de la paire.

La principale méthode utilisée par le HGP pour produire la version finale du code génétique humain était le séquençage basé sur une carte, ou basé sur le BAC. BAC est l'acronyme de "chromosome artificiel bactérien". L'ADN humain est fragmenté en morceaux relativement gros mais toujours de taille gérable (entre 150 000 et 200 000 paires de bases). Les fragments sont clonés dans des bactéries, qui stockent et répliquent l'ADN humain afin qu'il puisse être préparé en quantités suffisamment importantes pour le séquençage. S'ils sont soigneusement choisis pour minimiser le chevauchement, il faut environ 20 000 clones BAC différents pour contenir les 3 milliards de paires de bases du génome humain. Une collection de clones BAC contenant l'intégralité du génome humain est appelée « bibliothèque BAC ».

Dans la méthode basée sur BAC, chaque clone BAC est « cartographié » pour déterminer d'où provient l'ADN des clones BAC dans le génome humain. L'utilisation de cette approche garantit que les scientifiques connaissent à la fois l'emplacement précis des lettres d'ADN qui sont séquencées à partir de chaque clone et leur relation spatiale avec l'ADN humain séquencé dans d'autres clones BAC.

Pour le séquençage, chaque clone BAC est découpé en fragments encore plus petits d'environ 2 000 bases de long. Ces pièces sont appelées "sous-clones". Une « réaction de séquençage » est réalisée sur ces sous-clones. Les produits de la réaction de séquençage sont ensuite chargés dans la machine de séquençage (séquenceur). Le séquenceur génère environ 500 à 800 paires de bases de A, T, C et G à partir de chaque réaction de séquençage, de sorte que chaque base est séquencée environ 10 fois. Un ordinateur assemble ensuite ces courtes séquences en séquences contiguës représentant l'ADN humain dans le clone BAC.


3. Description de la référence

3.1. Ensembles de données

Les outils de cartographie sont évalués par deux expériences similaires. La première expérience (nommée ci-après) est réalisée sur le génome humain (25 chromosomes pour 2,7 Gbp). La seconde expérience (nommée ) est réalisée sur des génomes bactériens (904 séquences génomiques pour 1,7 Gbp).

Dans l'expérience menée sur le génome humain ( ), le génome de référence est issu de l'assemblage 37.1 réalisé par le NCBI. Nous avons construit deux séries de lectures, toutes de longueur 40. La première série de lectures ( ) est composée de 10 millions de lectures tirées uniformément du génome de référence . Le dessin est fait avec wgsim. 1 Les chromosomes humains contiennent parfois une grande proportion, jusqu'à 30%, de la lettre N. La cartographie des lectures avec de longues séries de N est de peu d'informations pour évaluer l'efficacité des outils de cartographie car ces lectures doivent cartographier dans de nombreux endroits. Nous avons donc décidé, au préalable, de supprimer les runs de plus de 10 Ns du génome de référence. 2 La majorité des lectures (8 877 107) de se produit une seule fois, 3 mais certaines lectures peuvent être répétées plusieurs fois le long du génome de référence, comme indiqué sur la Figure 8. Pour les lectures se produisant plus d'une fois, le nombre moyen d'occurrences est de 722,81 avec un écart de 2424,86. De plus, la lecture la plus fréquente se produit 53 162 fois. Le deuxième ensemble de lectures ( ) est construit à partir de l'ajout d'exactement trois incompatibilités à chaque lecture. Contient donc également 10 millions de lectures. Nous sommes conscients qu'il est très peu probable que les séquenceurs modernes produisent des lectures avec un tel taux d'erreur, mais la justification de cet ensemble de données est que de nombreux projets produisent désormais des données de reséquençage et de métagénomique, qui peuvent diverger considérablement des génomes déjà séquencés. Les positions pour les trois discordances sont tirées uniformément dans les 40 positions. 4 Un nucléotide A, C, G ou T est muté en l'un des trois autres nucléotides avec une probabilité égale de 1/3, tandis qu'un N est muté en A, C, G ou T avec une probabilité de 1/4. Parmi les 10 millions de lectures depuis et , seules 49 lectures contiennent des N, le nombre de N par lecture est donné dans le tableau 1.

FIGUE. 8. Histogramme du logarithme du nombre d'occurrences des 1 122 893 (respectivement 2 620 394) lectures de (resp. ) survenues plus d'une fois dans le génome de référence (la gauche) (resp. (droit)).

Tableau 1. Nombre de lectures avec un nombre donné de N, à partir de chacun des quatre ensembles de données , , ,

Dans la deuxième expérience ( ), le génome de référence se compose de 904 génomes bactériens trouvés dans Genome Reviews version 111.0 (Kersey et al., 2005). Nous avons également construit deux ensembles de lectures à 40 bps. Le premier ensemble de lectures ( ) est composé de 10 millions de lectures tirées uniformément de . 5 Il y a 7 379 606 lectures avec une occurrence unique et 2 620 394 lectures se produisant plus d'une fois (moyenne 8,82 et SD 39,03). La lecture la plus fréquente se produit 1685 fois. Le deuxième ensemble de lectures ( ) est construit à partir de l'ajout uniforme de trois incompatibilités dans chaque lecture, comme décrit pour . 231 lectures depuis et 219 lectures depuis contiennent des N (tableau 1).

3.2. Outils de cartographie

Nous avons évalué les performances des neuf outils de cartographie suivants : BWA_v0.5.8, Novoalign_v2.06.09, Bowtie_v0.12.7, SOAP_v2.20, BFAST_v0.6.5a, SSAHA2_v2.5.2, MPscan, GASSST_v1.28 et PerM_v0.3.9.

Le tableau 2 rassemble les caractéristiques globales des outils, à savoir le type d'algorithmes sur lesquels ils sont basés, leur format de sortie, leur capacité à autoriser des incompatibilités et/ou des indels dans les alignements, et s'ils peuvent utiliser plusieurs threads.

Tableau 2. Caractéristiques globales des outils cartographiques

SAM, carte des alignements de séquences.

Des informations complémentaires sont désormais données séparément pour chaque outil, notamment sur la manière d'effectuer les comparaisons. Pour chaque outil, notre objectif est en effet de récupérer tous les alignements (appelés ci-après hits), soit sans mésappariement, soit avec au plus 3 mésappariements, de nos jeux de données de lecture (voir Section 3.1).

3.2.1. BWA

Lancer BWA consiste à utiliser successivement trois commandes : la première (bwa index) indexe le génome de référence, la seconde (bwa aln) trouve les coordonnées des hits de chaque individu lu dans le tableau des suffixes, et la dernière (bwa samse ) convertit les coordonnées du tableau de suffixes en coordonnées génomiques de référence et génère les alignements au format SAM. Par défaut, une recherche non exhaustive est effectuée dans la deuxième étape pour réduire le temps de calcul. Nous avons ensuite utilisé l'option −N pour désactiver ce comportement et rechercher tous les hits possibles. L'utilisation ou non de cette option a un effet dramatique sur les résultats lorsque les discordances sont autorisées, comme nous le verrons dans la section suivante. Il est possible de définir le nombre maximum de discordances par hit (option −n dans la deuxième étape) et également par graine (option −k) nous avons utilisé la même valeur pour les deux paramètres. De plus, on peut spécifier le nombre maximum de hits à sortir (option −n dans la troisième étape). Si une lecture a plus de résultats dans la référence, les résultats générés sont choisis au hasard. La seule façon d'obtenir tous les hits par lecture est de définir le nombre maximum de hits à sortir sur une valeur supérieure au nombre maximum d'occurrences des lectures dans chaque ensemble de lectures. Nous avons ensuite pris les limites 54 000 pour et , 6 et 2 000 pour et 7 BWA change au hasard Ns dans le génome de référence en nucléotides réguliers.

3.2.2. Novoalign

L'exécution de Novoalign consiste à exécuter deux commandes successives : la première (novoindex) indexe le génome de référence et la seconde (novoalign) aligne les reads sur la référence indexée. Novoalign (du moins dans sa version académique) ne permet pas à l'utilisateur de fixer le nombre maximum (ou exact) de discordances entre le génome lu et le génome de référence. Nous avons ensuite post-traité les résultats pour obtenir des correspondances exactes ( et ) ou des correspondances avec au plus trois discordances ( et ). Pour les lectures avec plusieurs hits, il est possible de rapporter tous les hits (option -r A) ou au plus un nombre fixe de hits choisis au hasard.

3.2.3. Nœud papillon

Exécuter Bowtie consiste à utiliser successivement deux commandes, bowtie-build qui indexe le génome de référence et bowtie qui prend en entrée un index et un ensemble de lectures et sort une liste d'alignements. Bowtie permet à l'utilisateur de définir le nombre maximum de discordances par hit (option -v). Par défaut, Bowtie ne renvoie qu'un seul hit par lecture si l'on veut récupérer plus ou tous les hits par lecture, il faut spécifier un nombre maximum de hits à rapporter (option -k). Comme pour BWA, ce nombre maximum doit être fixé au nombre maximum d'occurrences de l'ensemble de lecture 8 pour récupérer tous les hits. Les alignements impliquant un ou plusieurs caractères ambigus, tels que Ns, dans la référence sont considérés comme invalides par Bowtie, alors qu'ils représentent des discordances s'ils appartiennent aux lectures.

3.2.4. SOAP2

Lancer SOAP2 consiste à utiliser successivement deux commandes : la première (2bwt-builder) crée l'index Burrows-Wheeler du génome de référence, et la seconde (soap) effectue les alignements. SOAP2 permet à l'utilisateur de définir le nombre maximum de discordances par hit (option −v) mais ce nombre maximum est limité à 2. SOAP2 sort systématiquement tous les hits (aucune limitation n'est autorisée). Les lectures non mappées peuvent être obtenues dans un fichier FASTA. SOAP2 semble remplacer tous les N dans les lectures par un G.

3.2.5. BONJOUR

L'exécution de BFAST nécessite cinq étapes : (1) le génome de référence est d'abord réécrit dans un format spécial (bfast fasta2brg), (2) bfast index indexe le génome de référence en utilisant les graines espacées définies par l'utilisateur (cette étape doit être effectuée avec plusieurs graines, conduisant ensuite à plusieurs index, nous avons utilisé les 10 graines proposées dans Homer et al., [2009]), (3) puis la commande bfast match prend un ensemble de lectures et recherche un ensemble d'index pour trouver des emplacements d'alignement candidats (ou CAL) pour chaque lecture, (4) la commande bfast localalign prend les CAL pour chaque lecture et effectue un alignement local sur la référence, et (5) enfin un fichier de sortie est créé (bfast post-process). Comme pour Novoalign, l'utilisateur ne peut pas définir le nombre maximum (ou exact) de non-concordances, nous avons donc post-traité les résultats générés. BFAST peut sortir tous les hits (option -a).

3.2.6. SSAHA2

L'exécution de SSAHA2 consiste en deux étapes : l'indexation du génome de référence (commande ssaha2Build) et la cartographie des reads (ssaha2). Il est possible de spécifier le nombre de discordances autorisées, ou de manière équivalente le pourcentage d'identité (option −identity). Le nombre de résultats signalés par lecture est limité à 500 et ne peut pas être modifié. Nous avons demandé le « meilleur » mappage (score de Smith-Waterman) pour chaque lecture (−best 1), ce qui semble approprié pour un mappage exact, mais probablement pas pour et (en fait, nous avons également utilisé −best 0 dans le cas des discordances).

3.2.7. MPscan

Pour exécuter MPscan, il n'y a qu'une seule commande (mpscan) mais elle doit être utilisée deux fois, une pour le mappage sur le brin direct et la seconde pour le brin inverse (options −rev −ac). Aucune incompatibilité n'est autorisée dans les alignements et tous les alignements sont signalés dans le fichier de sortie (pas au format SAM).

3.2.8. GASSST

Les étapes d'indexation et de mappage sont effectuées en émettant la commande Gassst. Il est possible de spécifier le nombre de mésappariements autorisés, ou de manière équivalente le pourcentage d'identité (option −p). Pour récupérer de manière exhaustive tous les hits pour chaque lecture, nous avons désactivé le processus de filtrage utilisé par défaut pour réduire le temps de calcul (option −l 0) et nous avons fixé la sensibilité à sa valeur maximale (option −s 5). Les alignements impliquant des caractères ambigus expliquent nécessairement les discordances. GASSST rapporte les alignements dans un format spécifique, le fichier de sortie peut être converti au format SAM en utilisant la commande gassst_to_sam qui semble prendre beaucoup de temps.

3.2.9. Permanente

Les étapes d'indexation et de mappage sont effectuées en exécutant la commande perm. Il est possible de définir le nombre maximum de discordances par hit (option -s) et de spécifier un nombre maximum de hits à trouver (option -k). Pour signaler tous les hits, nous avons défini l'option précédente sur le plus grand nombre d'occurrences trouvées dans nos ensembles de lecture (comme pour Bowtie et BWA) et nous avons également activé l'option « all » -A. Enfin, étant donné que certaines lectures contiennent des N (tableau 1), nous avons utilisé l'option ––includeReadsWN suivie de 40, 37 ou 10 selon l'ensemble de lecture.


MATÉRIAUX ET MÉTHODES

Séquençage

Séquençage de la Bacillus subtilis génome a été réalisée à l'aide d'un Illumina GA II. L'ADN génomique de B. subtilis a été extrait avec un kit DNeasy Blood and Tissue (Qiagen). Les bibliothèques de cet ADN génomique ont été préparées selon le protocole du fabricant (Illumina) (8). Cinq microgrammes d'ADN génomique ont été fragmentés à une longueur moyenne de 200 pb en utilisant un système Covaris S2 (Covaris). L'ADN fragmenté a été réparé en utilisant la polynucléotide kinase T4 et le fragment de Klenow (New England Biolabs) l'extrémité 3' de l'ADN réparé en bout a été adénylée en utilisant le fragment de Klenow (New England Biolabs). Ensuite, Index PE Adapters Oligo Mix (Illumina) a été ligaturé aux fragments en utilisant Quick T4 DNA Ligase (New England Biolabs). L'extension de l'adaptateur 5' et l'enrichissement de la banque ont été réalisés à l'aide de 18 cycles de PCR avec les amorces InPE1.0, InPE2.0 et PCR index primer (Illumina). Les générations de clusters ont été effectuées sur une station de cluster Illumina à l'aide d'un kit de génération de clusters pairés v4. Soixante-seize cycles de séquençage multiplexé ont été réalisés à l'aide d'un système Illumina GA II avec un kit de séquençage SBS 36 cycles v4, selon les spécifications du fabricant. Une fois les réactions de séquençage terminées, le pipeline d'analyse Illumina (CASAVA 1.6.0) a été utilisé pour traiter les données de séquençage brutes. La séquence de référence de la cartographie a été B. subtilis str. 168 (NC_000964.3). Les données lues (DRX000504) ont été déposées dans DRA (DDBJ Sequence Read Archive).

L'analyse des données

Nous avons créé un nouveau logiciel pour cartographier les lectures du séquenceur Illumina (MPSmap) et visualiser les résultats de cartographie (PSmap). La description détaillée et l'évaluation du logiciel apparaîtront ailleurs ici, nous décrivons brièvement notre méthode. Initialement, un indice simple de k -mers a été préparé pour la séquence de référence. Ensuite, toutes les bases de la lecture ont été comparées à celle de la référence pour chaque correspondance d'index de la lecture. Cette comparaison a été effectuée pour toutes les correspondances d'index, et la position la mieux adaptée pour chaque lecture a été identifiée. Une limitation de l'approche indicielle est que certaines des positions rapprochées peuvent ne pas être identifiées si des discordances sont présentes au sein de l'indice. Pour minimiser ce problème, nous avons répété la recherche d'index tout en décalant la position de l'index sur les séquences de lecture. Par exemple, nous avons répété la recherche d'index trois fois pour localiser correctement les positions de lecture tout en permettant deux discordances. De même, nous avons répété la recherche d'index ( m + 1) fois, où m est le nombre de discordances par lecture autorisée dans la recherche. Chaque coup d'index est aligné sur la référence afin de rechercher le meilleur emplacement, permettant jusqu'au nombre spécifié de discordances sans espace. L'approche par index est rapide mais ne garantit pas la sensibilité pour des lectures plus courtes que k ( m + 1), où, k est la longueur de l'index. Pour la cartographie de B. subtilis autorisant 35 discordances, nous avons comparé les recherches avec des longueurs d'index de k = 2 et k = 10 afin de confirmer que la différence de résultats est faible ( Tableau supplémentaire S1 ). Nous avons également effectué une cartographie avec BWA et BFAST à l'aide de Tablet (29) pour la visualisation, afin de confirmer que plusieurs algorithmes de cartographie détectent le SSE (données supplémentaires S1). Le programme de visualisation (PSmap) convertit les résultats de mappage en un fichier PostScript. Les programmes, exécutables sur les systèmes Linux (CentOS5.3) et MacOSX (ver. 10.6.6), sont disponibles en téléchargement sur notre site Web ( http://metalmine.naist.jp/maps/ ).

Données publiques

Nous avons analysé plusieurs ensembles de données publiques téléchargées à partir du serveur de base de données SRA du National Center for Biotechnology Information (NCBI). Les numéros d'accession de ces échantillons et les séquences de référence correspondantes sont ERX006616 (NC_02945.3 Mycobactérie bovis AF2122/97), SRX007714 (NC_010079, NC_012417.1 et NC_010063.1 Staphylococcus aureus USA300) et ERX002218 (NC_002929.2 Bordetella pertussis Tohama I).


Résumé

Le séquençage à molécule unique en temps réel développé par Pacific BioSciences offre des longueurs de lecture plus longues que les technologies de séquençage de deuxième génération (SGS), ce qui le rend bien adapté aux problèmes non résolus dans la recherche sur le génome, le transcriptome et l'épigénétique. Le très contigu de novo assemblages l'utilisation du séquençage PacBio peut combler les lacunes dans les assemblages de référence actuels et caractériser la variation structurelle (VS) dans les génomes personnels. Avec des lectures plus longues, nous pouvons séquencer à travers des régions répétitives étendues et détecter des mutations, dont beaucoup sont associées à des maladies. De plus, le séquençage du transcriptome PacBio est avantageux pour l'identification des isoformes de gènes et facilite des découvertes fiables de nouveaux gènes et de nouvelles isoformes de gènes annotés, en raison de sa capacité à séquencer des transcrits complets ou des fragments de longueurs significatives. De plus, la technique de séquençage de PacBio fournit des informations utiles pour la détection directe des modifications de base, telles que méthylation. En plus d'utiliser le séquençage PacBio seul, de nombreux séquençage hybride des stratégies ont été développées pour utiliser des lectures courtes plus précises en conjonction avec des lectures longues PacBio. En général, séquençage hybride les stratégies sont plus abordables et évolutives, en particulier pour les laboratoires de petite taille, que d'utiliser le séquençage PacBio seul. L'avènement du séquençage PacBio a rendu disponible de nombreuses informations qui ne pouvaient pas être obtenues via SGS seul.


Discussion

Les progrès récents des technologies de séquençage offrent la possibilité d'effectuer le séquençage du génome entier de souches de laboratoire rapidement et à faible coût. Cela permet une détection efficace des différences génétiques entre les souches au niveau moléculaire. De plus, les nouvelles technologies de séquençage offrent des opportunités de développer de nouvelles applications et/ou de simplifier grandement des expériences auparavant laborieuses, telles que la détection de mutations ponctuelles. Dans ce rapport, nous avons exploré quelques utilités des méthodes de séquençage de nouvelle génération pour comprendre la biologie d'une bactérie bien étudiée. B. subtilis. Nous avons démontré que la nouvelle plateforme de séquençage par fusil de chasse Solexa, qui lit un grand volume de courts fragments d'ADN, peut être utilisée pour obtenir plusieurs types d'informations génomiques à partir de souches de laboratoire de B. subtilis. Premièrement, cette technologie est facilement applicable pour la détection de mutations. Les séquences génomiques des souches largement utilisées JH642, 168, SMY et NCIB 3610 ont été obtenues, et des mutations connues ainsi que des changements inconnus auparavant ont été identifiés. Ces résultats indiquent que le séquençage direct est une approche très sensible et précise pour détecter les substitutions de base unique. Deuxièmement, nous avons détecté de grandes délétions de 18 kb et 9 kb, ainsi que la délétion d'un seul gène (relA) dans les souches dérivées de JH642. Plus important encore, cette méthode permet l'identification de multiples mutations suppressives dans une souche et fournit donc un outil puissant pour résoudre le problème souvent difficile de l'identification des suppresseurs.

Le séquençage direct en tant que nouvel outil et son amélioration supplémentaire

Un gros effort que nous avons fait lors du traitement des informations de séquence était d'atteindre la précision, en combinant des méthodes d'assemblage de séquences indépendantes (MAQ, SOAP et Edena) pour traiter les lectures de l'analyseur de génome. Nous avons ensuite validé et complété les résultats par un échantillonnage avec séquençage de Sanger et une vérification expérimentale approfondie.

Ébauche mise à jour de la séquence de référence 168

Notre reséquençage du génome de référence 168 a révélé des substitutions de bases �, en plus des insertions et des délétions. Nous avons pu tester la précision des lectures Solexa de plusieurs manières indépendantes et exclure les erreurs de séquençage Solexa comme cause probable de ces différences. Ce n'est pas surprenant car le projet original a été publié il y a plus d'une décennie [4]. De plus, nous avons observé que la perte d'isogénicité entre les isolats indépendants de la même souche n'était pas assez élevée pour expliquer les écarts observés. Nous avons également révélé des régions avec une variance de séquence plus élevée, ce qui est probablement dû à des différences de souches dans les segments d'ADN utilisés dans le consortium de séquençage de 1997 (Danchin A, communication personnelle). Ainsi nous avons conclu que la séquence de référence peut être mise à jour sur la base de nos résultats Solexa (numéro d'accession du projet DDBJ/EMBL/GenBank <"type":"entrez-nucleotide","attrs":<"text":"ABQK00000000","term_id ":"195984424">> ABQK00000000). Cette version n'intègre pas une certaine hétérogénéité que nous avons observée dans les opérons d'ARN ribosomique, car ceux-ci ne pouvaient pas être cartographiés par un simple séquençage au fusil de chasse. En plus de notre brouillon, une mise à jour complète et annotée de la séquence 168 précédemment publiée [4] est en préparation et profitera au B. subtilis énormément la communauté (Danchin A, non publié).

Lire la couverture et CGH

L'hybridation comparative du génome (CGH) est une technologie basée sur les puces à ADN pour étudier les réarrangements génomiques, y compris les duplications et les suppressions dans plusieurs organismes, et a été utilisée pour étudier l'état de réplication de l'ADN chez les bactéries, y compris E. coli et B. subtilis [32],[33]. Lors de l'examen de la couverture de séquence, nous avons constaté que le séquençage direct et le comptage de la couverture de lecture offrent une alternative à l'hybridation par microréseau en tant que méthode CGH (figure 1), contournant les problèmes dus à l'hybridation non spécifique dans les méthodes de microréseau. La couverture de lecture est le nombre de fragments d'ADN courts qui sont lus par l'analyseur de génome, et ce nombre doit être proportionnel au nombre de fragments d'ADN dans une région génomique spécifique présente dans l'ADN d'entrée. La forme de la courbe de couverture de lecture varie en fonction des conditions de croissance et est presque plate pour les cellules en phase stationnaire (figure 1A, C, D, E), indiquant que ces cellules ont un ADN complètement répliqué, comme prévu. Fait intéressant, la couverture est légèrement plus élevée autour de l'origine de réplication et est la plus faible près du terminateur de réplication, probablement parce qu'une petite sous-population de cellules répliquait encore l'ADN. Surtout, dans un échantillon à réplication active (figure 1B, F), nous avons trouvé une couverture de lecture beaucoup plus élevée près de l'origine (à la position génomique 0/4.2 Mbp) plutôt que la région terminale (à la position génomique 2,1 Mbp). À une résolution plus élevée, nous avons remarqué du bruit dans la couverture, correspondant à des contenus AT différents. Nous ne savons pas à quelle étape cet enrichissement spécifique des séquences AT a eu lieu, mais cela peut être potentiellement éliminé si nous utilisons la carte de couverture de phase stationnaire comme référence pour corriger le contenu AT et d'autres variations inconnues. La couverture de lecture donne également des informations précises et à haute résolution sur les délétions, même au niveau d'un seul gène, comme le démontre relA- (Figure 1E, F et en médaillon).

Regroupement de mutations

Nos résultats de séquençage ont révélé des régions avec une forte densité de variations de séquence entre les souches apparentées (Figure S1). Ces régions pourraient avoir surgi de deux manières possibles. Premièrement, ces régions peuvent être hautement mutables. Des régions d'hyper-mutabilité ont été visualisées auparavant [34] et les méthodes de séquençage du génome entier pourraient accélérer la caractérisation de ces changements, facilitant efficacement les efforts pour comprendre les mécanismes de l'instabilité génomique, un facteur important dans la tumorigenèse. Second and more likely, these regions might correspond to DNA of foreign origin. For example, we observed changes clustered in a 4 kb region that were likely to have arisen by horizontal gene transfer during the genetic manipulation to obtain JH642 (Figure S1). These changes are very difficult to find with traditional methods but can be easily identified by plotting the mutation distribution as shown in Figure S1. In addition, we found that the majority of the differences between 168 and SMY were located within a 6.4 kb span that includes the trpC-D-E, aroH-B-F et cheR genes (Figure S1). This heterogeneous cluster was identified previously by the comparison of two laboratory strains (L1437 and JH642) by microarray analysis [35],[36], and is shown to be acquired by horizontal transfer of DNA from a related Bacille strain (Zeigler D, unpublished). We found that the genomic sequences of NCIB 3610 and 168 were highly similar, suggesting that they are closely related, supporting results from an independent study showing that NCIB 3610 is most likely the ancestor of 168 (Zeigler D, personal communication).

There are certain limitations to our current method. For example, while using MAQ to perform variant identification, we eliminated false positives by raising the quality score cutoff to 40. This cutoff score was chosen empirically, by shuffling and randomly dividing the Solexa sequence reads of one genome, calling the sequences independently, comparing independent calls and choosing a score that did not give any discrepancies ( Figure 2 ). We verified that the scores obtained by MAQ were very close to the Phred scores, indicating that score 40 meant that the error rate was 0.01%. If all bases had a score of 40, we would expect � errors per genome (0.01 errors for every 100 bases of the 𢏄 megabase genome). However, since most bases had scores much higher than 40, the final number of errors per genome is much closer to 0. This helped us to limit false positives so that almost all changes that we identified were bona-fide genetic differences. When this cutoff value was lowered, we obtained dramatically increased false positives. However, as a trade-off, we might not have been able to identify certain existing changes that had lower quality scores. It is also possible that the error rate we obtained might be an underestimate if there are systematic errors, although we did not identify any systematic errors while verifying our results by Sanger sequencing. In addition, although our shotgun sequencing originally identified a large number of insertions and deletions, many of these were not included in our current draft sequence since we used a high threshold to prevent the inclusion of false positives. If these changes are real, they are likely to have significant impacts including the disruption of open reading frames, which sometimes results in dominant negative or null alleles. Verification of these changes will lead to further updated versions. Similarly, certain large deletions are also not reflected in our present draft. Our current approach is also insufficient for detecting heterogeneities, such as mutation rates, in a given cell population. This is because the inherent error rate of each read is higher than the spontaneous mutation rate in cells, while each sequence call is based on the majority consensus. Despite these potential limitations, we were able to obtain a considerable number of genetic insights using whole genome shotgun sequencing. Finally, with the improvement of sequence analysis software and wider use of de novo sequence assembly programs, this method can be used to detect additional types of mutations, including DNA rearrangements.

Genome Diversity and Phenotypic Variations between Laboratory Strains

B. subtilis is one of the most extensively investigated Gram-positive bacteria. Microarray-based comparative genomic hybridization (M-CGH) studies have demonstrated that there is considerable genome diversity within naturally occurring populations of B. subtilis strains collected from diverse geographic locations [19]. Much of the diversity was attributed to genes required for phage-related functions or those which were likely acquired by horizontal transfer. Other genes that were found to diverge significantly included those that encoded environmental sensors, detoxifying enzymes and proteins involved in antibiotic production. Essential metabolic functions were mostly encoded by less divergent genes in different populations of B. subtilis. Overall, as many as 28% of the genes in these strains were found to be significantly different from 168. However, between the two cultivated B. subtilis strains 168 and NCIB 3610, M-CGH studies revealed almost no significant sequence divergence [19]. The whole genome sequences of B. subtilis and its close relatives that have evolved in nature are available [37] (http://www.bacillusgenomics.org/bsubtilis).

Using whole genome sequencing to achieve near-complete coverage, we compared, base by base, the differences between related laboratory strains that have 𠆎volved’ in different laboratories, and between independent isolates of several strains. We confirmed that the genomes of 168 and NCIB 3610 have few base differences, and that NCIB 3610 possesses an extra-chromosomal plasmid, that we named pAS32 [19]. We also found that individual isolates of the same strain appear to be quite isogenic, differing by only tens of bases. In particular, two different isolates of JH642 utilized in different laboratories only diverge by 𢏆 bases (The actual difference between the isolates might be even smaller, since we sequenced only a single colony per isolate after streaking it out on LB plates, potentially introducing further mutations). Among these 6 variants, only 3 are missense mutations, and they are in the genes yckJ, phoB and ylmF, which encode a putative L-cystine permease, a secreted protein induced by phosphate starvation, and a hypothetical cell division protein, respectively. We have not examined the possible phenotypic differences resulting from these three missense mutations, and it remains possible that there may not be any phenotypic differences between the two isolates of JH642. Such studies provide a reasonable framework for estimating the reproducibility of experimental results obtained with independently propagated isolates.

We further discovered that several laboratory strains that are reportedly related also display tens to hundreds of base differences and insertions and deletions, including regions of horizontal transfer. Some of the variations we identified lead to phenotypic differences. For example, we discovered a novel defect in the citrate signal transduction pathway of JH642. citS encodes the histidine kinase sensor of a two-component system regulating the transport of citrate into B. subtilis. JH642, unlike its ancestral strains, has a loss of function mutation in citS, leading to the inability to utilize citrate as a carbon source. The revelation and our subsequent experimental verification of this defect demonstrate the power of whole-genome sequencing.

Tripartite Genetic Interaction between (p)ppGpp Synthases in B. subtilis

B. subtilis is a powerful model system to identify genetic pathways. One common approach to identify components of a given genetic pathway is through genetic modifier screens- enhancer and suppressor screens. However, identification of the molecular nature of the mutations obtained in a genetic screen is often laborious. Furthermore, in some cases, it can be difficult to identify mutations using traditional genetic mapping for example, in the absence of an expression library or when the phenotype observed is due to the combinatorial effect of multiple mutations rather than one mutation alone. The potential difficulty due to multiple suppressors can be easily resolved with whole-genome sequencing, as we have demonstrated by identifying in a single strain, two relA- suppressor mutations in the relA homologues yjbM et ywaC.

Dans B. subtilis, the pre-existing paradigm for stringent control was that a single synthase/hydrolase of (p)ppGpp, the RelA protein, modulated the stringent response to nutritional stress [30]. Using whole-genome sequencing, we found that within one B. subtilis relA- strain, two suppressor mutations spontaneously arose, each mapping to a different homolog of relA and contributing to the partial recovery of growth. Multiple suppressors of relA- which are generated independently and spontaneously had mutations that mapped almost exclusively to ywaC et yjbM. These two small homologs of RelA were independently identified using bioinformatics approaches in Streptocoque mutant et B. subtilis and possess only the synthesis, but not the hydrolysis and regulatory activities of RelA [10],[11]. Our results demonstrate strong genetic interactions among the three genes, and that RelA, rather than acting alone, acts in concert with these two other (p)ppGpp synthases ( Figure 7A ). Suppression de relA abolishes the cells' ability to degrade (p)ppGpp, thus leading to poor growth likely because they produce too much (p)ppGpp rather than too little. This growth defect might subsequently trigger mutations in yjbM et ywaC, which encode (p)ppGpp synthases. Finally, the strain evolves to eliminate (p)ppGpp synthesis activity, and is not as viable as a wild type strain that has all three genes, but nonetheless attains a strong growth advantage with respect to the relA- souche. Intriguingly, (p)ppGpp is virtually undetectable both in the relA-* suppressor strain and the relA- deletion strain (data not shown) [30], by thin layer chromatography (TLC), likely because relA- cells possess levels of (p)ppGpp that are below the limit of detection of TLC. In addition, within a population of relA- cells, individual cells that accidentally produce (p)ppGpp will not be able to degrade it and therefore will fail to grow and divide, resulting in a further diluted level of the nucleotide in a population. Our results do not rule out the possibility that RelA interacts directly with YjbM and/or YwaC to modulate their function and prevent any deleterious effects caused by their unregulated activity.

UNE). Metabolism of (p)ppGpp in B. subtilis. (p)ppGpp is synthesized by the enzymes YjbM, YwaC and RelA, but degraded only by RelA. B). Metabolism of (p)ppGpp in E. coli. (p)ppGpp is synthesized by the enzymes RelA and SpoT, but degraded only by SpoT.

A comparison can be made with E. coli, where (p)ppGpp is synthesized by two proteins, RelA and SpoT ( Figure 7B ). RelA produces (p)ppGpp, and SpoT can both produce and hydrolyze (p)ppGpp. Les endroit- strain is not viable and can only be relieved by relA- mutations, while relA- alone is viable. Similarly, in B. subtilis, relA- is relieved by yjbM- et ywaC- mutations. B. subtilis diffère de E. coli in having two enzymes that purely synthesize (p)ppGpp ( Figure 7A ). Therefore, loss of function of either enzyme alone is not sufficient to relieve the effect of loss of RelA hydrolase activity. Our experiments support an emerging paradigm that Gram-positive bacteria utilize three enzymes for (p)ppGpp production and/or degradation, all of which perhaps play important roles in bacterial stress responses [10],[11].

The tripartite genetic network that controls (p)ppGpp levels determines the evolutionary landscape that leads to the generation of multiple suppressors. Conversely, the pathways that generate suppressors can reveal the evolutionary landscape of an organism and subsequently illuminate its cellular infrastructure [38],[39]. La grande majorité de relA- suppressor strains have mutations in yjbM ou ywaC, and almost all colonies eventually develop mutations in both genes. The occurrence of dual mutations is likely due to strong evolutionary pressure for increased fitness, and hence is a natural consequence of the tripartite regulation. The nature of this evolutionary landscape supports genetic interactions that involve three loci, instead of the more traditional module of two loci like endroit et relA dans E. coli. Similar regulatory networks involving more than two gene loci are likely to be more common than previously believed and whole-genome sequencing is a powerful tool to uncover such systems.

Close examination of the molecular nature of the suppressive genomic changes indicates that there is no obligatory cascade of mutagenic events that is triggered by relA deletion ( Tables 4 , ​ ,5). 5 ). Diverse types of mutations arise, including insertions, deletions, and different types of point mutations (both transitions and transversions), which are likely mediated by different mechanisms. We did notice that mutations in ywaC seemed to involve a higher incidence of deletions, although larger sequencing-based sampling is required before a conclusion can be drawn. Alleviation of the relA- growth defect does not require concurrent mutations in yjbM et ywaC, but can be achieved by sequential inactivation of these genes ( Figure 5B ). This result confirms the ability of bacteria to manipulate their genomes quickly to generate mutations that counter an unfavorable genetic change. The process of stress-induced mutagenesis is likely behind this plasticity [40]. Intriguingly, (p)ppGpp is strongly implicated in the mechanism of stress-induced mutagenesis and it is thought that genes whose transcription is up-regulated by (p)ppGpp are more susceptible to (p)ppGpp-induced mutagenesis [41],[42]. Sommes yjbM et ywaC such genes and therefore specifically targeted for mutagenesis? What are the respective roles of YjbM, YwaC and RelA in sensing separate environmental stresses? These are intriguing questions that remain to be elucidated.


The POSSIBLE Gamma Squeeze (No we don't 'need' it, its POSSIBLE though)

I know you are tired of hearing claims about the ‘the next big squeeze’, but hear me out. BN-GO's stock price has literally gone >90% up from May 13th yet the short interest augmenté by over 6M shares. With the open interest of calls' outweighing the puts' open interest massively and expiration on June 18th, if the stock price keeps rising, we COULD see ATHs extremely fast.

I believe there is a possibility for a gamma and/or short squeeze if the stock can either hold where it is now or continue the move higher mostly because as you will soon learn, many shorts have an average price of <$7 and lower, et le margin calls are no doubt coming if this continues to run. Price target is at the very least all-time-highs but we could see >$30 easily (imo) if the word actually gets out on how auspicious of an opportunity this may be.

To my understanding there are a few main things that are needed for a gamma squeeze & reasons why this may happen -

Short dated expiration call options that far outweigh puts

"A gamma squeeze can happen when there’s widespread buying activity of short-dated call options for a particular stock. This can effectively create an upward spiral in which call buying triggers higher stock prices, which results in more call buying and even higher stock prices." - Source - This is exactly what we have seen the last few days yet the shorts seem to think they will be successful in pushing the price lower based on the dramatic increase of nearly 6M shares in the short interest count in less than two weeks WITH the price going nearly 2x in less than a month!

A high short interest only increases the proclivity for gamma squeezes to occur. In BN-GO's case, the short interest has only increased since May 13th when the share price was $4.41, now we are seeing an SI of the SO of around 15% or 41.5M shares according to Ortex data -

5. Open interest of call options compared to puts is absolutely overwhelming, along with the volume. This means that people are buying and holding way more calls than puts, betting on the stock price going higher before June 18th, ten days from typing this. Not only is this bullish short term but it fits an important requirement for a gamma squeeze - more calls than puts being bought.

Market Manipulation in BN-GO's Stock Price? -

Market manipulation is essentially proven (to the degree of proof goes with MM, not provable in a court of law, but nonetheless it has happened and is still happening imo) and here are some reasons why I believe market manipulation has and is occurring in BN-GO's price action -

Trajectory of price action since Feb. 16th is nearly identical (until this week) with the majority of high growth stocks. Yet the fundamental exponential increase in value that Bio-nano Genomics has experienced over the course of 4 months is not something that many stocks have. The SI increase and FTD increase along with naked shorting (imo) would explain this. Find me a stock that has increased in fundamental value as much as BN-GO has since February 16th with a similar chart. Bonne chance.

Here are the catalysts and fundamental value increases in the stock price that I can name of the top of my head that all are between February 16th and May 25th-

CEO and 3 C-suite members getting LEAPS with share exercisability valuing in the hundreds of millions WITH an exercise price of $7.83 which is NEAR the current and then stock price, announcement of 5 studies that in the company's own words would act as important marketing events that would likely lead to increased sales,

CFO projection of 'substantial double-digit revenue growth' along with his 20-40% YOY operating expense increase projection for the 'next few years' (According to own company estimates as far as sales and adoption profitability chances based on their numbers are likely to come at least one year before analysts are projection ((imo)),

MORE bullish insider transactions in the form of the CMO picking up more LEAPS after her original one mentioned above,

CEO and COO being awarded tens of millions of dollars in profit in the form of hundreds of thousands of shares 840k to be exact and as of now they have not sold any,

New EXTREMELY innovative product confirmation-nanonozzle (imo), added to MSCI index, confirmation of several large sales - Sequencing Coming to Bio-nano, United States Patent: 10995364

Several studies proving 100% concordance and increased accuracy of their main product compared to 'gold standard' of the market this company is trying to disrupt,

HUGE institutional ownership increase, from around 4-5% at lows up to 15.60% currently.

Announcement of five large clinical studies with the most important one (NIPT) coming out this year. These are likely to increase academic praise of Saphyr and increase sales in the aggregate.

Three (1 was extremely recent, so do not count it if you do not want to) China Saphyr adoptions totaling almost 1M in revenue.

Countless Saphyr adoptions and installations (see ER webcast replay)

Saphyr 2.0 prototype in Q4 2021 confirmation

Announcement of $450-$550 per genome to be reduced to $100 per genome by end of 2023 or sooner.

CEO Asked about TAM, “So in cytogenetics, broadly speaking, there's roughly 2,500 labs worldwide. Probably somewhere between 2 million samples per year being processed for this type of molecular pathology. And overall, that represents somewhere in the neighborhood of a $3 billion to $3.5 billion market for us. That includes some of the research market as well. But it's something that I would really emphasize for these investors who are asking questions is that that's the market that is right in front of us today. And with the technology accelerating capabilities as quickly as it is, being used in research to discover new applications, the total market opportunity for optical genome mapping goes well beyond that low single-digit billion number, and it's substantially larger. It's harder for us to quantify it specifically because some of the applications haven't even been developed, others are still on the come.” - Erik ------- THIS MEANS THAT the CEO thinks the TAM of BN-GO is 'substantially larger' than the current 3-3.5B estimate BECAUSE there are applications of optical genome mapping that 'have not even been developed'.

There are a myriad more listed in this document, ctrl f for best results or see 'Market Manipulation' section.

Why BN-GO is Fundamentally Undervalued-

A higher life expectancy for everyone in the aggregate along with a better quality of life is what would happen should their goal of 'global Saphyr adoption be effectuated. ɼhemotherapeutic drug enhancements' is one of many of the revolutions that we could see specifically because of what this company does. Paraphrasing the CEO, 'we believe that the next big wave of innovation in Biology will derive from optical genome mapping', which is what BN-GO's Saphyr does-optical genome mapping, and they do it better than anyone. According to the company itself, >500bp detection in SVs with Saphyr compared to the CMA, FISH, and KT competition is cost effective, requires less hands on time, and has a faster turnaround time. Not to mention it has more accurate readings and has less false positives. LOH and SNV detection are said to be in the works, currently zero of the three competing methods can detect these. Nor can FISH, CMA, or KT detect the wide range of variant classes Saphyr can.

With this knowledge, one wonders why Saphyr has not already been adopted in all 2,500 cytogenetic labs, most of this can be attributed to resistance of change and relatively low academic praise and exposure of Saphyr's capabilities, but with FIVE large clinical studies in the works on NIPT, postnatal screening, hematological malignancies in leukemia and lymphomas, and solid tumor research, that is sure to change all in due time. Not to mention cost per genome reducing from $450-$550 currently to $100 by at maximum 2023 (Saphyr is already cost effective, just imagine how cheap it will be compared to other methods once the price more than halves per genome). Throughput to increase by 14x from the already immense maximum of 5000 genomes per year with the current Saphyr system. Throw in in the nanonozzle release that 'may' include SNV detection and will ɿill in the gaps of what current NGS is missing', and one has a strong case to make that this company will revolutionize healthcare and the entire genomic sector as we know it.

My Plan & Position For Transparency Reasons -

My goal is 10k shares in total by the end of summer. I will certainly have 10k BN-GO shares by EOY. I will hodl and add for years as this is not only auspicious short term but potentially even more lucrative for long term investors (imo).

I will be adding shares this month and would not be surprised if I have >2k shares soon.

TLDR: BN-GO has a high chance (imo) of gamma squeezing and short squeezing all the way to ATHs and beyond. Add in the fact that we are fundamentally undervalued and have definitely been manipulated for months and are finally starting to see the tables turn and you have a case that this is long term hodl.

TLDR for the TLDR: BN-GO go moon this week, invest soon or fomo in at >$10, then >ATHs