Informations

Optimisation équilibrée ou maximisée des codons

Optimisation équilibrée ou maximisée des codons


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

J'ai travaillé avec l'optimisation de plusieurs protéines virales, de différents virus/familles, avec des résultats différents.

Lorsque Menzella, 2011 a été publié, j'ai essayé cette méthode. J'ai trouvé le résultat tout à fait contraire, en ce sens que la randomisation a fait beaucoup moins bien que la maximisation directe de l'utilisation des codons. J'ai poussé cela jusqu'à travailler dans le contexte d'une infection virale (bien que cela soit également vrai dans l'expression transitoire de la transfection de plasmide sous la promotion du CMV).

J'ai été très enthousiasmé par l'article de Pechmann et Frydman sur la nature qui a souligné l'importance de l'emplacement du codon dans la protéine lorsqu'il s'agit d'une sélection de codon optimale ou sous-optimale. Curieusement, nous avons pu déployer ces informations avec plus de succès avec la désoptimisation délibérée d'une protéine.

L'association d'une connaissance de l'emplacement, le dépistage de la structure secondaire, puis la maximisation de l'optimisation des codons ont donné les meilleurs résultats depuis plus d'un an. Par maximisation, j'entends choisir le codon le plus optimal dans chaque instance qui ne viole pas :

  1. Sites de restriction nécessaires
  2. Structure secondaire prédite
  3. Dégradé d'emplacement dans une moindre mesure (ibid.)

C'est bien beau, mais nous avons eu des problèmes avec le fournisseur préféré de mon institution pour la synthèse de gènes. Un post-doctorant qui vient de rejoindre mon laboratoire a recommandé une entreprise dont je n'avais jamais entendu parler auparavant, et ils ont proposé une stratégie d'optimisation que je n'avais jamais envisagée auparavant. Au lieu de maximiser l'optimisation des codons, ils proposent une optimisation des codons « équilibrée » qui correspond à la distribution normale des codons dans l'organisme cible.

Par exemple, le biais de codon pour l'alanine chez l'homme se décompose (approximativement) comme suit :

  1. CCG 65%
  2. CG 20%
  3. GCA 11%
  4. GCG 4%

Contrairement à une stratégie de maximisation qui chercherait à utiliser « GCC » dans la mesure du possible et uniquement lorsqu'il y avait un problème de passage à « GCT », la stratégie équilibrée chercherait à reproduire la distribution ci-dessus aussi fidèlement que possible.

Quelqu'un a-t-il essayé une approche de codon équilibrée, en particulier par rapport à une technique de maximisation ? Mon objectif global est de maximiser l'expression d'une protéine qui s'exprime naturellement mal. Je sais que la maximisation directe peut parfois conduire à une mauvaise expression pour diverses raisons (structure secondaire souvent fatale), mais il semble que cela augmenterait à peine l'expression.

Je serais davantage intéressé si quelqu'un d'autre avait une expérience dans un contexte viral.

Je sais qu'il y a eu quelques questions connexes, principalement dans le contexte d'E. Coli. Je ne pense pas qu'il s'agisse d'un doublon, mais je serais prêt à le supprimer s'il est considéré comme tel. Si je rencontre des fonds supplémentaires, je peux tester cela de manière empirique, mais souvent, lorsque j'essaie un tel test, ce n'est que par rapport à 2-3 protéines, ce qui peut ne pas être représentatif.


L'optimisation de l'utilisation des codons est encore à peu près heurestique. Le facteur le plus commun que nous pensons être important dans E. Coli est :

  • optimisation des gènes hautement exprimés, c'est-à-dire maximisation de l'indice d'adaptation des codons http://www.ncbi.nlm.nih.gov/pubmed/19359587/
  • garder le contenu GC optimal http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0107319
  • ne pas introduire de motifs qui sont en quelque sorte préjudiciables, par ex. enzymes de restriction, ou certains dinucléotides http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0056642
  • adaptation à l'ARNt disponible http://www.plosone.org/article/info:doi/10.1371/journal.pone.0007002
  • minimisant l'énergie de pliage (dans les 30 premiers codons environ) et minimisant la quantité d'épingles à cheveux à l'extrémité 5' http://www.sciencedirect.com/science/article/pii/S0014579305010719
  • optimisation du « contexte du codon », par ex. dicodons mais aussi en utilisant des codons non optimaux entre la structure secondaire pour un repliement plus précis http://www.ncbi.nlm.nih.gov/pubmed/15772378
  • l'optimisation de l'équilibre des codons et aussi peut-être l'introduction d'une « rampe de codons lents » au début d'un gène pour éviter les « embouteillages » de ribosomes par la suite. http://www.ncbi.nlm.nih.gov/pubmed/20403329

C'est très probablement un mélange de tout ça.

Avis de non-responsabilité : nous travaillons sur une stratégie d'optimisation des codons pour e.coli/yeast/hela et cela fonctionne dans e. coli mais n'a pas encore été testé dans des cellules humaines. Si vous voulez prendre une photo de loin, envoyez-moi simplement un message et nous pourrions l'essayer. En dehors de cela, je vous proposerais également de jeter un œil à votre séquence et de voir s'il y a quelque chose d'"étrange" du point de vue de l'utilisation des codons et ce que je pense être la meilleure stratégie d'optimisation.


Dans une comparaison côte à côte de 3 protéines virales (2 de paramyxoviridae, 1 de caliciviridae) chacune avec un biais de codon "maximisant" et "apparié", nous avons trouvé que la version "maximisée" produisait plus de protéines que la version "apparie" dans chaque cas. Les niveaux de protéines ont été quantifiés via Western et flow, les lignées cellulaires testées étaient 293T, HEp2 (contamination HeLa) et Vero.

Ce n'est certainement pas un test assez large pour n'importe quel type de déclaration générale, c'est juste ce que nous avons trouvé. Je pense que cela prendra un laboratoire de bio-cellule ou de micro-bio pur pour étudier complètement. Nous sommes dans le domaine des maladies infectieuses, et cette question serait hors sujet de l'article. Si nous pouvons trouver un moyen de l'intégrer dans une publication, nous le ferons.

Je vais accepter la réponse de Jan car elle contient plus d'informations sur l'optimisation, mais avec cette réponse en place pour :

  1. Abordez ce que nous avons observé.
  2. Notez que Jan's n'offre aucune information sur la "correspondance" du biais de codon de l'hôte cible (à part peut-être que l'optimisation est heuristique).

Omics ! Omics !

Il y a un article très intéressant dans Science d'il y a une semaine qui me rappelle mes journées de synthèse de gènes à Codon. Mais d'abord, un peu de contexte.

Le code génétique (en première approximation) utilise 64 codons pour coder 21 signaux différents, d'où le choix du codon à utiliser. Les acides aminés et stop peuvent avoir 1,2,3,4 ou 6 codons dans le schéma standard des choses. Mais, ces codons sont rarement utilisés avec une fréquence égale. La leucine, par exemple, possède 6 codons et certains sont rarement utilisés et d'autres souvent. Quels codons sont préférés et défavorisés, et le degré auquel cela est vrai, dépend de l'organisme. À l'extrême, un codon peut en fait disparaître tellement en disgrâce qu'il s'éteint et ne peut plus être utilisé, et parfois il est plus tard réaffecté à autre chose, d'où certains des codes les plus ordonnés de certains organismes.

Une autre observation est que les codons les plus favorisés correspondent à des ARNt plus abondants et les moins favorisés à des ARNt moins abondants. De plus, les gènes fortement exprimés sont souvent riches en codons privilégiés et ceux faiblement exprimés sont beaucoup plus susceptibles d'utiliser des codons rares. Pour compléter le tableau, dans des organismes tels que E. coli, il existe des gènes qui ne semblent pas suivre le schéma habituel - et ceux-ci sont souvent associés à des éléments mobiles et à des phages ou suggèrent qu'ils peuvent être des acquisitions récentes d'une autre espèce. .


  • Maximisation CAI. CAI est une mesure de l'utilisation des codons préférés. Cette stratégie essaie de maximiser la statistique en utilisant les codons les plus préférés. Logique : si ce sont les codons les plus préférés, et que les gènes hautement exprimés en sont riches, pourquoi ne pas faire de même ?
  • Échantillonnage de codons. Cette stratégie (c'est ce que Codon Devices proposait) échantillonne à partir d'un ensemble de codons avec des probabilités proportionnelles à leur utilisation dans l'organisme, après avoir d'abord mis à zéro les codons très rares et renormalisé le tableau. Logique : éviter les rares, mais ne pas marteler les meilleurs sinon l'équilibre est toujours bon
  • Optimisation des dicodons. En plus des codons montrant des préférences, il existe également un modèle par lequel les codons adjacents s'apparient de manière légèrement non aléatoire. Un exemple particulier de codons très rares est très peu susceptible d'être suivi d'un autre codon très rare. Logique : approche encore meilleure de « quand à Rome ».
  • Correspondance de fréquence de codons. En gros, cela signifie regarder l'ARNm natif et ses utilisations de codons et singez ceci dans l'espèce cible, un codon qui est rare dans l'indigène devrait être remplacé par un rare dans la cible. Logique : certains codons rares peuvent simplement aider à plier les choses correctement

Il existe de nombreuses publications sur l'optimisation des codons, et la plupart d'entre elles souffrent du même défaut. La plupart des articles décrivent le fait de prendre un ORF, de le re-synthétiser avec un schéma d'optimisation particulier, puis de comparer les deux. Un problème avec cela est le petit N et le potentiel de biais de publication (les gens publient-ils moins fréquemment lorsque cela ne fonctionne pas ?). De plus, il se pourrait bien que le design resynthétisé ait changé quelque chose d'autre, et l'optimisation des codons est vraiment sans importance. Quelques articles s'écartent de ce plan et la communauté de la génomique structurelle a suggéré d'étudier leurs données (car elles ont souvent optimisé les codons), mais les études systématiques ne sont pas courantes.

Maintenant, dans Science vient le genre de papier qui commence à être systématique

En bref, ils ont généré une bibliothèque de variants de GFP dans lesquels le codon particulier utilisé a été modifié de manière aléatoire, puis les ont exprimés à partir d'un vecteur d'expression standard dans E. coli. Le résumé de leurs résultats est que l'utilisation des codons n'était pas en corrélation avec la luminosité de la GFP (expression), mais que le facteur clé est l'évitement de la structure secondaire près du début de l'ORF.

C'est une bonne approche, mais une question est de savoir dans quelle mesure le résultat est général. La GFP est-elle une protéine spéciale d'une manière ou d'une autre ? Pourquoi les rares souches exprimant l'ARNt aident-elles parfois à l'expression des protéines ? Et surtout, cela s'applique-t-il au sens large ou est-il spécifique à E. coli et à ses proches ?

Ce dernier point est important dans le cadre de certains projets. E.coli et Saccharomyces ont leurs préférences en matière de codons, mais si vous voulez voir une préférence extrême, regardez Streptomyces et ses parents. Ce sont d'importants producteurs d'antibiotiques et d'autres médicaments naturels, et il s'avère que le tableau d'utilisation des codons est facile à retenir : il suffit d'utiliser G ou C en 3ème position. Chez une espèce que j'ai examinée, environ 95% de tous les codons suivaient cette règle.

Cela a pour effet de rendre la teneur en G+C de l'ORF entier assez élevée, ce qui engendre d'autres problèmes. Un ADN G+C élevé peut être difficile à assembler (ou à amplifier) ​​par PCR et il se séquence mal. De plus, un choix aussi limité de codons signifie que tout ce qui ressemble à une répétition au niveau de la protéine créera une répétition au niveau de l'ADN, et même des répétitions très courtes peuvent être problématiques pour la synthèse des gènes. De longues séries de G peuvent également être problématiques pour les synthétiseurs d'oligonucléotides (du moins on m'a dit). Du point de vue d'une entreprise, c'est également un problème parce que les clients ne s'en soucient pas vraiment et ne comprennent pas pourquoi certains gènes sont plus chers que d'autres.

Alors, la même stratégie fonctionnerait-elle chez Streptomyces ? Si tel est le cas, on pourrait éviter de synthétiser des gènes hyper-G+C et opter pour des gènes plus équilibrés, réduisant les coûts et le temps de production des gènes. Mais, quelqu'un aurait besoin de faire le saut et de répéter la stratégie de Kudla et al dans certains de ces organismes cibles.


Pourquoi GenSmart™ Codon Optimization

  • Accessibilité: Outil en ligne gratuit en un seul clic pour votre séquence optimale
  • Analyse factorielle complète: Plus de 200 facteurs examinés et validés
  • Informatique avancée: Algorithme immunitaire de population breveté pour assurer le meilleur rendement
  • Basé sur une séquence individuelle: Calcul hautement personnalisé pour éviter les biais d'allocation de poids sur des facteurs clés
  • Commande facile: Intégration transparente avec le système de devis instantané GenSmart™

Nous faisons plus que l'optimisation de codons

Qu'est-ce que l'optimisation des gènes ?

L'optimisation des gènes tire parti de la dégénérescence du code génétique. En raison de la dégénérescence, une protéine peut être codée par de nombreuses séquences d'acide nucléique alternatives. La préférence des codons (biais d'utilisation des codons) diffère dans chaque organisme et peut créer des défis pour l'expression de protéines recombinantes dans des systèmes d'expression hétérologues, entraînant une expression faible et peu fiable. Cela peut également être vrai pour l'expression autologue, car les séquences de type sauvage ne sont pas nécessairement optimisées pour le rendement d'expression mais aussi pour la dégradation, la régulation et d'autres propriétés.

Cependant, l'optimisation des codons n'est pas le seul facteur pertinent pour une expression efficace des protéines.

Notre algorithme GeneOptimizer permet une véritable optimisation multiparamétrique, traitant un grand nombre de paramètres liés aux séquences impliqués dans différents aspects de l'expression des gènes, tels que la transcription, l'épissage, la traduction et la dégradation de l'ARNm. Il considère tous les paramètres d'optimisation pertinents en une seule opération et fournit une séquence d'ADN configurée selon vos spécifications, optimisée pour des performances maximales dans votre système (Tableau 1).

Peser rationnellement la combinaison des paramètres d'optimisation (par exemple, adaptation de codon, ARNm de novo synthèse et stabilité, efficacité de transcription et de traduction) est important pour obtenir l'expression la plus efficace d'une protéine donnée.

Figure 1. Présentation schématique de l'expression des protéines.

  • Contenu GC
  • Sites d'épissage consensuels
  • Sites d'épissure cryptiques
  • séquences SD
  • Boîtes TATA
  • Signaux de terminaison
  • Sites de recombinaison artificielle
  • Motifs d'instabilité de l'ARN
  • Sites d'entrée ribosomiques
  • Séquences répétitives
  • Utilisation des codons
  • Sites poly(A) prématurés
  • Sites d'entrée ribosomiques
  • Structures secondaires

Un autre avantage des séquences synthétiques est que vous ne dépendez pas des modèles d'ADN disponibles et que vous pouvez concevoir votre séquence exactement selon vos besoins. Ajoutez ou supprimez des sites de restriction, des codons de démarrage/arrêt, des balises et d'autres motifs selon les besoins.

L'optimisation des séquences à l'aide du logiciel GeneOptimizer est incluse en tant qu'étape facultative avec tous les services de synthèse de gènes et de fragments d'ADN GeneArt™. Pour profiter de ce service, sélectionnez votre hébergeur d'expression lors de la mise en place d'une demande via notre portail client en ligne. Le logiciel en ligne vous guidera ensuite tout au long du processus de configuration du projet, y compris l'optimisation de la séquence. Les performances optimisées qui en résultent, décrites ci-dessous, ne sont qu'une valeur ajoutée supplémentaire de GeneArt DNA.

Comment ça marche?

L'optimisation des gènes avec la technologie GeneOptimizer s'effectue facilement en quelques minutes à l'aide de notre portail client en ligne. Concevez votre gène synthétique en téléchargeant votre séquence, en sélectionnant votre système d'expression et en spécifiant votre vecteur de clonage et les détails de votre séquence (y compris les cadres de lecture ouverts, les régions non traduites et les sites de clonage). Une fois que vous avez soumis votre demande, le logiciel GeneOptimizer génère la séquence d'ADN qui correspond le mieux à vos besoins de recherche, en tenant compte de tous les paramètres pertinents pour l'organisme hôte donné ainsi que de vos exigences de séquence individuelles.

Preuve que ça marche

Nous avons mené plusieurs études internes et de nombreux clients ont signalé de manière indépendante que l'optimisation des codons et des séquences GeneArt entraîne une expression plus élevée des protéines sans perte de fonction des protéines.

Dans une étude unique en son genre [1], cinq classes de protéines importantes ont été sélectionnées pour l'optimisation : les protéines kinases, les facteurs de transcription, les protéines ribosomiques, les cytokines et les protéines membranaires. Ensuite, 50 gènes humains ont été choisis dans la base de données NCBI pour représenter les cinq classes de protéines. Les gènes sélectionnés ont été optimisés individuellement à l'aide de l'algorithme GeneOptimizer [2]. A titre de comparaison, les gènes de type sauvage correspondants ont été sous-clonés en utilisant des séquences natives disponibles dans la base de données NCBI. Chaque gène a ensuite été exprimé en triple dans des cellules HEK293T. Après optimisation, les 50 gènes ont tous montré une expression fiable et 86% ont présenté une expression élevée (exemple sur la figure 2). Une analyse plus poussée n'a montré aucun effet néfaste sur la solubilité des protéines, et la fonctionnalité n'a pas été altérée, comme démontré pour JNK1, JNK3 et CDC2 (données non présentées).

En utilisant l'algorithme GeneOptimizer, dans cette étude :

  • 86% des gènes optimisés ont montré une expression protéique significativement augmentée
  • Les rendements en protéines ont augmenté jusqu'à 15 fois avec des gènes optimisés
  • 100 % des gènes optimisés ont été exprimés, contre 88 % des gènes de type sauvage

Figure 2. Analyse comparative de l'expression des gènes de type sauvage par rapport aux gènes optimisés représentant différentes classes de protéines. (A) Les surnageants de culture cellulaire (pour les protéines sécrétées) ou les lysats cellulaires (toutes les autres protéines) ont été analysés par western blot en utilisant un anticorps anti-His. Un exemple de chaque classe de protéine est montré. Une protéine de 60 kDa utilisée pour standardiser la quantité de protéine est visible, y compris dans les témoins négatifs du vecteur vide. A gauche de chaque image : valeurs de masse moléculaire en kDa. A droite de chaque image : identifiants de bandes de protéines spécifiques. (B) Les niveaux d'expression relatifs ont été dérivés pour les constructions de type sauvage ou optimisées (moyenne de trois transfections indépendantes). Le facteur d'augmentation de l'expression pour la construction optimisée est indiqué pour chaque protéine. Il n'y avait pas d'expression détectable pour IL-2 en utilisant la construction de type sauvage. (Figure adaptée de Fath et al., 2011 [1]).

figure 3 illustre un autre exemple d'augmentations observées des rendements en ARNm et en protéines de la protéine gag du VIH après optimisation de la séquence à l'aide du logiciel GeneOptimizer.

Pour démontrer la valeur du logiciel GeneOptimizer, nous avons comparé l'expression des protéines de séquences optimisées par différents fournisseurs. Les gènes de trois kinases humaines différentes ont été optimisés et synthétisés en interne ou optimisés et synthétisés de manière similaire par cinq concurrents différents. Des études d'expression en triple dans des cellules HEK293 ont montré non seulement que l'optimisation GeneArt augmente l'expression par rapport aux gènes de type sauvage, mais également qu'elle fonctionne mieux que n'importe lequel des cinq algorithmes d'optimisation des concurrents dans tous les cas (Figure 4).

Figure 4. Niveaux d'expression des gènes de type sauvage et des mêmes gènes optimisés par la technologie GeneArt et cinq concurrents. Les valeurs d'expression relative des protéines sont normalisées par rapport à la séquence GeneArt respective.


Discussion

Capturer les modèles d'utilisation de codons préférés

Des études d'optimisation de codons antérieures ont recommandé l'utilisation de gènes à haute expression pour concevoir le gène recombinant pour une expression hétérologue efficace [12, 13, 34]. Dans l'analyse des modèles d'utilisation des codons, la distinction significative dans les distributions ICU et CC entre les gènes hautement exprimés et les autres gènes a corroboré la pertinence d'identifier les gènes à haute expression pour caractériser les modèles d'utilisation des codons préférés. Il est à noter que bien qu'il existe des informations sur l'utilisation des codons facilement disponibles dans la base de données d'utilisation des codons (http://www.kazusa.or.jp/codon/) [35], ces données peuvent ne pas être utiles en tant que filtrage préalable des gènes fortement exprimés. n'a pas été effectuée. De telles données d'utilisation des codons peuvent refléter un certain degré de préférence pour les codons « rares », conduisant ainsi à une faible expression des gènes [36].

Plusieurs options sont disponibles pour quantifier les modèles d'utilisation des codons. Dans cette étude, nous avons adopté la méthode de traitement des distributions ICU et CC comme un vecteur de valeurs de fréquence pour capturer l'abondance relative des codons individuels et des paires de codons. Une méthode antérieure bien connue pour quantifier le biais d'utilisation des codons est l'indice d'adaptation des codons (CAI). Le CAI a été largement utilisé pour l'optimisation des codons en raison de sa corrélation observée avec l'expressivité des gènes [34]. Cependant, en concevant un gène par la maximisation de CAI, la séquence codante résultante deviendra une conception « un acide aminé - un codon » où CAI = 1,0. Cette conception de séquence peut ne pas être souhaitable car la surexpression de ce gène peut entraîner un épuisement très rapide des ARNt apparentés spécifiques entraînant un déséquilibre du pool d'ARNt, ce qui peut à son tour entraîner une augmentation des erreurs de traduction [37]. Dans cet aspect, la mesure de fitness ICU sera un meilleur critère de performance que CAI puisque la première permet d'inclure un petit nombre de codons rares dans la séquence finale. De plus, le calcul du CAI, tel que décrit dans son article original [34], est intrinsèquement basé sur l'utilisation individuelle des codons et n'a pas la capacité de tenir compte de l'appariement des codons. Par conséquent, les informations capturées par l'aptitude CC ne peuvent pas être reflétées dans la valeur CAI.

Par conséquent, l'approche proposée d'optimisation des codons en fonction des distributions complètes ICU et CC des gènes hautement exprimés sera appropriée pour atténuer le problème du déséquilibre du pool d'ARNt lorsque la cellule est induite à surexprimer le gène cible. En tant que tel, le concept de CAI n'a pas été pris en compte dans cette étude car cette valeur unique ne saisit pas les détails des distributions ICU et CC.

Autres problèmes potentiels liés à l'efficacité du CCO

Il a été démontré que l'utilisation des codons affecte la précision et la vitesse de traduction [38, 39]. Par conséquent, le concept de la mise en œuvre de CCO est d'identifier des appariements de codons favorables qui peuvent conduire à un processus de synthèse protéique plus efficace. Notamment, un cadre d'optimisation basé sur la modélisation dynamique de la traduction des protéines a été récemment développé pour identifier les emplacements de codons appropriés pour améliorer la vitesse d'élongation de la traduction [40]. Bien que cette méthode fournisse une compréhension mécaniste de la façon dont le choix des codons affecte l'efficacité de la traduction, elle nécessite un modèle cinétique de traduction des protéines et des taux d'élongation spécifiques aux codons qui peuvent ne pas être facilement disponibles pour les organismes autres que E. coli comme le montrent les études précédentes [32, 41]. Par conséquent, CCO peut être une meilleure alternative car il peut atteindre l'objectif d'améliorer l'efficacité de la traduction tout en ayant l'avantage d'utiliser des informations, y compris les données de séquence génomique et d'expression génique, qui sont facilement accessibles dans les bases de données publiques telles que Gene Expression Omnibus (http: //www.ncbi.nlm.nih.gov/geo/) et GenBank (http://www.ncbi.nlm.nih.gov/genbank/). Incidemment, il y avait des preuves suggérant que l'initiation de la traduction plutôt que l'allongement est l'étape limitant la vitesse [42]. Néanmoins, les séquences générées par CCO peuvent indirectement augmenter l'initiation de la traduction en libérant plus de ribosomes grâce à des taux d'allongement de la traduction améliorés. Le pool accru de ribosomes libres peut alors aider à améliorer l'initiation de la traduction par effet d'action de masse.

D'autre part, l'initiation de la traduction peut également être affectée par la structure de l'ARNm du site d'initiation. Au niveau de la structure primaire, la séquence Shine-Dalgarno et la séquence Kozak doivent être ajoutées à l'extrémité 5' de la séquence codante, car des études antérieures ont montré qu'elles sont nécessaires à la reconnaissance du codon d'initiation AUG pour initier la traduction chez les procaryotes et les eucaryotes, respectivement , [43]. Au niveau de la structure secondaire, il a été constaté que les structures d'ARNm en épingle à cheveux, tige-boucle et pseudo-nœud peuvent réprimer la traduction des protéines [44]. Bien que cela suggère que l'évaluation de la structure secondaire de l'ARNm à forte intensité de calcul puisse être nécessaire pour concevoir des gènes synthétiques, il a également été rapporté que l'activité hélicase du ribosome est capable de perturber les structures secondaires pour la traduction de l'ARNm [45]. Par conséquent, nous suggérons d'utiliser l'analyse de la structure secondaire de l'ARNm uniquement comme étape supplémentaire pour les séquences optimisées pour le CC, de sorte qu'aucun coût de calcul significatif n'est ajouté à la procédure CCO principale.

Outil CCO pour la biologie synthétique

Pour développer davantage le CCO en un outil logiciel pour la conception de gènes synthétiques, plusieurs autres facteurs peuvent devoir être pris en compte. Du point de vue expérimental, l'optimisation des gènes doit prendre en considération les types d'enzymes de restriction utilisés pour la construction du vecteur de telle sorte que les motifs d'ADN des sites de restriction soient évités pour empêcher un clivage inutile de la séquence codante. Dans certains cas où la séquence codante optimisée a tendance à avoir des répétitions de nucléotides, des étapes supplémentaires peuvent être nécessaires pour éviter les répétitions ou les répétitions inversées qui peuvent conduire à une recombinaison d'ADN ou à la formation de boucles en épingle à cheveux d'ARNm, respectivement, qui réduiront l'expressivité hétérologue de la cible protéine [46, 47]. De plus, l'homologie de séquence peut également être envisagée pour concevoir des gènes résistants à l'interférence ARN de telle sorte que les séquences complémentaires des ARN de silençage soient évitées dans la séquence codante [48]. Les stratégies possibles pour résoudre les problèmes susmentionnés lors de l'optimisation des gènes ont été discutées dans une étude précédente [20].

Les séquences optimales générées par CCO ne se trouvent dans aucun organisme naturel. Ainsi, l'outil logiciel CCO devrait également prendre en compte les défis impliqués dans la synthèse de ces gènes artificiels. La technologie actuelle pour de novo la synthèse génique implique la synthèse chimique d'oligonucléotides courts suivie d'un assemblage par ligature ou PCR des oligonucléotides pour former le gène complet [49]. La façon dont une longue séquence codante est décomposée en oligonucléotides courts doit être correctement conçue pour minimiser le taux d'erreur de synthèse des oligonucléotides et maximiser l'uniformité des températures d'hybridation des oligonucléotides pour un assemblage efficace. Plusieurs méthodes telles que DNAWorks [50], Gene2Oligo [51] et TmPrime [52] ont été proposées pour atteindre ces objectifs dans l'optimisation de la conception des oligonucléotides pour la synthèse des gènes. Bien que ces méthodes d'optimisation des oligonucléotides puissent être effectuées indépendamment de la procédure d'optimisation des codons, ces deux processus peuvent être intégrés pour faciliter le flux de travail « de la conception à la synthèse ». Tant que le paradigme actuel de la synthèse des gènes prévaut, les chercheurs peuvent explorer davantage la possibilité de développer un outil logiciel intégré d'optimisation des codons et des oligonucléotides pour concevoir de manière efficace et systématique des gènes synthétiques de haute performance pour l'expression des protéines.

Applications potentielles du CCO

La motivation derrière l'optimisation des codons est généralement d'améliorer l'expression de gènes étrangers dans des hôtes d'expression tels que E. coli, P. pastoris et S. cerevisiae. En outre, l'optimisation des codons peut également être utilisée pour générer des conceptions synthétiques de gènes natifs pour des applications d'ingénierie métabolique. Alors que la surexpression conventionnelle des gènes métaboliques natifs est obtenue en augmentant le nombre de copies de gènes grâce à l'introduction de plasmides, l'optimisation des codons offre une approche alternative pour améliorer l'utilisation des voies via l'insertion de gènes synthétiques à haute expression des enzymes métaboliques respectives dans le génome de l'hôte. Cette dernière technique peut être avantageuse car elle évite la charge métabolique associée à la maintenance des plasmides [53-55], permettant ainsi aux cellules d'avoir plus de ressources pour la croissance et la production biochimique.

Outre les applications biotechnologiques, l'optimisation des codons peut également être utilisée dans la recherche biomédicale où la modulation de l'expression des protéines est nécessaire pour modifier la réponse physiologique. Par exemple, dans le développement de vaccins contre les virus, une approche consiste à manipuler génétiquement le virus pour obtenir une souche « vivante atténuée » comme vaccin. Un tel vaccin, lorsqu'il est administré à l'hôte, déclenchera une réponse immunitaire pour que l'hôte développe une mémoire immunologique et une immunité spécifique contre le virus sans perturber gravement la physiologie globale. Certaines méthodes conventionnelles de développement de vaccins vivants atténués comprennent l'adaptation en laboratoire du virus chez des hôtes non humains et la mutagenèse aléatoire/dirigée sur un site [56]. Étant donné que le virus de type sauvage est capable de détourner la machinerie d'expression génique de l'hôte pour la réplication, la désoptimisation de l'utilisation des codons viraux peut conduire au développement de vaccins vivants atténués, comme l'a démontré une étude récente [19]. Par conséquent, le cadre CCO développé dans cette étude peut être légèrement modifié pour concevoir un virus synthétique composé de codons plus rares qui peuvent être utilisés comme vaccins. Plus précisément, nous pouvons soit inverser la fonction objectif pour minimiser la fitness CC, soit modifier la distribution CC cible lors de l'exécution de la procédure d'optimisation pour concevoir la séquence du virus atténué.


Les références

Ladisch MR, Kohlmann KL. L'insuline humaine recombinante. Biotechnol Prog. 19928(6) :469–78.

Lieuw K. De nombreux produits de facteur VIII disponibles dans le traitement de l'hémophilie A : un embarras de richesse ? J Blood Med. 20178 : 67-73.

Andersen DC, Krummen L. Expression de protéines recombinantes pour des applications thérapeutiques. Curr Opin Biotechnol. 200213:117-23.

Dumont J, Euwart D, Mei B, Estes S, Kshirsagar R. Lignées cellulaires humaines pour la fabrication biopharmaceutique : histoire, statut et perspectives futures. Crit Rev Biotechnol. 201636(6):1110–22.

Lagasse HA, Alexaki A, Simhadri VL, Katagiri NH, Jankowski W, Sauna ZE, et al. Avancées récentes dans le développement de médicaments (protéines thérapeutiques). F1000Rés. 20176:113.

Kim JY, Kim YG, Lee GM. Cellules CHO en biotechnologie pour la production de protéines recombinantes : état actuel et potentiel futur. Appl Microbiol Biotechnol. 201293(3) : 917-30.

Davami F, Eghbalpour F, Barkhordari F, Mahboudi F. Effet de l'alimentation peptonée sur le processus d'expression génique transitoire dans CHO DG44. Avicenne J Med Biotechnol. 20146(3) :147-55.

Delafosse L, Xu P, Durocher Y. Étude comparative des polyéthylèneimines pour l'expression transitoire des gènes dans les cellules HEK293 et ​​CHO de mammifères. J Biotechnol. 201610(227):103-11.

Lattenmayer C, Loeschel M, Schriebl K, Steinfellner W, Sterovsky T, Trummer E, et al. Transfection sans protéine de cellules hôtes CHO avec une protéine de fusion IgG : sélection et caractérisation de hauts producteurs stables et comparaison avec des clones transfectés de manière conventionnelle. Biotechnol Bioeng. 200796(6) :1118–26.

Kramer O, Klausing S, Noll T. Méthodes d'ingénierie des lignées cellulaires de mammifères : de la mutagenèse aléatoire aux approches spécifiques à la séquence. Appl Microbiol Biotechnol. 201088(2) :425-36.

Harrison RG. Observations sur la fibre nerveuse vivante en développement. Proc Soc Exptl Biol Med. 19074 : 140-3.

Chain E, Florey HW, Adelaide MB, Gardner AD, Oxfd DM, Heatley NG, et al. La pénicilline comme agent chimiothérapeutique. Lancette. 1940236:226-8.

Schatz A, Bugie E, Waksman SA. Streptomycine, une substance présentant une activité antibiotique contre les bactéries gram-positives et gram-négatives. Proc Soc Exp Biol Med. 194455 : 66-9.

Eagle H. Besoins nutritionnels des cellules de mammifères en culture tissulaire. Science. 1955122 : 501–14.

Thyagarajan B, député de Calos. Intégration spécifique au site pour la production de protéines de haut niveau dans les cellules de mammifères. Méthodes Mol Biol. 2005308 : 99-106.

Wirth D, Gama-Norton L, Riemer P, Sandhu U, Schucht R, Hauser H. Road to precision : technologies de ciblage basées sur la recombinase pour l'ingénierie du génome. Curr Opin Biotechnol. 200718(5):411-9.

Campbell M, Corisdeo S, McGee C, Kraichely D. Utilisation de la recombinaison spécifique au site pour générer des lignées cellulaires productrices de protéines thérapeutiques. Mol Biotechnol. 201045(3) :199-202.

Suzuki T, Kazuki Y, Oshimura M, Hara T. Un nouveau système pour l'intégration simultanée ou séquentielle de plusieurs vecteurs de chargement de gènes dans un site défini d'un chromosome artificiel humain. PLoS One. 20149(10) :e110404.

Ahmadi M, Damavandi N, Akbari Eidgahi MR, Davami F. Utilisation de la recombinaison spécifique au site dans la production biopharmaceutique. Iran Biomed J. 201620 (2) : 68-76.

Nakamura T, Omasa T. Optimisation du développement de lignées cellulaires dans le système d'expression GS-CHO à l'aide d'un système de sélection de clones monocellulaires à haut débit. J Biosci Bioeng. 2015120(3) :323–9.

Priola JJ, Calzadilla N, Baumann M, Borth N, Tate CG, Betenbaugh MJ. Criblage à haut débit et sélection de cellules de mammifères pour une production améliorée de protéines. Biotechnol J. 201611(7):853-65.

Kim M, O'Callaghan PM, Droms KA, James DC. Une compréhension mécanistique de l'instabilité de la production dans les lignées cellulaires CHO exprimant des anticorps monoclonaux recombinants. Biotechnol Bioeng. 2011108(10) :2434–46.

Pilbrough W, Munro TP, Gray P. Hétérogénéité de l'expression des protéines intraclonales dans les cellules CHO recombinantes. PLoS One. 20094(12):e8432.

Dharshanan S, Chong H, Hung CS, Zamrod Z, Kamal N. Rapid automated selection of mammalian cell line secreting high level of humanized monoclonal antibody using Clone Pix FL system and the correlation between exterior median intensity and antibody productivity. Electron J Biotechnol. 201114(2). https://doi.org/10.2225/vol14-issue2-fulltext-7.

Tsuruta LR, Lopes Dos Santos M, Yeda FP, Okamoto OK, Moro AM. Genetic analyses of Per. C6 cell clones producing a therapeutic monoclonal antibody regarding productivity and long-term stability. Appl Microbiol Biotechnol. 2016100(23):10031–41.

Wurm FM. Production of recombinant protein therapeutics in cultivated mammalian cells. Nat Biotechnol. 200422:1393–8.

Kunert R, Reinhart D. Advances in recombinant antibody manufacturing. Appl Microbiol Biotechnol. 2016100(8):3451–61.

Kinch MS. An overview of FDA-approved biologics medicines. Découverte de la drogue aujourd'hui. 201520(4):393–8.

Jayapal KP, Wlaschin KF, Hu WS, Yap MG. Recombinant protein therapeutics from CHO cells—20 years and counting. CHO Consortium SBE Special Section 2007:40–7.

Kretzmer G. Industrial processes with animal cells. Appl Microbiol Biotechnol. 200259:135–42.

Ayyar BV, Arora S, Ravi SS. Optimizing antibody expression: the nuts and bolts. Méthodes. 201701(116):51–62.

Brown AJ, James DC. Precision control of recombinant gene transcription for CHO cell synthetic biology. Biotechnol Adv. 201634(5):492–503.

Wang W, Jia YL, Li YC, Jing CQ, Guo X, Shang XF, et al. Impact of different promoters, promoter mutation, and an enhancer on recombinant protein expression in CHO cells. Sci Rep. 20177(1):10416.

Ebadat S, Ahmadi S, Ahmadi M, Nematpour F, Barkhordari F, Mahdian R, et al. Evaluating the efficiency of CHEF and CMV promoter with IRES and Furin/2A linker sequences for monoclonal antibody expression in CHO cells. PLoS One. 201712(10):e0185967.

Majocchi S, Aritonovska E, Mermod N. Epigenetic regulatory elements associate with specific histone modifications to prevent silencing of telomeric genes. Acides nucléiques Res. 201442(1):193–204.

Kaufman RJ. Overview of vector design for mammalian gene expression. Méthodes Mol Biol. 199762:287–300.

Gu MB, Kern JA, Todd P, Kompala DS. Effect of amplification of dhfr and lac Z genes on growth and beta-galactosidase expression in suspension cultures of recombinant CHO cells. Cytotechnologie. 19929:237–45.

Payne SH. The utility of protein and mRNA correlation. Trends Biochem Sci. 201540(1):1–3.

Vogel C. Evolution. Protein expression under pressure. Science. 2013342(6162):1052–3.

Wurm FM, Pallavicini MG, Arathoon R. Integration and stability of CHO amplicons containing plasmid sequences. Dev Biol Stand. 199276:69–82.

Kim SJ, Lee GM. Cytogenetic analysis of chimeric antibody-producing CHO cells in the course of dihydrofolate reductase-mediated gene amplification and their stability in the absence of selective pressure. Biotechnol Bioeng. 199964:741–9.

Gallegos JE, Rose AB. The enduring mystery of intron-mediated enhancement. Plante Sci. 2015237:8–15.

Chappell SA, Edelman GM, Mauro VP. A 9-nt segment of a cellular mRNA can function as an internal ribosome entry site (IRES) and when present in linked multiple copies greatly enhances IRES activity. Proc Natl Acad Sci USA. 200097:1536–41.

Chappell SA, Edelman GM, Mauro VP. Ribosomal tethering and clustering as mechanisms for translation initiation. Proc Natl Acad Sci USA. 2006103(48):18077–82.

Matoulkova E, Michalova E, Vojtesek B, Hrstka R. The role of the 3′ untranslated region in post-transcriptional regulation of protein expression in mammalian cells. ARN Biol. 20129(5):563–76.

Gouse BM, Boehme AK, Monlezun DJ, Siegler JE, George AJ, Brag K, et al. New thrombotic events in ischemic stroke patients with elevated factor VIII. Thrombosis. 20142014:302861.

Kumar SR. Industrial production of clotting factors: challenges of expression, and choice of host cells. Biotechnol J. 201510(7):995–1004.

Williams JA. Improving DNA vaccine performance through vector design. Curr Gene Ther. 201414(3):170–89.

Gustafsson C, Minshull J, Govindarajan S, Ness J, Villalobos A, Welch M. Engineering genes for predictable protein expression. Protein Expr Purif. 201283(1):37–46.

Van Der Kelen K, Beyaert R, Inze D, De Veylder L. Translational control of eukaryotic gene expression. Crit Rev Biochem Mol Biol. 200944(4):143–68.

Ling C, Ermolenko DN. Structural insights into ribosome translocation. Wiley Interdiscip Rev RNA. 20167(5):620–36.

Welch M, Villalobos A, Gustafsson C, Minshull J. You’re one in a googol: optimizing genes for protein expression. J R Soc Interface. 20096(6 Suppl 4):S467–76.

Itakura K, Hirose T, Crea R, Riggs AD, Heyneker HL, Bolivar F, et al. Expression in Escherichia coli of a chemically synthesized gene for the hormone somatostatin. Science. 1977198(4321):1056–63.

Athey J, Alexaki A, Osipova E, Rostovtsev A, Santana-Quintero LV, Katneni U, et al. A new and updated resource for codon usage tables. BMC Bioinform. 201718(1):391.

Supek F. The code of silence: widespread associations between synonymous codon biases and gene function. J Mol Evol. 201682(1):65–73.

Gardin J, Yeasmin R, Yurovsky A, Cai Y, Skiena S, Futcher B. Measurement of average decoding rates of the 61 sense codons in vivo. eLife. 20143. https://doi.org/10.7554/eLife.03735.

Dana A, Tuller T. The effect of tRNA levels on decoding times of mRNA codons. Acides nucléiques Res. 201442(14):9171–81.

Dana A, Tuller T. Mean of the typical decoding rates: a new translation efficiency index based on the analysis of ribosome profiling data. G3. 20145(1):73–80.

Yu CH, Dang Y, Zhou Z, Wu C, Zhao F, Sachs MS, et al. Codon usage influences the local rate of translation elongation to regulate co-translational protein folding. Cellule Mol. 201559(5):744–54.

Paulet D, David A, Rivals E. Ribo-seq enlightens codon usage bias. DNA Res Int J Rapid Publ Rep Genes Genom. 201724(3):303–10.

Pouyet F, Mouchiroud D, Duret L, Semon M. Recombination, meiotic expression and human codon usage. eLife. 20176. https://doi.org/10.7554/eLife.27344.

Dittmar KA, Goodenbour JM, Pan T. Tissue-specific differences in human transfer RNA expression. PLoS Genet. 20062(12):e221.

Schmitt BM, Rudolph KL, Karagianni P, Fonseca NA, White RJ, Talianidis I, et al. High-resolution mapping of transcriptional dynamics across tissue development reveals a stable mRNA-tRNA interface. Génome Res. 201424(11):1797–807.

Kirchner S, Cai Z, Rauscher R, Kastelic N, Anding M, Czech A, et al. Alteration of protein function by a silent polymorphism linked to tRNA abundance. PLoS Biol. 201715(5):e2000779.

Mauro VP, Chappell SA. A critical analysis of codon optimization in human therapeutics. Trends Mol Med. 201420(11):604–13.

Richardson SM, Wheelan SJ, Yarrington RM, Boeke JD. GeneDesign: rapid, automated design of multikilobase synthetic genes. Génome Res. 200616(4):550–6.

Villalobos A, Ness JE, Gustafsson C, Minshull J, Govindarajan S. Gene designer: a synthetic biology tool for constructing artificial DNA segments. BMC Bioinf. 20067:285.

Angov E, Hillier CJ, Kincaid RL, Lyon JA. Heterologous protein expression is enhanced by harmonizing the codon usage frequencies of the target gene with those of the expression host. PLoS One. 20083(5):e2189.

Wang E, Wang J, Chen C, Xiao Y. Computational evidence that fast translation speed can increase the probability of cotranslational protein folding. Sci Rep. 201521(5):15316.

Bali V, Bebok Z. Decoding mechanisms by which silent codon changes influence protein biogenesis and function. Int J Biochem Cell Biol. 201564:58–74.

Diederichs S, Bartsch L, Berkmann JC, Frose K, Heitmann J, Hoppe C, et al. The dark matter of the cancer genome: aberrations in regulatory elements, untranslated regions, splice sites, non-coding RNA and synonymous mutations. EMBO Mol Med. 20168(5):442–57.

Hanson G, Coller J. Codon optimality, bias and usage in translation and mRNA decay. Nat Rev Mol Cell Biol. 201819(1):20–30.

Rudolph KL, Schmitt BM, Villar D, White RJ, Marioni JC, Kutter C, et al. Codon-driven translational efficiency is stable across diverse mammalian cell states. PLoS Genet. 201612(5):e1006024.

Gingold H, Tehler D, Christoffersen NR, Nielsen MM, Asmar F, Kooistra SM, et al. A dual program for translation regulation in cellular proliferation and differentiation. Cellule. 2014158(6):1281–92.

Ingolia NT, Lareau LF, Weissman JS. Ribosome profiling of mouse embryonic stem cells reveals the complexity and dynamics of mammalian proteomes. Cellule. 2011147(4):789–802.

Park JH, Kwon M, Yamaguchi Y, Firestein BL, Park JY, Yun J, et al. Preferential use of minor codons in the translation initiation region of human genes. Hum Genet. 2017136(1):67–74.

Stadler M, Fire A. Wobble base-pairing slows in vivo translation elongation in metazoans. ARN. 201117(12):2063–73.

Wang H, McManus J, Kingsford C. Accurate recovery of ribosome positions reveals slow translation of wobble-pairing codons in yeast. J Comput Biol. 201724(6):486–500.

Gamble CE, Brule CE, Dean KM, Fields S, Grayhack EJ. Adjacent codons act in concert to modulate translation efficiency in yeast. Cellule. 2016166(3):679–90.

Harigaya Y, Parker R. The link between adjacent codon pairs and mRNA stability. BMC Génom. 201718(1):364.

McCarthy C, Carrea A, Diambra L. Bicodon bias can determine the role of synonymous SNPs in human diseases. BMC Génom. 201718(1):227.

Lorenz FK, Wilde S, Voigt K, Kieback E, Mosetter B, Schendel DJ, et al. Codon optimization of the human papillomavirus E7 oncogene induces a CD8 + T cell response to a cryptic epitope not harbored by wild-type E7. PLoS One. 201510(3):e0121633.

Saikia M, Wang X, Mao Y, Wan J, Pan T, Qian SB. Codon optimality controls differential mRNA translation during amino acid starvation. ARN. 201622(11):1719–27.

Gotea V, Gartner JJ, Qutob N, Elnitski L, Samuels Y. The functional relevance of somatic synonymous mutations in melanoma and other cancers. Pigm Cell Melanoma Res. 201528(6):673–84.

Hunt RC, Simhadri VL, Iandoli M, Sauna ZE, Kimchi-Sarfaty C. Exposing synonymous mutations. Tendances Genet. 201430(7):308–21.

Firth AE. Mapping overlapping functional elements embedded within the protein-coding regions of RNA viruses. Acides nucléiques Res. 201442(20):12425–39.

Fahraeus R, Marin M, Olivares-Illana V. Whisper mutations: cryptic messages within the genetic code. Oncogène. 201635(29):3753–9.

Cheong DE, Ko KC, Han Y, Jeon HG, Sung BH, Kim GJ, et al. Enhancing functional expression of heterologous proteins through random substitution of genetic codes in the 5′ coding region. Biotechnol Bioeng. 2015112(4):822–6.

Martinez MA, Jordan-Paiz A, Franco S, Nevot M. Synonymous virus genome recoding as a tool to impact viral fitness. Tendances Microbiol. 201624(2):134–47.

de Fabritus L, Nougairede A, Aubry F, Gould EA, de Lamballerie X. Attenuation of tick-borne encephalitis virus using large-scale random codon re-encoding. Pathog PLoS. 201511(3):e1004738.

Wang B, Yang C, Tekes G, Mueller S, Paul A, Whelan SP, et al. Recoding of the vesicular stomatitis virus L gene by computer-aided design provides a live, attenuated vaccine candidate. MBio. 20156(2):1–10.

Magistrelli G, Poitevin Y, Schlosser F, Pontini G, Malinge P, Josserand S, et al. Optimizing assembly and production of native bispecific antibodies by codon de-optimization. mAbs. 20179(2):231–9.

Perez-De-Lis M, Retamozo S, Flores-Chavez A, Kostov B, Perez-Alvarez R, Brito-Zeron P, et al. Autoimmune diseases induced by biological agents. A review of 12,731 cases (BIOGEAS Registry). Expert Opin Drug Saf. 201716(11):1255–71.

Strand V, Balsa A, Al-Saleh J, Barile-Fabris L, Horiuchi T, Takeuchi T, et al. Immunogenicity of biologics in chronic inflammatory diseases: a systematic review. BioDrugs. 201731(4):299–316.

Piga M, Chessa E, Ibba V, Mura V, Floris A, Cauli A, et al. Biologics-induced autoimmune renal disorders in chronic inflammatory rheumatic diseases: systematic literature review and analysis of a monocentric cohort. Autoimmun Rev. 201413(8):873–9.

Zucchelli E, Pema M, Stornaiuolo A, Piovan C, Scavullo C, Giuliani E, et al. Codon optimization leads to functional impairment of RD114-TR envelope glycoprotein. Mol Ther Methods Clin Dev. 201717(4):102–14.

Casadevall N, Nataf J, Viron B, Kolta A, Kiladjian JJ, Martin-Dupont P, et al. Pure red-cell aplasia and antierythropoietin antibodies in patients treated with recombinant erythropoietin. N Engl J Med. 2002346(7):469–75.

Cournoyer D, Toffelmire EB, Wells GA, Barber DL, Barrett BJ, Delage R, et al. Anti-erythropoietin antibody-mediated pure red cell aplasia after treatment with recombinant erythropoietin products: recommendations for minimization of risk. J Am Soc Néphrol. 200415(10):2728–34.

Katsnelson A. Breaking the silence. Nat Med. 201117(12):1536–8.

Derdeyn CA, Moore PL, Morris L. Development of broadly neutralizing antibodies from autologous neutralizing antibody responses in HIV infection. Curr Opin HIV AIDS. 20149(3):210–6.

McCoy LE, Burton DR. Identification and specificity of broadly neutralizing antibodies against HIV. Immunol Rev. 2017275(1):11–20.

Kimchi-Sarfaty C, Schiller T, Hamasaki-Katagiri N, Khan MA, Yanover C, Sauna ZE. Building better drugs: developing and regulating engineered therapeutic proteins. Trends Pharmacol Sci. 201334(10):534–48.

Chen S, Li K, Cao W, Wang J, Zhao T, Huan Q, et al. Codon-resolution analysis reveals a direct and context-dependent impact of individual synonymous mutations on mRNA level. Mol Biol Evol. 201734(11):2944–58.

Zhou Z, Dang Y, Zhou M, Li L, Yu CH, Fu J, et al. Codon usage is an important determinant of gene expression levels largely through its effects on transcription. Proc Natl Acad Sci USA. 2016113(41):E6117–25.

Newman ZR, Young JM, Ingolia NT, Barton GM. Differences in codon bias and GC content contribute to the balanced expression of TLR7 and TLR9. Proc Natl Acad Sci USA. 2016113(10):E1362–71.

Gustafsson C, Vallverdu J. The best model of a cat is several cats. Tendances Biotechnol. 201634(3):207–13.

Kaur P, Kiselar J, Yang S, Chance MR. Quantitative protein topography analysis and high-resolution structure prediction using hydroxyl radical labeling and tandem-ion mass spectrometry (MS). Mol Cell Protéomique. 201514(4):1159–68.


Synthesizing proteins in heterologous hosts is an important tool in biotechnology. However, the genetic code is degenerate and the codon usage is biased in many organisms. Synonymous codon changes that are customized for each host organism may have a significant effect on the level of protein expression. This effect can be measured by using metrics, such as codon adaptation index, codon pair bias, relative codon bias and relative codon pair bias. Codon optimization is designing codons that improve one or more of these objectives. Currently available algorithms and software solutions either rely on heuristics without providing optimality guarantees or are very rigid in modeling different objective functions and restrictions.

We develop an effective mixed integer linear programing (MILP) formulation, which considers multiple objectives. Our numerical study shows that this formulation can be effectively used to generate (Pareto) optimal codon designs even for very long amino acid sequences using a standard commercial solver. We also show that one can obtain designs in the efficient frontier in reasonable solution times and incorporate other complex objectives, such as mRNA secondary structures in codon design using MILP formulations.


We do more than codon optimization

What is gene optimization?

Gene optimization takes advantage of the degeneracy of the genetic code. Because of degeneracy, one protein can be encoded by many alternative nucleic acid sequences. Codon preference (codon usage bias) differs in each organism, and it can create challenges for expressing recombinant proteins in heterologous expression systems, resulting in low and unreliable expression. This may also be true for autologous expression, since wild type sequences are not necessarily optimized for expression yield but also for degradation, regulation, and other properties.

However, codon optimization is not the only relevant factor for efficient protein expression.

Our GeneOptimizer algorithm enables true multiparametric optimization, dealing with a large number of sequence-related parameters involved in different aspects of gene expression, such as transcription, splicing, translation, and mRNA degradation. It considers all relevant optimization parameters in a single operation and delivers a DNA sequence configured with your specifications, optimized for maximum performance in your system (Tableau 1).

Rationally weighing the combination of the optimization parameters (e.g., codon adaptation, mRNA de novo synthesis and stability, transcription and translation efficiency) is important in order to achieve the most efficient expression of a given protein.

Figure 1. Schematic presentation of protein expression.

  • GC content
  • Consensus splice sites
  • Cryptic splice sites
  • SD sequences
  • TATA boxes
  • Termination signals
  • Artificial recombination sites
  • RNA instability motifs
  • Ribosomal entry sites
  • Repetitive sequences
  • Codon usage
  • Premature poly(A) sites
  • Ribosomal entry sites
  • Secondary structures

One further advantage of synthetic sequences is that you won’t be dependent on available DNA templates, and you can design your sequence exactly according to your requirements. Add or remove restriction sites, start/stop codons, tags, and further motifs as needed.

Sequence optimization using the GeneOptimizer software is included as an optional step with all GeneArt™ Gene Synthesis and DNA fragments services. To take advantage of this service, select your expression host when setting up a request using our online customer portal. The online software will then guide you through the project setup process, including sequence optimization. The resulting optimized performance, described below, is just one additional added value of GeneArt DNA.

Comment ça marche?

Gene optimization with GeneOptimizer technology is easily performed within a few minutes using our online customer portal. Design your synthetic gene by uploading your sequence, selecting your expression system, and specifying your cloning vector and your sequence details (including open reading frames, untranslated regions, and cloning sites). Once you submit your request, the GeneOptimizer software generates the DNA sequence that best suits your research requirements, based on consideration of all parameters that are relevant for the given host organism plus your individual sequence requirements.

Proof that it works

We have conducted several internal studies, and many customers have reported independently that GeneArt codon and sequence optimization results in higher protein expression without losing protein function.

In a first-of-its-kind study [1], five important protein classes were selected for optimization: protein kinases, transcription factors, ribosomal proteins, cytokines, and membrane proteins. Then 50 human genes were chosen from the NCBI database to represent the five protein classes. The selected genes were individually optimized using the GeneOptimizer algorithm [2]. For comparison, the corresponding wild type genes were subcloned using native sequences available from the NCBI database. Each gene was then expressed in triplicate in HEK293T cells. Following optimization, the 50 genes all showed reliable expression and 86% exhibited elevated expression (example in Figure 2). Further analysis showed no detrimental effect on protein solubility, and functionality was unaltered, as demonstrated for JNK1, JNK3, and CDC2 (data not shown).

Using the GeneOptimizer algorithm, in this study:

  • 86% of optimized genes showed significantly increased protein expression
  • Protein yields increased up to 15-fold with optimized genes
  • 100% of optimized genes were expressed, versus 88% of wild type genes

Figure 2. Comparative expression analysis of wild type vs. optimized genes representing different protein classes. (A) Cell culture supernatants (for secreted proteins) or cell lysates (all other proteins) were analyzed by western blot using an anti-His antibody. One example of each protein class is shown. A 60 kDa protein used to standardize protein amount is visible, including in the empty vector negative controls. Left of each image: molecular mass values in kDa. Right of each image: identifiers for specific protein bands. (B) Relative expression levels were derived for wild type or optimized constructs (mean of three independent transfections). The fold increase in expression for the optimized construct is indicated for each protein. There was no detectable expression for IL-2 using the wild type construct. (Figure adapted from Fath et al., 2011 [1]).

figure 3 illustrates another example of observed increases in both mRNA and protein yields of the HIV gag protein after sequence optimization using GeneOptimizer software.

To demonstrate the value of the GeneOptimizer software, we compared protein expression of sequences optimized by different vendors. Genes for three different human kinases were optimized and synthesized in-house or similarly optimized and synthesized by five different competitors. Triplicate expression studies in HEK293 cells showed not only that GeneArt optimization raises expression over wild type genes, but also that it performs better than any of the five competitors’ optimization algorithms in every case (Figure 4).

Figure 4. Expression levels from wild type genes and the same genes optimized by GeneArt technology and five competitors. Relative protein expression values are normalized to the respective GeneArt sequence.


Protein Production and Purification

Protein yield and activity can be maximized by selecting the right lysis reagents and appropriate purification resin. Most recombinant proteins are expressed as fusion proteins with short affinity tags, such as polyhistidine or glutathione S-transferase, which allow for selective purification of the protein of interest.

Protein Production is a complex system of biotechnologies that each step influences with each other process. The recombinant protein purification method are mostly depend on the characteristics of the recombinant protein and the expression system applied. Sino Biological offers one-stop service from gene to purified protein with many years' experience of protein expression and multiple protein purification and refolding technologies. We have got multiple protein expression systems such as bacterial, yeast, baculovirus-insect and mammalian expression system and 30+ purification systems to handle from 2 to 1000 L to meet high-throughput and large-scale protein expression and production.

Protein Production Platform

Protein production is the biotechnological process of generating a specific protein. Commonly used protein production systems include those derived from bacteria, baculovirus/insect cells, mammalian cells and yeast.

Using the right expression system for your specific application is the key to success. Protein solubility, functionality, purification speed, and yield are often crucial factors to consider when choosing an expression system. Additionally, each system has its own strengths and challenges, which are important when choosing an expression system.

Protein Purification Methods

Protein purification means protein fractionation which is also called downstream processing. Protein purification involves a number of processes, including pumping and ultrafiltration, which involve significant shear environments. More importantly, protein tags are a useful and convenient tool for improving solubility of recombinant proteins, streamlining protein purification, and allowing an easy way to track proteins during protein expression and purification.

A wide variety of protein purification methods that can be combined to generate a suitable purification scheme are available. Usually, one executes a series of purification steps, and only rarely proteins can be purified in a single step.

Early steps combine low-resolution and high-capacity methods at later stages of purification scheme. For low-resolution protein purification, methods such as fractional precipitation and two-phase partition systems usually employed. For applications requiring the highest purity and relatively small Protein Purification amounts of protein, chromatography can be chosen to selectively purify the target protein.

Main Chromatography Methods Used in Protein Purification


Affiliations

Institut für Chemie, Humboldt Universität zu Berlin, 12489, Berlin, Germany

Center for Biotechnology, Rensselaer Polytechnic Institute, Troy, NY, USA

Department of Chemical and Biological Engineering, Rensselaer Polytechnic Institute, Troy, NY, USA

Department of Biological Sciences, Rensselaer Polytechnic Institute, Troy, NY, USA

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Contributions

G.N. conceived and developed the review. G.N. and M.K. a écrit le papier.

Auteurs correspondants


Voir la vidéo: Protein Synthesis Animation Video (Juillet 2022).


Commentaires:

  1. Dietrich

    Seul Posmeyte le refait!

  2. Cesaro

    Puis-je vous aider?

  3. Tygokazahn

    Quels mots nécessaires ... Génial, une phrase remarquable

  4. Ismael

    Je peux vous suggérer de visiter le site, qui contient beaucoup d'informations sur cette question.

  5. Dal

    Wacker, quelle phrase nécessaire ..., excellente pensée

  6. Dominik

    Je considère que vous n'avez pas raison. je suis assuré. Je peux défendre la position. Écrivez-moi en MP.

  7. Elric

    Excusez-moi, je vous interromps, mais vous ne pouviez pas donner plus d'informations.



Écrire un message