Informations

PDB Mining : Pourquoi est-ce que je trouve des atomes distants de moins d'un angström ?

PDB Mining : Pourquoi est-ce que je trouve des atomes distants de moins d'un angström ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

J'essaie de trouver des liaisons hydrogène potentielles entre les donneurs d'hydrogène et les accepteurs de cycle aromatique. Je fais cela en prédisant l'emplacement des hydrogènes sur les résidus, puis en calculant à quelle distance ces hydrogènes sont des cycles aromatiques. Si un certain hydrogène est <7,0 Angströms d'un certain cycle aromatique, alors je le prends en considération : je forme le vecteur NH, qui est le vecteur créé par l'hydrogène en question et l'azote dans le squelette du résidu auquel appartient l'hydrogène à. Je teste que ce vecteur N-H pointe vers le plan du cycle aromatique, et je teste également que le point d'intersection entre le plan de l'aromatique et le vecteur N-H est à moins de 6 Angströms du centre du cycle aromatique.

Si toutes ces conditions sont remplies, alors je considère qu'il s'agit d'une liaison hydrogène entre l'hydrogène et le cycle aromatique. Cependant, mes données doivent être incorrectes, car je vois des situations où un hydrogène est < 1,0 angström du plan de l'aromatique. Les atomes ne devraient pas être aussi proches les uns des autres.

J'ai soigneusement testé ma méthode à la main en utilisant un exemple de situation où mon code a identifié l'un des hydrogènes de la chaîne latérale sur un ASN à 0,3 angström du plan de l'aromatique d'un TRP. Malheureusement, je n'ai trouvé aucun bug. Vous pouvez trouver un PDF de cette vérification ici.

Toute suggestion sur la façon dont ma méthode pourrait être défectueuse serait grandement appréciée.


si vous utilisez des structures RMN, vous faites peut-être l'erreur d'utiliser plusieurs structures superposées - ce serait bien de développer avec des structures à rayons X à une résolution inférieure à 2,0 A pour commencer.

Certains des modèles à basse résolution peuvent être bâclés, mais soumis après 1994 environ n'auront pas de distances centre à centre car c'est à ce moment-là que les structures à rayons X utilisaient des modèles moléculaires plutôt que la densité électronique de manière rigoureuse et des violations stériques étranges dans la structure devraient être rare.

Pourtant, cela pourrait ne pas être faux - l'hydrogène pourrait pointer directement vers le centre du cycle aromatique. Cela a été assez observé. Dans un tel cas, la distance entre l'atome et le plan de l'anneau peut être très faible.

Vous n'avez qu'à vous inquiéter si la distance centre à centre entre les atomes est inférieure au rayon de VanderWaals. Je filtrerais la distance entre le centre de l'atome et je verrais si vous voyez des violations.


Résolution (densité électronique)

Résolution en termes de densité électronique est une mesure de la résolvabilité dans la carte de densité électronique d'une molécule. En cristallographie aux rayons X, la résolution est le pic le plus élevé pouvant être résolu dans le diagramme de diffraction, tandis que la résolution en cryomicroscopie électronique est une comparaison spatiale de fréquence de deux moitiés des données, qui s'efforce d'être en corrélation avec la définition des rayons X. [1]


Fond

Au cours des deux dernières décennies, les méthodes de calcul ont trouvé un rôle établi dans le processus de conception rationnelle de médicaments en raison de leur aide inestimable dans l'interprétation des résultats expérimentaux (par exemple, RMN, rayons X), en générant de nouvelles idées basées sur des modèles théoriques et en naviguant dans les étapes de recherche avec des méthodes prédictives. outils. Une grande partie du « rationnel » dans les méthodes de calcul provient de l'analyse des informations structurelles des structures cristallines aux rayons X et RMN des complexes ligand-protéine. À ce jour, le référentiel le plus important de telles structures, la Protein Data Bank (PDB) [1], abrite environ 120 000 structures macromoléculaires biologiques [2] (consulté en juillet 2016) et chaque nouvelle entrée améliore notre compréhension de la biologie et de la médecine. phénomènes pertinents au niveau atomique. Comme environ la moitié des entrées ont été déposées au cours des 5 dernières années, il est nécessaire de réévaluer périodiquement nos connaissances sur les cibles macromoléculaires ainsi que sur les ligands interagissant avec elles.

Dans la conception rationnelle des médicaments, les chimistes computationnels se concentrent sur les propriétés des ligands, y compris les propriétés conformationnelles et affinent la structure et la pré-organisation du ligand dans le but de minimiser les pénalités énergétiques associées à la flexibilité indésirable, à la disposition sous-optimale des groupes fonctionnels interagissant avec le site de liaison de la protéine ou stabilisation interne indésirable. Lorsque la structure 3D de la protéine cible est connue (conception basée sur la structure), un processus moderne d'optimisation des pistes implique souvent l'identification de poses de liaison raisonnables et, de manière plus souhaitable, également la pose bioactive à l'aide de l'amarrage moléculaire et de la notation. Étant donné que la prise en compte d'une flexibilité moléculaire complète du ligand et de la protéine simultanément est extrêmement complexe et actuellement bien au-delà de notre capacité de calcul, certaines approches d'amarrage pré-générent des conformères de ligand raisonnables dans une recherche conformationnelle, puis essaient de les insérer dans le (soit rigide soit flexible) site de liaison de la protéine cible à la recherche de la meilleure complémentarité possible des propriétés stériques et électroniques [3,4,5,6,7,8]. Comme alternative à cette approche, certains protocoles utilisent la génération de conformères à la volée dans la cavité de liaison du récepteur [9, 10] ou reposent sur l'amarrage basé sur des fragments avec une flexibilité de rotation complète des angles dièdres [11, 12].

Les conformations de ligand favorables, résultant d'une recherche conformationnelle, sont d'une importance clé également dans la conception basée sur le ligand, lorsque les informations structurelles sur la cible sont rares ou inexistantes et donc l'hypothèse de liaison supposant la complémentarité de verrouillage doit être dérivée de ligands connus partageant un arrangement 3D commun de groupes fonctionnels (pharmacophore) [13, 14].

Le besoin de conformères à faible énergie, en particulier dans le contexte de la recherche de la conformation bioactive, est reconnu depuis longtemps. Par conséquent, un certain nombre d'algorithmes de recherche et de méthodes d'échantillonnage différents ont été développés et mis en œuvre dans des protocoles pour générer des conformères de petites molécules (semblables à des médicaments) [15,16,17]. Certains outils reposent sur une approche systématique (i.e. CORINA [18, 19], ConfGen [3], OMEGA [20, 21]) et certains utilisent une approche stochastique (i.e. BALLOON [22], RDKit [23]). Des protocoles couramment utilisés tels que Catalyst [24], MOE [25] et MacroModel [26] implémentent les deux approches [15, 27]. L'importance de l'échantillonnage conformationnel et les défis pour trouver la pose bioactive parmi un ensemble de conformères générés ont été précédemment discutés dans plusieurs études [14, 28, 29, 30, 31, 32].

Lors d'une recherche conformationnelle, l'optimisation de la géométrie (minimisation de l'énergie) des conformères est pilotée par un champ de force. Un champ de force bien paramétré est donc une condition préalable clé pour s'assurer que le pool de conformères résultant comprend la conformation bioactive (ou une très similaire à celle-ci). Comme l'énergie du conformateur est souvent le critère de sélection le plus important, tous les termes de champ de force pour le calcul des énergies (liaisons, angles et angles dièdres, électrostatique et van der Waals (vdW), contributions de solvatation) doivent être précis et mutuellement équilibrés. La performance de certains champs de force a déjà été évaluée pour des ensembles spécifiques de ligands ou de petits peptides [33,34,35]. Dans cette étude, nous étudions plusieurs champs de force fréquemment utilisés (implémentés dans un ensemble de logiciels commerciaux populaires [26]) pour leur capacité à générer et à classer les conformations bioactives d'un ensemble chimiquement très diversifié de ligands de type médicament.


La source des problèmes et les mesures préventives générales

L'accès facile à des outils puissants par des utilisateurs non formés ou mal supervisés peut indiquer que l'incompétence technique est la principale raison des erreurs. Cependant, l'examen de publications récentes mettant en évidence soit quelques « mauvaises pommes » [2] , soit simplement classant les modèles par des indicateurs numériques de qualité [3-5] , indique que des modèles médiocres sont presque toujours associés au principal talon d'Achille de la cristallographie biomoléculaire : l'interprétation de la densité électronique. Contrairement à la cristallographie de petites molécules, les cartes de densité électronique macromoléculaire sont rarement à résolution atomique, sont parfois de mauvaise qualité et sont fréquemment compromises en raison d'un désordre moléculaire complexe et d'une hétérogénéité – difficiles à déconvoluer. L'étape d'interprétation de la densité électronique permet à l'élément subjectif de l'esprit humain, qui est toujours présent, d'influencer le processus de construction du modèle.

Deux éléments majeurs associés à l'esprit humain menacent la robustesse du processus : le biais cognitif d'attente et de confirmation bien documenté [6, 7] , et la négligence d'une discipline rigoureuse dans le raisonnement empirique. Il n'y a rien de nouveau dans cette intuition : les biais cognitifs étaient déjà reconnus par les grands esprits du début des Lumières, cf. [8] . Par la suite, on s'est rendu compte que les connaissances préalables peuvent restreindre les attentes [9, 10] et que le raisonnement empirique exige une affirmation forte pour être appuyée par des preuves expérimentales corrélatives. De plus, la falsifiabilité est l'exigence fondamentale d'une hypothèse scientifique [11, 12] . La cristallographie des protéines a très tôt adopté les concepts bayésiens et de vraisemblance [13-18] pour contrer le désir omniprésent de trouver ce que l'on cherche [19, 20] , et a proposé une meilleure formation épistémologique en tant que remédiation systémique, par ex. [21, 22] .


Discussion

Le but de cette étude était de développer une décomposition systématique de l'espace de structure protéique connu qui soit suffisamment compact, universel et détaillé pour donner un aperçu des relations structure-séquence. L'ensemble des TERMES que nous synthétisons ici constitue justement une telle décomposition, couvrant les niveaux secondaire, tertiaire et même quaternaire de la hiérarchie structurelle. De plus, la méthode par laquelle nous extrayons les TERMES, via le formalisme de couverture d'ensemble, est générale et peut être utilisée pour développer des décompositions avec des bases de données structurelles alternatives et des définitions de couverture.

Nous constatons que l'univers structural des protéines est hautement dégénéré, ce qui ressort clairement de l'augmentation rapide de la couverture structurale en fonction du nombre de TERMES utilisés (Fig. 1B). En revanche, pour dépasser 70 à 80 % de la couverture, des dizaines de milliers de TERM individuels sont nécessaires et la courbe de couverture globale suit une loi de puissance (Fig. 1B, Encart). Il apparaît ainsi qu'en dépit d'être fortement dégénéré et répétitif, l'univers innove néanmoins en permanence. Motifs vers la queue de la courbe de couverture de la figure 1B représentent des géométries peu fréquentes, dont certaines résultent d'imprécisions de détermination structurelle (Annexe SI, Fig. S5), mais la plupart représentent des écarts réels (bien que relativement faibles) par rapport aux TERMES universels plus canoniques (Annexe SI, Figues. S6 et S7).

Les considérations thermodynamiques structurelles doivent influencer l'occurrence des TERM, car elles contraignent l'évolution de la structure des protéines. D'autres contraintes physiques contribuent probablement également, notamment la conception, la spécificité structurelle, la solubilité, etc. Ainsi, nous pouvons considérer les TERMES, avec leur modèle de récurrence et leurs biais de séquence, comme codant une certaine cartographie séquence-structure, pilotée par une métrique complexe qui intègre les propriétés ci-dessus (entre autres). Nous avons interrogé cette cartographie en utilisant des statistiques basées sur TERM pour proposer des séquences probables compte tenu des squelettes natifs. Cette procédure a généré des séquences similaires aux séquences natives (tableau 1), ce qui est remarquable étant donné que l'approche basée sur TERM ne prend pas explicitement en compte les détails atomistiques. Les pseudoénergies basées sur TERM sont encore plus efficaces pour prédire la variation de séquence évolutive (Annexe SI, Fig. S18), produisant l'acide aminé consensus correct dans 35% des positions. Avec les performances relatives élevées sur les squelettes RMN (tableau 1), ces résultats suggèrent que les statistiques TERM peuvent refléter les préférences de l'ensemble structurel représenté par le squelette donné, et pas seulement la conformation spécifique fournie.

Nous soulignons que notre procédure de conception est très simpliste et que notre objectif en la développant était simplement de sonder les relations séquence-structure apparentes codées par les TERMES. Il reste à déterminer si une variante d'une telle méthode pourrait être utilisée pour une approche robuste de la conception de protéines en général. D'un autre côté, nos résultats suggèrent que la compréhension basée sur TERM peut être utile aux méthodes de conception de protéines. Comme toute première étape vers l'exploration de cette possibilité, nous avons utilisé des pseudoénergies basées sur TERM pour restreindre automatiquement l'alphabet d'acides aminés dans la refonte des séquences basée sur Rosetta, ce qui a entraîné des taux de récupération de séquences natives encore plus élevés que par Rosetta seul (tableau 1). Une interprétation possible de ce résultat est que le fait d'exiger un accord entre la fonction de notation atomistique détaillée de Rosetta et la pseudo-énergie TERM basée sur l'ensemble plus lâche, qui ne sont que partiellement exactes, enrichit l'espace de séquence restant pour de bonnes solutions (éventuellement au détriment de la réduction de la séquence espace plus que nécessaire).

Après avoir interrogé la capacité des TERM à prédire la séquence à partir de la structure, nous avons ensuite montré que l'inverse est également possible : l'utilisation des statistiques TERM pour prédire les motifs structuraux locaux à partir de la séquence seule (Fig. 6 et Annexe SI, Figues. S19 et S20). Cette capacité est particulièrement importante pour les TERM multisegments, car cela signifie que des segments distants en séquence peuvent être prédits comme adjacents dans l'espace, un défi majeur dans la prédiction de structure. Des progrès significatifs pour relever ce défi ont récemment émergé de la prédiction des contacts basée sur la covariation évolutive (70, 71), mais, surtout, une telle prédiction n'est applicable qu'aux protéines natives, et en particulier à celles avec des MSA profonds disponibles. D'un autre côté, l'extraction basée sur TERM semble être tout à fait applicable aux protéines de novo et ne nécessite aucune homologie (Fig. 6), fournissant une preuve supplémentaire de la généralité des statistiques codées TERM. Ces résultats complètent nos découvertes antérieures montrant que les statistiques de séquence des motifs de type TERM sont suffisantes, à elles seules, pour discriminer entre les bons et les mauvais modèles de prédiction de structure à égalité ou mieux que les principales fonctions de notation (55). La disponibilité de TERM universels prédéfinis, chacun avec son propre modèle statistique, devrait permettre une multitude de nouvelles utilisations pour améliorer la prédiction de structure.

Une question fondamentale importante est de savoir pourquoi les TERMES se reproduisent. Est-ce principalement dû à la biophysique de la structure et de la conception des protéines, ou une grande partie de la dégénérescence est-elle due, par exemple, aux contraintes fonctionnelles de l'évolution ? Bien que la réponse soit difficile à déterminer avec certitude, il s'agit probablement d'une combinaison de ces deux facteurs. L'intuition suggère que les TERMES de haute priorité, qui se produisent dans un ensemble extrêmement diversifié de protéines, et qui ne sont associés à aucun rôle cellulaire, localisation ou espèce hôte spécifique, se reproduisent probablement en raison de principes biophysiques fondamentaux. D'un autre côté, les TERMES qui se produisent dans les protéines qui sont fonctionnellement biaisées (bien qu'encore assez diverses) sont probablement influencés par des contraintes fonctionnelles et l'histoire de l'évolution. Nous avons spécifiquement recherché des exemples de TERMES qui se reproduisent dans le contexte d'une fonction, comme la liaison au métal ou à l'eau (Fig. 5 et Annexe SI, Figues. S9–S13). Cependant, il est important de noter que toutes les fonctions n'auront pas nécessairement un impact sur la sélection du TERME. Ce biais n'apparaîtra que si : (je) la fonction est associée à des motifs structuraux relativement bien définis et (ii) les géométries correspondantes sont soit par ailleurs omniprésentes, soit la fonction elle-même est commune (parmi diverses protéines). Dans les deux cas, nous pouvons considérer les motifs résultants comme de véritables modules de structure protéique. Ainsi, l'universalité des TERMES découverts par la procédure de couverture d'ensemble devrait être valable de manière générale, qu'ils aient ou non une fonction associée.


Test de biologie moléculaire 1

Il existe une hypothèse selon laquelle les gènes et les biomolécules isolés et leurs structures ont un pouvoir explicatif suffisant pour fournir une compréhension de l'ensemble d'un biosystème.

Croyez qu'une compréhension complète de:
A. les êtres vivants proviendront de l'étude des cellules
B. Les cellules proviendront de l'étude de la structure et de la fonction (Activités et interactions) des molécules biologiques

1. Gardez les choses simples. Les théories simples et efficaces sont préférées aux théories plus compliquées avec plus d'hypothèses

1. Croquis sur papier tels que des dessins animés schématiques qui utilisent des représentations stylisées de molécules
2. Modèles physiques de remplissage d'espace tels que les modèles CPK
3. Modèles à l'échelle virtuelle générés par ordinateur qui représentent (molécules statiques 3D et molécules dynamiques 4D)

Qui a proposé le premier une unité sous-jacente à la biochimie de tous les organismes ?

De quoi disposent les systèmes modèles relativement simples ? Par exemple?

1. A joué un rôle crucial dans le succès de la biologie moléculaire
2. été utilisé comme point de départ pour étudier le même processus dans des organismes plus complexes
Ex : Utiliser E. Coli et ses virus pour extrapoler à d'autres organismes (mécanismes communs)

Comment sont-ils synthétisés ? (3)

Acides nucléiques (ADN et ARN) (2)

1. Par addition séquentielle d'unités monomériques
2. Sur les machines moléculaires à activités catalytiques
3. Utilisation d'un mécanisme conservé d'addition d'unités monomériques

Protéines :
1. Les unités monomères sont des résidus d'acides aminés
2. Synthétisé sur des ribosomes qui sont des machines de polymérisation composées de protéines et d'ARN

N / A:
1. Les unités monomères sont des nucléosides monophosphates
2. Synthétisé séquentiellement par des machines de polymérisation (polymérases) composées de protéines

Un loin de l'extrémité carboxyle

Comment les distingue-t-on expérimentalement ?

Dans quelle direction vont les acides L-aminés ? RÉ?

Quand seuls les acides aminés L sont-ils incorporés ?

3 exemples d'acides aminés D présents dans les biomolécules

En regardant le carbone alpha le long de la liaison hydrogène-carbone, tracez un arc du carboxylate au groupe R au groupe amino
1. Dans le sens des aiguilles d'une montre pour L
2. Dans le sens antihoraire pour D

Lors de la synthèse des protéines sur les ribosomes

1. Peptidoglycane (polymère de paroi cellulaire de bactéries)
2. Certains antibiotiques peptidiques
3. Fullicine (neuropeptide génétiquement codé)

De quoi la charge est-elle fonction ?

Qu'est-ce que pKa ? (exemple de groupe alpha carboxyle/groupe alpha amino)

pKa est le pH auquel un proton particulier est dissocié dans la moitié des molécules (HA=A- , alors vous pouvez mettre HA dans la parenthèse A- et les annuler pour que Ka=H+ puis pH=pKa.

Le pKa du groupe alpha carboxyle est d'environ 2,3, ce qui signifie qu'à pH 2,3, la moitié des molécules sont déprotonées et la moitié sont protonées.

pKa pour le groupe alpha amino est de 9,6

Comment estimer le pI du glutamate (le groupe carboxyle inférieur se dissocie avant le sommet) ? (4)

Notez différentes espèces de charge
ID la forme isoélectrique (0)
pI mensonges

à mi-chemin entre pKa1 et pKa2 car c'est assez linéaire entre les deux.
pi

(2.19+4.25)/2=3.2--> où il est électriquement neutre
pKa1 est l'endroit où il est à moitié sur le carboxylate du bas, donc à 1 mole, alors tout est sous la forme 2, donc à 1,5 (pKa2 - signifie sur le carboxylate du haut les protons sont à moitié sur la moitié), pKa3 est où vous chargez le groupe amino.

De quoi dépend le pKa des AA ?

Quelles sont les deux chaînes latérales chargées négativement à pH neutre ? Positif?

1. D (acide aspartique, chaîne latérale d'acide acétique).
2. E (acide glutamique, chaîne latérale d'acide propionique).

Chaînes latérales chargées positivement à pH neutre
1. K (lysine, chaîne latérale de butylamine).
2. R (arginine, chaîne latérale de propyl guanidinium)

Quels types de chaînes latérales ont-elles et à quoi certaines sont-elles jointes ?

Qu'est-ce qu'un soufre non chargé est considéré?

Comment mesurer l'hydrophobie relative

Expliquer le coefficient de partage

Expliquer l'équation deltaG

Mesurer la solubilité relative de la chaîne latérale entre l'eau et le solvant organique hydrophobe tel que le dioxane ou le 1-octanol

• Le coefficient de partage (Kp=
[X]dioxane/[X]eau) peut être utilisé pour estimer l'énergie libre standard
changement (deltaG^o) qui accompagne le transfert de la chaîne latérale de l'eau à la phase organique.

Ajoutez une chaîne latérale et trouvez le coefficient de partition s'il est élevé, il est non polaire, s'il est faible, il est polaire.

Mesures effectuées dans des conditions de température et de pression constantes pour le système à l'équilibre, le changement d'énergie libre standard qui accompagne le transfert d'une chaîne latérale de l'eau est estimé par deltaGo = - RT ln Kp

Que comprennent les chaînes latérales aromatiques des AA ? (3)

À quoi la glycine fait-elle exception ?

Quelle est la particularité de la glycine ? (voir la diapositive pour la structure) Proline?

Combien y a-t-il d'AA différents ? De quoi sont-ils le résultat ? (2)

Quels sont les exemples de groupes chimiques ajoutés aux protéines ? (4)

339 AA chimiquement différents catalysés par enzyme post-traductionnelle : 1. Ajouts de groupes chimiques 2. Isomérisation L à D

1. Phosphate
2. Groupes méthyle
3. Glucides (sucres)
4. Lipides

Quel est le premier AA d'une chaîne ? Seconde?

Ce n'est PAS le mécanisme par lequel les protéines sont synthétisées sur les ribosomes (pas comment elles lient les AA)

L'attaque nucléophile est faite sur la paire isolée de O et le groupe partant est l'eau

Le premier est l'extrémité aminée, le second est l'extrémité carboxyle

1.Liaison covalente très stable :
une. l'hydrolyse complète nécessite 6 N HCl, 100 degrés C et 12-24 heures.
b. Les protéases sont des enzymes qui catalysent l'hydrolyse rapide des liaisons peptidiques des protéines à pH neutre et à température ambiante

Quels sont les 3 composants d'un nucléotide ?

Que sont les nucléotides en termes de pKa ?

De quoi sont composés les nucléosides ? (2)

1. Sucre cyclique à 5 carbones (l'ADN contient du D-2'-désoxyribose, l'ARN contient du D-ribose)
2. Purine (A ou G, [R]) ou pyrimadine (C, T ou U, [Y])
3. Un ou plusieurs phosphates attachés au carbone 5' du ribose

Ils sont acides (pKa et pKb des phosphates à liaison ester sont de 0,7 à 1 et de 6,1 à 6,3)

1. Sucre ribose
2. Base purique ou pyrimidique

Qu'est-ce que la désamination provoque?

A quoi aboutit la désamination oxydative ?

1. Anneaux d'azote
2. Oxygènes et azotes exocyliques

ont tendance à s'associer à eux-mêmes
par des interactions d'empilement.

• La désamination est un produit chimique spontané
réaction en solution qui convertit :
1. Cytosine en uracile
(qui s'apparie avec A).
2. Adénine à Hypoxanthine
(qui s'apparie avec C).
3. Guanine à Xanthine
(qui s'apparie avec C).

Résulte en une perte de groupe amino et une double liaison de l'oxygène (Adénine--> hypoxanthine)

En quoi les liaisons faibles sont-elles cruciales ?

Que comprennent les liaisons covalentes ? Décrivez-les et leur force.

Que se passe-t-il si les unités monomériques d'une macromolcule ne sont maintenues ensemble que par des liaisons covalentes ?

1. Liaison peptidique entre
résidus d'acides aminés.
2. Liaison disulfure entre
résidus de cystéine.
3. Liaison N-glycosidique entre
purine (N1)/pyrimidine(N9)
et C1 du ribose. (en ADN ou ARN)
4. Liaison ester entre C5
de ribose et PO4^-2
5. Liaison anhydride
entre paire de phosphates (pyrophosphate)
Les orbitales électroniques des atomes individuels fusionnent et forment des orbitales moléculaires "hybrides". La force de bobnd est la quantité d'énergie qui peut réellement briser le lien. Si vous mettez un H-H ensemble, ils forment une liaison sigma.

alors en solution ils seraient
supposons un type de structure appelé bobine aléatoire.

Pourquoi les biopolymères ne sont-ils pas des bobines aléatoires ?

Que font les liaisons covalentes fortes par rapport aux forces faibles ?

Dans quoi les forces faibles jouent-elles un rôle crucial ?

Les biopolymères ne sont pas des bobines aléatoires car :
1. Unités monomères d'interagir via.
interactions de liaison faibles.
2. De nombreuses liaisons faibles additionnées
constitue une force importante qui
provoque le pliage et la condensation du polymère.

Des liaisons covalentes relient les résidus pour former des polymères
Des forces faibles le font se condenser et se compacter pour former des amas

Détermination de la structure, de la fonction et de l'interaction 3D

• Si aucune force n'est appliquée à une chaîne polymère de bobine aléatoire,
il aura une longueur de bout en bout quadratique moyenne de :

R^2= Nb^2
• b est la longueur du résidu, N est le nombre de résidus
• La taille aléatoire moyenne de la bobine est

Qu'est-ce que la permittivité du vide ?

Expliquez l'image sur la diapositive ?

La force électrostatique agissant entre les particules chargées
Q1 et Q2 sont donnés par la loi de Coulomb :

• L'unité de charge électrique est le Coulomb (C)
Q = 1,6 X 10-19 C
r = distance en mètres séparant les particules.
E = constante diélectrique (reflète la tendance de la
moyen pour protéger une charge d'une autre)
E_0 = 8,9 X 10-12 C^2N^-1m^-2 permittivité du vide
1/4piE_0= 9.0X10^9 Nm^2/C^2

Mesure d'une substance pour transmettre un champ électrique

Une tige rigide est formée car tous les monomères ont la même taille. Si vous introduisez du sel, les ions de sel commencent à neutraliser le monomère et ainsi le polymère peut commencer à se compacter.

En supposant que le pont salin soit stable, que se passe-t-il ?

Dans quelle plage de pH le glutamique est-il stable ?

Que se passe-t-il lorsque des cristaux de NaCl sont dissous dans l'eau ?

C'est à ce moment que plus de la moitié des groupes sont chargés (la moitié du glutamique a une charge négative sur le carboxylate et une charge positive sur l'ammonium)

Entre 4,25 et moins de 10,53
À pH neutre, le pont salin est stable car il se situe entre cette plage

Les molécules d'eau forment des coquilles de solvatation orientées (cette eau ne se contente pas de se déplacer normalement - elle reste en place. Ce n'est pas seulement une coquille qui se forme - il y a une coquille interne autour des ions, puis plus.

D'où s'étend la liaison H ?

Que suggèrent les expériences sur les liaisons H ?

si vous avez O-H-O, alors la liaison H va du centre du O au centre de l'autre O.

Où voit-on deux liaisons H très fortes ? Dans quoi sont-ils stables ?

Dimères d'acide formique et dimères d'acide acétique. Phase gazeuse.

Que se passe-t-il avec les protéines en solution aqueuse ?

Quel est le noyau des protéines natives ?

D'après le graphique, pourquoi H, E et D sont-ils si élevés ?

Les protéines se replient spontanément en structures compactes qui séparent les chaînes latérales d'acides aminés hydrophobes des molécules d'eau en vrac.

H, E et D se trouvent souvent sur les sites actifs des enzymes, de sorte que les carboxylates sont impliqués dans le processus catalytique

Parce qu'il a un coude pointu dans son peptide

Comment sont les molécules d'eau dans la cage ?

De quoi s'accompagne la formation de ces cages ?

Décrire delta H à température ambiante par rapport à delta S

Décrivez l'image sur la diapositive

Les molécules d'eau de la cage sont appelées "orientées" car elles ne sont pas aussi libres de se déplacer que les molécules d'eau "en vrac".

La formation de cages d'eau orientées s'accompagne d'une forte diminution de
entropie translationnelle (deltaS_tr est grand et négatif).

A température ambiante deltaH_tr est négatif Et petit par rapport à deltaS_tr

Dans l'image, il y a 36 H2O orienté autour de 4 objets, et puis vous avez 19 objets et 18 H2O orientés, nous avons libéré 17 molécules dans la phase aqueuse en vrac. Dans un système fermé, l'entropie augmente avec le temps. À gauche, nous avons des émulsions, mais avec le temps, elles se séparent à droite lorsque l'entropie augmente.

Quand tombe-t-il en panne ? (3 choses spécifiques à ce sujet)

Que se passe-t-il si vous réduisez la température de l'émulsion d'huile ?

Quelle est la relation entre deltaH et deltaS avec la température ?

Que deviennent certaines protéines à basse température ? (Exemple)
Pourquoi cela pourrait-il être?

Pourquoi les patchs hydrophobes à la surface des protéines sont-ils importants ?

Se décompose près du pb de l'eau :
1. Cages d'eau autour des molécules hydrophobes
ne sont pas plus commandés que le solvant en vrac deltaStr=0).
2. !Htr est un petit négatif
3. !Gtr est négatif

Si vous réduisez la température de l'émulsion d'huile, vous perdez l'effet d'entropie en continuant à refroidir car les molécules d'eau commenceront à s'orienter dans le processus comme elles le font lors de la formation de glace.

! H tr et !Str n'ont pas la même dépendance à la température, il existe donc une température à laquelle l'effet hydrophobe est le plus fort.

• Certaines protéines comme l'enzyme nitrogénase se dénaturent à basse température La diminution de la force de l'effet hydrophobe peut contribuer à la dénaturation à basse température de certaines protéines.

Les plaques hydrophobes à la surface des protéines sont importantes pour les interactions entre les protéines qui entraînent la formation de protéines multi-sous-unités.


Préparation des fichiers MM pour CPMD

Examinons la dernière configuration obtenue à partir de l'équilibration classique de la dynamique moléculaire :

L'image montre le système solvaté sans appliquer les conditions aux limites périodiques (PBC) que cependant Sander et de nombreux autres programmes de la suite AmberTools prennent en compte. Par conséquent, dans cette représentation, les molécules dérivent dans le temps et peuvent s'étendre sur plusieurs cellules périodiques, il s'agit d'une situation normale dans la MD. Cependant, nous voulons maintenant passer à CPMD afin d'effectuer une simulation QM/MM MD, et CPMD n'applique pas « automatiquement » PBC à la configuration de départ. Par conséquent, nous devons « réimager » les coordonnées dans la cellule unitaire principale. Cette tâche peut être effectuée par le programme cpptraj de la suite AmberTools. Déplacez les fichiers de topologie et de coordonnées finales dans un dossier, puis créez le fichier d'entrée eq_density.cpptraj pour cpptraj :

Exécutez cpptraj selon cette syntaxe :

Vérifiez que la réimagerie a été correctement effectuée :

L'image ci-dessus a été obtenue avec VMD en sélectionnant (dans le menu Affichage) le mode d'affichage Orthographique à la place du mode Perspective par défaut.

Nous sommes maintenant prêts à convertir nos fichiers de topologie et de coordonnées dans un format que l'interface QM/MM actuelle de CPMD peut lire. Le code 13 amber12togromos.x que vous pouvez trouver dans le fichier tar ci-dessus, est un programme interne (source disponible sur demande : [email protected]) écrit il y a quelques années pour convertir les fichiers Amber MD dans le GROMOS format 14 :

L'option "solvate" permet de spécifier que les molécules d'eau doivent être traitées comme des solvants : ceci n'est utile que si vous êtes intéressé à lire dans le fichier journal CPMD les énergies et autres quantités partitionnées en composants solutés et solvants.

Le convertisseur générera les fichiers texte suivants :

gromos.top le fichier de topologie GROMOS pour notre système

gromos.inp le fichier d'entrée GROMOS

gromos.crd le fichier de coordonnées au format GROMOS96

Remarque : pour ouvrir et visualiser le fichier gromos.crd avec VMD :

Ces 3 fichiers sont prêts pour une simulation QM/MM MD. Cependant, certaines modifications de ces fichiers pourraient être nécessaires afin de configurer correctement la simulation. Ci-dessous, nous décrivons les sections les plus pertinentes 15 de ces fichiers qui doivent être vérifiées. Notez que le code amber12togromos.x fournit un fichier gromos.inp avec des sections entièrement commentées.

Dans la section SYSTEM, les deux numéros doivent être dans l'ordre :

Nombre de molécules de soluté (identiques) (pas nécessairement la partie QM !) 16

Nombre de molécules de solvant (identiques) (pas nécessairement la partie MM !)

Ces informations peuvent être obtenues par exemple en inspectant le fichier gromos.crd :

Le premier nombre doit être 0 pour le système isolé >0 si PBC en boîte parallélépipédique a été utilisé <0 si PBC en boîte octaédrique a été utilisé.

Les 3 chiffres suivants sont les tailles de la boîte qui peuvent être lues à la fin du fichier gromos.crd.

90,0 est l'angle entre les axes x et z de la boîte.

Le dernier numéro est ignoré par CPMD dans les simulations QM/MM.

Dans la section SOUS-MOLÉCULES, les nombres dans l'ordre doivent être :

Nombre de molécules de soluté (différentes) 18 .

Indice du dernier atome de la première molécule de soluté.

Indice du dernier atome de la deuxième molécule de soluté.

Ces données peuvent être lues à partir du fichier gromos.crd :

Dans la section PRINT, vous voudrez peut-être modifier le premier nombre, qui est le nombre d'étapes après que CPMD ait écrit les informations sur l'énergie dans le fichier de sortie (100 est généralement suffisant).

Dans la section FORCE, sous la ligne des 1 (qui activent les différentes composantes de la force, de sorte que lorsqu'il n'y a que des 1 tous les termes de force sont inclus dans les calculs), nous devons mettre :

Le nombre de couches différentes, généralement 2 (soluté et solvant)
Indice du dernier atome de la couche 1
Indice du dernier atome de la couche 2

  1. In the section ATOMTYPENAME replace the names of the types of the atoms, coming from the standard generic force field library GAFF (o, c, c3, etc):

The correctly modified files gromos_mod.top and gromos_mod.inp have been provided in the tutorial subfolder 5-Preparing_the_MM_files_for_CPMD


Structures des acides aminés communs

Les acides aminés présents dans les protéines diffèrent les uns des autres par la structure de leur côté (R) Chaînes. L'acide aminé le plus simple est la glycine, dans laquelle R est un atome d'hydrogène. Dans un certain nombre d'acides aminés, R représente des chaînes carbonées droites ou ramifiées. L'un de ces acides aminés est l'alanine, dans laquelle R est le groupe méthyle (―CH3). Valine, leucine et isoleucine, avec plus de R groupes, complètent la série des chaînes latérales alkyle. Les chaînes latérales alkyles (R groupes) de ces acides aminés sont non polaires, cela signifie qu'ils n'ont pas d'affinité pour l'eau mais une certaine affinité les uns pour les autres. Bien que les plantes puissent former tous les acides aminés alkylés, les animaux ne peuvent synthétiser que l'alanine et la glycine, ainsi la valine, la leucine et l'isoleucine doivent être fournies dans l'alimentation.

Deux acides aminés, contenant chacun trois atomes de carbone, sont dérivés de l'alanine, il s'agit de la sérine et de la cystéine. La sérine contient un groupe alcool (―CH2OH) au lieu du groupe méthyle de l'alanine, et la cystéine contient un groupe mercapto (―CH2SH). Les animaux peuvent synthétiser la sérine mais pas la cystéine ou la cystine. La cystéine est présente dans les protéines principalement sous sa forme oxydée (oxydation dans ce sens signifiant l'élimination des atomes d'hydrogène), appelée cystine. La cystine se compose de deux molécules de cystéine liées par la liaison disulfure (―S―S―) qui se produit lorsqu'un atome d'hydrogène est retiré du groupe mercapto de chacune des cystéines. Les liaisons disulfure sont importantes dans la structure des protéines car elles permettent la liaison de deux parties différentes d'une molécule de protéine à - et donc la formation de boucles dans - les chaînes autrement droites. Certaines protéines contiennent de petites quantités de cystéine avec des groupes sulfhydryle libres (―SH).

Quatre acides aminés, chacun constitués de quatre atomes de carbone, sont présents dans les protéines, à savoir l'acide aspartique, l'asparagine, la thréonine et la méthionine. L'acide aspartique et l'asparagine, présents en grande quantité, peuvent être synthétisés par les animaux. La thréonine et la méthionine ne peuvent pas être synthétisées et sont donc des acides aminés essentiels, c'est-à-dire qu'elles doivent être fournies dans l'alimentation. La plupart des protéines ne contiennent que de petites quantités de méthionine.

Les protéines contiennent également un acide aminé à cinq atomes de carbone (acide glutamique) et une amine secondaire (dans la proline), qui est une structure avec le groupe aminé (―NH2) lié à la chaîne latérale alkyle, formant un cycle. L'acide glutamique et l'acide aspartique sont des acides dicarboxyliques, c'est-à-dire qu'ils ont deux groupes carboxyle (―COOH).

La glutamine est similaire à l'asparagine en ce que les deux sont les amides de leurs formes d'acide dicarboxylique correspondantes, c'est-à-dire qu'elles ont un groupe amide (―CONH2) à la place du carboxyle (―COOH) de la chaîne latérale. L'acide glutamique et la glutamine sont abondants dans la plupart des protéines, par exemple, dans les protéines végétales, ils comprennent parfois plus d'un tiers des acides aminés présents. L'acide glutamique et la glutamine peuvent être synthétisés par les animaux.

Teneur en acides aminés de certaines protéines*
acide aminé protéine
alpha-caséine gliadine edestin collagène (peau de bœuf) kératine (laine) myosine
*Nombre de molécules-grammes d'acides aminés pour 100 000 grammes de protéines.
**Les valeurs pour l'acide aspartique et l'acide glutamique incluent respectivement l'asparagine et la glutamine.
***Isoleucine plus leucine.
lysine 60.9 4.45 19.9 27.4 6.2 85
histidine 18.7 11.7 18.6 4.5 19.7 15
arginine 24.7 15.7 99.2 47.1 56.9 41
l'acide aspartique** 63.1 10.1 99.4 51.9 51.5 85
thréonine 41.2 17.6 31.2 19.3 55.9 41
sérine 63.1 46.7 55.7 41.0 79.5 41
acide glutamique** 153.1 311.0 144.9 76.2 99.0 155
proline 71.3 117.8 32.9 125.2 58.3 22
glycine 37.3 68.0 354.6 78.0 39
alanine 41.5 23.9 57.7 115.7 43.8 78
demi-cystine 3.6 21.3 10.9 0.0 105.0 86
valine 53.8 22.7 54.6 21.4 46.6 42
méthionine 16.8 11.3 16.4 6.5 4.0 22
isoleucine 48.8 90.8*** 41.9 14.5 29.0 42
leucine 60.3 60.0 28.2 59.9 79
tyrosine 44.7 17.7 26.9 5.5 28.7 18
phénylalanine 27.9 39.0 38.4 13.9 22.4 27
tryptophane 7.8 3.2 6.6 0.0 9.6
hydroxyproline 0.0 0.0 0.0 97.5 12.2
hydroxylysine 8.0 1.2
le total 839 765 883 1,058 863 832
poids résiduel moyen 119 131 113 95 117 120

Les acides aminés proline et hydroxyproline sont présents en grande quantité dans le collagène, la protéine du tissu conjonctif des animaux. La proline et l'hydroxyproline manquent d'amino libre (―NH2) car le groupe amino est enfermé dans une structure cyclique avec la chaîne latérale, ils ne peuvent donc pas exister sous forme de zwitterion. Bien que le groupe contenant de l'azote (>NH) de ces acides aminés puisse former une liaison peptidique avec le groupe carboxyle d'un autre acide aminé, la liaison ainsi formée donne lieu à un pli dans la chaîne peptidique, c'est-à-dire que la structure du cycle modifie l'angle de liaison régulier. de liaisons peptidiques normales.

Les protéines sont généralement des molécules presque neutres, c'est-à-dire qu'elles n'ont ni propriétés acides ni basiques. Cela signifie que les groupes carboxyle acide ( COO - ) de l'acide aspartique et glutamique sont à peu près égaux en nombre aux acides aminés avec des chaînes latérales basiques. Trois de ces acides aminés basiques, chacun contenant six atomes de carbone, sont présents dans les protéines. Celle dont la structure est la plus simple, la lysine, est synthétisée par les plantes mais pas par les animaux. Même certaines plantes ont une faible teneur en lysine. L'arginine se trouve dans toutes les protéines, elle est présente en quantités particulièrement élevées dans les protamines fortement basiques (protéines simples composées de relativement peu d'acides aminés) du sperme de poisson. Le troisième acide aminé basique est l'histidine. L'arginine et l'histidine peuvent être synthétisées par les animaux. L'histidine est une base plus faible que la lysine ou l'arginine. Le cycle imidazole, une structure cyclique à cinq chaînons contenant deux atomes d'azote dans la chaîne latérale de l'histidine, agit comme un tampon (c. anneau.

Les acides aminés restants - phénylalanine, tyrosine et tryptophane - ont en commun une structure aromatique, c'est-à-dire qu'un cycle benzénique est présent. Ces trois acides aminés sont essentiels et, bien que les animaux ne puissent pas synthétiser le cycle benzénique lui-même, ils peuvent convertir la phénylalanine en tyrosine.

Parce que ces acides aminés contiennent des cycles benzéniques, ils peuvent absorber la lumière ultraviolette à des longueurs d'onde comprises entre 270 et 290 nanomètres (nm 1 nanomètre = 10 -9 mètres = 10 unités angström). La phénylalanine absorbe très peu la lumière ultraviolette, la tyrosine et le tryptophane, cependant, l'absorbent fortement et sont responsables de la bande d'absorption que la plupart des protéines présentent à 280-290 nanomètres. Cette absorption est souvent utilisée pour déterminer la quantité de protéines présentes dans les échantillons de protéines.


Whilst less well described than cation-aryl interactions there are a number of examples of anion-aryl interactions. There is a review "Anion-&pi interactions" DOI that highlights examples and theoretical considerations taken from supramolecular chemistry suggesting the binding interactions are comparable in energy to hydrogen bonds.

In sharp contrast to the mature area of cation binding to aromatic systems, anion-&pi interactions had hitherto been overlooked, primarily due to their counterintuitive nature (anions are expected to exhibit repulsive interactions with aromatic &pi-systems due to their electron donating character)

An interesting example of ligand binding to a biological macromolecule is found in the binding of phenyl diketo acids to Malate Synthase PDB. The diketo acid binds to the active site magnesium and Arg339 whilst the carboxylate portion of Asp633 residue packs face-on to the &pi-cloud of the aromatic ring, and the mean contact distance is

3.5 Å (less that than the typical

4.5 Å distance of hydrophobic contacts, suggesting an anion-&pi interaction. Modelling this interaction has been used to screen ligands DOI


Résumé

Targeting protein kinases is an important strategy for intervention in cancer. Inhibitors are directed at the active conformation or a variety of inactive conformations. While attempts have been made to classify these conformations, a structurally rigorous catalog of states has not been achieved. The kinase activation loop is crucial for catalysis and begins with the conserved DFGmotif. This motif is observed in two major classes of conformations, DFGin—a set of active and inactive conformations where the Phe residue is in contact with the C-helix of the N-terminal lobe—and DFGout—an inactive form where Phe occupies the ATP site exposing the C-helix pocket. We have developed a clustering of kinase conformations based on the location of the Phe side chain (DFGin, DFGout, and DFGinter or intermediate) and the backbone dihedral angles of the sequence X-D-F, where X is the residue before the DFGmotif, and the DFG-Phe side-chain rotamer, utilizing a density-based clustering algorithm. We have identified eight distinct conformations and labeled them based on the Ramachandran regions (A, alpha B, beta L, left) of the XDF motif and the Phe rotamer (minus, plus, trans). Our clustering divides the DFGin group into six clusters including BLAminus, which contains active structures, and two common inactive forms, BLBplus and ABAminus. DFGout structures are predominantly in the BBAminus conformation, which is essentially required for binding type II inhibitors. The inactive conformations have specific features that make them unable to bind ATP, magnesium, and/or substrates. Our structurally intuitive nomenclature will aid in understanding the conformational dynamics of kinases and structure-based development of kinase drugs.

Phosphorylation is a fundamental mechanism by which signaling pathways are regulated in cells. Protein kinases are cellular sentinels which catalyze the phosphorylation reaction by transferring the γ-phosphate of an ATP molecule to Ser, Thr, or Tyr residues of the substrate. Due to their crucial role in the functioning of the cell, protein kinases are tightly regulated. Dysregulation of kinases may result in variety of disorders including cancer, making development of compounds for modulating kinase activity an important therapeutic strategy.

The human genome contains ∼500 protein kinases that share a common fold consisting of two lobes: an N-terminal lobe, consisting of a five-stranded β-sheet with an α-helix called the C-helix, and a C-terminal lobe comprising six α-helices (Fig. 1). They are divided broadly into nine families based on their sequences (1). The two lobes are connected by a flexible hinge region forming the ATP-binding site in the middle of the protein. The active site comprises several structural elements that are crucial for enzymatic activity. The activation loop is typically 20 to 30 residues in length beginning with a conserved DFG motif (usually Asp-Phe-Gly) and extending up to an APE motif (usually Ala-Pro-Glu). In active kinase structures, this loop forms a cleft that binds substrate. Bound substrate peptide forms specific interactions with the conserved HRD motif (usually His-Arg-Asp) which occurs in the catalytic loop of the protein. In the active conformation, the DFG motif Asp is in a position and orientation to bind a magnesium ion that interacts directly with an oxygen atom of the β phosphate of ATP. The active state exhibits an inward disposition of the C-helix which positions a conserved Glu in the helix to form a salt bridge with a Lys residue in the β3 strand. When the salt bridge is formed, the lysine side chain forms hydrogen bonds with oxygen atoms of the α and β phosphates of ATP. The N-lobe has a GxGxxG motif in a loop that stabilizes the phosphates of the bound ATP molecule during catalysis. The catalytically active state of a kinase requires a unique assembly of these elements that create an environment conducive to the phosphotransfer reaction. The regulation of the activity of a kinase is achieved in part by the plasticity of these elements of the structure (2).

Structure of a typical protein kinase domain displaying ATP binding site and conserved elements around it (INSR kinase, PDB ID code 1GAG).

Inactive states of a kinase do not have the chemical constraints required for catalytic activity and therefore kinases exhibit multiple inactive conformations (3). Typically, in an inactive conformation the activation loop is collapsed onto the surface of the protein, blocking substrate binding and rendering the kinase catalytically inactive. In addition, many inactive conformations have positions of the DFGmotif incompatible with binding ATP and magnesium ion required for catalysis. In the DFGout conformation, DFG-Phe and DFG-Asp swap positions so that DFG-Phe occupies the ATP binding pocket and DFG-Asp is out of the active site. There are diverse DFGin structures from multiple kinases where DFG-Phe remains adjacent to the C-helix but in a different orientation (and sometimes position) from that of active DFGin structures. There are also structures where the Phe is in positions intermediate between the typical DFGin and DFGout states. The many inactive, non-DFGout conformations have been variously referred to as pseudo DFGout, DFGup, SRC-like inactive, and atypical DFGout (4, 5). Although DFGin and DFGout are broadly recognized groups of conformations, a consensus nomenclature for the inactive states is lacking.

The DFGin and DFGout conformations have been used as the basis of grouping the inhibitors developed against the active site of these proteins into two main categories (6, 7). Molecules such as dasatinib which occupy the ATP pocket only are called type I inhibitors and typically bind DFGin conformations, but not exclusively. Type II Inhibitors like imatinib bind to the DFGout state and extend into the hydrophobic allosteric pocket underneath the C-helix (8). Design of better inhibitors could be guided by a better understanding and classification of the conformational variation observed in kinases.

There have been some attempts to classify kinase structures in the Protein Data Bank (PDB) (now over 3,300) and to study inhibitor interactions (9 ⇓ ⇓ –12). Möbitz (11) has performed a quantitative classification of all of the mammalian kinases using pseudo dihedral angles of four consecutive Cα atoms of the residues of the DFGmotif and its neighbors and its distance from the C-helix. This resulted in a scheme dividing kinase conformations into 12 categories with labels “FG-down,” “FG-down αC-out,” “G-down αC-out,” “A-under P BRAF,” “A-under P-IGF1R,” and so on. Recently, Ung et al. (12) used a similar idea of using two directional vectors for the DFGmotif residues and the distance from the C-helix to classify kinases into five groups, C-helix-in-DFGin (CIDI), C-helix-in-DFGout (CIDO), C-helix-out-DFGin (CODI), C-helix-out-DFGout (CODO), and ωCD. Some other classification schemes have emphasized the binding modes of inhibitors (4, 13).

In this paper, we present a clustering and classification of the conformational states of protein kinases that addresses some of the deficiencies of previous such efforts. These deficiencies include failing to distinguish DFGin inactive conformations from active structures, either too few or too many structural categories, and an inability to automatically classify new structures added to the PDB. In the current work, we have clustered all of the human kinase structures at two levels of structural detail. First, at a broader level we grouped kinase structures into three categories depending on the spatial position of the DFG-Phe side chain. These three groups are labeled the DFGin, DFGout, and DFGinter (intermediate) conformations. Second, we clustered each of the three spatial groups at a finer level based on the dihedral angles required to place the Phe side chain: the backbone dihedral angles ϕ and ψ of the residue preceding the DFGmotif (X-DFG), the DFG-Asp residue, and the DFG-Phe residue, as well as the χ1 side-chain dihedral angle of the DFG-Phe residue. This produced a total of eight clusters—six for DFGin and one cluster each for the DFGout and DFGinter groups.

We have developed a nomenclature that is intuitive to structural biologists based on the regions of the Ramachandran map occupied by the X, D, and F residues of the X-DFG motif (“A” for alpha-helical region, “B” for beta-sheet region, and “L” for left-handed helical region) and the χ1 rotamer of the Phe side chain (“minus” for the −60° rotamer, “plus” for the +60° rotamer, and “trans” for the 180° rotamer). We have clearly identified the active state of kinases, designated “BLAminus,”’ which is the most common kinase conformation in the PDB. Further, we also clearly define different inactive DFGin conformations which were previously grouped together. The most common inactive DFGin conformations are BLBplus and ABAminus. The type II-binding DFGout state is labeled BBAminus. Overall, our clustering and nomenclature scheme provides a structural catalog of human kinase conformations which will provide deeper insight into the structural variation of these proteins, benefitting structure-guided drug design.


Méthodes

Compilation of XL-MS data from the literature

XL-MS data from equine cytochrome c was taken from the studies of Xu et al. 28 and Lackner et al. 31 Selected N?? et C?? atom coordinates from six structures of equine cytochrome c (PDB codes: 1akk, 1crc, 2giw, 1ocd, 3o1y, and 3o2o) were retrieved from the Protein Data Bank and interatomic distances were calculated using a custom Perl script (available on request). Distributions of experimental crosslink distances were taken from the extensive compilation of XL-MS data of Kahraman et al. 30 This database was then filtered to contain only XL-MS results that used either BS 3 or disuccinimidyl suberate (DSS), a reagent of identical length, as the crosslinker. Crosslinks were flagged as either intramolecular or intermolecular. Only the intramolecular set was used for comparison to the Dynameomics simulations, since the Dynameomics database contains only simulations of monomers. However, the difference between inter- and intramolecular N??–N?? distance distributions was not significant (p=0.32, Welch's two-sample t-test), suggesting that the results are relevant to protein complexes as well. For C??–C?? distances, the inter- and intramolecular distance distributions were significantly different (p=0.035.), and only the intramolecular set was used. Crosslinks involving residues with missing C?? or N?? atoms were also removed, and in a few cases, the identity of the crosslinked subunit was changed to either make the crosslinked distance shorter or account for a missing atom. The final set included 486 intramolecular crosslinks with distances between crosslinked residues calculated from 40 different protein structures.

Dynameomics MD simulations

Simulations were conducted using the in lucem Molecular Mechanics (ilmm 43 ) software package using the Levitt et al. potential function, 44 and the F3C water model. 45 Detailed protocols for selection of starting structures, preparation and simulation, and quality assurance of the Dynameomics targets have been described elsewhere. 25, 46 Using SQL queries (available upon request), we extracted the distances between all lysine N?? atom pairs and all lysine C?? atom pairs from every simulation at 100-ps intervals from the Dynameomics database. 24 This sampling frequency was chosen because it was the least-frequent sampling that maintained the distribution of distances for a representative simulation. Of the 807 CCD simulations, 766 simulations contained more than one lysine residue and were subsequently analyzed, comprising a total of 43,364 lysine–lysine pairs. All aggregate measures of simulation distance (median, etc.) were calculated after omitting the first 2 ns of the simulation, to allow for relaxation from the starting conformation. The simulation length varied from 50.999 to 75.522 ns, (average 52.529 ns), for a combined total of 40 µs of simulation time. The simulation starting distances 0 are the distance in the simulated structure at simulation time zero. These starting distances closely approximate the experimental distances of the simulated protein structures, having been only slightly altered (on the order of 0.1 Å C?? RMSD) by the minimization and other protocols used to prepare the structure for simulation. Data were imported into the R statistical computing environment 47 for analysis and plotting. Personnalisé R scripts used for the analysis are available upon request.


Voir la vidéo: Japanese Movie 学生クラブ ロマンス映画 (Mai 2022).