Informations

Score de propension aux acides aminés

Score de propension aux acides aminés



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Quelle est la signification du score de propension des acides aminés ? Comment est-il calculé ?
(Je n'ai pas étudié la biologie depuis 8 ans et maintenant j'y passe parce que j'en ai besoin pour mes recherches. Donc si quelqu'un peut le décrire dans un langage simple, ce serait très utile)


En guise de réponse simplifiée : le score de propension est utilisé pour prédire la structure secondaire des protéines. Il est dérivé de l'observation du résidu aa de la surface accessible de la protéine et également de l'interface qui permet les interactions entre d'autres protéines.

L'équation est la suivante :

Propension= [probabilité du résidu dans l'interface / probabilité du résidu sur la surface]

où,

prob du résidu dans l'interface = [nombre d'acides aminés dans l'interface / nombre total d'acides aminés de tout type d'interface]

et,

prob du résidu à la surface = [nombre d'acides aminés de surface / nombre total d'acides aminés de surface]

Consultez ce document PLOS pour un exemple. PLoS One. 2014 ; 9(5) : e97158.


Serveur DiscoTope 2.0

Le serveur DiscoTope prédit les épitopes discontinus de cellules B à partir de structures tridimensionnelles de protéines. La méthode utilise le calcul de l'accessibilité de surface (estimée en termes de nombre de contacts) et un nouveau score d'acides aminés de propension à l'épitope. Les scores finaux sont calculés en combinant les scores de propension des résidus à proximité spatiale et les numéros de contact.

Nouveau dans la version 2.0 de DiscoTope : nouvelle définition du voisinage spatial utilisé pour additionner les scores de propension et l'exposition à la demi-sphère en tant que mesure de surface.

Noter: Le serveur DiscoTope a été mis à jour pour améliorer la convivialité. Le serveur prédit désormais les épitopes dans des complexes de chaînes multiples. De plus, les fichiers de sortie DiscoTope sont désormais facilement téléchargés et importés dans des feuilles de calcul. De plus, nous avons facilité la visualisation des résultats de prédiction.

CITATIONS

Pour la publication des résultats, veuillez citer :

Prédictions fiables d'épitopes de cellules B : impacts du développement de méthodes et amélioration de l'analyse comparative
Jens Vindahl Kringelum, Claus Lundegaard, Ole Lund et Morten Nielsen
Plos Computational Biology, 2012
Lien vers le papier


Fond

On estime qu'environ 20 à 30% de toutes les protéines codées dans un génome typique sont localisées dans les membranes [1, 2], où les interactions protéine-lipide jouent un rôle crucial dans la stabilité conformationnelle et les fonctions biologiques des protéines membranaires. De nombreuses études expérimentales ont suggéré que les propriétés physico-chimiques de la bicouche lipidique membranaire influencent la stabilité et la fonction des protéines membranaires. Il a été démontré que la stabilité thermique [3, 4] et chimique [5] du canal potassique KcsA varie en fonction de la composition lipidique de la bicouche membranaire. Il a également été montré que la composition lipidique affecte les fonctions protéiques dont : le transport des ions dans la KcsA [6, 7] et la Ca 2+ -ATPase du réticulum sarcoplasmique [8, 9], la phosphorylation par la diacylglycérol kinase [10] et le composé chimique transport par le canal mécanosensible de grande conductance MscL [11]. Pour compléter ces études expérimentales, des analyses statistiques ont été effectuées pour révéler les préférences d'acides aminés et les modèles de conservation dans l'environnement de la bicouche lipidique [12-16] en utilisant les données de séquence et de structure disponibles. Les modèles émergeant de ces analyses statistiques devraient refléter implicitement les effets des molécules lipidiques sur la formation structurale et la stabilité des protéines membranaires. Cependant, peu d'études informatiques précédentes ont pris en compte explicitement les détails atomiques des interactions protéine-lipide. Une exception notable est les simulations de dynamique moléculaire (MD) de tous les atomes, il est devenu possible d'appliquer la technique aux protéines membranaires dans des conditions imitant les membranes biologiques (revue récemment par Khalili-Araghi et ses co-auteurs [17]). Les simulations MD tout-atome nous permettent d'inspecter les interactions protéine-lipide dans les détails atomiques [18, 19] et peuvent révéler le rôle des lipides dans la fonction des protéines [20], bien que pour une petite sélection de molécules lipidiques et protéiques spécifiques.

Dans cet article, nous tentons de comprendre la nature des interactions protéine-lipide en utilisant une approche informatique. Compte tenu du nombre limité de structures cristallines contenant des molécules lipidiques, nous avons décidé de combiner tous les phospholipides biologiques connus et de classer les interactions atomiques en celles impliquant les parties "tête" et "queue" des lipides. Les groupes tête et queue peuvent être trouvés dans la plupart des phospholipides constituant une membrane biologique et définissent l'une des caractéristiques chimiques les plus essentielles de ces molécules. Ainsi, nous demandons plus spécifiquement : « Comment les parties tête et queue des molécules lipidiques sont-elles reconnues par les résidus d'acides aminés dans les protéines membranaires ?

Pour répondre à cette question, nous avons utilisé deux sources de données disponibles, les structures cristallines et les trajectoires MD. En utilisant les données de structure cristalline, nous pouvons inclure et examiner divers types de protéines et de lipides, bien que le nombre de molécules lipidiques observées dans chaque structure résolue soit limité. En utilisant les données MD, nous pouvons obtenir des informations détaillées sur toutes les molécules lipidiques entourant une protéine, bien qu'une telle analyse ne soit possible que pour un petit ensemble de types de protéines et de lipides. La combinaison de ces deux sources de données nous permet d'évaluer les biais résultant d'une variété limitée de données dans chaque source de données. Les résultats ont révélé un modèle commun d'interactions queue lipidique-acides aminés observée à la fois dans les structures cristallines et les trajectoires MD. Nous montrons que la reconnaissance des queues lipidiques peut s'expliquer en grande partie par la lipophilie générale et que cet effet domine dans les deux situations différentes représentées par la structure cristalline et les ensembles de données MD. En revanche, les groupes de têtes lipidiques ont montré un schéma plus compliqué et diversifié et nous discutons de la manière dont nos observations peuvent être liées aux données expérimentales connues et aux concepts précédemment proposés concernant les interactions protéine-lipide.


Introduction

La connaissance des structures protéiques tridimensionnelles est cruciale lors de l'étude des fonctions des protéines. La connaissance structurelle est considérée comme importante lors de la conception de médicaments impliquant les fonctions protéiques [1]. En général, la cristallographie aux rayons X et la spectroscopie de résonance magnétique nucléaire sont couramment utilisées pour déterminer les structures des protéines. Environ 80% des structures protéiques de la Protein Data Bank (PDB) ont été obtenues en utilisant la méthode de cristallographie aux rayons X [2]. En fait, ces deux approches impliquent des processus très complexes, longs, laborieux et coûteux. En raison des difficultés à déterminer les structures cristallines, le protocole actuel ne donne qu'un taux de réussite de 30% [3]. Ainsi, de nombreux chercheurs tirent parti des approches informatiques pour prédire directement la cristallisation des protéines.

Canaves et al. [4] et Goh et al. [5] ont proposé des méthodes d'extraction de caractéristiques informatives pour prédire la cristallisation des protéines. De nombreuses méthodes de calcul basées sur des séquences, notamment OB-Score [6], SECRET [7], CRYSTALP [8], XtalPred [9], ParCrys [10], CRYSTALP2 [11], SVMCRYS [12], PPCpred [13] et RFCRYS [14], prédisent la cristallisation des protéines, comme le montre le tableau 1. Les machines à vecteurs de support (SVM) [7], [12], [13] et le mécanisme d'ensemble [13], [14] sont des techniques bien connues pour améliorer la précision des prédictions. En raison des différents objectifs de conception et repères utilisés, il n'est pas facile d'évaluer quelle méthode et quelles fonctionnalités sont les plus efficaces. D'après l'étude dans [14] et le tableau 1, nous pouvons voir que la méthode SVM_POLY (voir les travaux [13]) utilisant SVM a la plus grande précision parmi les méthodes non-ensemble. Cette méthode est l'un des quatre prédicteurs SVM intégrés dans PPCpred [13]. Les méthodes d'ensemble de pointe PPCpred et RFCRYS ont des précisions de prédiction élevées en utilisant respectivement les classificateurs SVM et Random Forest. PPCpred utilise un ensemble complet d'entrées basées sur des indices d'énergie et d'hydrophobie, la composition de certains types d'acides aminés, le désordre prédit, la structure secondaire, l'accessibilité des solvants et le contenu de certains résidus enfouis et exposés [13]. RFCRYS prédit la cristallisation des protéines en utilisant les compositions mono-, di- et tri-peptidiques les fréquences des acides aminés dans différents groupes physico-chimiques le point isoélectrique le poids moléculaire et la longueur des séquences protéiques [14]. Cependant, le mécanisme de ces deux classificateurs d'ensemble souffre d'une faible interprétabilité pour les biologistes. Il n'est pas clair quelles caractéristiques de séquence fournissent la contribution essentielle à la précision élevée de la prédiction.

Plutôt que d'augmenter à la fois la complexité des méthodes de prédiction et le nombre de types de caractéristiques tout en recherchant une précision élevée, la motivation de cette étude est de fournir une méthode simple et hautement interprétable avec une précision comparable du point de vue des biologistes. Les p-paires AA colocalisées (p = 0 pour un dipeptide) se sont avérées significatives pour influencer ou améliorer la cristallisation des protéines en raison de l'impact du repliement correspondant à l'interaction entre les paires locales d'AA [8], [11]. Les p-les paires AA colocalisées fournissent les informations supplémentaires sur lesquelles l'interaction entre les paires AA locales se reflète en plus de la simple composition AA. Cette étude propose une méthode d'ensemble, SCMCRYS, pour prédire la cristallisation des protéines dans laquelle chaque classificateur est construit en utilisant une méthode de carte de notation (SCM) [15] avec l'estimation des scores de propension de p-paires AA colocalisées pour être cristallisables. Comparé au SCM utilisant la composition dipeptidique dans [15], le classificateur d'ensemble de SCMCRYS fait le meilleur usage des paires AA p-colocalisées. Les règles pour décider si une protéine est cristallisable dans le classificateur SCM et SCMCRYS sont très simples selon un score de somme pondérée et une méthode de vote d'un certain nombre de classificateurs SCM, respectivement. Cependant, les résultats expérimentaux montrent que le classificateur SCM est comparable à SVM_POLY et les classificateurs basés sur SVM avec p-paires AA colocalisées. La méthode SCMCRYS est comparable aux méthodes d'ensemble de pointe PPCpred et RFCRYS.

Les scores de propension des dipeptides et des acides aminés à être cristallisables sont fortement corrélés avec la capacité de cristallisation des séquences et peuvent fournir des informations sur la cristallisation des protéines. En outre, les scores de propension des acides aminés peuvent également révéler la relation entre la cristallisabilité et les propriétés physico-chimiques telles que la solubilité, le poids moléculaire, le point de fusion et l'entropie conformationnelle des acides aminés. Cette étude propose également une méthode d'analyse de mutagenèse pour illustrer l'avantage supplémentaire de la SCM. Nous étudions l'analyse de mutagenèse pour améliorer la cristallisabilité des protéines sur la base des scores de cristallisabilité estimés, des scores de solubilité [15] et des propriétés physico-chimiques des acides aminés. Le résultat de l'analyse révèle l'hypothèse que la mutagenèse des résidus de surface Ala et Cys a de grandes et petites probabilités d'améliorer la cristallisabilité des protéines dans l'application d'approches d'ingénierie des protéines.


SCMCRYS : Prédire la cristallisation des protéines à l'aide d'une méthode de carte de notation d'ensemble avec estimation des scores de propension des paires d'acides aminés P-colocalisés

Les méthodes existantes pour prédire la cristallisation des protéines obtiennent une grande précision à l'aide de divers types de caractéristiques complémentaires et de classificateurs d'ensemble complexes, tels que la machine à vecteurs de support (SVM) et les classificateurs de forêt aléatoire. Il est souhaitable de développer une méthode de prédiction simple et facilement interprétable avec des caractéristiques de séquence informatives pour fournir des informations sur la cristallisation des protéines. Cette étude propose une méthode d'ensemble, SCMCRYS, pour prédire la cristallisation des protéines, pour laquelle chaque classificateur est construit en utilisant une méthode de carte de notation (SCM) avec l'estimation des scores de propension des paires d'acides aminés (AA) colocalisés p (p = 0 pour un dipeptide ). Le classificateur SCM détermine la cristallisation d'une séquence en fonction d'un score à somme pondérée. Les poids sont la composition des paires AA p-colocalisées, et les scores de propension de ces paires AA sont estimés à l'aide d'une approche statistique avec optimisation. SCMCRYS prédit la cristallisation en utilisant une méthode de vote simple à partir d'un certain nombre de classificateurs SCM. Les résultats expérimentaux montrent que le classificateur SCM unique utilisant une composition dipeptidique avec une précision de 73,90% est comparable au meilleur classificateur basé sur SVM précédemment développé, SVM_POLY (74,6%), et notre classificateur basé sur SVM proposé utilisant la même composition dipeptidique (77,55 %). La méthode SCMCRYS avec une précision de 76,1% est comparable aux méthodes d'ensemble de pointe PPCpred (76,8%) et RFCRYS (80,0%), qui utilisaient respectivement les classificateurs SVM et Random Forest. Cette étude examine également l'analyse de mutagenèse basée sur SCM et le résultat révèle l'hypothèse que la mutagenèse des résidus de surface Ala et Cys a de grandes et petites probabilités d'améliorer la cristallisabilité des protéines compte tenu des scores estimés de cristallisabilité et de solubilité, de point de fusion, de poids moléculaire et d'entropie conformationnelle. d'acides aminés dans un état généralisé. Les scores de propension des acides aminés et des dipeptides pour estimer la cristallisabilité des protéines peuvent aider les biologistes à concevoir une mutation des résidus de surface pour améliorer la cristallisabilité des protéines. Le code source de SCMCRYS est disponible sur http://iclab.life.nctu.edu.tw/SCMCRYS/.


Introduction

Les peptides anticancéreux (ACP) sont de petits peptides exerçant des propriétés sélectives et toxiques envers les cellules cancéreuses. En raison de leur pénétration élevée inhérente, de leur sélectivité élevée et de leur facilité de modification, les médicaments et vaccins à base de peptides synthétiques 1 – 3 représentent une classe prometteuse d'agents thérapeutiques. Les ACP conçus peuvent améliorer l'affinité, la sélectivité et la stabilité pour améliorer l'élimination des cellules cancéreuses. L'influence des résidus d'acides aminés sur l'activité anticancéreuse des ACP dépend des propriétés cationiques, hydrophobes et amphiphiles avec une structure hélicoïdale pour conduire la perméabilité cellulaire. En particulier, les résidus d'acides aminés cationiques (c'est-à-dire la lysine, l'arginine et l'histidine) peuvent perturber et pénétrer la membrane des cellules cancéreuses pour induire une cytotoxicité, tandis que les acides aminés anioniques (c'est-à-dire les acides glutamique et aspartique) offrent une activité antiproliférative contre les cellules cancéreuses. De plus, les résidus d'acides aminés hydrophobes (c'est-à-dire la phénylalanine, le tryptophane et la tyrosine) exercent leur effet sur l'activité cytotoxique du cancer 1, 4, 5. De plus, la structure secondaire des ACP formée d'acides aminés cationiques et hydrophobes joue un rôle crucial dans l'interaction peptide-membrane cellulaire cancéreuse qui conduit intrinsèquement à la rupture et à la mort des cellules cancéreuses 1 , 6 . Par conséquent, il est souhaitable de développer un prédicteur simple, interprétable et efficace pour obtenir une identification précise des ACP ainsi que pour faciliter la conception rationnelle de nouveaux peptides anticancéreux avec des applications cliniques prometteuses.

Au cours des dernières années, la plupart des méthodes existantes ont été développées via l'utilisation de l'apprentissage automatique (ML) et des méthodes statistiques appliquées sur les informations de séquence peptidique pour discriminer les ACP des non-ACP 7 – 23 . Plus de détails sur ces méthodes existantes sont résumés dans deux articles de synthèse complets 2 , 3 . Parmi les différents types d'approches ML, les deux prennent en charge les machines à vecteurs (SVM) (c'est-à-dire AntiCP 8 , Hajisharifi et al. 14 et ACPred 19 ) et l'approche d'ensemble (c'est-à-dire MLACP 13 , ACPred 19 , PTPD 21 , ACP-DL 22 , PEPred-Suite 20 , ACPred-FL 15 , ACPred-Fuse 18 , PPTPP 23 et AntiCP_2.0 25 ) étaient largement utilisé pour développer des prédicteurs ACP. Comme résumé dans une revue récente 2 , nous avons pu voir que TargetACP a été développé en intégrant la composition en acides aminés divisés et des descripteurs de matrice de notation pseudo-position-spécifiques 14 , qui s'est avéré surpasser les prédicteurs basés sur SVM 8 &# x02013 12 , 19 , 24 . Pendant ce temps, les méthodes d'ensemble de pointe comprenant PEPred-Suite 20 et ACPred-Fuse 18 ont fourni les précisions de prédiction les plus élevées évaluées sur l'ensemble de données collectées par Rao et al. 18 . Dans ACPred-Fuse, il a été développé en utilisant un modèle de forêt aléatoire (RF) en conjonction avec 114 descripteurs de caractéristiques. Et puis, un total de 114 modèles RF ont été formés pour générer des informations de classe et des informations probabilistes utilisées pour développer un modèle final. Plus récemment, Agrawal et al. a proposé une version mise à jour d'AntiCP appelée AntiCP2.0 et a également fourni deux ensembles de données de référence de haute qualité (c'est-à-dire les ensembles de données principaux et alternatifs) ayant le plus grand nombre de peptides. AntiCP2.0 a été développé par un algorithme d'arbres extrêmement aléatoires (ETree) avec composition en acides aminés (AAC) et composition en dipeptides (DPC). Sur la base des résultats de tests indépendants rapportés par les travaux antérieurs d'AntiCP2.0, on peut remarquer que AntiCP2.0 était supérieur aux autres prédicteurs ACP existants (par exemple AntiCP 8 , iACP 10 , ACPred 19 , ACPred-FL 15 , ACPred- Fusible 18 , PEPred-Suite 20 ). Dans l'ensemble, de nombreux progrès ont été réalisés dans les méthodes existantes. Néanmoins, deux inconvénients potentiels des prédicteurs ACP existants nous ont motivés à développer un nouveau prédicteur ACP dans cette étude. Premièrement, leurs mécanismes interprétables ne sont pas faciles à comprendre et à mettre en œuvre du point de vue des biologistes et des biochimistes. Les modèles ACP existants ne fournissent pas d'explication directe sur le mécanisme sous-jacent de l'activité biologique de ce qui constitue les ACP. Pendant ce temps, un modèle simple et facilement interprétable est plus utile dans une analyse plus approfondie des caractéristiques des activités anticancéreuses des peptides. Deuxièmement, leur précision et leur généralisabilité doivent encore être améliorées.

Compte tenu de ces problèmes, nous proposons ici le développement d'un nouveau prédicteur basé sur la ML appelé iACP-FSCM pour améliorer encore la précision de la prédiction ainsi que pour faire la lumière sur les caractéristiques régissant les activités anticancéreuses des peptides. Le cadre conceptuel de l'approche iACP-FSCM proposée ici pour la prédiction et l'analyse des ACP est résumé à la Fig.  1 . Les principales contributions de l'iACP-FSCM pour la prédiction et la caractérisation des ACP peuvent être résumées comme suit. Premièrement, nous avons proposé ici une nouvelle méthode de carte de notation flexible (FSCM) pour une prédiction et une caractérisation efficaces et simples des peptides offrant une activité anticancéreuse en utilisant uniquement des informations de séquence. La méthode FSCM est une version mise à jour de la méthode SCM développée par Huang et al. 26 et Charoenkwan et al. 27 en utilisant les scores de propension des informations séquentielles locales et globales. Deuxièmement, contrairement aux mécanismes de classification plutôt complexes offerts par les approches d'ensemble de pointe 15, 18, 20, la méthode iACP-FSCM proposée ici identifie les ACP en utilisant uniquement des scores à somme pondérée entre les scores de composition et de propension, ce qui est facilement compris et mis en œuvre par les biologistes et les biochimistes. Troisièmement, les scores de propension dérivés du FSCM peuvent être adoptés pour identifier les propriétés physico-chimiques informatives (PCP) qui peuvent fournir des informations cruciales concernant les propriétés locales et globales des ACP. Enfin, les résultats comparatifs ont révélé que iACP-FSCM surpassait ceux des prédicteurs ACP de pointe pour l'identification et la caractérisation des ACP. Le serveur Web iACP-FSCM présenté ici s'est avéré robuste, comme l'indique sa précision de prédiction supérieure, son interprétabilité et sa disponibilité publique, ce qui contribue à aider les biologistes à identifier les ACP avec des bioactivités potentielles. En outre, la méthode FSCM proposée a un grand potentiel pour estimer les scores de propension des acides aminés et des dipeptides qui peuvent être utilisés pour prédire et analyser diverses bioactivités de peptides tels que les peptides hémolytiques 28, les peptides antihypertenseurs 29 et les peptides antiviraux 20, 23.


MATÉRIAUX ET MÉTHODES

La fonction de scoring pour l'identification des résidus d'interface

1. Score énergétique de la chaîne latérale

2. Score de conservation des résidus

3. Propension à l'interface des résidus

Algorithme PINUP pour prédire les résidus d'interface

L'algorithme PINUP est le suivant :

Identification des résidus de surface. Comme dans une étude précédente ( 38), les résidus de surface sont définis comme les chaînes latérales avec une accessibilité relative de >6% (rayon de la sonde = 1,2 ).

Identification des patchs de surface de liaison candidats. Un patch de surface est défini comme un résidu de surface central et 19 voisins les plus proches comme dans une étude précédente ( 38). Le score d'un patch est donné par la valeur moyenne des scores pour l'ensemble des 20 résidus en utilisant la fonction de score décrite ci-dessus. Tous les résidus de surface sont échantillonnés. Des contraintes de vecteur de solvant (32) sont appliquées afin d'éviter l'échantillonnage de patchs sur différents côtés d'une surface de protéine. Les meilleurs correctifs notés 5% sont sélectionnés. Si le nombre de résidus de surface pour une protéine est inférieur à 100, cinq patchs les mieux notés sont sélectionnés à la place.

Localisation des résidus d'interface candidats. En règle générale, les patchs sélectionnés ci-dessus se chevauchent. C'est-à-dire qu'un résidu peut apparaître dans plusieurs patchs. Nous classons les résidus en fonction du nombre de patchs les mieux notés auxquels ils appartiennent (le taux d'apparition dans les patchs les mieux notés). Les 15 résidus les mieux classés sont désignés comme résidus d'interface candidats. Pour les grosses protéines avec plus de 150 résidus de surface, nous retenons jusqu'à 10 % du total des résidus de surface. Si le dernier résidu candidat (par exemple le 15ème résidu pour les protéines avec moins de 150 résidus) a le même taux d'apparition dans les patchs les mieux notés que plusieurs autres résidus non candidats, tous sont inclus dans les résidus d'interface candidats.

Prédiction d'une interface de liaison continue. L'interface prédite finale est définie comme le plus grand patch continu constitué des résidus d'interface candidats « en interaction ». Deux résidus sont considérés comme interagissant si la distance entre deux atomes de chaîne latérale respectifs est <1 Å plus la somme du rayon de van der Waals des deux atomes. Si un résidu de surface est entouré par les résidus d'interface prédits et qu'il n'interagit pas avec d'autres résidus de surface, le résidu sera inclus en tant que résidus d'interface. Les rayons de van der Waals pour tous les types d'atomes proviennent du jeu de paramètres CHARMM21 ( 42).

Il existe plusieurs paramètres, tels que la définition des résidus de surface [Étape (1)] et la taille des taches de surface [Étape (2)] dans cet algorithme PINUP. Les effets de la variation de ces paramètres sont discutés dans la section Résultats.

Ensembles de données sur les protéines

Nous utilisons un ensemble de 57 protéines non homologues collectées par Neuvirth et al. (10) pour la formation et la validation croisée. Dans cet ensemble, les anticorps et les antigènes ne sont pas inclus car leur mode de liaison spécifique est optimisé par des mutations cellulaires somatiques rapides au lieu d'une évolution sur de nombreuses années. Notre algorithme repose sur des informations de conservation et, par conséquent, n'est pas adapté pour prédire les interfaces antigène-anticorps. Les structures des monomères et complexes non liés sont obtenues à partir de PDB (43). Le programme REDUCE ( 44) est utilisé pour ajouter des atomes d'hydrogène à toutes les protéines. Les atomes d'hydrogène non polaires et toutes les molécules d'eau sont supprimés. Les sites de liaison sont prédits avec des structures non liées. Les structures complexes sont utilisées pour définir les résidus d'interface expérimentaux pour les monomères non liés. Un résidu de surface est considéré comme un résidu d'interface si sa surface accessible est diminuée de plus de 1 2 lors de la complexation.

Pour tester davantage PINUP, nous utilisons la référence d'amarrage protéine-protéine 2.0 établie par Chen et al. (45). Cette référence contient 62 complexes protéiques (à l'exclusion de l'antigène-anticorps), dans lesquels 68 protéines non liées peuvent être considérées comme un ensemble de tests indépendant car elles partagent <35 % d'identité de séquence avec n'importe quelle protéine dans l'ensemble de données de 57 protéines décrit ci-dessus. Cet ensemble de 68 protéines contient 42, 18 et 8 protéines avec des changements de conformation mineurs, moyens et importants lors de la complexation, respectivement.

Il existe une relation d'homologie significative entre les 75 protéines utilisées pour dériver la propension à l'interface et les 57 protéines utilisées pour la validation croisée. Nous testons la dépendance de la précision de la prédiction sur l'ensemble de données utilisé pour dériver la propension de l'interface et constatons que la dépendance est essentiellement négligeable. Les détails peuvent être trouvés dans la section Résultats.

Évaluation de l'exactitude des prévisions

La précision de la prédiction est évaluée par la couverture de l'interface réelle par l'interface prédite, qui est la fraction de résidus d'interface correctement prédits dans le nombre total de résidus d'interface observés, et la précision de l'interface prédite, qui est la fraction de l'interface correctement prédite. résidus dans le nombre total de résidus d'interface prédits. La précision attendue de la prédiction aléatoire est la fraction des résidus d'interface observés dans le nombre total de résidus de surface.

Optimiser les poids

Nous utilisons une méthode de grille simple pour optimiser les poids de wc et wp. Un premier balayage suggère les valeurs optimales situées à 0 < wc < 2 et 1 < wp < 10. Les poids finaux sont obtenus par une simple recherche de grille à 0 < wc < 2 avec un pas de 0,2 et 1 < wp < 10 avec un pas de 1. Les paramètres sont optimisés pour une précision maximale.


Fond

Alors que les essais contrôlés randomisés (ECR) sont l'étalon-or pour évaluer les effets du traitement, ils sont souvent irréalisables en raison de contraintes de temps, de coût ou d'éthique. Dans de telles situations, les données d'observation peuvent fournir des informations précieuses. Malheureusement, les analyses de données d'observation sont sujettes à des biais de confusion. Cela se produit lorsque les caractéristiques des patients qui influencent le résultat ont des distributions déséquilibrées entre les groupes de traitement. Toute différence observée dans les résultats entre les groupes de traitement peut être due en partie aux différences dans les caractéristiques des patients.

Traditionnellement, la régression multivariée est utilisée pour tenir compte des différences dans les caractéristiques des patients entre les groupes de traitement. Cependant, cette approche n'est pas toujours adaptée. Par exemple, lorsque le résultat de l'étude est binaire, une règle empirique suggère que 10 événements doivent être observés par covariable incluse dans le modèle de régression [1]. Cela pourrait être infaisable si le résultat est rare et qu'il existe de nombreuses covariables à ajuster. Les scores de propension offrent une solution potentielle à ce problème. Rosenbaum et Rubin [2] ont d'abord introduit le score de propension, défini comme la probabilité d'attribution d'un traitement en fonction des caractéristiques de base. De plus, ils ont démontré que le conditionnement sur le score de propension équilibrera la distribution des caractéristiques entre les groupes de traitement, réduisant ainsi le risque de biais de confusion. Les scores de propension sont utiles pour les situations avec des résultats binaires rares, car l'ajustement pour le score de propension seul est suffisant pour améliorer l'équilibre sur les covariables mesurées. Ils sont également utiles dans les situations où la relation entre les covariables et le traitement est mieux comprise que la relation entre les covariables et le résultat, puisque le traitement est modélisé plutôt que le résultat. De plus, la comparaison des distributions des scores de propension entre les groupes de traitement peut aider à identifier les zones de non-chevauchement dans les distributions des covariables, qui sont souvent négligées lors de l'utilisation des méthodes de régression traditionnelles [3]. Cependant, il est important de noter que les scores de propension ne peuvent pas tenir compte des facteurs de confusion non mesurés : l'équilibre ne sera amélioré que sur les covariables utilisées pour estimer le score de propension.

Le plus souvent, les scores de propension sont estimés à l'aide d'une régression logistique. L'attribution du traitement est régressée sur les caractéristiques de base et les probabilités prédites sont les scores de propension estimés. En supposant qu'il n'y ait pas de confusion non mesurée ni de spécification erronée du modèle de score de propension, des estimations non biaisées des effets du traitement peuvent être obtenues en utilisant l'une des quatre techniques suivantes : appariement, stratification, pondération ou ajustement de covariable. Nous décrivons brièvement ces techniques ici, mais les lecteurs sont référés ailleurs pour plus de détails [2, 4,5,6,7,8,9]. L'appariement consiste à former des ensembles appariés de patients traités et témoins, sur la base de scores de propension similaires. La stratification consiste à diviser les patients en strates de taille égale en fonction de leur score de propension et la pondération consiste à attribuer des poids basés sur la propension à chaque patient. Les effets estimés du traitement peuvent ensuite être obtenus en comparant les résultats dans l'ensemble apparié, au sein des strates (une estimation globale peut être obtenue en regroupant les estimations spécifiques aux strates) ou dans l'échantillon pondéré. Enfin, l'ajustement des covariables est mis en œuvre en incluant le score de propension comme covariable lors de la régression des résultats du traitement. Chacune de ces techniques vise à équilibrer les caractéristiques des patients entre les groupes de traitement, mais une spécification erronée du modèle de score de propension pourrait empêcher d'atteindre un équilibre adéquat, entraînant ainsi un biais de confusion résiduel. Par conséquent, une étape essentielle de la mise en œuvre du score de propension consiste à utiliser des diagnostics appropriés pour évaluer le score de propension et s'assurer qu'il a suffisamment réduit le biais de confusion. De nombreux auteurs [10,11,12,13,14,15,16,17] ont fait des recommandations concernant l'utilisation appropriée des diagnostics. Plus précisément, ils ont déconseillé l'utilisation de tests d'hypothèses comparant les moyennes ou les proportions des covariables et ont préconisé l'utilisation de différences standardisées.

Malgré leur introduction en 1983, les scores de propension n'ont été couramment appliqués dans la littérature médicale qu'environ 20 ans plus tard. Plus récemment, ils sont devenus de plus en plus populaires [10]. Au cours de la dernière décennie (2007-2017), le nombre d'articles renvoyés par la recherche de « scores de propension » dans PubMed a plus que triplé au cours de chaque période de 5 ans. Suite à l'augmentation de l'utilisation des scores de propension, un certain nombre de revues [10, 11, 18, 19, 20, 21, 22, 23, 24, 25] évaluant leur mise en œuvre ont été publiées. Malheureusement, chaque examen a révélé que la mise en œuvre du score de propension était sous-optimale, en particulier en ce qui concerne l'utilisation de diagnostics. De nombreux auteurs ne signalaient l'utilisation d'aucun diagnostic de score de propension, et ceux qui le faisaient utilisaient souvent des tests d'hypothèse, qui sont largement déconseillés. Si des diagnostics appropriés ne sont pas utilisés pour démontrer l'équilibre des facteurs de confusion potentiels atteints par le score de propension, les lecteurs de la recherche n'ont aucune base pour faire confiance aux résultats. Parmi les revues existantes sur la littérature sur le score de propension, seulement trois [11, 19, 21] examinent des articles de tous les domaines de la médecine, et ceux-ci incluent collectivement des articles publiés jusqu'en 2012. Depuis 2012, il y a eu de nombreuses publications fournissant des conseils sur l'utilisation des diagnostics de score de propension [10,11,12, 14,15,16,17], ou proposer de nouveaux diagnostics de score de propension [26,27,28,29]. Compte tenu de ces développements récents dans la méthodologie et les conseils sur la pratique, l'utilisation des diagnostics de score de propension dans les études médicales récentes peut s'être améliorée. Par conséquent, le but de cette revue est de mettre à jour la littérature sur l'utilisation du diagnostic, mais en mettant l'accent sur les revues de haut rang. Ces revues pourraient être considérées comme plus influentes car elles sont souvent considérées comme un phare des meilleures pratiques. Furthermore, it may beneficial to know which types of studies are more or less likely to report use of suboptimal diagnostics. This information could help us to identify pockets of good practice and areas where efforts to change practice should be focused. Bearing this in mind, the objectives of this review are to: (1) assess the use of propensity score diagnostics in medical studies published in high-ranking journals and (2) compare use of diagnostics between studies (a) in different research areas and (b) using different propensity score methods.


Matériaux et méthodes

Collection of annotations of crystallization trials

We only extracted X-ray crystallography-based experimental trials annotated with the most advanced experimental statuses. These statuses include ‘selected’, ‘cloned’, ‘expressed’, ‘soluble’, ‘purified’, ‘crystallized’, ‘diffraction’, ‘crystal structure’ or ‘in PDB’. We grouped the proteins with the status of ‘crystal structure’ or ‘in PDB’ as crystallizable proteins (defined as the ‘CRYS’ class), and grouped those with other statuses as non-crystallizable proteins (defined as the ‘NCRYS’ class).

We only selected the experimental trials annotated with two states: ‘work stopped’ ‘in PDB’ or ‘crystal structure’.

We did not extract the experimental trials both before 1 January 2009 and after 31 December 2014. This could ensure that we only extracted recent data and excluded trials that are potentially still ongoing at present.

We eliminated non-crystallizable proteins sharing >100% sequence identity with crystallizable proteins. The sequence identity was quantified by the CD-Hit program [ 49].

The constructed TTdata includes 81 279 non-crystallizable proteins and 103 247 crystallizable proteins.

Collection of functional annotations

We retrieved functional annotations of the proteins from UniProt (http://www.UniProt.org/), which included 549 008 proteins from the Swiss-Prot database and 50 011 027 proteins from the TrEMBL database (on 14 July 2015). Swiss-Prot is a collection of entries that are reviewed and manually annotated using a literature search and curator-evaluated computational analysis. TrEMBL is not reviewed in which proteins are annotated computationally. We mapped the proteins in TTdata to both Swiss-Prot and TrEMBL via one-by-one matching of sequences sharing 100% sequence identity. Totally, 5849 crystallizable proteins (positive samples) and 4907 non-crystallizable (negative samples) proteins were mapped to the Swiss-Prot database, constituting the Swiss-Prot data set. Additionally, 8491 crystallizable (positive samples) and 21 426 non-crystallizable (negative samples) proteins were mapped to the TrEMBL database, comprising the TrEMBL data set.

Training and benchmark test data sets

We eliminated sequence redundancy (proteins with >25% sequence identity) within crystallizable proteins contained in either Swiss-Prot or TrEMBL, also eliminated that within non-crystallizable proteins contained in each data set. The sequence identity was qualified by using a combination of CD-Hit [ 49] and BLAST [ 44]. Eliminating sequence redundancy within each data set was based on the observation that the proteins with similar sequences could possess distinct CPs [ 2]. Totally, the Swiss-Prot data set contains 2798 crystallizable and 3096 non-crystallizable proteins (denoted as the ‘SP’ data set), while the TrEMBL data set contains 4994 crystallizable and 9794 non-crystallizable proteins (denoted as the ‘TR’ data set).

Either the SP data set or the TR data set was randomly divided into six equally sized subsets. The first five subsets were merged together to form the training data set (denoted as ‘SP_train’ or ‘TR_train’), while the remaining sixth subset worked as the independent test data set (denoted as ‘SP_test’ or ‘TR_test’).

We further eliminated the proteins sharing >25% sequence identity with those used in other predictors. The resulting four data sets were named as ‘SP_train_nr’, ‘SP_test_nr’, ‘TR_train_nr’ and ‘TR_test_nr’, respectively. These data sets can be downloaded from http://nmrcen.xmu.edu.cn/crysf/.

To examine whether the functional features of similar proteins can be used to predict CP, we mapped TTdata-derived sequences to Swiss-Prot and TrEMBL data sets via one-by-one matching of sequences sharing >90% sequence identity. The resultant data sets were named ‘SP0.9’ and ‘TR0.9’, respectively. Hence, each protein in SP0.9 or TR0.9 is associated with one or more orthologous proteins in the Swiss-Prot data set or the TrEMBL data set.


Introduction

Abnormal bitterness might be associated with dietary danger. In general, hydrolyzed proteins, plant-derived alkaloids and toxins exhibit unpleasant bitter taste. Thus, the bitter taste perception plays a crucial role in protecting animals from poisonous plants and environmental toxins [1]. The taste perception of humans can be categorized into four well-known groups: sweet, bitter, sour and salty, in addition to two controversial groups, i.e. fat taste and amino acid taste [2]. Although, abnormal or extreme bitterness tends to be associated with dietary danger, a number of diverse plant-derived food produce bitterness such as cucumber, pumpkin, zucchini, squash, lettuce, spinach and kale. In addition, many bitter compounds are important drugs or drug candidates encompassing ions, alkaloids, polyphenols, glucosinolates and peptides. Proteolytic hydrolysis of peptides and proteins have been known to make foods unfavorable [3,4]. In this process, caseins are digested into peptides containing bulky hydrophobic groups at their C-terminal region [3]. Hence, the hydrophobic property of the amino acid side chain at the C-terminus can be attributed to its bitterness. The successful identification and characterization of bitter peptides is essential for drug development and nutritional research.

High-throughput experimental approaches for identifying bitter peptides are time-consuming and costly, thus the development of accurate and fast computational methods is in great demand. Particularly, such computational approach is based on quantitative structure–activity relationship (QSAR) modeling. QSAR is a ligand-based approach that seeks to discern the mathematical relationship between various types of descriptors (X) and their investigated biological activity (Y) through the use of machine learning (ML) models [5]. As mentioned in the Organization for Economic Co-operation and Development (OECD) guideline [[6], [7], [8]], the development of robust QSAR models entails the following characteristics: (i) a defined endpoint (ii) an unambiguous algorithm (iii) a defined domain of applicability (iv) appropriate measures of goodness-of-fit, robustness, and predictive ability and (v) a mechanistic interpretation.