Informations

Comment noter l'activité différentielle des voies cellulaires dans les données de microarray (pas d'enrichissement) ?

Comment noter l'activité différentielle des voies cellulaires dans les données de microarray (pas d'enrichissement) ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

J'aimerais identifier les voies cellulaires (KEGG) avec des changements discriminants dans l'activité moyenne (niveaux d'expression) de leurs membres géniques dans un ensemble de données de microarray à deux conditions. L'objectif est d'utiliser l'activité moyenne des voies pour l'apprentissage automatique (classification d'échantillons), et non d'identifier les voies enrichies en gènes différentiellement exprimés (c'est-à-dire sans effectuer une analyse classique d'enrichissement de l'ensemble de gènes).


Comment noter l'activité différentielle des voies cellulaires dans les données de microarray (pas d'enrichissement) ?

Vous examineriez les gènes en aval, qui sont sélectifs pour les voies individuelles - ou les gènes qui ont des sites de liaison pour les facteurs de transcription qui se trouvent à la fin de votre voie. En fonction de la littérature existante, de votre expérience et de la voie spécifique, cela peut inclure des gènes, qui font eux-mêmes partie de la voie (si rétroaction). Pour l'interprétabilité, vous préféreriez des gènes, qui ont été précédemment établis comme créateurs d'une voie dans la littérature précédente.

J'aimerais identifier les voies cellulaires (KEGG) avec des changements discriminants dans l'activité moyenne (niveaux d'expression) de leurs membres géniques dans un ensemble de données de microarray à deux conditions.

Cela peut être délicat, car la prise de moyenne introduit plusieurs hypothèses telles que : peu d'impact du bagage technique (expression de la plupart des gènes de la voie au-dessus du fond), la moyenne étant représentative de la voie d'intérêt KEGG (et pas seulement de la voie la plus abondante membres), et en appliquant une décision quelque peu arbitraire de savoir s'il faut faire la moyenne des données transformées en log (ce qui est justifié pour de nombreux gènes, mais pas pour les gènes qui ne s'échelonnent pas de manière multiplicative, comme de nombreux gènes de stress) ou non.

L'objectif est d'utiliser l'activité moyenne du parcours pour l'apprentissage automatique (classification d'échantillons),

Vous pouvez l'utiliser à votre avantage et créer plusieurs fonctionnalités par voie (par exemple : médiane, moyenne, variance, non/log-transformée, etc., gènes de signature de voies sélectionnés manuellement), puis laisser l'apprentissage automatique choisir les meilleures fonctionnalités pour votre classification (par exemple, comme cela se produirait si vous utilisiez des classificateurs aléatoires de forêts)


Vous pouvez utiliser le logiciel PathVar disponible ici : www.pathvar.embl.de

Voir également la publication correspondante : http://bioinformatics.oxfordjournals.org/content/28/3/446.long


utilisez le package GSVA R pour réduire les données d'expression génique aux scores d'activité des voies. https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-14-7


Utiliser -score pour identifier les voies oncogènes du cholangiocarcinome

L'extraction d'informations maximales à partir d'ensembles de signatures géniques (GSS) via un profilage transcriptionnel basé sur des puces implique l'attribution d'une fonction à des gènes régulés à la hausse et à la baisse. Nous présentons ici une nouvelle méthode de notation des échantillons appelée Signature-score (S-score) qui peut être utilisée pour quantifier le modèle d'expression d'échantillons de tumeurs à partir d'ensembles de signatures génétiques précédemment identifiés. Un résultat de simulation a démontré une précision et une robustesse améliorées par la méthode S-score par rapport à d'autres méthodes de notation. En appliquant la méthode du score S au cholangiocarcinome (CAC), un cancer hépatique agressif qui provient des cellules des voies biliaires, nous avons identifié des voies oncogènes enrichies dans deux grands ensembles de données CAC. Treize voies ont été enrichies en CAC par rapport au foie et aux voies biliaires normaux. De plus, en utilisant le S-score, nous avons pu disséquer les corrélations entre les voies oncogènes associées à la CAC et la fonction d'ontologie des gènes. Deux clusters oncogènes majeurs et les fonctions associées ont été identifiés. Le groupe 1, qui comprenait la bêta-caténine et Ras, a montré une corrélation positive avec le cycle cellulaire, tandis que le groupe 2, qui comprenait le TGF-bêta, la cytokératine 19 et l'EpCAM, était inversement corrélé à la fonction immunitaire. Nous avons également utilisé le score S pour identifier les voies qui sont exprimées de manière différentielle dans le CAC et le carcinome hépatocellulaire (CHC), le sous-type le plus courant de cancer du foie. Nos résultats démontrent l'utilité et l'efficacité de -score dans l'attribution de rôles fonctionnels aux ensembles de signatures géniques associées aux tumeurs et dans l'identification de cibles thérapeutiques potentielles pour des sous-types spécifiques de cancer du foie.

Mots clés: ensemble de signatures géniques analyse des voies méthode du score S classification des tumeurs

Soumis le 15 novembre 2012. Accepté pour publication le 24 décembre 2012.


Données associées

Fond

Le développement de technologies omiques à haut débit a permis des mesures à l'échelle du génome de l'activité des éléments cellulaires et fournit les ressources analytiques pour le progrès de la discipline de biologie des systèmes. L'analyse et l'interprétation des données d'expression génique ont évolué du gène au niveau de la voie et de l'interaction, c'est-à-dire de la détection de gènes différentiellement exprimés, à l'établissement de réseaux d'interaction génique et à l'identification de catégories fonctionnelles enrichies. Pourtant, la compréhension des systèmes biologiques nécessite un niveau d'analyse supplémentaire qui aborde la caractérisation de l'interaction entre les modules fonctionnels.

Résultats

Nous présentons une nouvelle méthodologie de calcul pour étudier les interconnexions fonctionnelles entre les éléments moléculaires d'un système biologique. L'approche PANA utilise des mesures génomiques à haut débit et un schéma d'annotation fonctionnelle pour extraire un profil d'activité de chaque bloc fonctionnel -ou voie- suivi de méthodes d'apprentissage automatique pour déduire les relations entre ces profils fonctionnels. Le résultat est un réseau mondial et interconnecté de voies qui représente la diaphonie fonctionnelle au sein du système moléculaire. Nous avons appliqué cette approche pour décrire les connexions transcriptionnelles fonctionnelles au cours du cycle cellulaire de la levure et pour identifier les voies qui modifient leur connectivité dans un état pathologique en utilisant un exemple d'Alzheimer.

Conclusion

PANA est un outil utile pour approfondir notre compréhension des interdépendances fonctionnelles qui opèrent au sein de systèmes biologiques complexes. Nous montrons que l'approche est algorithmiquement cohérente et que le réseau inféré est bien supporté par les données fonctionnelles disponibles. La méthode permet la dissection de la base moléculaire des connexions fonctionnelles et nous décrivons les différents mécanismes de régulation qui expliquent la topologie du réseau obtenue pour les données du cycle cellulaire de la levure.


Méthodes

Dans cet article, nous introduisons une approche basée sur des graphes et une approche de maximisation des attentes pour identifier les différences spécifiques entre les systèmes biologiques au niveau des groupes et des voies orthologues.

La figure 1 présente l'ensemble du flux des outils XPathway. Dans l'approche basée sur les graphes, nous calculons un p-valeur utilisant des paramètres extraits du réseau pour répondre à deux questions statistiques différentes : (1) Quand et sur la base de quel paramètre peut-on dire qu'un ensemble de protéines correspond de manière significative à une voie ? (2) Quelle est la probabilité de trouver une telle cartographie par hasard compte tenu des données (transcriptions/lectures/protéines) et d'une topologie de cheminement ? Enfin, des voies métaboliques significatives sont sélectionnées en comparant les p-valeur de la voie d'origine avec celles de différents échantillons bootstrap. La méthode de maximisation des attentes, quant à elle, utilise l'interaction entre les groupes orthologues identifiés pour déduire l'activité de la voie. La dernière partie du flux consiste à valider les deux branches. Tout d'abord, nous effectuons une analyse d'expression différentielle sur tous les contigs extraits des voies produites par les deux branches. Deuxièmement, une expérience qPCR est réalisée sur les contigs qui ont un facteur de changement de 1,2 ou plus.

Flux d'analyse XPathway. Les branches représentent les deux approches utilisées pour calculer la signification de la voie dans le cas d'un graphique basé sur le niveau d'activité de la voie à gauche dans le cas de l'approche de maximisation des attentes sur la droite. Les deux méthodes sont validées en calculant des expressions différentielles contigs/transcripts et qPCR comme dernière étape du flux

Modèle de maximisation des attentes de l'activité de la voie

Dans cette section, nous présentons un algorithme basé sur EM pour déduire les niveaux d'activité des voies sur la base des données de séquence de métatranscriptome. Laisser w être une voie considérée comme un ensemble d'enzymes représentées par leurs groupes orthologues w=<p 1,…,p k>. Étant donné qu'un groupe orthologue peut avoir plusieurs fonctions et participer à plusieurs voies, les voies peuvent être considérées comme une famille de sous-ensembles W de l'ensemble de tous les groupes orthologues P. Ci-dessous, nous commençons par introduire un modèle d'activité de voie binaire uniforme basé sur un modèle d'expression de groupe orthologue discret.

Le modèle d'activité de la voie binaire uniforme est basé sur les hypothèses de uniformité, à savoir que chaque molécule d'un groupe orthologue participe à chaque voie active avec la même probabilité (c'est-à-dire en proportions égales) et de activité binaire, qui postule qu'une voie est active si le niveau d'activité du groupe orthologue dépasse un certain seuil (éventuellement dépendant de la voie). Formellement, laissez ??(w) être une variable binaire indiquant le état de l'activité de w, c'est à dire., ??(w)=1 si w est actif et ??(w)=0, sinon. Aussi, laissez le niveau d'activité de voie w être la sommation sur les groupes orthologues constitutifs g de leur participation g w dans w. Puisque nous supposons que chaque groupe orthologue g est également susceptible de participer à chaque voie le contenant, il s'ensuit que (g_ = gauche (1+ somme _ delta (w') ight)^<-1>) et le niveau d'activité F w de voie w est donné par

L'état d'activité binaire de w est calculé à partir de son niveau d'activité F w et le seuil T w comme suit

Le modèle binaire uniforme décrit par les équations. (1)–(2) peuvent être résolus en utilisant un algorithme itératif simple. L'algorithme commence par attribuer le statut de l'activité ??(w)=1 à chaque voie wW, c'est à dire., ?? 0 (W)=<?? 0 (w)|wW>←1 puis met à jour à plusieurs reprises le niveau d'activité selon (1) et l'état d'activité selon (2). La procédure se termine lorsque la séquence d'état ?? 0 (W)=1,?? 1 (W),?? 2 (W),… commence à osciller ?? m+k (W)=?? m (W) ou converge. Dans toutes nos expériences préliminaires, une oscillation de période k=2 est obtenu en 10 itérations au maximum. aussi le seuil T w ne modifie pas significativement l'ordre des parcours triés par rapport à leurs niveaux d'activité estimés en moyenne F w après convergence. Le modèle est représenté sur la figure 2.

Approche de maximisation des attentes pour calculer l'activité de la voie. Ce graphe bipartite se compose d'un ensemble A représentant les lectures/contigs/ORF/protéines et l'ensemble B correspond aux ORF/protéines/groupes orthologues/EC (Enzyme Commission). Les arcs représentent le mappage entre les éléments des deux ensembles. Pour notre EM binaire, l'ensemble A se compose de contigs mappés à des groupes orthologues et le poids de chaque arc est de 1

Bien que le modèle binaire uniforme permette le calcul de l'activité des voies en attribuant des groupes orthologues aux voies, il présente certaines limitations qui l'empêchent de capturer des attributs spécifiques du réseau métabolique. Par exemple, le modèle binaire uniforme n'attribue que la valeur 1 ou 0, si le groupe orthologue appartient ou non à une voie, respectivement. Cette hypothèse oui ou non n'est pas toujours vraie car il peut y avoir une partie fractionnaire d'un groupe orthologue appartenant à différentes voies. De plus, le modèle d'uniformité n'est pas facilement applicable aux processus naturels car toutes les affectations ne sont jamais également probables. Enfin, le modèle n'est pas complètement stable mais plutôt périodique avec quelques sous-ensembles de groupes orthologues fluctuant entre les voies.

Estimation graphique de l'importance de la voie

Idéalement, une méthode complète d'analyse des voies prendrait en considération la position et le rôle de chaque gène dans une voie, l'efficacité avec laquelle une certaine réaction est effectuée et certains facteurs limitatifs (par exemple, traiter ou non des données métagénomiques). Avec les données du génome, il est possible de considérer la taille des voies, la longueur des gènes et le chevauchement du contenu génétique entre les voies [5] pour calculer l'abondance relative des voies et le classement des voies, mais cette approche pourrait ne pas fonctionner avec les données RNA-Seq, surtout en l'absence d'une référence génomique.

Désormais, dans notre seconde approche, chaque voie est considérée comme un réseau d'enzymes également appelés numéros EC (Enzyme Commission numbers) afin de calculer leur signification statistique. L'importance de l'activité de la voie dans un échantillon est mesurée par le caractère aléatoire des positions des enzymes correspondantes dans le graphique de voie KEGG correspondant. Le caractère aléatoire est mesuré à l'aide d'un modèle de permutation pour trouver des alignements et des motifs de voies significatifs [10].

Ce modèle suppose que le sous-ensemble d'enzymes exprimées dans une voie annotée active doit être connecté. Le modèle de permutation enzymatique trouve le degré de sommet moyen dans le sous-graphe induit par les enzymes exprimées. Ensuite, le même paramètre est calculé pour un nombre suffisant de permutations aléatoires de marqueurs enzymatiques. La correspondance statistiquement significative doit avoir une densité supérieure à 95 % de permutations. Les caractéristiques spécifiques du graphe prises en compte dans notre analyse sont :

Nombre de nœuds. Un nœud représente une protéine qui a été cartographiée pendant BLAST. KEGG attribue généralement une couleur verte à ces protéines dans le graphique.

Densité = (Nombre d'arêtes)/(Nombre de nœuds − 1)

Fraction de 0 nœuds de degré d'entrée et de sortie. Laisse appeler ce numéro X. X est défini par :

x = ((nombre de nœuds avec degré sortant = 0) + (nombre de nœuds avec degré entrant = 0)) / 2 * (nombre de nœuds)

Nous considérons également d'autres critères tels que (1) le nombre de composants connectés verts, (2) le plus grand nombre de nœuds dans un composant connecté et (3) le plus grand nombre d'arêtes dans un composant connecté.

En utilisant ces métriques, nous calculons la densité du graphe induit composé uniquement de protéines cartographiées. Nous obtenons les noms de ces protéines grâce aux numéros EC sur le graphique. Ci-dessous, nous présentons deux modèles basés sur des graphes, l'échange d'étiquettes de sommet et l'échange de bords pour la génération de graphes aléatoires, pour analyser les chemins. Ce modèle est expliqué par le côté gauche de la figure 1.

Modèle 1 : échange d'étiquettes de sommet pour la génération de graphiques aléatoires

Dans ce modèle, nous gardons la même topologie mais nous autorisons l'échange d'étiquettes entre deux sommets (la figure 3 présente un exemple). Un problème connu de cette approche est que les sommets avec un degré élevé sont toujours connectés. Cela pourrait conduire à un trop grand nombre de correspondances significatives, augmentant ainsi le taux de faux positifs. L'algorithme d'échange d'étiquettes de sommet peut être représenté comme suit :

Modèle d'échange d'étiquettes de sommet pour la génération de graphiques aléatoires. Nous n'échangeons que les sommets qui ont des étiquettes différentes. Une étiquette est un attribut d'un sommet représentant une protéine mappée ou non

Modèle 2 : échange de bords pour la génération de graphiques aléatoires

En raison du biais dans le modèle d'échange d'étiquettes de sommet, nous avons également implémenté l'échange de bords. Ici, l'idée est de garder le même degré d'entrée et de sortie de chaque nœud, en échangeant les nœuds uniquement si ces valeurs ne changent pas. Nous gardons les mêmes étiquettes de sommet. La figure 4 présente un exemple lorsque nous permutons deux arêtes.

Modèle d'échange de bords pour la génération de graphiques aléatoires. Avant d'échanger les arêtes, nous vérifions que les degrés d'entrée et de sortie des sommets impliqués restent les mêmes

L'algorithme d'échange de bords peut être représenté comme suit :

Analyse différentielle de l'activité et de l'importance des voies

Analyse différentielle de l'activité des voies

Le but de cette analyse est de déterminer quelle voie doit être considérée de plus près pour comprendre la différence dans le métabolisme de deux organismes. Pour cela, nous utilisons l'expression de la voie calculée à partir du modèle binaire présenté précédemment. Tout d'abord, nous calculons l'expression de chaque voie présente dans l'ensemble de voies que nous obtenons de KEGG pour un échantillon donné. Ensuite, nous calculons la différence entre l'expression de chaque voie. Dans ce modèle, les voies sélectionnées comme ayant une activité différentielle sont celles où le rapport de leur expression est supérieur à un certain seuil. Le tableau 3 présente nos résultats sur l'analyse différentielle de l'activité des voies.

Analyse différentielle de l'importance de la voie

L'analyse différentielle de l'importance de la voie est basée sur la p-valeur décrit dans la sous-section basée sur les graphes de Méthodes. Nous permutons aléatoirement chaque graphe de chemin en générant m différents graphiques. Notez que même les plus petits graphes de chemins contiennent au moins 15 nœuds et environ 40 arêtes, ce qui est suffisant pour générer un défaut m= 200 graphiques aléatoires distincts. Une voie est significative si le p-valeur de la cartographie est inférieure à 5 %. Les p-valeur est la position du graphique d'origine lorsqu'il est placé dans la liste triée de tous les graphiques générés aléatoirement, triés d'abord par « densité » (du plus grand au plus petit), puis par le nombre de nœuds ayant 0 degré d'entrée ou 0 degré de sortie (du plus petit au plus grand ). Un chemin est important si c'est p-valeur est inférieur à 5 %, très significatif si c'est p-valeur est inférieur à 1 % et le plus significatif si c'est p-valeur est inférieur ou égal à 0,5 %.

Laisser p1 être le p-valeur pour le chemin X dans l'échantillon 1 et laissez p2 être le p-valeur pour le chemin X dans l'échantillon 2. On dit que la voie X est différentiellement significative entre les deux échantillons si la probabilité calculée par l'équation de p r o b je F F(X) ci-dessous est supérieur à 50 %.

Par exemple, considérons m= 200 graphiques générés aléatoirement et le modèle d'échange d'étiquettes de sommet. Dans la figure 5 représentant une partie de la voie d'élongation des acides gras (ko00062), les enzymes cartographiées (rectangles remplis) dans l'échantillon 1 forment un sous-graphe avec une densité = 1,875 et le nombre de degrés 0 in/out = 0,11 pour ce sous- graphique. Après avoir trié le graphique, la position de notre graphique d'origine est la première, d'où p-valeur p1=0.5 % (chemin le plus important compte tenu des 200 graphiques). Dans l'échantillon 2, les enzymes cartographiées (rectangles remplis) forment un sous-graphe avec une densité = 1,375, un nombre de 0 degré d'entrée/sortie = 0,22 pour ce sous-graphe et sa position après tri est de 148. Il en résulte un p-valeur p2=74.5 % (pas une cartographie significative).

Analyse différentielle de la voie. Dans l'échantillon 1, les enzymes cartographiées (rectangles remplis) forment un sous-graphe avec une densité = 1,475, le nombre de degrés 0 entrée/sortie = 0,11 et p-valeur = 0,5. Dans l'échantillon 2, les enzymes cartographiées (rectangles remplis) forment un sous-graphe avec une densité = 1,375, le nombre de degrés 0 entrée/sortie = 0,22 et p-valeur =.74. Sur la base de ces p-valeur, on dit que cette voie est différentiellement significative

Sur la base de la valeur de p1 et p2, p r o b je F F(k o00062)=.74 qui est supérieur à 50 %. Nous concluons que ko00062 est différentiellement significatif dans les deux échantillons.


Discussion

La différenciation ostéogénique est un processus complexe où l'interaction entre les gènes et les voies n'a pas été entièrement découverte. Selon le protocole de l'International Society of Cell Therapy, les CSM doivent posséder les trois caractéristiques suivantes : (i) avoir la capacité d'adhérer aux surfaces en plastique (ii) tester positif pour CD90, CD73 et CD105 et négatif pour CD79, CD19, CD45, CD34, CD14 ou CD11b, et HLA-DR et (iii) ont le potentiel de se différencier en ostéoblastes, chondrocytes et adipocytes in vitro [18]. Dans cette étude, nous avions l'intention de mieux comprendre l'identification des gènes hub et des voies clés au cours des stades précoce, intermédiaire et tardif de la différenciation ostéogénique (jours 0, 8, 12 et 25) en tant que voies communes et individuelles.

Les voies Wnt canoniques et non canoniques contribuent à la régulation de l'ostéogenèse

La voie Wnt joue un rôle dans la migration, la croissance, la détermination du destin cellulaire, la différenciation et [19, 20] la différenciation osseuse [21]. Il existe quatre gènes régulés à la hausse (FRZB, FZD4, SFRP, et FZD1) dans la voie Wnt non canonique. Cette voie est fréquemment régulée à la hausse les jours 8, 12 et 25 (Fig. 1a). FRZB avait le logFC le plus élevé pendant 3 jours. La surexpression de FRZB par la voie Wnt/CaMKII promu ostéogène mais pas par l'activation de la voie canonique [22]. FRZB semble être important dans le réseau de gènes (Fig. 2a). Son interaction avec des ligands canoniques et non canoniques a été rapportée. FZD4 appartient à la famille Frizzled (FZD). La liaison de Wnt à FZD4 active la signalisation canonique Wnt/β-caténine et favorise la différenciation ostéogénique. Des études récentes ont montré que miR-139-5p se lie à CTNNB1 et FZD4, il réduit leur expression et donc la différenciation ostéogénique est diminuée [23]. Il a été rapporté que la stimulation mécanique favorisait l'ostéogenèse par la voie Wnt5a/FZD4 dans les BM-MSC via la voie non canonique Wnt [24]. SFRP1 est un autre gène régulé à la hausse dans cette voie qui joue un rôle dans l'inhibition des voies canonique et non canonique [25].

NF-κB est un médiateur important dans la promotion de l'ostéogenèse par le récepteur 4 de type toll via la voie BMP2

La voie de signalisation médiée par le LPS était une autre PA qui était régulée à la hausse pendant les 3 jours (Fig. 1a). Il y avait cinq gènes impliqués dans ce terme BP (IL18, NFKBIA, TLR4, SCARBE1, et CD14). TLR4 et CD14 de cette voie sont deux gènes impliqués dans la voie de signalisation TLR4. Trois protéines accessoires, dont MD2, LBP et CD14, jouent un rôle dans l'activation de TLR4. LBP et CD14 facilitent le transfert de LPS vers le complexe TLR4/MD2 [26]. Une étude a rapporté que les ligands TLR2 et TLR4 (peptidoglycane et LPS, respectivement) et le TNF-α augmentent la différenciation ostéogénique via l'activation de NF-κB dans les cellules souches dérivées du tissu adipeux humain (hADSC) [27]. Pris ensemble, ces résultats suggèrent que NF-κB est un facteur de transcription important dans la régulation de l'ostéogenèse (Fig. 4a). Hess et al. ont démontré que l'activation du NF-κB induite par le TNF-α favorise la différenciation ostéogénique en augmentant l'expression de la BMP-2 et de la phosphatase alcaline (ALP) [28].

Modèle de régulation PI3K/AKT et Wnt/β-caténine dans la différenciation ostéogénique. Voies importantes dans les ostéoblastes qui favorisent l'ostéogenèse via PI3K/AKT et la β-caténine. une PI3K/AKT et sa relation avec les facteurs de croissance, l'attachement à l'ECM, IGF1, IGF2, LPS et BMP2 sont illustrés dans la partie supérieure de cette figure. Le point d'interrogation à côté de PI3K/AKT/NF-κB indique si PI3K/AKT joue un rôle significatif au cours de l'ostéogenèse directement via la signalisation BMP2 ou indirectement via la régulation positive de NF-κB. b L'interaction ou les connexions des gènes et des voies avec la -caténine sont montrées. Wnt/β-caténine interagit ou est affecté par FGF, IGF-1/IGF-2, IGFBP7, VEGF, intégrine-ILK, ITGA11/β1, ITGA5/β1, CDH11, ERK/MAPK, PI3K/AKT, IL-6, et l'adiponectine. L'étoile rouge représente les gènes couramment régulés à la hausse sur les 3 jours. Seule l'expression de MAPK3 (ERK1) au jour 8, ITGA5 aux jours 8 et 25, et à la fois IGFBP7 et ITGA11 au jour 25 sont représentées. MEC, matrice extracellulaire PI3K, phosphoinositide 3-kinase MKK, MAP kinase kinases

La niche des cellules souches et le microenvironnement médient l'ostéogenèse via la voie de signalisation PI3K/AKT

Nous avons observé que la voie PI3K/AKT était régulée à la hausse tous les 3 jours. Il y avait 21 gènes impliqués dans cette voie (Fig. 2b). Récemment, les résultats d'une étude ont montré que le facteur de croissance dérivé des plaquettes (PDGF) augmentait la différenciation ostéogénique induite par le TGF-β. Cependant, le PDGF seul n'a pas affecté la différenciation ostéogénique, il y avait plutôt une interaction synergique entre les voies PI3K/AKT (médiée par le PDGF et la protéine kinase activée par les mitogènes (MAPK)/ERK (voies médiées par le TGF-β [29]. Il a été rapporté que le suppresseur de PDGF favorisait l'adipogenèse via la signalisation PI3K [30].Nous avons observé que, suite à la stimulation de facteurs de croissance PDGFD et VEGFB, les récepteurs tyrosine kinases PDGFRA et PDGFRB ont été activés, suivis d'une régulation à la hausse de la protéine kinase 2 activée par les mitogènes (MAP2K2) de MAPK (pour plus de détails, voir la section suivante) et de la sous-unité régulatrice 1 de la phosphoinositide-3-kinase (PIK3R1) qui appartient à la voie PI3K (Fig. 4a).

Bien que la voie de signalisation PI3K/AKT soit impliquée dans le processus d'ostéogenèse chez l'homme et la souris [31, 32]. Chez la souris, le rôle de cette voie est montré dans l'ossification endochondrale [33], cette voie a également un rôle dans de nombreuses fonctions des CSM [34]. In vitro, AKT contribue à la chondrogenèse et au développement des ostéoblastes dans la croissance métatarsienne isolée de souris [35]. Il a été rapporté que l'activation de la signalisation PI3K/AKT était importante dans les radeaux membranaires non cavéolaires riches en cholestérol, susceptibles d'être l'ostéogenèse humaine des MSC [31].

La différenciation ostéogénique dans les cellules souches tendineuses (CST) du rat est affectée par la prostaglandine E2 qui active la signalisation PI3K/AKT, entraînant une différenciation ostéogénique induite par la BMP [36]. Fait intéressant, BMP-2 semble médier les effets de la voie PI3K/AKT sur l'ostéogenèse. Le rôle de BMP-2 a été démontré dans l'engagement des progéniteurs dans les ostéoblastes et dans la stimulation de Runx2 et d'autres facteurs de transcription tels que Dlx3 et Dlx5 qui favorisent l'ostéogenèse [37, 38]. Dans une autre étude, il a été suggéré que l'AKT pourrait ne pas médier directement l'expression de BMP-2, mais plutôt favoriser l'ostéogenèse via un facteur de transcription tel que le NF-κB [36]. L'induction de cette voie par le facteur de croissance analogue à l'insuline (IGF) a favorisé la différenciation des ostéoblastes par le biais de BMP. Le rôle des IGF également dans la formation et le développement osseux se fait via la voie PI3K/AKT [32].

Mukherjee et al. ont démontré que l'AKT jouait un rôle à tous les stades de la différenciation ostéogénique. Les résultats d'une étude ont indiqué que AKT2, mais pas AKT1, était important dans la différenciation ostéogénique par BMP-2 qu'AKT2 stimulait l'expression du gène Runx2 [39]. Dans l'ensemble, les résultats du PPI dans cette voie ont révélé l'interaction de la sous-unité PIK3R1 et de l'intégrine alpha V (ITGAV) qui sont des gènes importants dans ce réseau (Fig. 2b).

La régulation à la hausse des gènes impliqués dans la voie MAPK a conduit à la régulation de l'ostéogenèse

Dans notre étude, MAP2K2 de la voie PI3K-AKT (au jour 3) et MAPK3 (au jour 8) en tant que gène hub ont été régulés positivement. Les MAP2K, y compris MEK1 (MAP2K1) et MEK2 (MAP2K2), activent ERK1 (MAPK3) et ERK2 (MAPK1) [40]. Des études ont montré que la voie MAPK est importante pour la formation osseuse [41,42,43]. Cependant, le rôle des MAPK dans l'ostéogenèse est contradictoire. Une étude récente a démontré que TRIB3 influençait la prolifération et la différenciation au stade intermédiaire de la différenciation en inhibant l'ERK1/2 [44]. Comme mentionné ci-dessus, le mécanisme moléculaire selon lequel TLR4 est impliqué dans le contrôle du devenir des CSM vers l'ostéogenèse est encore découvert. Lors de l'activation des MAP kinases kinases (MKK) dans la voie TLR4, p38, JNK et ERK1/2 sont activés [45]. Dans l'étude récente, l'activation maximale d'ERK a été montrée pendant l'ostéogenèse des hADSCs au jour 7 lorsque la stimulation du LPS a été renforcée [46].

Il a été récemment démontré que JNK1 est un régulateur négatif de l'ostéogenèse par BMP-2 par phosphorylation Runx2 [47]. JNK2 est nécessaire au stade tardif de la différenciation ostéogénique [48]. Fait intéressant, dans une étude, les résultats ont montré que JNK1 était impliquée dans la minéralisation au stade tardif de la différenciation ostéogénique et médiait une expression accrue d'IGF2 et de VEGFα à partir de facteurs proangiogéniques [49]. p38 est un régulateur positif dans la synthèse d'OCN [50]. La signalisation MAPK pourrait être affectée par divers facteurs tels que les facteurs de croissance (TGF-β, BMP et FGF2), les intégrines (ECM) et la charge mécanique [51], qui, dans les facteurs de croissance et les intégrines, étaient cohérents avec notre étude (Fig. .4a). ERK et p38 MAP kinase pourraient jouer un rôle dans la différenciation ostéoblastique par phosphorylation de gènes liés à la différenciation ostéogénique tels que RUNX2, Osx et DLX5 [51].

Les gènes de la signalisation de l'adhésion focale favorisent la différenciation ostéogénique

Il y avait 14 gènes (ITGA1, ITGA10, ITGB5, CTNNB1, MYL9, VEGFB, LAMA2, COMP, ITGAV, PDGFRA, PDGFRB, PDGFD, COL11A1, et PIK3R1) impliqué dans la voie d'adhésion focale qui s'est régulée à la hausse les jours 8 à 25. Nous avons observé la régulation à la hausse de la sous-unité alpha 5 de l'intégrine (ITGA5) aux jours 8 et 12. Hamidouche et al. ont noté que les voies de signalisation FAK/ERK1/2-MAPK et PI3K favorisaient la différenciation ostéogénique par induction des hMSC ITGA5 [52]. Il a été rapporté que l'activation d'ITGA5 induisait à la fois des expressions d'IGF2 et d'IGFBP2 via la signalisation FAK, ERK1/2 et PI3K, ce qui a entraîné une différenciation ostéogénique dans les hMSCs [53]. Dans une autre étude, le cilengitide (un pentapeptide cyclique RGD) est un inhibiteur de l'ITGAV [54] qui peut abolir l'ossification dans les BM-MSC [55]. L'interaction entre l'ostéopontine et l'intégrine αv/β1 induit l'ostéogenèse et inhibe l'adipogenèse dans les CSM [56]. Par conséquent, la liaison de l'ostéopontine, de la fibronectine et d'autres molécules impliquées dans la différenciation ostéogénique pourrait déterminer l'équilibre possible entre les CSM qui s'engagent vers la différenciation adipogène ou ostéogénique [57]. Nous avons observé la régulation positive de la cadhérine 11 (CDH11) sur les 3 jours. CDH11 est impliqué dans les connexions cellulaires et joue un rôle dans la signalisation cellulaire. CDH11 est exprimé dans l'ostéogenèse des ostéoblastes. Son rôle dans l'engagement ostéoblastique et la différenciation ostéogénique a été rapporté [58]. Nos données ont montré que les gènes liés à l'adhésion cellulaire tels que ITGA11 et la protéine de liaison au facteur de croissance analogue à l'insuline 7 (IGFBP7) également augmenté au jour 25. L'intégrine α11 (ITGA11) est un récepteur de l'ostéolectine qui active la voie Wnt et favorise l'ostéogenèse [59]. Récemment, Zhang et al. a également signalé que le IGFBP7 Le gène a favorisé la différenciation ostéogénique des hBM-MSC par régulation positive de la voie de la -caténine [60].

Relation entre les gènes hub et la voie Wnt au cours de l'ostéogenèse

Le rôle des gènes hub importants, y compris l'interleukine (IL)-6, AKT1, VEGFA, CDK1, PLK1, CDC20, CCNA2, MAPK3 (au jour 8) et CTNNB1 (aux jours 8 et 25) dans la voie Wnt a été étudié (supplémentaire Tableau 2).

Les effets inhibiteurs de l'IL-6 dans la différenciation des ostéoblastes dans la polyarthrite rhumatoïde sont dus à son interaction négative avec la voie Wnt [61]. Dans une étude, Li et al. ont suggéré que l'effet de l'IL-6 sur l'inhibition de la différenciation ostéogénique est dû à son effet inhibiteur sur la voie canonique Wnt [62].

AKT1 est un gène important dans la voie PI3K/AKT. Des études ont été menées sur l'interaction entre les voies de signalisation Wnt/β-caténine et PI3K/AKT [63, 64]. Han et al. ont rapporté que l'inhibition de PI3K/AKT supprimait la transcription par la -caténine dans les cellules de glioblastome [64]. La -caténine peut être directement phosphorylée en Ser552 par AKT, ce qui la sépare du contact cellule-cellule et augmente la translocation de la -caténine dans le noyau, à la fois in vitro et in vivo [65].

Le VEGFA joue un rôle central dans l'angiogenèse. De nombreuses études ont évalué le rôle joué par VEGFA dans le lien entre l'ostéogenèse et l'angiogenèse [66, 67]. Dans les cellules ostéoblastiques et endothéliales, le VEGF induit la formation osseuse par la voie de la β-caténine [68]. L'inhibition de la -caténine ou le knockdown de Wnt4 dans les CSM a conduit au retour d'effets proangiogéniques induits par la signalisation Wnt [69].

CDK1, PLK1, CDC20 et CCNA2 sont des gènes impliqués dans le cycle cellulaire. La prolifération et la différenciation ont des connexions opposées [70]. En accord avec les études précédentes, les gènes liés au cycle cellulaire étaient régulés négativement [71, 72]. L'association entre le système Wnt et les gènes liés au cycle cellulaire au cours de l'ostéogenèse a été moins observée. Une étude a suggéré que l'induction de Wnt/β-caténine, par phosphorylation de LRP6 est régulée via la Cycline Y/CDK à la phase G2/M [73]. La voie canonique Wnt joue également un rôle important dans le contrôle du cycle cellulaire [74].

MAPK3 est lié à la voie MAPK. Les résultats ont montré que l'ERK interagit avec la voie de signalisation Wnt/β-caténine. Il a également été montré que la voie ERK est impliquée dans la différenciation des ostéoblastes via la régulation de RUNX2, de la -caténine et de l'ATF4 [43]. La voie Wnt est indirectement impactée par la signalisation ERK/MAPK via l'inhibition de GSK-3β par p38, JNK et ERK [75].

Le rôle de la -caténine était impliqué à la fois dans les voies canoniques de Wnt et dans l'adhésion cellule-cellule [16, 76]. Dans la voie canonique, frizzled et LRP5/6 sont activés par les ligands Wnt. En présence de ligands Wnt, le complexe de destruction (GSK3, AXIN et APC) est inhibé et cette inhibition aide à la stabilisation et à la translocation de la -caténine vers le noyau [77,78,79,80]. Il existe un site sur le promoteur de Runx2 pour la -caténine/TCF-1, qui active l'expression de ce gène et favorise la différenciation ostéogénique [81]. Tornero-Esteban et al. ont étudié l'implication du Wnt et les mécanismes compensatoires possibles impliqués dans la physiopathologie de l'arthrose (OA). Ils ont montré que les niveaux accrus de -caténine dans les OA-MSC n'accompagnaient pas une augmentation ostéogénique suggérant que des mécanismes compensatoires sont impliqués dans la modulation transcriptionnelle de la différenciation ostéogénique [82]. En raison du rôle important de la -caténine dans la voie Wnt, dans la section suivante, nous avons évalué la -caténine qui interagit/ou est affectée par d'autres voies.

La voie Wnt/β-caténine pourrait interagir/ou a été affectée par d'autres voies associées à l'ostéogenèse

L'interaction entre les molécules de signalisation liées aux intégrines et la voie Wnt a suggéré que les récepteurs des intégrines sont associés à la kinase liée à l'intégrine (ILK) [83]. La GSK3β est phosphorylée suite à l'activation d'ILK [84]. L'activation des voies de signalisation Wnt/β-caténine et PI3K-Akt entraîne une différenciation ostéogénique lors de l'amorçage de l'intégrine α5β1 à l'aide de peptides dans les cellules squelettiques mésenchymateuses [85]. Une autre étude a montré que l'ostéolectine/α11β1 entraîne une activation de la voie Wnt qui augmente la β-caténine nucléaire et finalement favorise l'ostéogenèse [59]. CDH11 est impliqué dans les ostéoblastes engagés dans la lignée ostéogénique. Il est intéressant de noter que l'adipogenèse n'a pas été affectée par CDH11 et qu'elle peut être médiée par la β-caténine [58]. Une relation entre les facteurs de croissance et la voie de signalisation Wnt au cours de l'ostéogenèse a été rapportée. (IGF)-I et IGF-II peuvent également affecter la voie de signalisation de la -caténine [86, 87]. L'IGFBP7 induit également l'ostéogenèse au jour 25. Le FGF interagit avec la voie Wnt/β-caténine dans l'ostéogenèse lors de la régulation du facteur de transcription d'Osx [88]. Le rôle de l'adiponectine en tant qu'adipocytokine a été démontré dans la formation osseuse par la voie Wnt/β-caténine [89]. Dans l'ensemble, Wnt/β-caténine interagit ou est affecté par PI3K/AKT, ERK/MAPK, CDH11, les intégrines (intégrine-ILK, intégrine α5β1, intégrine α11β1), les facteurs de croissance (FGF, IGF1/IGF2, IGFBP7 et VEGF), IL6 et adiponectine (Fig. 4b).


Analyse de regroupement, d'enrichissement des voies et d'interaction protéine-protéine de l'expression génique dans les troubles du développement neurologique

Le trouble du développement neuronal est une classe de maladies caractérisées par une altération du système nerveux central et des fonctions cérébrales. Le cerveau dans sa phase de développement subit d'énormes changements en fonction du stade et des facteurs environnementaux. Les troubles neurodéveloppementaux comprennent les anomalies associées aux troubles cognitifs, de la parole, de la lecture, de l'écriture, de la langue, de la communication et de la croissance avec des effets à vie. Les méthodes informatiques offrent un grand potentiel pour l'amélioration de la recherche et la compréhension du mécanisme moléculaire des maladies. Dans cette étude, nous avons utilisé quatre échantillons de données de développement neuronal microarray : contrôle, RV (resvératrol), NGF (facteur de croissance nerveuse) et RV + NGF. En utilisant des méthodes informatiques, nous avons identifié des gènes qui sont exprimés au stade précoce du développement neuronal et également impliqués dans les maladies neuronales. Nous avons utilisé l'application MeV pour regrouper les données brutes à l'aide du coefficient de corrélation de Pearson métrique de distance. Enfin, 60 gènes ont été sélectionnés sur la base d'une analyse de coexpression. Une analyse plus poussée des voies a été effectuée à l'aide de l'outil Metascape et le processus biologique a été étudié à l'aide de la base de données d'ontologies génétiques. Au total, 13 gènes AKT1, BAD, BAX, BCL2, BDNF, CASP3, CASP8, CASP9, MYC, PIK3CD, MAPK1, MAPK10 et CYCS ont été identifiés et sont communs à tous les groupes. Ces gènes sont impliqués dans les troubles du développement neuronal et les cancers comme le cancer colorectal, l'apoptose, la tuberculose, la sclérose latérale amyotrophique (SLA), la mort neuronale et la voie du cancer de la prostate. Une étude d'interaction protéine-protéine a été réalisée pour identifier les protéines qui appartiennent à la même voie. Ces gènes peuvent être utilisés pour concevoir des inhibiteurs potentiels contre les troubles neurologiques au stade précoce du développement neuronal. Les échantillons de puces à ADN discutés dans cette publication font partie des données déposées dans Gene Expression Omnibus du NCBI (Yadav et al., 2018) et sont accessibles via la série GEO (numéro d'accès GSE121261).

1. Introduction

1.1. Trouble du développement neuronal

La neurogenèse est un processus de génération de nouveaux neurones fonctionnels à partir de précurseurs neuronaux appelés NSC (cellules souches neuronales) [1, 2]. Les neurones fonctionnels sont générés au stade embryonnaire à différents stades de développement tout au long de la vie [3, 4].Avec les progrès rapides des techniques et la curiosité pour comprendre les maladies neuronales au stade du développement, les chercheurs ont exploré un large domaine de maladies du développement neuronal et leurs causes [5-8]. Les cellules souches neuronales ont deux caractéristiques principales qui sont la capacité de régénération, c'est-à-dire la capacité d'auto-renouvellement par le processus de division cellulaire, et la capacité de différenciation, c'est-à-dire le processus de génération de types cellulaires nouveaux et spécialisés [9]. Les neurones développés ne portent pas de dendrites et d'axones, mais ils jouent un rôle important pour recevoir et envoyer des signaux à d'autres neurones [10]. Des développements importants ont été réalisés pour identifier les gènes impliqués dans les maladies neuronales au stade du développement [11]. Il est important d'étudier les différentes étapes du développement du système nerveux et d'identifier les anomalies pouvant résulter d'un mauvais développement du cerveau à un stade précoce [12]. Une contribution significative a été apportée par les scientifiques pour identifier les troubles neuronaux qui surviennent au stade précoce du développement [13]. Les troubles neuronaux comprennent les anomalies associées à la déficience intellectuelle, au trouble déficitaire de l'attention avec hyperactivité (TDAH) et aux troubles des capacités cognitives, comme la dyslexie et la dysgraphie, et les troubles du développement du langage comme le trouble de l'expression [14-18]. Les preuves scientifiques montrent que les troubles neurologiques peuvent être identifiés à un stade précoce dès la première semaine ou le premier mois d'un cycle de vie [19-21]. Il est important d'identifier quels gènes sont cruciaux et entraînent des troubles neurologiques.

Nous avons utilisé une expérience de microarray à haut débit pour identifier les gènes impliqués dans les premiers stades du développement neurologique. Notre objectif était d'identifier les gènes qui étaient exprimés lorsque les cellules souches étaient exposées au MCP (monocrotophos), un neurotoxique, et d'évaluer le rôle effectif du resvératrol (RV) et du facteur de croissance nerveuse (NGF) en tant que neuroprotecteur.

1.2. Perspectives cliniques du resvératrol

Le resvératrol est un phénol et une phytoalexine naturels produits naturellement par plusieurs plantes en réponse à des blessures [22]. Il existe des preuves exponentielles depuis 1939 dans la littérature que le resvératrol est un composé naturel prometteur pour la prévention et le traitement d'un large éventail de maladies humaines [23]. Le resvératrol serait également efficace contre le dysfonctionnement des cellules neuronales et la mort cellulaire, la maladie de Huntington et la maladie d'Alzheimer [24-27]. Des études moléculaires montrent que le resvératrol est associé à une induction de gènes de phosphorylation oxydative et de biogenèse mitochondriale [28]. L'effet du resvératrol est connu pour prolonger la durée de vie, et il a un impact sur la fonction mitochondriale et l'homéostasie métabolique [29]. Dans le travail actuel, nous avons cartographié l'efficacité du resvératrol contre des échantillons de neurodéveloppement blessés. Dans cette étude, quatre échantillons ont été préparés (contrôle, resvératrol, NGF et RV + NGF). Des ensembles de données d'échantillons préparés ont été prélevés pour étudier le rôle neuroprotecteur du resvératrol contre l'exposition au monocrotophos. L'analyse de l'expression in silico de différents ensembles de données est effectuée pour identifier les gènes coexprimés.

1.3. Analyse de données de puces à ADN

Les puces à ADN fournissent une riche source de données sur le mécanisme moléculaire de la fonction cellulaire. Chaque microarray rapporte l'expression de milliers d'ARNm [30]. Pratiquement, presque toutes les maladies humaines sont étudiées à l'aide d'expériences sur des puces à ADN, dans le but de trouver les nouveaux gènes impliqués dans les maladies et les marqueurs de maladies et d'identifier des cibles médicamenteuses [31]. L'analyse bioinformatique joue un rôle important dans le traitement des informations, intégrées dans des études de profilage d'expression à grande échelle, et pour l'interprétation biologique des données de microarrays à haut débit [32]. Une tâche basique mais difficile dans l'analyse des données d'expression génique des puces à ADN est l'identification des changements dans l'expression génique qui sont associés à des conditions biologiques particulières [33, 34]. Une conception et une analyse statistiques minutieuses sont essentielles pour identifier les gènes impliqués dans chaque condition biologique.

Un flux de travail standard est nécessaire pour utiliser des outils de calcul à différentes étapes de l'analyse des puces à ADN. Cet article décrit également l'utilisation de différents outils bioinformatiques pour le contrôle qualité, la normalisation, la coexpression, l'annotation et l'analyse des interactions protéine-protéine.

1.4. Analyse de clustering et de coexpression

Le clustering est une méthode pour identifier les gènes qui sont co-exprimés dans chaque condition biologique [35]. Les méthodes de clustering utilisent une mesure de distance (par exemple, une métrique euclidienne) pour comparer les valeurs d'expression de paires de gènes pour chaque expérience [36]. Lorsque la distance entre une paire de gènes est faible, les deux gènes peuvent être regroupés. Les grappes sont analysées pour identifier les gènes qui sont coexprimés et corégulés.

1.5. Annotation biologique et interprétation

Après une analyse approfondie des données des puces à ADN, il faut annoter les identifiants Affymetrix pour leur importance. L'annotation révèle la signification biologique des gènes comme sa voie moléculaire, les maladies impliquées, l'ontologie des gènes, etc. [37]. Une exploration minutieuse est nécessaire pour identifier les gènes qui sont exprimés dans chaque condition de l'expérience des puces à ADN. L'enrichissement des voies et des processus est un élément crucial de l'annotation, car il conduit à l'identification d'un ensemble de gènes impliqués dans les mêmes voies [38]. L'analyse des voies met également en évidence l'ensemble des protéines qui interagissent les unes avec les autres. Cette information est utilisée pour catégoriser les partenaires d'interaction protéique et pour étudier le réseau d'interaction protéine-protéine [39].

2. Matériels et méthodes

2.1. Données sur les puces à ADN

Les CSM (cellules souches mésenchymateuses) ont été utilisées pour étudier l'effet du monocrotophos (MCP) et la capacité de réparation du resvératrol et du facteur de croissance nerveuse. Les CSM ont été exposées respectivement au RV, au NGF et au RV + NGF. Au total, quatre échantillons ont été générés pour identifier les gènes qui ont été co-exprimés au stade du développement neuronal. La plate-forme de puces génétiques Affymetrix (Prime view.CDF) a été utilisée pour identifier l'expression des gènes à l'aide de quatre échantillons, comme décrit dans le tableau 1.

2.2. Analyse et annotation des données de microarray

Des logiciels et des outils informatiques ont été utilisés pour identifier les gènes coexprimés. La figure 1 montre le flux de travail utilisé pour l'analyse et l'annotation des données des puces à ADN. Des fichiers bruts ont été utilisés, c'est-à-dire un fichier électronique de puce (CEL) et un fichier de description de puce (CDF) pour l'analyse de contrôle qualité. R et Bioconductor, le package Affy, a été utilisé pour la normalisation et la transformation des données. La matrice d'expression génique a été générée à partir du package Affy, en utilisant RMA (moyenne multiarray robuste).

Des analyses significatives de microarray (SAM) [40] et de clustering ont été effectuées à l'aide d'une application MeV [41]. La méthode de regroupement a été utilisée pour regrouper les gènes significatifs obtenus à partir de la méthode SAM. Pour le clustering, le coefficient de corrélation de Pearson métrique de distance a été utilisé, en utilisant le paramètre de l'algorithme k-means, le nombre de clusters 10 et le nombre d'itérations 50. Les gènes coexprimés ont été identifiés en analysant chacun des dix clusters.

2.3. Enrichissement de la voie et analyse de l'interaction protéine-protéine

Les gènes coexprimés identifiés à partir de l'analyse de regroupement ont été annotés plus avant pour l'intervention biologique et l'analyse des voies. La liste des gènes coexprimés a été recherchée par rapport aux voies et à la base de données GO à l'aide de l'outil Metascape (http://metascape.org) [42]. Chaque gène a été étudié pour sa voie et son score d'enrichissement de processus pour la signification statistique des gènes dans chaque processus biologique. Les gènes ont également été regroupés en fonction de leurs voies. La relation entre les gènes a également été identifiée en utilisant la carte du réseau générée à partir de l'outil Metascape et visualisée dans l'outil Cytoscape [43].

L'analyse des interactions protéine-protéine est effectuée par différentes bases de données d'interactions protéiques telles que BioGrid, InWeb_IM et OmniPath à l'aide de l'outil Metascape. L'algorithme de détection de complexes moléculaires (MCODE) a été utilisé par l'outil Metascape pour identifier un réseau densément connecté d'interaction protéine-protéine [44].

3. Résultats

3.1. Analyse de contrôle qualité

Le contrôle de la qualité (CQ) est un aspect important de l'examen des données des puces à ADN, avant toute analyse statistique à effectuer. L'analyse QC a été effectuée en utilisant le package Affy de R et Bioconductor [45]. La figure 2 montre l'image de la puce de quatre échantillons : (a) échantillon témoin, (b) échantillon NGF, (c) échantillon RV et (d) échantillon RV + NGF, cela signifie qu'il n'y a pas d'erreur dans les puces des quatre échantillons, et ils peuvent être utilisés pour l'exploration et l'analyse des données.

3.2. Normalisation et transformation des données

Trouver une réponse biologiquement pertinente à partir d'une expérience de microarray est un besoin primordial de toute expérience de microarray. Les variations dans l'expression des gènes ne doivent pas être biologiquement dues à une source d'erreurs comme le biais dans les colorants, les lasers, les échantillons et le repérage des puces au cours de l'expérience des puces à ADN [46]. Pour analyser les données des puces à ADN, il faut supprimer ces biais et erreurs dans l'expérience des puces à ADN. La normalisation est une méthode pour éliminer ces erreurs systématiques qui affectent les mesures d'expression génique [47]. Après l'analyse QC, la normalisation a été effectuée en utilisant le package Affy de R et Bioconductor. Nous avons utilisé la méthode de normalisation RMA. La figure 3 montre la boîte à moustaches de quatre échantillons après normalisation des données. La boîte à moustaches montre des valeurs statistiques comme la moyenne ou la médiane et les variations entre les échantillons [48]. La figure 3 montre que les moyennes des quatre échantillons sont en position. Les données ont été transformées en valeur logarithmique de base 2 du rapport d'expression, et la matrice d'expression a été écrite, pour une analyse statistique et des comparaisons supplémentaires.

3.3. Analyse de clustering et de coexpression

Une analyse significative de microarray (SAM) a été effectuée pour identifier le nombre de gènes statistiquement significatifs. Sur 49 495 gènes, 49 022 gènes se sont avérés non significatifs et 473 gènes étaient statistiquement significatifs. Le regroupement des K-moyennes a été effectué sur des gènes significatifs avec un paramètre de k = 10. Dix clusters ont été générés et étudiés pour la coexpression des gènes. La figure 4 montre le groupe 1 (un seul groupe est montré mais tous les dix groupes ont été étudiés pour l'analyse de coexpression) qui montre la coexpression de Tp53 et du gène cll/lymphoma2 des cellules B. De plus, la caspase-8, la caspase-10 et le récepteur de la dopamine sont également corégulés.

L'analyse des dix groupes aboutit à l'identification des gènes coexprimés. Une analyse rigoureuse du clustering montre que 60 gènes ont été coexprimés (AKT1, BAD, BAX, BCL2, BDNF, CASP3, CASP8, CASP9, MYC, PIK3CD, MAPK1, MAPK10 et CYCS). Ces gènes ont été utilisés pour l'ontologie des gènes, la fonction biologique et l'analyse des voies. Les descriptions comprenant la fonction de ces 60 gènes ont été montrées dans l'analyse d'enrichissement des voies et des processus.

3.4. Analyse de la voie et de l'enrichissement des processus

Les gènes coexprimés qui ont été regroupés dans l'étape de regroupement ont été utilisés pour l'annotation et l'interprétation biologiques. L'outil Metascape a été utilisé pour étudier la voie et le processus de ces 60 gènes. Le réseau d'interaction protéine-protéine a été construit pour identifier plus de protéines qui ont une fonction similaire et appartiennent à la même voie. 60 gènes ont ensuite été regroupés en 20 groupes sur la base de leur score d'enrichissement (le score d'enrichissement est le score entre le nombre observé et le nombre attendu par hasard) [49].

Dans chaque cluster, un terme représente le cluster le plus statistiquement significatif [42]. La figure 5 montre la carte thermique des termes enrichis colorée par le

valeur. L'analyse d'enrichissement des voies montre que la plupart des gènes sont impliqués dans le cancer colorectal, la voie de signalisation des neurotrophines, la mort des neurones et la voie de signalisation des hormones thyroïdiennes. D'autres groupes indiquent des gènes impliqués dans la réponse cellulaire aux composés organo-azotés, la réponse à la nicotine et le développement de la tête. Les gènes qui appartiennent à ces groupes ont été étudiés plus en détail pour l'analyse de la fonction et des voies.

Les 5 principaux clusters sont indiqués dans le tableau 2, le nombre correspond au nombre de gènes dans chaque cluster. Le pourcentage correspond à l'ontologie génétique totale fournie dans la liste des gènes. Log10(P) est la valeur du log de base 10 et Log10(q) est la valeur ajustée du log de base 10 [42].

L'enrichissement des voies montre que les gènes du développement neuronal sont impliqués dans le cancer colorectal, la mort neuronale et d'autres maladies comme la leucémie et la sclérose [50]. Les gènes AKT1, BAD, BAX, BCL2, CASP3, CASP8, CASP9, MYC, PIK3CD, MAPK1, MAPK10 et CYCS sont couramment exprimés dans le groupe de cancer colorectal, voie de signalisation neuronale, mort neuronale, aclérose latérale amytrophique et tuberculose [51 ]. D'autres protéines sont identifiées qui montrent une interaction avec ces protéines sur la base d'une étude d'interaction protéine-protéine.

3.5. Analyse d'enrichissement de l'interaction protéine-protéine

L'enrichissement de l'interaction protéine-protéine (PPI) a été effectué parmi la liste des gènes qui ont été regroupés dans l'analyse d'enrichissement des voies et des processus. L'outil Metascape prédit le réseau PPI en le comparant aux bases de données d'interactions protéiques (BioGrid, InWeb_IM et OmniPath) [42]. Le PPI est constitué entre des protéines ayant des interactions physiques, et le réseau PPI est en outre sous-regroupé sur la base du score de valeur. La figure 6 montre la carte PPI entre l'ensemble de gènes d'entrée. Trois gènes les mieux notés par la valeur sont identifiés. Ces protéines définissent la fonctionnalité du réseau PPI. Les gènes les mieux notés appartiennent à l'apoptose (hsa04210) [52], au cancer colorectal (hsa05210) [53] et à l'hépatite B (hsa05161) [54]. Le réseau PPI représente l'implication des gènes du développement neuronal dans des maladies comme le cancer.

La méthode de détection des complexes moléculaires (MCODE) a été appliquée pour identifier les protéines étroitement apparentées du réseau PPI. L'algorithme MCODE a subdivisé le réseau PPI en 3 sous-clusters. La figure 7 montre les composants MCODE (rouge, bleu et vert comme MCODE 1, 2 et 3). Trois PPI denses ont été réalisés et le détail de chaque cluster est donné dans le tableau 3. La prédiction MCODE valide les résultats du clustering comme indiqué précédemment dans la figure 4. Le même ensemble de protéines a été identifié par l'algorithme MCODE comme prédit par le clustering à l'aide de l'outil MeV. Ces protéines ont le même GO et la même voie.

L'analyse des clusters des composants MCODE est effectuée et les détails des protéines impliquées dans chaque cluster et leurs voies correspondantes sont présentés dans le tableau 3. Le cluster 1 comprend les protéines CASP3, CASP9, BAX, TP53, BAD, GSK3B, POU5F1, MAPK14, CREB1, SOX2, et KLF4. Les données d'ontologie génique montrent que ces protéines sont associées à la sclérose latérale amyotrophique (hsa05014) [55], au cancer colorectal (hsa05210) [56] et à la régulation positive de la mort neuronale (GO : 1901216) [57].

Les gènes du groupe 2 sont mentionnés dans le tableau 3. L'analyse GO montre que ces protéines appartiennent à la voie de signalisation des hormones thyroïdiennes (hsa04919) [55], aux maladies de la transduction du signal (R-HSA-5663202) [56] et aux voies du cancer (hsa05200) [57]. Les protéines du cluster 3 sont impliquées dans les voies de la toxoplasmose (hsa05145) [55], de la tuberculose (hsa05152) [56] et du stress de cisaillement fluide et de l'athérosclérose (hsa05418) [55].

Le cluster MCODE et le cluster du logiciel MeV montrent que certains gènes étaient couramment exprimés et corégulés. Les gènes AKT1, BAD, BAX, BCL2, BDNF, CASP3, CASP8, CASP9, MYC, PIK3CD, MAPK1, MAPK10 et CYCS sont corégulés. L'analyse PPI identifie d'autres protéines qui ont une interaction avec les protéines susmentionnées. Ces protéines sont importantes dans la différenciation neuronale, et les protéines de régénération comme ACTB, GSK3B, CREB1 et CTNNB1 ont une interaction physique avec des protéines co-exprimées [58]. Le tableau 3 donne également des informations sur les protéines et leur association avec les maladies. L'analyse des maladies associées aux protéines met en évidence que certaines protéines appartiennent à différentes classes de cancers. 12 protéines (CASP3, CASP9, BAX, TP53, BAD, GSK3B, MTOR, BCL2L11, SIRT1, CASP8, AKT1 et C TNNB1) sont impliquées dans divers types de cancers comme le cancer du poumon, le cancer du sein, le cancer de l'ovaire, le cancer colorectal, et la leucémie [59].

Alors que d'autres protéines (GSK3B, POU5F1, MAPK14, CREB1, SOX2, KLF4, PRKACA, MAPK10, STAT1, ACTB, TUBB3, MYC, GAPDH, AKT1 et CTNNB1) sont liées au processus de vieillissement, aux maladies neuronales, aux maladies cardiovasculaires, aux anomalies cérébrales. développement, retard mental, schizophrénie et infections mycobactériennes et virales [60–62].

Les principales conclusions de l'étude d'association de voies et de maladies sont l'identification de protéines impliquées dans les maladies neurologiques et également exprimées au stade précoce du développement neuronal. La protéine SOX2 était exprimée dans l'hypoplasie du nerf optique et les anomalies du système nerveux central [63], STAT1 était exprimée lors d'infections mycobactériennes et virales [64], TUBB3 était lié à la fibrose et à la dysplasie corticale et aux déformations cérébrales, AKT1 était exprimé dans le cancer du sein, le cancer colorectal, le cancer de l'ovaire et la schizophrénie [65] et CTNNB1 a été exprimé dans le cancer colorectal, le carcinome hépatocellulaire, le cancer de l'ovaire et le retard mental [66]. L'étude montre que les protéines (SOX2, STAT1, AKT1 et CTNNB1) peuvent être utilisées comme marqueurs de maladies neurologiques au stade précoce du développement neuronal, et elles peuvent être des cibles potentielles de médicaments pour le développement thérapeutique.

4. Conclusion et discussion

L'expérience de microarray est conçue pour étudier les gènes qui sont exprimés au stade précoce du développement neuronal. Les données d'expression génique des microarrays neurodéveloppementaux sont utilisées pour identifier les gènes qui sont exprimés dans les troubles neuronaux, à son stade initial de progression [67]. Quatre échantillons ont été préparés, à savoir, contrôle, resvératrol, facteur de croissance nerveuse et RV + NGF et hybrides à la puce Affymetrix (vue Prime). Une matrice d'expression génique a été construite et une analyse informatique a été effectuée. Le protocole est conçu pour étudier les gènes biologiquement significatifs. Le flux de travail d'analyse de données de puces à ADN comprend le contrôle de la qualité, la normalisation des données, le regroupement, l'enrichissement des voies et l'étude PPI. L'analyse de clustering identifie les gènes qui sont co-exprimés. Ces ensembles de gènes coexprimés sont utilisés pour l'analyse d'enrichissement des voies et des processus. L'ontologie des gènes et l'étude des voies révèlent des protéines qui partagent des voies et des fonctions communes. Un autre réseau d'interaction protéine-protéine est construit pour identifier un plus grand nombre de protéines, qui ont une interaction physique avec des protéines co-exprimées. Le réseau PPI est subdivisé pour prédire les protéines étroitement apparentées. Les informations d'ontologie génétique de ces protéines sont utilisées pour identifier la fonction et la maladie associées aux protéines. 12 protéines CASP3, CASP9, BAX, TP53, BAD, GSK3B, MTOR, BCL2L11, SIRT1, CASP8, AKT1 et CTNNB1 sont impliquées dans divers types de cancers comme le cancer du poumon, le cancer du sein, le cancer de l'ovaire, le cancer colorectal, et la leucémie [60, 61, 62].Certaines protéines telles que les protéines SOX2, STAT1, AKT1 et CTNNB1 sont associées à des maladies neurologiques telles qu'un développement cérébral anormal, un retard mental, la schizophrénie et des infections mycobactériennes et virales [63-66]. Ces gènes peuvent être utilisés comme marqueurs de maladies neurologiques, pour la détection d'anomalies à un stade précoce du développement neuronal [67]. Les protéines prédites peuvent également servir de cibles médicamenteuses potentielles pour le processus de développement de médicaments. Des travaux supplémentaires sont nécessaires pour la vérification en laboratoire humide des gènes prédits qui sont exprimés dans les troubles neurologiques et s'expriment au stade du développement. Des recherches supplémentaires sont nécessaires dans le domaine de la biologie du développement neurologique pour identifier les anomalies neurologiques à son stade naissant. Cet article souligne également l'importance de l'expérience des puces à ADN dans la compréhension des maladies neurologiques et de la méthodologie pour étudier divers résultats des données d'expression génique, comme l'analyse de la coexpression, l'identification des voies et des processus et l'étude du réseau d'interaction protéine-protéine.

Disponibilité des données

Les données sur les puces à ADN utilisées pour étayer les conclusions de cette étude sont incluses dans le fichier d'informations supplémentaires.

Les conflits d'intérêts

Les auteurs déclarent n'avoir aucun conflit d'intérêts.

Matériaux supplémentaires

Des fichiers bruts de microarray de matrice d'expression génique (fichiers CEL et CDF) ont été utilisés pour créer une matrice d'expression génique à l'aide du package Affy et de la méthode RMA (moyenne multiarray robuste). Ce fichier matriciel a été utilisé pour d'autres analyses de puces à ADN telles que l'analyse de clustering, de voie et d'interaction protéine-protéine. La voie et le résultat de l'interaction protéine-protéine générés à partir de l'outil Metascape sont donnés. Ce fichier comprend des informations sur les clusters formés dans les gènes et les détails du réseau avec des scores. Annotation et enrichissement Le fichier d'annotation et le résultat de l'enrichissement du chemin générés à partir de l'outil Metascape sont fournis. Le fichier d'annotation comprend des informations sur les gènes tels que le symbole du gène, la description du gène, le processus biologique GO, la fonction des protéines, etc. (Matériel supplémentaire)

Les références

  1. P. S. Eriksson, E. Perfilieva, T. B. Eriksson et al., « Neurogenèse dans l'hippocampe humain adulte », Médecine naturelle, vol. 4, non. 11, p. 1313, 1998. Voir sur : Site de l'éditeur | Google Scholar
  2. H. Van Praag, G. Kempermann et F. H. Gage, « La course augmente la prolifération cellulaire et la neurogenèse dans le gyrus denté de la souris adulte » Neurosciences de la nature, vol. 2, non. 3, p. 266, 1999. Voir sur : Site de l'éditeur | Google Scholar
  3. H. Van Praag, A. F. Schinder, B. R. Christie, N. Toni, T. D. Palmer et F. H. Gage, « Névrogénèse fonctionnelle dans l'hippocampe adulte » La nature, vol. 415, non. 6875, p. 1030, 2002. Voir sur : Site de l'éditeur | Google Scholar
  4. J. Wegiel, I. Kuchna, K. Nowicki et al., "La neuropathologie de l'autisme: défauts de la neurogenèse et de la migration neuronale, et changements dysplasiques", Acta Neuropathologique, vol. 119, non. 6, pp. 755–770, 2010. Afficher sur : Site de l'éditeur | Google Scholar
  5. M. V. Johnston, M. E. Blue et N. Sakkubai, « Syndrome de Rett et développement neuronal », Journal de neurologie de l'enfant, vol. 20, non. 8, pp. 759-763, 2005. Voir sur : Site de l'éditeur | Google Scholar
  6. A. M. Galaburda, J. LoTurco, F. Ramus, R. H. Fitch et G. D. Rosen, « Des gènes au comportement dans la dyslexie développementale », Neurosciences de la nature, vol. 9, non. 10, pp. 1213-1217, 2006. Voir sur : Site de l'éditeur | Google Scholar
  7. D. A. Lewis et P. Levitt, « La schizophrénie en tant que trouble du développement neurologique », Revue annuelle des neurosciences, vol. 25, non. 1, pp. 409-432, 2002. Voir sur : Site de l'éditeur | Google Scholar
  8. B.D. Trapp et K.-A. Nave, « La sclérose en plaques : une maladie immunitaire ou neurodégénérative ? Revue annuelle des neurosciences, vol. 31, pp. 247-269, 2008. Voir sur : Site de l'éditeur | Google Scholar
  9. G. Muñoz-Elías, W. Dale et I. B. Black, « Cellules stromales de la moelle, mitose et différenciation neuronale : fonctions des cellules souches et précurseurs » Cellules souches, vol. 21, non. 4, pp. 437-448, 2003. Voir sur : Site de l'éditeur | Google Scholar
  10. M. Schuldiner, R. Eiges, A. Eden et al., « différenciation neuronale induite des cellules souches embryonnaires humaines », Recherche sur le cerveau, vol. 913, non. 2, pp. 201–205, 2001. Voir sur : Site de l'éditeur | Google Scholar
  11. D. P. Purpura, « Développement neuronal normal et aberrant dans le cortex cérébral du fœtus humain et du jeune nourrisson », dans les mécanismes cérébraux dans le retard mental, Elsevier Inc., Amsterdam, Pays-Bas, 1975. Afficher sur : Site de l'éditeur | Google Scholar
  12. A. E. West et M. E. Greenberg, « Transcription génique régulée par l'activité neuronale dans le développement des synapses et la fonction cognitive » Perspectives de Cold Spring Harbor en biologie, vol. 3, non. 6, numéro d'article a005744, 2011. Afficher sur : Site de l'éditeur | Google Scholar
  13. M. P. Whitaker-Azmitia, « Sérotonine et développement du cerveau : rôle dans les maladies du développement humain », Bulletin de recherche sur le cerveau, vol. 56, non. 5, pp. 479–485, 2001. Voir sur : Site de l'éditeur | Google Scholar
  14. T. L. Bale, T. Z. Baram, A. S. Brown et al., « Programmation de la petite enfance et troubles neurodéveloppementaux » Psychiatrie Biologique, vol. 68, non. 4, pp. 314–319, 2010. Afficher sur : Site de l'éditeur | Google Scholar
  15. H. Y. Zoghbi, « Troubles neurodéveloppementaux postnatals : rencontre à la synapse ? Science, vol. 302, non. 5646, pp. 826-830, 2003. Voir sur : Site de l'éditeur | Google Scholar
  16. M. Dennis, D. J. Francis, P. T. Cirino, R. Schachar, M. A. Barnes et J. M. Fletcher, « Pourquoi le QI n'est pas une covariable dans les études cognitives des troubles du développement neurologique » Journal de la Société internationale de neuropsychologie, vol. 15, non. 3, pp. 331–343, 2009. Afficher sur : Site de l'éditeur | Google Scholar
  17. P. Krakowiak, C. K. Walker, A. A. Bremer et al., « Conditions métaboliques maternelles et risque d'autisme et d'autres troubles neurodéveloppementaux », Pédiatrie, vol. 129, non. 5, pp. e1121–e1128, 2012. Afficher sur : Site de l'éditeur | Google Scholar
  18. P. Levitt, K. L. Eagleson et E. M. Powell, « Réglementation du développement des interneurones néocorticaux et implications pour les troubles neurodéveloppementaux » Tendances en neurosciences, vol. 27, non. 7, pp. 400–406, 2004. Voir sur : Site de l'éditeur | Google Scholar
  19. I. C. Gillberg et C. Gillberg, « Enfants atteints de troubles neurodéveloppementaux mineurs d'âge préscolaire. IV : comportement et réussite scolaire à 13 ans », Médecine du développement et neurologie de l'enfant, vol. 31, non. 1, pp. 3-13, 1989. Voir sur : Site de l'éditeur | Google Scholar
  20. M. J. Millan, « Un cadre épigénétique pour les troubles neurodéveloppementaux : de la pathogenèse à la thérapie potentielle » Neuropharmacologie, vol. 68, pp. 2-82, 2013. Voir sur : Site de l'éditeur | Google Scholar
  21. J. A. Baur et D. A. Sinclair, « Potentiel thérapeutique du resvératrol : la preuve in vivo », Avis Nature Découverte creusée, vol. 5, non. 6, p. 493, 2006. Voir sur : Site de l'éditeur | Google Scholar
  22. L. Frémont, « Effets biologiques du resvératrol », Sciences de la vie, vol. 66, non. 8, pp. 663-673, 2000. Voir sur : Site de l'éditeur | Google Scholar
  23. M. Lagouge, C. Argmann, Z. Gerhart-Hines et al., "Le resvératrol améliore la fonction mitochondriale et protège contre les maladies métaboliques en activant SIRT1 et PGC-1α," Cellule, vol. 127, non. 6, pp. 1109–1122, 2006. Voir sur : Site de l'éditeur | Google Scholar
  24. M. H. Aziz, S. Reagan-Shaw, J. Wu, B. J. Longley et N. Ahmad, « La chimioprévention du cancer de la peau par le resvératrol, un constituant du raisin : pertinence pour la maladie humaine ? » Journal de la FASEB, vol. 19, non. 9, pp. 1193-1195, 2005. Voir sur : Site de l'éditeur | Google Scholar
  25. K. Magyar, R. Halmosi, A. Palfi et al., « Cardioprotection par le resvératrol : un essai clinique sur l'homme chez des patients atteints d'une maladie coronarienne stable », Hémorhéologie clinique et microcirculation, vol. 50, non. 3, pp. 179-187, 2012. Voir sur : Site de l'éditeur | Google Scholar
  26. V. Vingtdeux, U. Dreses-Werringloer, H. Zhao, P. Davies et P. Marambaud, « Potentiel thérapeutique du resvératrol dans la maladie d'Alzheimer », BMC Neurosciences, vol. 9, non. 2, p. S6, 2008. Afficher sur : Site de l'éditeur | Google Scholar
  27. E. N. Frankel, A. L. Waterhouse et J. E. Kinsella, « Inhibition de l'oxydation des LDL humaines par le resvératrol », La Lancette, vol. 341, non. 8852, pp. 1103-1104, 1993. Voir sur : Site de l'éditeur | Google Scholar
  28. G. López-Lluch, P. M. Irusta, P. Navas et R. de Cabo, « Biogenèse mitochondriale et vieillissement en bonne santé », Gérontologie expérimentale, vol. 43, non. 9, pp. 813-819, 2008. Voir sur : Site de l'éditeur | Google Scholar
  29. A. Biala, E. Tauriainen, A. Siltanen et al., "Le resvératrol induit la biogenèse mitochondriale et améliore le remodelage cardiaque induit par l'Ang II chez des rats transgéniques hébergeant des gènes humains de rénine et d'angiotensinogène," Pression artérielle, vol. 19, non. 3, pp. 196-205, 2010. Afficher sur : Site de l'éditeur | Google Scholar
  30. de M. X. Renée, J. M. Boer et H. C. van Houwelingen, « Analyse des données sur les microréseaux », Bioinformatique appliquée, vol. 3, non. 4, pp. 229-235, 2004. Voir sur : Site de l'éditeur | Google Scholar
  31. A.T. Weeraratna et D.D. Taub, Analyse de données de puces à ADN, Humana Press, New York City, NY, États-Unis, 2007.
  32. P. Behzadi, E. Behzadi et R. Ranjbar, « Analyse des données de microréseaux », Défi, vol. 7, p. 8, 2014. Voir sur : Google Scholar
  33. G. K. Smyth, Y. H. Yang et T. Speed, « Problèmes statistiques dans l'analyse des données de microarrays d'ADNc », Génomique Fonctionnelle, Humana Press, New York City, NY, USA, 2003. Voir sur : Site de l'éditeur | Google Scholar
  34. T. Jirapech-Umpai et S. Aitken, « Sélection et classification des caractéristiques pour l'analyse des données de puces à ADN : méthodes évolutives pour l'identification des gènes prédictifs » BMC bioinformatique, vol. 6, non. 1, p. 148, 2005. Voir sur : Site de l'éditeur | Google Scholar
  35. G. Getz, E. Levine et E. Domany, « Analyse de clustering bidirectionnelle couplée des données de microarrays génétiques », Actes de l'Académie nationale des sciences, vol. 97, non. 22, pp. 12079–12084, 2000. Voir sur : Site de l'éditeur | Google Scholar
  36. R. K. Curtis, M. Orešič et A. Vidal-Puig, « Pathways to the analysis of microarray data », TENDANCES en biotechnologie, vol. 23, non. 8, pp. 429-435, 2005. Voir sur : Site de l'éditeur | Google Scholar
  37. T. Werner, « Applications bioinformatiques pour l'analyse des voies de données sur les puces à ADN », Opinion actuelle en biotechnologie, vol. 19, non. 1, pp. 50-54, 2008. Afficher sur : Site de l'éditeur | Google Scholar
  38. G. Wu, X. Feng et L. Stein, « Un réseau d'interaction de protéines fonctionnelles humaines et son application à l'analyse des données sur le cancer », Biologie du génome, vol. 11, non. 5, p. R53, 2010. Afficher sur : Site de l'éditeur | Google Scholar
  39. S. Dudoit, R. C. Gentleman et J. Quackenbush, « Logiciel open source pour l'analyse des données de microarray » Biotechnique, vol. 34, non. 13, pp. 45-51, 2003. Voir sur : Site de l'éditeur | Google Scholar
  40. E. Howe, K. Holton, S. Nair, D. Schlauch, R. Sinha et J. Quackenbush, "Mev: Multiexperiment Viewer", Informatique biomédicale pour la recherche sur le cancer, Springer, Boston, MA, États-Unis, 2010. Voir sur : Google Scholar
  41. S. Tripathi, M. O. Pohl, Y. Zhou et al., « L'intégration méta et orthogonale des données OMIC sur la grippe définit un rôle pour UBR4 dans le bourgeonnement du virus » Cellule hôte et microbe, vol. 18, non. 6, pp. 723-735, 2015. Voir sur : Site de l'éditeur | Google Scholar
  42. L. Shuaichen et G. Wang, « L'analyse bioinformatique révèle que le CYP2C9 est un marqueur pronostique potentiel pour le CHC et les lignées cellulaires du cancer du foie adaptées à son étude de mécanisme » Biologie cellulaire et moléculaire, vol. 64, non. 7, pp. 70-74, 2018. Voir sur : Site de l'éditeur | Google Scholar
  43. A. Kuno, K. Nishimura et S. Takahashi, « L'analyse du transcriptome au cours du temps de la reprogrammation cellulaire humaine à partir de plusieurs types de cellules révèle que le changement radical se produit entre la phase intermédiaire et la phase tardive » BMC Génomique, vol. 19, non. 1, p. 9, 2018. Voir sur : Site de l'éditeur | Google Scholar
  44. C. L. Wilson et C. J. Miller, « Simpleaffy : un package BioConductor pour le contrôle qualité et l'analyse des données Affymetrix » Bioinformatique, vol. 21, non. 18, pp. 3683–3685, 2005. Voir sur : Site de l'éditeur | Google Scholar
  45. R. A. Irizarry, « Exploration, normalisation et résumés des données de niveau de sonde de matrice d'oligonucléotides à haute densité », Biostatistique, vol. 4, non. 2, pp. 249-264, 2003. Voir sur : Site de l'éditeur | Google Scholar
  46. D. P. Kreil, N. A. Karp et K. S. Lilley, « Les méthodes de normalisation des puces à ADN peuvent éliminer les biais de l'analyse de l'expression différentielle des protéines des résultats d'électrophorèse sur gel de différence 2D » Bioinformatique, vol. 20, non. 13, pp. 2026-2034, 2004. Voir sur : Site de l'éditeur | Google Scholar
  47. Y. H. Yang, "Normalisation des données de microarrays d'ADNc: une méthode composite robuste abordant la variation systématique à lame unique et multiple", Recherche sur les acides nucléiques, vol. 30, non. 4, p. e15, 2002. Voir sur : Site de l'éditeur | Google Scholar
  48. Da W. Huang, B. T. Sherman et R. A. Lempicki, « Outils d'enrichissement bioinformatique : chemins vers l'analyse fonctionnelle complète des grandes listes de gènes » Recherche sur les acides nucléiques, vol. 37, non. 1, pp. 1-13, 2008. Voir sur : Site de l'éditeur | Google Scholar
  49. S. E. Soden, C. J. Saunders, L. K. Willig et al., « Efficacité du séquençage de l'exome et du génome guidé par l'acuité de la maladie pour le diagnostic des troubles neurodéveloppementaux » Science Médecine translationnelle, vol. 6, non. 265, numéro d'article 265ra168, 2014. Afficher sur : Site de l'éditeur | Google Scholar
  50. S. Wang, Z. Z. Chong, Y. C. Shang et K. Maiese, « La protéine 1 de la voie de signalisation inductible Wnt1 (WISP1) bloque la neurodégénérescence par la phosphoinositide 3 kinase/Akt1 et la signalisation mitochondriale apoptotique impliquant Bad, Bax, Bim et Bcl-xL. Recherche neurovasculaire actuelle, vol. 9, non. 1, pp. 20-31, 2012. Voir sur : Site de l'éditeur | Google Scholar
  51. Y. S. Lee, S. G. Hwang, J. K. Kim et al., "Identification de nouveaux gènes cibles thérapeutiques dans le cancer du sein acquis résistant au lapatinib par méta-analyse intégrative," Biologie des tumeurs, vol. 37, non. 2, pp. 2285–2297, 2016. Voir sur : Site de l'éditeur | Google Scholar
  52. A. L. Tarca, S. Draghici, G. Bhatti et R. Romero, « La sous-pondération des gènes qui se chevauchent améliore l'analyse des ensembles de gènes » BMC Bioinformatique, vol. 13, non. 1, p. 136, 2012. Voir sur : Site de l'éditeur | Google Scholar
  53. S.-L. Chen, Z.-M. Wang, Z.-Y. Hu et B. Li, « Analyse à l'échelle du génome d'ARN longs non codants différentiellement exprimés induits par un faible stress de cisaillement dans les cellules endothéliales de la veine ombilicale humaine » Médecine moléculaire intégrative, vol. 2, pp. 276-289, 2015. Voir sur : Site de l'éditeur | Google Scholar
  54. Z.-P. Liu, Y. Wang, X.-S. Zhang et L. Chen, « Identification d'une diaphonie dysfonctionnelle des voies dans diverses régions du cerveau de la maladie d'Alzheimer », BMC Systems Biologie, vol. 4, non. 2, 2010. Voir sur : Site de l'éditeur | Google Scholar
  55. R. Wang, J. Wei, Z. Li, Y. Tian et C. Du, « Analyse bioinformatique des signatures d'expression génique de différents sous-types de gliomes » Lettres d'oncologie, vol. 15, non. 3, pp. 2807–2814, 2018. Voir sur : Site de l'éditeur | Google Scholar
  56. H.-Q. Wang, X.-P. Xie et C.-H. Zheng, "Une méthode de classification basée sur les voies qui peut améliorer le diagnostic du cancer colorectal basé sur des puces", dans Actes de la conférence internationale sur l'informatique intelligente, Springer, Berlin, Heidelberg, août 2011. Voir sur : Google Scholar
  57. J. K. Choudhari, B. P. Sahariah, J. K. Choubey, A. Patel et M. K. Verma, « Identification du facteur de transcription potentiel et des protéines kinases pour la régulation des gènes différentiellement exprimés pour l'exposition au fluorure chez l'homme à l'aide de l'approche Expression2Kinases (X2K) » Analyse de modélisation de réseau en informatique de la santé et bioinformatique, vol. 6, non. 1, p. 7, 2017. Voir sur : Site de l'éditeur | Google Scholar
  58. V. Uversky, I. Na, K. Landau et R. Schenck, « Protéines hautement désordonnées dans le cancer de la prostate », Science actuelle des protéines et des peptides, vol. 18, non. 5, pp. 453–481, 2017. Voir sur : Site de l'éditeur | Google Scholar
  59. E. Weinstein, X. Cui et P. Simmons, Édition génomique des gènes neurodéveloppementaux chez les animaux, demande de brevet américain n° 12/842.
  60. D. Nousome, « Identification des facteurs de risque génétiques pour le mutisme cérébelleux chez les patients pédiatriques atteints de tumeurs cérébrales », The University of Texas School of Public Health, Houston, TX, États-Unis, 2012, thèse. Voir sur : Google Scholar
  61. C.R. Sullivan, C. Mielnik, S.M. O'Donovan et al., Analyses de connectivité des changements bioénergétiques dans la schizophrénie : identification de nouveaux traitements, bioRxiv, 2018.
  62. A. L. M. Ferri, « La carence en Sox2 provoque une neurodégénérescence et une altération de la neurogenèse dans le cerveau de la souris adulte » Développement, vol. 131, non. 15, pp. 3805–3819, 2004. Voir sur : Site de l'éditeur | Google Scholar
  63. T. Nishibori, Y. Tanabe, L. Su et M. David, « Développement altéré des cellules T régulatrices CD4+CD25+ en l'absence de STAT1 : susceptibilité accrue aux maladies auto-immunes » Journal de médecine expérimentale, vol. 199, non. 1, pp. 25-34, 2004. Voir sur : Site de l'éditeur | Google Scholar
  64. G. Xiromerisiou, G. M. Hadjigeorgiou, A. Papadimitriou, E. Katsarogiannis, V. Gourbali et A. B. Singleton, « Association entre le gène AKT1 et la maladie de Parkinson : un haplotype protecteur » Lettres de neurosciences, vol. 436, non. 2, pp. 232-234, 2008. Voir sur : Site de l'éditeur | Google Scholar
  65. T. Morikawa, « Association des altérations du CTNNB1 (β-caténine), de l'indice de masse corporelle et de l'activité physique avec la survie chez les patients atteints de cancer colorectal », JAMA, vol. 305, non. 16, pp. 1685–1694, 2011. Voir sur : Site de l'éditeur | Google Scholar
  66. N. N. Parikshak, M. J. Gandal et D. H. Geschwind, « Biologie des systèmes et réseaux de gènes dans les troubles neurodéveloppementaux et neurodégénératifs » Nature Avis Génétique, vol. 16, non. 8, p. 441, 2015. Voir sur : Site de l'éditeur | Google Scholar
  67. P. B. Crino, J. Q. Trojanowski, M. A. Dichter et J. Eberwine, « Marqueurs neuronaux embryonnaires dans la sclérose tubéreuse de Bourneville : pathologie moléculaire unicellulaire » Actes de l'Académie nationale des sciences, vol. 93, non. 24, pp. 14152-14157, 1996. Voir sur : Site de l'éditeur | Google Scholar

Droits d'auteur

Copyright © 2018 Ruchi Yadav et Prachi Srivastava. Il s'agit d'un article en libre accès distribué sous la licence Creative Commons Attribution, qui permet une utilisation, une distribution et une reproduction sans restriction sur n'importe quel support, à condition que l'œuvre originale soit correctement citée.


Discussion

Dans une étude précédente (21), nous avons montré que les transcriptomes représentant la réponse in vivo à trois stades de croissance de l'espèce L. plantarum ont montré une promotion spécifique à l'étape des réseaux et des voies de régulation des gènes dirigés par NF-κB. Pour aider à concevoir de futures études sur les mécanismes probiotiques et les essais thérapeutiques humains et étendre nos connaissances de base sur les réponses humaines in vivo aux lactobacilles communs, nous avons obtenu in vivo des réponses transcriptionnelles de la muqueuse duodénale d'adultes sains à trois souches probiotiques largement utilisées de différentes Lactobacilles espèces et un contrôle placebo selon une conception d'étude croisée randomisée en double aveugle. Les conditions expérimentales ont été choisies de telle sorte que l'homéostasie intestinale ne soit pas perdue. Les quantités de bactéries consommées étaient d'environ 10 10 , doses recommandées pour atteindre l'utilité clinique (33). Nous avons mesuré les réponses aiguës aux bactéries lactiques, soit après 6 h de consommation, dans la partie proximale du duodénum. On peut s'attendre à ce que les réponses mesurées soient moins appropriées pour fournir des indices sur d'éventuels effets probiotiques dans l'iléon ou le côlon plus distal. À l'heure actuelle, on ne sait pas comment les réponses aiguës que nous avons mesurées sont liées à une consommation prolongée de probiotiques. Les changements modestes dans l'expression des gènes (au plus, des changements de pli modérés jusqu'à 10 pour quelques gènes codant pour des cytokines, généralement des changements de pli inférieurs, inférieurs ou proches de 2) suggèrent que nos interventions n'ont pas conduit à une perte de l'homéostasie immunitaire et métabolique. Nous nous attendons à ce que la transcription régulée à la hausse des gènes codant pour les facteurs impliqués dans l'immunité revienne aux niveaux de base si les probiotiques sont consommés une fois par jour. Il est donc possible que les réponses muqueuses qui ont été mesurées dans cette étude puissent être déclenchées fréquemment chez les individus, potentiellement quotidiennement. La thérapie probiotique standard implique souvent la consommation quotidienne d'au moins une seule portion de probiotiques pendant plusieurs semaines. Lors de la conception d'essais cliniques basés sur les résultats de ce manuscrit, ces problèmes doivent être pris en compte dans la mesure du possible et, idéalement, impliquer des mesures à plusieurs moments et à différents endroits dans l'intestin.

Dans cette étude, nous avons constaté que les transcriptomes étaient regroupés par personne, et non par intervention, montrant que la variation de l'expression des gènes d'une personne à l'autre était le plus grand déterminant des différences entre les transcriptomes. Néanmoins, la consommation de différents lactobacilles probiotiques a conduit à des profils d'expression nettement différents in vivo dans la muqueuse humaine, corroborant l'idée que des souches probiotiques spécifiques, potentiellement même le stade de croissance des bactéries dans une préparation (21), induisent des réponses spécifiques chez l'homme. Notez qu'il est possible que les résultats de cette étude ne s'appliquent pas à toutes les souches probiotiques d'une espèce donnée. Nous avons reconstruit les profils d'expression muqueux en réseaux complets, les avons annotés avec une fonction biologique et transformé les réseaux de gènes en voies de signalisation interconnectées. Étonnamment, les profils d'expression in vivo présentent une similitude significative avec les profils d'expression d'expériences pharmaceutiques à haut débit visant à profiler les réponses de lignées cellulaires communes traitées avec de petites molécules avec un impact pharmaceutique et une bioactivité connus, y compris plusieurs médicaments. Les gènes qui jouent un rôle central dans les réseaux de régulation montrent peu de variation entre les individus, et leurs corrélations peuvent expliquer une partie des effets probiotiques observés dans les essais cliniques. Notez que nos réponses mesurées in vivo peuvent être spécifiques au duodénum proximal et conduire probablement à des effets locaux dans la muqueuse intestinale, alors que la plupart des médicaments agissent de manière systémique dans la circulation sanguine. Les données et les interprétations de cette étude peuvent aider à concevoir rationnellement des essais cliniques impliquant des volontaires humains pour mesurer les effets résultant des traitements probiotiques.

Consommation de L. acidophilus Lafti L10 a entraîné une modulation de la régulation transcriptionnelle de la voie de signalisation IL-23 associée à l'IBD muqueuse. Chez les volontaires sains, la sous-unité p40 de l'IL-23 n'a pas montré d'expression différentielle, alors que l'expression de la sous-unité p19 était régulée à la baisse. L'expression de p40 et p19 était régulée à la hausse dans la lamina propria des personnes souffrant de la maladie de Crohn (27), tandis qu'une diminution de p19 a amélioré l'inflammation induite par les bactéries dans un modèle de colite de souris (34). La régulation observée de la signalisation de l'IL-23 est donc plus cohérente avec un rôle dans la tolérance immunitaire. Plusieurs chimiokines induites par l'IFN spécifiques à Th1 telles que CXCL10 et CXCL11 et les gènes sensibles à l'IFN ont été régulées à la hausse, indiquant que la consommation de L. acidophilus Lafti L10 peut favoriser les réponses immunitaires Th1. Dans un modèle murin, l'ingestion orale de L. acidophilus Lafti L10 a conduit à une stimulation des réponses immunitaires innées, principalement par une augmentation de la production d'IFN (35). Il peut être intéressant de tester l'effet de L. acidophilus dans des modèles de maladie caractérisés par un manque de réponse Th1 et une perte associée de tolérance immunitaire. Il peut également être intéressant de rechercher si la consommation de L. acidophilus a un effet positif sur le soulagement de l'hypertension musculaire intestinale et la régulation de l'équilibre hydrique et salin, comme suggéré par l'analyse ConnMap.

Consommation de L. casei Le CRL-431 peut favoriser un déplacement de la balance Th1/Th2 vers un type Th2 et/ou Th17, ce dernier considérant la régulation positive observée de l'IL-17D (syn. IL-22) et de l'IL-21 (36). L'IL-15, l'IL-17D (IL-22) et l'IL-21 sont également impliquées dans le développement de cellules tueuses naturelles (37 ⇓ -39), cellules immunitaires dont les rôles plus régulateurs en immunologie muqueuse n'ont été reconnus que récemment. Nous avons observé une expression accrue des récepteurs de surface qui sont typiques des cellules présentatrices d'anticorps. Une expression accrue des récepteurs a également été observée dans les macrophages et les cellules dendritiques dans un modèle murin après administration orale de L. casei CRL-431 (40). Les effets anti-inflammatoires déduits des analyses ConnMap ont été rapportés pour un L. casei souche dans un modèle d'infection des cellules épithéliales intestinales humaines (41). La similitude avec les profils induits par les composés qui modulent la rétention d'eau et l'homéostasie du sel a été illustrée par l'expression accrue de plusieurs transporteurs d'ATPase. Il peut être intéressant d'étudier plus avant les propriétés immunomodulatrices, anti-inflammatoires et régulatrices de l'eau possibles de L. casei.

Consommation de L. rhamnosus La GG a été associée à la prévention ou au soulagement des symptômes allergiques. Dans un essai randomisé contrôlé par placebo, L. rhamnosus La GG a réduit de moitié le développement de l'eczéma atopique chez les nouveau-nés et les nourrissons (15, 42), peut-être en empêchant la production excessive de cellules effectrices Th2 (10). Après 5 semaines de prise orale quotidienne de 2 × 10 9 L. rhamnosus GG par des adultes en bonne santé, les mesures de la production de cytokines par les cellules sanguines périphériques suggèrent que la consommation de L. rhamnosus GG avait modifié le rapport Treg vs. Th1/Th2 et l'équilibre Th1/Th2 (43). Nous avons constaté que la consommation de L. rhamnosus GG induit, entre autres, les gènes codant pour les cytokines CCL24, CCL2 et CXCL3. Ces deux derniers sont des gènes à réponse précoce (44) qui sont particulièrement efficaces pour stimuler les réponses Th1. La régulation à la hausse de plusieurs gènes induits par l'IFN et de STAT4 suggère que la consommation de L. rhamnosus peut avoir favorisé l'expression de gènes qui stimulent le développement des cellules effectrices Th1 (45, 46). Dans deux études différentes sur microréseaux, l'une utilisant une lignée cellulaire de souris et l'autre profilant les réponses intestinales d'humains souffrant d'œsophagite, les principales voies de réponse modulées à L. rhamnosus GG a participé à la régulation de la réponse immunitaire, de l'apoptose, de la croissance et de la différenciation cellulaires (47, 48) (Annexe SI, Résultats SI), suggérant que différents hôtes présentent au moins quelques réponses similaires à cette souche bactérienne.

Dans l'ensemble, il semble y avoir une correspondance remarquable entre les réseaux transcriptionnels de la muqueuse humaine in vivo altérés après consommation de bactéries probiotiques, les expériences à haut débit profilant les réponses aux molécules bioactives, y compris la médecine commerciale, et la littérature scientifique (Annexe SI, tableau S4). Bien que cette étude ne puisse inclure qu'un nombre modeste de volontaires, nous considérons que les voies de réponse induites par les interventions bactériennes spécifiques peuvent être induites de manière plus générale. Nous déduisons cela de l'observation que les voies de réponse bactériennes spécifiques au traitement ont été identifiées chez tous les volontaires, malgré la grande variation entre les transcriptomes obtenus à partir des volontaires individuels. De plus, les gènes régulateurs avec des rôles centraux dans les réseaux ont montré une expression nettement moins variable entre les personnes que les gènes qui se sont produits moins centraux dans les réseaux et qui pourraient être modulés directement et indirectement par plusieurs réseaux. Nous avons trouvé des centaines de gènes exprimés de manière différentielle qui participent à (la régulation des) voies muqueuses basales, certains ayant une pertinence clinique. Cela montre que l'étude de l'effet de souches bactériennes spécifiques dans des essais croisés utilisant des volontaires humains peut donner des résultats cliniquement pertinents. Les gènes régulateurs plus centraux qui ont été transcrits de manière différentielle avec une faible variation d'expression pourraient conduire au développement de biomarqueurs pour une fonction duodénale saine. Les résultats de cette étude peuvent également contribuer à l'identification des molécules bactériennes impliquées dans la corégulation de la fonction muqueuse humaine. De telles molécules existent bel et bien, comme en témoignent les études où sécrétées L. rhamnosus Il a été découvert que les protéines GG évitent les dommages aux cellules épithéliales induits par le TNF et favorisent la guérison et l'homéostasie de l'épithélium intestinal (49, 50). Nous considérons que la recherche sur les probiotiques pourrait éventuellement fournir des interventions thérapeutiques qui corrigent de légers écarts par rapport au métabolisme intestinal normal et peuvent contribuer au maintien de la santé intestinale dans des conditions de stress léger, comme l'exercice physique. La recherche sur les probiotiques pourrait utiliser une approche similaire à celle de la recherche en nutrigénomique (51) qui repose sur l'idée que la nutrition devrait se concentrer principalement sur la santé et la prévention des maladies et être complémentaire à la thérapie médicale utilisée pour prévenir ou guérir une maladie plus avancée (52). La grande variation de personne à personne dans les transcriptomes de réponse que nous avons observée dans cette étude, ainsi que les CoVars élevés pour les gènes qui codent pour les molécules bioactives, y compris les chimiokines attirant et activant les cellules immunitaires, aident à expliquer pourquoi la supplémentation en probiotiques peut conduire à des résultats mesurables. effets chez certaines personnes mais pas chez d'autres. Nous prévoyons que la réactivité aux probiotiques n'est pas seulement déterminée par les caractéristiques de la souche bactérienne consommée, mais également par le patrimoine génétique, le microbiote résident, le régime alimentaire et le mode de vie. Cette étude pourrait donc être l'une des premières étapes pour étudier l'interaction entre le microbiote, les probiotiques ou d'autres suppléments nutritionnels et la génétique humaine et la nutrition personnalisée.


Traduire des modèles de marqueurs multifactoriels en tests de diagnostic

Passage des découvertes de la recherche en omique aux tests de diagnostic clinique

Les techniques de mesure omiques à haut débit ne sont généralement pas conçues pour des applications de diagnostic, mais pour de larges analyses au niveau des systèmes, la génération d'hypothèses et la construction de premiers modèles d'apprentissage automatique pour la classification d'échantillons. De tels modèles provisoires nécessitent un raffinement et une validation ultérieurs en utilisant des techniques de mesure plus sensibles et reproductibles pour évaluer leur potentiel pour des applications diagnostiques. Par exemple, un modèle de classification d'échantillons construit et validé de manière croisée à l'aide de données d'expression génique de microarray, avec une sélection de caractéristiques intégrée pour choisir uniquement les gènes les plus informatifs comme prédicteurs, peut être validé à l'aide d'une réaction en chaîne par polymérase de transcription inverse quantitative plus précise (qRT-PCR) mesures pour le sous-ensemble de gènes choisis.

Il est important de noter que pour éviter de fausses conclusions dans l'évaluation des modèles de classification diagnostique, des méthodes statistiques adéquates doivent être choisies pour évaluer les performances prédictives globales d'un modèle (quantification à quel point les prédictions sont proches du résultat réel), son étalonnage/fiabilité (mesure à quelle distance de x sur 100 individus avec une prédiction de risque de x% ont le résultat) et sa capacité discriminante (déterminer si les individus avec le résultat ont des prédictions de risque plus élevées que ceux sans) [ 86 ]. En raison de l'incertitude inhérente aux tâches de diagnostic, les prédictions doivent être fournies sous une forme probabiliste plutôt que déterministe [87], et la performance globale doit être quantifiée à l'aide de «règles de notation appropriées», pour lesquelles le score attendu est optimisé lorsque la distribution prédictive est en accord avec la distribution réelle de la quantité à estimer (un exemple correspondant est le score de Brier pour les résultats binaires et de survie [ 88 ]). Inversement, l'optimisation des modèles par rapport aux taux de non-erreur discontinus conventionnels comme le pourcentage de classification correcte peut fournir des résultats trompeurs, par ex. lorsque les probabilités prédites sont proches du seuil de décision choisi requis pour ces mesures [ 89 ]. Pour évaluer le calibrage d'un modèle, le test d'ajustement de Hosmer-Lemeshow peut être utilisé [ 90 ] et la statistique de concordance pour quantifier la capacité de discrimination [ 91 ]. Si un système de prédiction de référence est déjà disponible, des mesures dédiées de l'amélioration relative obtenue avec une nouvelle méthode de prédiction doivent en outre être calculées (appelées « compétences », par exemple quantifiées via le Brier Skill Score [92]). De plus, des approches analytiques décisionnelles telles que l'analyse de la courbe de décision [93], conçues pour évaluer le bénéfice net obtenu en prenant des décisions selon les prédictions du modèle, devraient être appliquées si le modèle doit être utilisé pour orienter la gestion clinique des patients [86].

Pour la conception de l'étude, des calculs de puissance initiaux sont nécessaires pour s'assurer que des tailles d'échantillon suffisantes sont disponibles pour toutes les évaluations statistiques [ 94 ]. Cela implique également de choisir une division adéquate des données mesurées en ensembles d'apprentissage, de test et de validation et de sélectionner des techniques de validation croisée ou de rééchantillonnage appropriées pour l'optimisation et l'évaluation du modèle (par exemple, en utilisant une validation croisée externe à deux niveaux [ 95 ]) [ 96 ].

Il est important de noter que la validation clinique nécessite non seulement des tailles d'échantillons significativement plus grandes que la plupart des études de recherche, mais également des tests de réplication indépendants sur des données d'autres cohortes de patients, une spécification claire de la justification biologique de la méthode et une démonstration de son utilité clinique. Contrairement au cadre réglementaire pour les médicaments, il existe de multiples voies pour la traduction des tests basés sur les omiques en tests validés. in vitro appareils de test de diagnostic. Ces tests peuvent être développés et validés soit par examen par la Food and Drug Administration (FDA), soit par validation et performance par un laboratoire spécifique certifié selon les Clinical Laboratory Improvement Amendments (CLIA) [ 97 ].

Étant donné que l'utilisation de pipelines de développement de produits médicaux établis comme dans les sociétés pharmaceutiques n'est pas une pratique courante dans le milieu universitaire, pour de nombreuses institutions de recherche biomédicale, une collaboration précoce avec un partenaire industriel expérimenté est souvent recommandée. Bien qu'il n'existe actuellement aucun processus standard unique et largement reconnu pour traduire les résultats de la recherche en omique en diagnostics cliniques, les recommandations communes d'organisations de santé largement reconnues peuvent être suivies. En particulier, un comité de l'Institute of Medicine des États-Unis a mené une étude sur le développement de tests cliniques basés sur l'omique et a proposé un processus générique pour le développement et l'évaluation de ces tests comme ligne directrice recommandée [ 97 ]. Un exemple de processus correspondant, qui est brièvement décrit à des fins d'illustration dans la figure 1 et ne vise pas à couvrir toutes les variations importantes, commence par la phase de découverte dans laquelle un modèle de biomarqueur candidat est construit sur un ensemble d'apprentissage, verrouillé et évalué sur des données de test. (cet ensemble d'échantillons doit être complètement indépendant de l'ensemble d'apprentissage). Dans la phase de validation du test suivante, après approbation du comité d'examen institutionnel et consultation de la FDA, un laboratoire certifié CLIA définit et optimise la méthode de test de diagnostic, valide cliniquement et biologiquement le test sur un ensemble d'échantillons en aveugle et met en œuvre le test selon les critères cliniques actuels. normes de laboratoire.

Exemple d'illustration d'étapes courantes lors du développement de tests de diagnostic basés sur les omiques (version simplifiée du processus présentée dans une étude de l'US Institute of Medicine [ 97 ], en se concentrant sur les principales étapes du pipeline). Après le passage de la deuxième à la troisième phase (mis en évidence par le symbole du cadenas), le test de diagnostic doit être entièrement défini, validé et verrouillé. Il existe de nombreuses variantes et alternatives importantes à l'exemple de processus décrit, ainsi que différentes réalisations d'étapes génériques du processus (par exemple, les cas dans lesquels un test dirige la gestion du patient peuvent couvrir différentes situations, selon que les cliniciens sont libres d'utiliser le résultat du test comme qu'ils l'entendent, ou si des procédures prédéfinies doivent être suivies sous réserve de contre-indications et/ou sous réserve des résultats des tests). La configuration peut également varier selon que l'on sait exactement comment les patients auraient été traités s'ils avaient été randomisés dans le bras opposé, selon que le test entraîne un retard de traitement et si le seuil de coupure adéquat pour le test est incertain.

Exemple d'illustration d'étapes courantes lors du développement de tests de diagnostic basés sur les omiques (version simplifiée du processus présentée dans une étude de l'US Institute of Medicine [ 97 ], en se concentrant sur les principales étapes du pipeline). Après le passage de la deuxième à la troisième phase (mis en évidence par le symbole du cadenas), le test de diagnostic doit être entièrement défini, validé et verrouillé. Il existe de nombreuses variantes et alternatives importantes à l'exemple de processus décrit, ainsi que différentes réalisations d'étapes génériques du processus (par exemple, les cas dans lesquels un test dirige la gestion du patient peuvent couvrir différentes situations, selon que les cliniciens sont libres d'utiliser le résultat du test comme qu'ils l'entendent, ou si des procédures prédéfinies doivent être suivies sous réserve de contre-indications et/ou sous réserve des résultats des tests). La configuration peut également varier selon que l'on sait exactement comment les patients auraient été traités s'ils avaient été randomisés dans le bras opposé, selon que le test entraîne un retard de traitement et si le seuil de coupure adéquat pour le test est incertain.

Il est intéressant de noter que les auteurs de la directive soulignent qu'une lacune fréquente des tests basés sur les omiques est l'absence de justification biologique derrière le test - alors que les marqueurs à molécule unique sont souvent connus pour jouer un rôle dans la maladie, les modèles omiques multifactoriels obtenus à partir de la machine les apprentissages sont souvent plus difficiles à interpréter et impliquent un plus grand risque de surapprentissage. Les nouvelles techniques de modélisation basées sur les chemins et les réseaux, telles que discutées dans cette revue, pourraient donc aider à combler certaines de ces lacunes et fournir des modèles plus interprétables et plus robustes par opposition aux modèles classiques d'apprentissage automatique « boîte noire ».

Dans l'étape suivante du processus de développement clinique, l'utilité clinique du test verrouillé est évaluée via l'une des approches suivantes : (i) une étude prospective-rétrospective utilisant des échantillons archivés d'essais cliniques antérieurs, (ii) un essai clinique prospectif dans lequel le test (a) dirige la prise en charge du patient, ou (b) ne dirige pas la prise en charge du patient [ 97 ]. La complexité et la durée d'une étude ou d'un essai clinique correspondant dépendront en grande partie du type spécifique de biomarqueur développé et du bénéfice clinique proposé. Pour les biomarqueurs diagnostiques sur lesquels porte cette revue, les procédures peuvent varier considérablement selon que le test est conçu pour détecter la présence, la gravité ou le sous-type d'une maladie. Les biomarqueurs pronostiques, qui indiquent l'évolution clinique future d'un patient en ce qui concerne un résultat spécifique, et les biomarqueurs prédictifs, qui prédisent les répondeurs et l'étendue de la sensibilité à un effet médicamenteux particulier, nécessiteront également des procédures de développement et d'évaluation différentes de celles des marqueurs diagnostiques. Enfin, pour chaque type de biomarqueur, différents bénéfices cliniques peuvent être envisagés et influencer significativement la conception d'une étude, par ex. l'objectif de choisir des options de traitement plus appropriées, ou l'objectif de diagnostiquer la maladie plus tôt pour permettre des thérapies plus efficaces pour prévenir, arrêter ou ralentir sa progression.

Exemples de réussites antérieures dans le développement de tests de diagnostic basés sur l'omique

Une variété de modèles de biomarqueurs multifactoriels basés sur les omiques ont été traduits avec succès dans des tests de diagnostic ces dernières années, en particulier dans le domaine de la stratification des sous-types de cancer. Un exemple frappant est le test Oncotype DX pour évaluer le risque de récidive d'un cancer du sein à un stade précoce avec récepteurs d'œstrogènes positifs et la probabilité de bénéficier d'une chimiothérapie après une chirurgie. Ce test mesure l'activité de 21 gènes dans des échantillons de tumeurs, puis détermine un nombre de scores de récidive compris entre 0 et 100 (des scores plus élevés reflètent un plus grand risque de récidive dans les 10 ans). Contrairement à d'autres tests de diagnostic utilisant des échantillons congelés, le test Oncotype DX utilise des échantillons de tissus tumoraux qui sont chimiquement conservés et scellés dans de la cire de paraffine (voir [98, 99] pour plus de détails sur la collecte et l'analyse des échantillons).

Le développement d'Oncotype DX impliquait des étapes typiques d'une approche de profilage de biomarqueurs omiques et de filtrage descendant : tout d'abord, en analysant l'intégralité du transcriptome sur des données de microarray à haut débit et en utilisant les connaissances de la littérature et des bases de données génomiques, 250 gènes marqueurs candidats ont été sélectionnés [ 98 ]. La relation entre l'expression de ces candidats et la récidive du cancer du sein a ensuite été évaluée dans les données de trois études cliniques indépendantes sur 447 patientes. Les résultats ont été utilisés pour un filtrage final, fournissant un panel de 16 gènes liés au cancer et de 5 gènes de référence, dont les niveaux d'expression ont permis le calcul de scores de récurrence pour des échantillons de tumeur via un modèle d'apprentissage automatique. Cette approche diagnostique a été validée avec succès dans plusieurs études cliniques et a été incluse dans les directives de traitement du cancer du sein par le National Comprehensive Cancer Center Network et l'American Society of Clinical Oncology.

Alors que dans le cas du test Oncotype DX, l'ensemble de marqueurs requis pourrait être réduit à un petit nombre de gènes ayant une connaissance préalable de leur relation avec la maladie, pour d'autres maladies complexes et plus hétérogènes, un nombre significativement plus important de prédicteurs moléculaires peut être nécessaire pour un diagnostic précis. Dans de tels cas, les approches de modélisation basées sur les voies et les réseaux peuvent faciliter la génération de modèles robustes et biologiquement interprétables, qui pourraient ensuite subir des procédures de développement et de validation de tests de diagnostic similaires à celles du modèle initial derrière le test Oncotype DX. Il est important de noter que le succès de l'approche Oncotype DX n'est pas un cas isolé, mais d'autres tests de diagnostic commerciaux ont été développés et validés à l'aide de stratégies similaires, notamment MammaPrint [ 100 ], Prosigna (PAM50) [ 101 ], Mammostrat [ 102 ], Tissue of Origin [ 103 ], AlloMap [ 104 ], Corus CAD [ 105 ] et OVA1 [ 106 ], entre autres.

En résumé, la traduction réussie de modèles de biomarqueurs basés sur l'omique en tests de diagnostic commerciaux cliniquement acceptés a été réalisée dans de nombreux cas dans le passé. Étant donné un grand nombre de maladies complexes pour lesquelles des tests de diagnostic plus fiables, plus précoces et moins chers sont encore nécessaires, il existe un potentiel important pour développer des approches améliorées utilisant la modélisation de biomarqueurs basée sur l'omique et exploitant les connaissances biologiques antérieures des voies et des réseaux moléculaires.


Modélisation de biomarqueurs en réseau

Bien que les voies organisées manuellement présentent de nombreux avantages pour l'interprétation biologique des données omiques à grande échelle, dans les cellules vivantes, les voies métaboliques et de signalisation ne sont pas isolées mais interconnectées au sein de réseaux moléculaires et régulateurs vastes et complexes. Ces réseaux comprennent souvent plusieurs gènes, protéines ou métabolites qui ne sont annotés pour aucune voie et donc ignorés par les méthodes d'analyse basées sur les voies. Par conséquent, pour identifier les modules associés à la maladie de biomolécules interconnectées de manière plus impartiale (c'est-à-dire sans restreindre l'espace de recherche aux biomolécules avec des annotations de voies connues), des méthodes d'analyse basées sur le réseau ont été introduites. Bien que les approches basées sur les voies pour la modélisation de biomarqueurs puissent présenter des avantages en termes d'interprétabilité du modèle, l'exploration de l'espace de recherche dans la découverte de biomarqueurs basée sur le réseau n'est pas limitée par des limites de voies définies subjectivement, et les réseaux moléculaires à l'échelle du génome utilisés comme entrée couvrent généralement des nombre de biomolécules que toutes les voies combinées. Néanmoins, à l'instar des voies définies subjectivement, les réseaux assemblés à partir de sources de données publiques souffrent de diverses limitations, par ex. les interactions moléculaires manquantes et le manque d'annotations spécifiques aux tissus, et ces problèmes doivent être résolus par des méthodes dédiées (voir la section sur les ‘limitations et les stratégies de solution possibles’ ci-dessous). Dans ce qui suit, deux principaux types d'approches de modélisation basées sur le réseau seront discutés : tout d'abord, les approches séquentielles en deux étapes, qui évaluent l'activité dans les sous-réseaux moléculaires et utilisent ensuite ces activités pour l'apprentissage automatique prédictif et, deuxièmement, les approches d'analyse de réseau en une étape. , qui exploitent les informations de topologie du réseau directement dans la construction du modèle prédictif.

Approches de notation et de prédiction de l'activité du réseau en deux étapes

L'activité du réseau sur plusieurs biomolécules interconnectées peut être résumée et notée en utilisant des approches de moyenne ou de réduction de dimension similaires à celles des méthodes de notation d'activité de voie. Cependant, contrairement à l'utilisation directe de définitions de voies prédéfinies, un réseau moléculaire ou réglementaire doit d'abord être assemblé ou reconstruit, en utilisant soit des bases de données d'interaction moléculaire publiques, soit en appliquant des méthodes d'inférence de réseau aux données omiques (dans le tableau 2, un aperçu des différentes méthodologies est montré, qui sont discutés dans ce qui suit).

Tableau 2.

Un aperçu des méthodes basées sur le réseau pour l'analyse de l'apprentissage automatique des données omiques Les méthodes de notation et de prédiction de l'activité réseau séquentielle sont présentées en haut, tandis que les approches d'apprentissage automatique utilisant la sélection de fonctionnalités basées sur le réseau intégré sont répertoriées sous la ligne noire en gras.

Publication de méthodologie Méthode de notation de l'activité/de l'altération du réseauMéthode de prédiction
Rentrer etਊl. [39]Des réseaux de régulation génique spécifiques à l'échantillon sont construits et l'activité du sous-réseau est évaluée en additionnant les interactions activesVoisins les plus proches, arbre de décision, Naïve Bayes, entre autres
Maman etਊl. [40]L'association de la maladie est notée pour les gènes en fonction des données d'expression génique et des scores d'association de leurs voisins dans un réseau PPI en utilisant la théorie des champs aléatoires de MarkovL'approche est évaluée pour la hiérarchisation des gènes de la maladie, mais est applicable pour la sélection de caractéristiques prédictives en combinaison avec n'importe quelle méthode de prédiction
Chuang etਊl. [41]Les données d'expression génique normalisées sont mappées sur un réseau d'interaction protéique et les sous-réseaux discriminants sont identifiés via une procédure de recherche gourmandeRégression logistique
Taylor etਊl. [42]Les nœuds de hub dans les réseaux d'interaction protéique sont déterminés et l'expression génique relative des hubs avec chacun de leurs partenaires d'interaction est calculée pour identifier les hubs avec une expression relative diverse dans les groupes d'échantillonsLe regroupement de propagation par affinité est utilisé pour attribuer une probabilité de mauvais pronostic aux patientes atteintes d'un cancer du sein
Pétrochilos etਊl. [43]Un algorithme de détection de communauté de marche aléatoire est appliqué pour découvrir des modules dans un réseau d'interaction moléculaire, et des données d'expression génique sont utilisées pour identifier des modules associés à une maladieL'approche est utilisée pour identifier des modules de réseau associés au cancer et validée en notant l'enrichissement de gènes connus liés au cancer extraits de la base de données OMIM
Rapaport etਊl. [44]La décomposition spectrale des profils d'expression génique est appliquée par rapport aux fonctions propres d'un graphe de réseau, en atténuant les composantes haute fréquence des profils d'expression par rapport à la topologie du grapheSVM
Li etਊl. [45]Une procédure de régularisation contrainte par le réseau pour l'analyse de régression linéaire est utilisée pour identifier les sous-réseaux discriminants liés à la maladieRégression linéaire pénalisée
Yang etਊl. [46]Trois méthodes d'apprentissage automatique pour la sélection et le regroupement de caractéristiques guidées par des graphes sont proposées, y compris une fonction convexe et deux formulations non convexes conçues pour réduire le biais d'estimationApproche basée sur les moindres carrés pénalisés (GOSCAR : Graph octogonal rétrécissement et clustering algorithm for regression)
Lorbert etਊl. [47, 48]Une approche de régression clairsemée est proposée, utilisant la pénalité PEN pour favoriser le regroupement de caractéristiques fortement corrélées sur la base de similitudes par paires (par exemple, dérivées d'un graphique d'interaction moléculaire)Régression pénalisée (pénalité PEN)
Vlassis etਊl. [49]La régression logistique pénalisée est appliquée à l'aide d'une fonction de pénalité PEN convexe (voir l'approche de Lorbert etਊl.) avec des poids de caractéristiques absolus pour mieux refléter la pertinence des gènes discriminants dans la sélection des caractéristiquesRégression logistique pénalisée (pénalité PEN avec poids absolus des caractéristiques)

Une première méthode pour construire de nouveaux réseaux de régulation de gènes spécifiques à l'échantillon pour la classification des échantillons de transcriptomique a été proposée par Tuck etਊl. [39]. Les réseaux ont été générés en déterminant l'intersection graphique-théorique entre un réseau de connectivité statique (représentant le facteur de transcription se liant aux régions de promoteur de gène), obtenu à l'aide des données de la base de données TRANSFAC [50], avec des réseaux de coexpression spécifiques à l'échantillon (représentant le facteur de transcription&# x02013target gène coexpression), dérivé des données d'expression génique. Pour extraire des caractéristiques discriminantes pour la classification des échantillons de diagnostic à partir de ces réseaux, ils ont proposé une approche de classification basée sur des liens, comparant l'état d'activité des interactions de régulation des gènes (appelées « « liens » » » dans différents groupes d'échantillons) et une méthode de classification basée sur le degré, comparaison des mesures de centralité topologique [51] pour les réseaux. Lors du test de ces approches sur les données de différentes études cas-témoins sur le cancer, des précisions croisées élevées ont été signalées à la fois pour le type de cellule et la classification des échantillons de patients. De plus, l'analyse basée sur le réseau a permis aux auteurs d'identifier les principaux régulateurs transcriptionnels altérés dans des conditions de maladie spécifiques.

Au lieu de construire de nouveaux réseaux de régulation, les altérations discriminantes du réseau associées à la maladie peuvent également être identifiées en mappant informatiquement les données omiques sur dans silico représentations des réseaux biochimiques d'interaction protéine-protéine (PPI). Maman etਊl. [40] ont développé une approche correspondante pour obtenir des scores d'association de maladies plus fiables pour les gènes en exploitant les informations de voisinage à partir d'un réseau PPI. Ils ont utilisé un coefficient de corrélation de Pearson modifié pour évaluer l'association entre l'expression génique du microréseau et les valeurs numériques codant l'état pathologique des échantillons (en tenant compte du fait que ces valeurs phénotypiques peuvent ne pas avoir une distribution normale) et ont attribué l'association gène-phénotype transformé par Fisher. scores aux protéines correspondantes dans un PPI. Ensuite, ils recalibrent ces scores d'association en modélisant les scores réels sous-jacents pour chaque gène à l'aide de la théorie des champs aléatoires de Markov [52], en réestimant leurs valeurs à partir des contributions pondérées des scores d'association d'origine de leurs voisins de réseau (les poids sont déterminés en fonction de différents voisinages de réseau. définitions, en utilisant soit des voisins directs, le chemin le plus court ou des voisinages de noyau de diffusion, voir [40] pour plus de détails). Lors de l'évaluation de l'utilité des scores recalibrés pour la hiérarchisation des gènes de la maladie sur les données de microarray à l'aide d'annotations fonctionnelles connues d'ontologie génique, les approches de hiérarchisation conventionnelles utilisant uniquement l'expression génique ou les données PPI ont été surclassées (bien que l'approche de notation puisse également être utilisée pour la construction de modèles prédictifs, ce candidature n'a pas été prise en considération).

Alors que l'approche de Ma etਊl. se concentre sur l'amélioration des scores d'association de maladies pour les gènes individuels, Chuang etਊl. [41] ont présenté une méthode d'identification et de notation de sous-réseaux entiers liés à la maladie, similaire à leur approche de notation d'association de voies discutée ci-dessus (voir Lee etਊl. [29]). Après avoir calculé l'information mutuelle (IM) entre les valeurs phénotypiques de l'échantillon (codant la présence ou l'absence d'une maladie) et les valeurs d'expression discrétisées pour chaque gène à partir d'un ensemble de données de microarray attribué aux protéines dans un PPI, ils ont appliqué une recherche gourmande pour étendre le nœuds d'amorçage dans le réseau avec des scores MI localement maximaux. Plus précisément, chaque nœud de départ a été étendu de telle sorte que la somme des scores pour le module de réseau étendu soit maximisée (la recherche s'arrête lorsqu'aucune extension n'augmente le score total au-dessus d'un taux d'amélioration prédéfini). Lors de la formation des classificateurs de régression logistique sur les activités normalisées et moyennes des sous-réseaux résultants pour les données sur le cancer du sein, les auteurs ont constaté que les marqueurs de sous-réseau étaient plus reproductibles que les marqueurs à gène unique et fournissaient une plus grande précision pour distinguer les tumeurs métastatiques des tumeurs non métastatiques.

En tant que solution intermédiaire entre la concentration sur des biomolécules individuelles et des modules de réseau entiers, Taylor etਊl. [42] ont proposé une méthode qui étudie les nœuds de réseau avec des propriétés topologiques exceptionnelles et leurs voisins directs. Après avoir cartographié informatiquement les données d'expression des gènes du cancer du sein sur le dans silico représentation d'un réseau PPI, ils ont déterminé des protéines avec un grand nombre de partenaires d'interaction biochimiques (appelés "nœuds de hub" & # x02019), et ont calculé leur expression relative par rapport à chacun de ces partenaires d'interaction. Ils ont ensuite déterminé pour quels hubs l'expression relative différait significativement entre les survivants à long terme et les patients décédés de la maladie, et ont appliqué une approche de regroupement pour attribuer une probabilité de mauvais pronostic aux nouveaux échantillons de patients (la méthode spécifique utilisée est connue sous le nom de &# x02018affinity propagation clustering’ dans la littérature). L'approche a été évaluée à l'aide d'une validation croisée 5 fois, fournissant des estimations de précision, de sensibilité et de spécificité qui se comparaient favorablement aux résultats rapportés pour les diagnostics génomiques du cancer du sein disponibles dans le commerce.

Au lieu de considérer les propriétés topologiques des nœuds individuels dans un réseau moléculaire, les informations d'un graphe de réseau peuvent également être extraites via des algorithmes pour trouver des sous-graphes, qui se distinguent par leur haute densité d'interactions moléculaires (en utilisant des approches appelées &# x02018community identification’ ou ‘graph clustering’ méthodes dans la littérature). Pétrochilos etਊl. [43] ont proposé une approche correspondante, qui applique d'abord un algorithme de marche aléatoire basé sur des graphes sur un réseau moléculaire à l'échelle du génome. Les informations provenant des données d'expression génique liées au cancer ont ensuite été intégrées dans le réseau en définissant le poids de chaque nœud du réseau comme le facteur de changement maximal des sondes correspondant à son symbole de gène (les poids pour les interactions biochimiques sont déterminés par le carré de la moyenne des valeurs absolues). plier les changements des partenaires d'interaction pertinents). Enfin, le score d'un module de réseau de nœuds connectés a été obtenu en comparant son activité cumulée (c'est-à-dire le carré de l'expression moyenne pondérée pour tous ses nœuds) à une distribution bootstrap des activités cumulées obtenue via un échantillonnage aléatoire d'un nombre apparié de changement de pli valeurs. Lors du test de l'enrichissement des gènes du cancer connus dans les modules de réseau les mieux notés identifiés avec cette approche, une performance similaire ou meilleure a été atteinte par rapport à d'autres algorithmes de recherche de modules largement utilisés (les applications alternatives potentielles des modules identifiés pour la modélisation de biomarqueurs n'ont pas été évalués dans cette publication).

Outre la moyenne des activités moléculaires sur les voisinages du réseau ou l'utilisation de méthodes d'identification de la communauté, les techniques de traitement du signal peuvent fournir un autre moyen de glaner des informations utiles à partir d'un réseau pour la construction de modèles prédictifs, comme le montre une approche de Rapaport etਊl. [44]. Ils ont utilisé l'observation selon laquelle les gènes proches les uns des autres dans un réseau ont tendance à avoir une expression similaire et ont proposé de débruiter les mesures de microarray en supprimant leur composante haute fréquence sur le réseau. À cette fin, une décomposition spectrale des profils d'expression génique par rapport à un graphique de réseau moléculaire a été appliquée, suivie d'une atténuation des composants de signal à haute fréquence, censés représenter le bruit de mesure. La méthode a été évaluée pour l'analyse supervisée de souches de levures irradiées et non irradiées à l'aide d'un SVM, offrant des performances de classification similaires à celles d'un modèle construit sans filtrage basé sur le réseau, mais facilitant l'interprétation des données biologiques en regroupant les biomolécules sélectionnées en fonction de leur participation aux modules du réseau. .

Approches d'apprentissage automatique en une étape pour l'analyse de réseau

Contrairement aux approches d'analyse de réseau considérées jusqu'à présent, qui appliquent l'extraction de caractéristiques de réseau et l'analyse d'apprentissage automatique prédictif en étapes distinctes, plus récemment, des approches de sélection de caractéristiques basées sur le réseau en une étape ont été proposées, intégrant la sélection d'attributs directement dans le modèle prédictif. imeuble. La plupart de ces approches formulent la tâche de construction de modèle comme une formulation de problème d'optimisation, dans laquelle la fonction objectif pour la classification ou la régression est prolongée par un terme de pénalité favorisant la sélection de caractéristiques groupées dans un réseau moléculaire (cette stratégie est également appelée réseau- régularisation des contraintes).

Li etਊl. [45] ont proposé l'une des premières approches correspondantes en ajoutant un terme de pénalité à la régression linéaire, en incorporant des informations de réseau dans l'analyse via la matrice laplacienne du graphe de réseau. L'approche pénalise la norme L1 des poids des caractéristiques et encourage un profil régulier des poids sur les nœuds voisins du réseau. Cependant, Binder et Schumacher ont rapporté plus tard que la méthode a des performances inférieures à un modèle nul, c'est-à-dire un modèle n'utilisant aucune information de covariable [53]. Comme explications possibles, ils notent que Li etਊl. observations censurées rejetées et environ 20� variables qui n'ont pas pu être attribuées aux nœuds correspondants dans le réseau d'interaction moléculaire (voir la section sur les ‘limitations’ ci-dessous). Yang etਊl. [46] ont suggéré que les pénalités de regroupement de réseaux précédemment utilisées peuvent introduire un biais d'estimation supplémentaire dans le modèle lorsque les signes des coefficients pour deux caractéristiques connectées dans le graphique sont différents. Ils ont présenté des pénalités alternatives pour obtenir un regroupement de réseaux et une sélection de caractéristiques éparses, en particulier deux pénalités non convexes, qui ne réduisent que de petites différences dans les valeurs absolues des poids de caractéristiques pour réduire le biais d'estimation [46]. Dans des expériences sur des données synthétiques et deux ensembles de données réelles, les nouvelles approches ont surpassé les précédentes méthodes de regroupement de caractéristiques.

Cependant, avec des pénalités non convexes, il est souvent impossible de trouver des solutions optimales globales et même l'identification de bons optima locaux peut nécessiter un effort de calcul élevé. Lorbert etਊl. [47, 48] ont proposé une pénalité convexe générique alternative, le Pairwise Elastic Net (PEN), qui fournit une sélection de caractéristiques éparses et favorise le regroupement d'attributs selon une mesure de similarité de caractéristiques définie par l'utilisateur (obtenue par exemple à partir de poids d'interaction biochimique dans un réseau). PEN est une généralisation de l'Elastic Net, une méthode fournissant un compromis entre les régressions pénalisées L1 et L2 par un paramètre ajustable. Dans PEN, ce paramètre peut être remplacé pour déterminer le compromis à l'aide d'informations supplémentaires provenant d'une matrice de similarité d'attribut (différentes instances de PEN peuvent être définies tant que la matrice de similarité est positive semi-définie et non négative). En comparant PEN à d'autres approches d'apprentissage automatique populaires sur des données simulées avec une structure de regroupement parmi les caractéristiques, PEN a obtenu une erreur quadratique moyenne (MSE) compétitive et a fourni des solutions plus clairsemées que les approches avec une MSE similaire.

Plus récemment, Vlassis etਊl. introduit une nouvelle instance de PEN, qui pénalise les différences entre les valeurs �solute’ des poids des entités liées dans un graphe de réseau. La motivation derrière cette approche, appelée GenePEN, est que l'amplitude d'un poids dans un modèle linéaire reflète la valeur prédictive de la variable correspondante, de sorte que les poids des caractéristiques non pertinentes sont ramenés à zéro par la pénalité. En assurant la convexité de la fonction de pénalité, des solutions optimales globales peuvent être identifiées efficacement avec les cadres d'optimisation existants. Lors de l'évaluation de GenePEN sur des données simulées et des ensembles de données de biopuces en mots réels, par rapport à d'autres méthodes de classification utilisant le groupement de caractéristiques, la méthode a fourni un pouvoir prédictif et des sélections de gènes similaires, partageant beaucoup plus de connexions au sein d'un réseau d'interaction moléculaire. La visualisation des sous-réseaux correspondants a permis une interprétation biologique des régions du réseau affectées par la maladie, qui ont été enrichies en gènes connus liés à la maladie obtenus à partir de l'exploration de la littérature.

Dans l'ensemble, les méthodes de classification d'échantillons basées sur le réseau fournissent un nouveau moyen d'analyser des ensembles de données omiques complexes, permettant aux chercheurs d'identifier des altérations de réseau moléculaire cohérentes dans différentes conditions biologiques. L'identification de tels modèles au niveau du réseau dans les données omiques pour les maladies présentant des manifestations moléculaires complexes peut jeter un nouvel éclairage sur les mécanismes moléculaires de la maladie et faciliter le développement de signatures de biomarqueurs multifactoriels robustes.

Contrairement à la modélisation de biomarqueurs basée sur une molécule unique, une approche au niveau du réseau a le potentiel de capturer diverses facettes d'une maladie hétérogène reflétée par des modèles d'altération dans différentes régions du réseau. Par rapport aux approches d'apprentissage automatique basées sur les voies, les méthodes utilisant des réseaux à l'échelle du génome comme connaissances préalables peuvent produire des modèles plus difficiles à interpréter biologiquement, mais qui peuvent identifier une gamme beaucoup plus large d'altérations dans les processus cellulaires (couvrant de nombreux gènes, protéines ou métabolites sans aucune annotation de voie connue). Enfin, les approches de classification basées sur les réseaux et les voies partagent le principal avantage d'améliorer la robustesse du modèle dans les analyses d'études croisées par rapport à l'utilisation de biomolécules individuelles comme caractéristiques. Parmi ces nouvelles signatures de biomarqueurs de niveau supérieur, les signatures basées sur le réseau représentant les activités moléculaires sur des régions de réseau plus grandes et dérivées d'algorithmes peuvent souvent fournir des marqueurs multifactoriels plus robustes que les signatures pour des voies plus petites, qui sont généralement définies de manière subjective, négligeant éventuellement les molécules fonctionnellement apparentées pertinentes. dans le réseau environnant. Cependant, la robustesse du modèle dépendra également d'autres facteurs, par ex. l'occurrence de complexes protéiques dans la voie/réseau étudié (les membres de ces complexes ont tendance à avoir une activité hautement coordonnée, fournissant des moyennes plus robustes) et la fiabilité et l'exhaustivité de la source de données de réseau ou de voie spécifique utilisée (voir les limitations discutées dans la section suivante ).


Spot du génome

Jusqu'à présent, dans notre série RNA-seq, nous avons effectué une analyse différentielle et généré de jolis graphiques, montrant des milliers de gènes exprimés de manière différentielle après un traitement à l'azacitidine. Afin de comprendre la biologie sous-jacente au profil d'expression différentielle des gènes, nous devons effectuer une analyse des voies.

Nous utilisons l'analyse d'enrichissement de l'ensemble de gènes (GSEA) car elle peut détecter les changements de voie de manière plus sensible et robuste que certaines méthodes. Un article de 2013 a comparé un tas de logiciels d'analyse d'ensembles de gènes avec des puces à ADN et vaut le détour.

Générer un fichier de classement

Le fichier de classement est une liste de gènes détectés et un score métrique de classement. En haut de la liste se trouvent les gènes avec la régulation positive "la plus forte", en bas de la liste se trouvent les gènes avec la régulation négative "la plus forte" et les gènes qui ne changent pas sont au milieu. Le score métrique que j'aime utiliser est le signe du changement de pli multiplié par l'inverse de la valeur p, bien qu'il puisse exister de meilleures méthodes (lien ).

#!/bin/bash
DGE=$1
RNK=`écho $DGE | sed 's/.xls/.rnk/'`
sed 1d $DGE
| sort -k7g
| couper -d '_' -f2-
| awk '!arr[$1]++'
| ah '
< if ($6>0) printf "%s %4.3e ", $1, 1/7$
else printf "%s %4.3e ", $1, -1/$7 >'
| trier -k2gr > $RNK


Voir la vidéo: 3 Min Bio: Parts of Gene (Mai 2022).