séquençage de la diversité microbienne, également connu sous le nom de séquençage d'amplicon, tire parti des technologies de séquençage à haut débit de nouvelle génération pour séquencer des séquences génétiques telles que l'ARNr 16S/ITS. Cette méthode permet la détection simultanée d'espèces dominantes, rares et non identifiées dans un échantillon. Elle fournit des informations sur la composition et l'abondance relative des communautés microbiennes au sein de l'échantillon.
Le transcriptome, englobant tous les ARN transcrits par une espèce, un tissu ou un type cellulaire spécifique, est étudié par séquençage à haut débit. Cette approche capture rapidement l'ensemble des transcrits dans une cellule ou un tissu particulier, aidant à l'analyse de la structure et de la fonction des gènes, au splicing variable et à la prédiction de nouveaux transcrits. De plus, elle excelle dans la détection de transcrits de faible abondance et nouveaux.
Les investigations sur les relations entre les microbes et les organes cibles, telles que les axes cerveau-intestin et foie-intestin, sont en plein essor. L'intégration des microbes et des cibles transcriptomes d'organes permet une compréhension globale, liant les changements microbiens aux altérations transcriptionnelles et offrant des perspectives précieuses.
La diversité microbienne et l'analyse multi-omique de la transcriptomique s'efforcent de identifier des biomarqueurs clés, suggérer des relations inter-échantillons et révéler la signification biologique en considérant de manière exhaustive à la fois les données microbiennes et transcriptionnelles.
Nos services et rapports en multi-omique sont divisés en trois parties principales. La première partie évalue la multi-omique dans son ensemble et évalue la qualité des données. La deuxième partie se concentre sur l'identification des gènes marqueurs clés, tandis que la troisième partie réalise des analyses de corrélation pour illustrer le niveau de corrélation entre différentes substances.
Les données de la cohorte originale ont subi une normalisation par écart type (normalisation Z-Score) et une normalisation par quantiles (normalisation par quantiles) avant d'être fusionnées. Par la suite, des techniques de réduction de dimensionnalité et de clustering ont été appliquées pour visualiser les interrelations entre les échantillons, évaluer le regroupement des échantillons et mesurer la reproductibilité intra-groupe. Deux méthodes de réduction de dimensionnalité, à savoir l'ACP (non supervisée) et l'ALD (supervisée), ont été sélectionnées. Les résultats obtenus après la réduction de dimensionnalité par ACP ont été utilisés pour le clustering hiérarchique. Enfin, une projection par ajustement linéaire a été utilisée pour illustrer les variations entre différentes omiques au sein des groupes.
Pour évaluer davantage la capacité discriminante des caractéristiques de multigroupement à distinguer les regroupements d'échantillons, un modèle de forêt aléatoire a été construit en utilisant les caractéristiques de multigroupement normalisées. La performance de classification du modèle a été évaluée à l'aide de courbes ROC pour déterminer si les caractéristiques de multigroupement prédisaient efficacement des regroupements d'échantillons distincts. Ce modèle de forêt aléatoire a également joué un rôle clé dans la section suivante consacrée au dépistage de biomarqueurs.
En utilisant une approche de forêt aléatoire, nous avons évalué la signification de chaque substance au sein des microbes et des transcrits par rapport au sous-groupe actuel. Des scores d'importance plus élevés suggèrent qu'une substance est plus susceptible de servir de biomarqueur distinguant le sous-groupe actuel. Les 30 premiers biomarqueurs, classés par importance, ont été choisis pour reconstruire le modèle Random Forest. Des courbes ROC ont été générées par le biais d'une validation croisée impliquant 20 permutations aléatoires.
Chaque permutation impliquait de diviser les données en un ensemble d'entraînement et un ensemble de validation (ratio 1:1). Un modèle de forêt aléatoire a été construit en utilisant l'ensemble d'entraînement, puis appliqué pour prédire l'ensemble de validation. Dans les cas avec plus de deux groupes d'échantillons (>2), la méthode de micro-moyennage a été utilisée pour convertir les résultats de multi-classification en classification binaire. L'efficacité de la classification du modèle a été évaluée par l'aire sous la courbe ROC, où une aire plus grande signifie un effet de classification supérieur.
L'examen des différences matérielles entre les diverses omiques à travers une analyse de corrélation révèle des associations inter-histologiques. Au départ, nous avons scruté indépendamment données microbiennes et génétiques, en se concentrant sur les 1000 premières entrées de données ayant la valeur absolue de log2 (FoldChange) la plus substantielle. Cette sélection a été effectuée tout en veillant à respecter les critères de signification de l'analyse originale des différences en mono-omique. Dans les cas où l'ensemble de données comptait moins de 1000 entrées, toutes les entrées ont été incluses.
Il est à noter que, lors de la comparaison entre plusieurs groupes, le processus de dépistage a respecté la signification (valeur p) dérivée de l'analyse de différence originale. Par la suite, des coefficients de corrélation par paires ont été calculés pour toutes les entrées de données des microorganismes et des gènes.