Easy16S est développé par Migale en Shiny et s’appuie largement sur le package phyloseq[1].
1.1 Disclaimer
Easy16S facilite l’exploration, la visualisation et l’analyse des données de métabarcoding. Cependant, les utilisateurs doivent veiller à ne pas surinterpréter les résultats. Une interprétation correcte des données métagénomiques nécessite une solide compréhension de l’écologie microbienne, de la biostatistique et du domaine d’étude spécifique. Bien que notre outil soit conçu pour être convivial, la complexité de l’analyse des données métagénomiques implique que les résultats peuvent être trompeurs s’ils ne sont pas évalués avec soin.
Nous avons intégré plusieurs paramètres par défaut et des garde-fous pour guider les utilisateurs et réduire le risque d’utilisation abusive. Toutefois, si vous ne disposez pas de connaissances en métagénomique, il est fortement recommandé de collaborer avec des bioinformaticiens et des biostatisticiens afin de garantir des conclusions solides et fiables issues de vos travaux.
2 Import / Export des données
2.1 Importer les données dans easy16S
Les données peuvent etre importées dans l’application avec le bouton “ Select your data” en haut à gauche de l’interface.
“Demo” avec des données d’exemples pour les TP et démonstrations
“Input data” pour construire un objet phyloseq à partir de fichiers plats issues de FROGS (ou autres)
un fichier BIOM (format standard ou format FROGS )
un tableau de métadonnées avec des variables (en colonnes) et des échantillons (en lignes). Assurez-vous que les noms d’échantillons (1ère colonne) sont orthographiés exactement comme dans le fichier BIOM. Le délimiteur et le format des colonnes peuvent être spécifiés
un arbre phylogénétique au format Newick
un fichier FASTA des séquences représentatives
“RData / RDS” pour importer un objet phyloseq déja construit
Importez les données obtenues à l’issue du TP-FROGS dans easy16S en utilisant l’option “Input data”
Combien d’echantillons sont présents dans l’objet phyloseq ?
NoteSolution
72 échantillons
Combien de taxons (=ASVs) sont présents dans l’objet phyloseq ?
NoteSolution
398 taxons
Quelle est la profondeur de séquençage (nombre de reads) la plus faible ?
NoteSolution
La profondeur de séquençage la plus faible est de 6989 reads.
2.3 Transformation et preprocessing des données
Avant de se lancer dans les analyses statistiques, il est important de prétraiter les données, par exemple en selectionnant seulement les échantillons d’intérêt ou en modifiant les données de comptage (rarefaction, normalisation, transformation, etc.). Ceci est possible dans l’onglet “ Preprocess data”. Les transformations s’applique itérativement à partir des données brutes.
Selectionnez uniquement les échantillons des AOP AOP2 ou AOP3 et raréfiez le résultat.
Combien d’echantillons et de taxons sont présents dans l’objet phyloseq après le prétraitement ?
Après le prétraitement, il y a 24 échantillons et 347 taxons.
L’historique des transformations appliquées est affiché dans “”.
Revenez aux données brutes avec le toggle.
Pour de nombreuses analyses, il est important de travailler avec des données raréfiées pour s’affranchir de l’effet de la profondeur de séquençage
NoteSolution avec
physeq_rare <- physeq |>rarefy_even_depth(rngseed =314) # seed for Easy16S reproducibility
2.4 Export des données
Pour faciliter les prochaines analyses, il est possible d’exporter les données courantes (brutes ou prétraitées suivant le toggle) dans différents formats (.biom et .rds) à partir des boutons “”.
Exportez les données prétraitées au format .rds puis importez-les à nouveau dans une nouvelle session de easy16S.
3 Tables & Métadonnes
Toutes les tables sont triables, filtrables et exportables au format .csv.
Dans l’onglet “ OTU/ASV Table” on retrouve la table d’abondance des ASVs par échantillon.
Dans l’onglet “ Taxonomy Table” on retrouve la affiliation taxonomique de chaque ASV.
Quelle est l’affiliation taxonomique de l’ASV ID_278 ?
NoteSolution avec
ID_278 : Sphingobacterium lactis.
L’onglet “ Agglomerate ASV Table” permet de visualiser la table d’abondance en aggrégeant les ASVs à un niveau taxonomique donné (ex: Genus).
L’onglet “ Sample Data Table” on retrouve les métadonnées associées à chaque échantillon.
“ Metadata” permet de visualiser les métadonnées à l’aide du package {esquisse}. Ceci est utile pour explorer et évaluer les associations entre les variables d’échantillons (mais pas les données de métabarcoding).
4 Barplots
La visualisation la plus commune est le barplot d’abondance relative des taxons. Dans easy16S, il est possible de visualiser les abondances relatives de chaque échantillon à différents niveaux taxonomiques avec l’onglet “ Barplot”. Il est possible de se concentrer sur un taxon d’intérêt (Selected filter taxa), de choisir le niveau taxonomique de representation (Taxonomic rank used for coloring), de regrouper les échantillons par une variable d’intérêt (Subplot) et de jouer sur l’ordre et le labelling des échantillons (Sample ordrer* et Sample label).
Visualiser l’ensemble des données au niveau Phylum en regroupant les échantillons en fonction de AOP et en les ordonnant en fonction de pH.
On peut afficher une carte de chaleur de l’abondance de chaque taxa pour chaque sample avec l’onglet “ Heatmap” dédié. Ceci permet d’observer les patterns structurant les communautés d’échatillons.
Les ASVs peuvent etre regroupés à chaque rang taxonomique. Les samples peuvent etre regroupés, ordonnés et labelés en fonction des variables d’interet.
Il s’aggit des données de comptage. Il faut s’assurer que les données sont normalisées ou raréfiées.
Visualisez la structuration des communautés en agglomérant au niveau Order pour comparer les différents AOP.
Cette section effectue une analyse de variance (ANOVA) sur une métrique de diversité, en fonction d’une ou plusieurs métadonnées afin d’évaluer l’impact d’une covariable d’intérêt sur la diversité alpha.
Existe-il une corélation significative entre la variable AOP et la richesse Chao1 ?
Analysis of Variance Table
Response: Chao1
Df Sum Sq Mean Sq F value Pr(>F)
AOP 5 55526 11105.3 26.771 1.116e-14 ***
Residuals 66 27378 414.8
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
8 β-diversity
La diversité β mesure la dissimilarité entre les échantillons. On mesure donc la “distance” entre chaque paires d’échantillon. Ici aussi, il existe diverses métriques de distances, s’appuyant sur qualitatif/quantitatif et utilisant la distance phylogénétique ou non. Le choix de la mesure est essantiel et aura une forte incidence sur les sorties et leurs interprétations.
Après avoir la distance utilisée, on peut exploiter les résultats sous diverses forme :
Table des paires de distance
Heatmap de la matrice des distances
Dendogramme de clustering
MultiDimensional Scaling
Multivariate ANOVA
8.1 β - Table
Pour chaque mesure, quels sont les deux échantillons les plus éloignés ?
Toujours avec la même matrice de distance entre échantillon, on peut reconstruire un dendogramme de clustering. La methode de partitionnement la plus courament utilisée est ward.D2 mais d’autres méthodes sont disponibles.
Grace à ce plot on peut visualiser le regrouppement des échantillons.
Tracer le dendogramme de clustering à partir des distance de Bray-Curtis et Jaccard en coloriant les samples en fonction de AOP ?
De la même manière, il est possible de projeter le nuage de points des communautés sur un plan, en cherchant à préserver les distances etre les échantillons.
Visualisiez la matrice de distance de Jaccard (cc) avec une méthode d’ordination MDS en colorant les échantillons en fonction de AOP
Enfin, il est possible d’effectuer une analyse de variance de cette matrice de distance avec un test de permutation. On évalue ainsi l’impact d’une ou plusieurs covariable sur la structure de la communauté. Le test vegan::adonis2() compare la structure de nos données à 9999 structures générées par permutations aléatoires. La Permutational Multivariate ANOVA prend en charge les plans d’expérience complexes, mais elle ne teste que les effets localisé (telque, est-ce que les communautés typiques sont similaires dans les groupes A et B ?) et suppose des dispersions égales (c’est-à-dire une variabilité biologique identique dans les deux groupes).
Observe-t-on un effet significatif de AOP sur la matrice de distance de Jaccard (cc) ?
Permutation test for adonis under reduced model
Terms added sequentially (first to last)
Permutation: free
Number of permutations: 9999
vegan::adonis2(formula = dist_CC ~ AOP, data = metadata, permutations = 9999, by = "terms")
Df SumOfSqs R2 F Pr(>F)
AOP 5 11.0288 0.54946 16.098 1e-04 ***
Residual 66 9.0433 0.45054
Total 71 20.0721 1.00000
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
9 PCA
Bien que l’usage de MDS soit le plus souvent recommandée pour l’analyse du microbiome, l’analyse en composantes principales (ACP), après une transformation appropriée des données, peut constituer une alternative. Les abondances transformées peuvent être centrées et/ou mises à l’échelle au cours de l’analyse. La matrice d’abondance transformée est ansi utilisé pour une ACP.
Préférant les MDS, nous ne passeront pas plus de temps sur les ACP
10 Differential abundance
Une fois que l’on a observé un effet significatif d’une covariable sur la strucutation de nos communautés, on cherche souvant a identifier quels ASVs sont surreprésentés ou sous-représentés en fonction d’une variable expérimentale donnée (catégorielle ou numérique). Le package {DESeq2}, historiquement développé pour les analyses RNA-Seq est courament utilisé pour cela.
Quels ASVs sont sur-abondants ou sous-abondants en fonction de AOP : AOP3 versus AOP5 ?
Ce jeu de données s’interesse aux communautés bactériennes présentes dans 8 matrices alimentaires différentes (EnvType), répartis en 4 produits carnés et 4 produits de la mer.
Quel est le microbiote caractéristique de chaque matrice ?
Cette étude analyse des communautés bactériennes issues d’environnements très divers (SampleType) pour étudier les structures écologiques mondiales.
Comment est distribuée la profondeur de séquençage ? Qu’est-il nécéssaire de mettre en place ?
Comparez les diversités α entre les environnements (SampleType). Quels environnements sont les plus ou moins diversifiés ? Cela correspond-il à votre intuition ?
À partir des diversités β, que pouvez-vous dire sur les différents environnements ?
Les références
1. McMurdie PJ, Holmes S. phyloseq: an R package for reproducible interactive analysis and graphics of microbiome census data. PloS one. 2013;8:e61217.
2. Chaillou S, Chaulot-Talmon A, Caekebeke H, Cardinal M, Christieans S, Denis C, et al. Origin and ecological selection of core and food-specific bacterial communities associated with meat and seafood spoilage. The ISME Journal. 2014;9:1105‑18. doi:10.1038/ismej.2014.202.
3. Caporaso JG, Lauber CL, Walters WA, Berg-Lyons D, Lozupone CA, Turnbaugh PJ, et al. Global patterns of 16S rRNA diversity at a depth of millions of sequences per sample. Proceedings of the National Academy of Sciences. 2010;108:4516‑22. doi:10.1073/pnas.1000080107.
A work by Migale Bioinformatics Facility
Université Paris-Saclay, INRAE, MaIAGE, 78350, Jouy-en-Josas, France
Université Paris-Saclay, INRAE, BioinfOmics, MIGALE bioinformatics facility, 78350, Jouy-en-Josas, France