Datasets J4

Module 20

MaIAGE - Migale

Christelle Hennequet-Antier

MaIAGE - Migale

Cédric Midoux

PROSE - Migale

June 8, 2026

TP Datasets

Chaillou dataset (16S)

  • Les 64 échantillons correspondent à 8 réplicats des 8 produits différents, générés sur la région 16S V1-V3.
  • Les primers sont 27F (5’-AGAGTTTGATCCTGGCTCAG-3’) 534R (5’-ATTACCGCGGCTGCTGG-3’)
  • Des reads de 2x300 bp ont été générés (⚠️ données simulées à partir de la matrice d’abondance obtenue à l’époque)
  • Des erreurs ont été ajoutés dans les séquences suivant le modèle d’erreur Illumina classique
  • 10% de séquences chimériques ont été ajoutées
  • Archive : http://genome.jouy.inra.fr/~orue/FROGS_2026/chaillou_16S.tar.gz
  • Métadonnées : http://genome.jouy.inra.fr/formation/Metagenomics_03-2021/metadata_16S.tsv

Correction Biostats

Fromages + communautés synthétiques d’intérêt (ITS)

  • Ce sont des données issues du projet INRAE METABARFOOD (PRJNA685292) dont l’objectif est d’évaluer la pertinence des marqueurs eucaryotes classiquement utilisés pour caractériser les communautés des écosystèmes alimentaires d’intérêt à INRAE.
  • Il s’agit ici d’échantillons de fromages réels (echantillon*), de MOCKs simples à complexes d’espèces d’intérêt
  • Les primers sont ITS1-F (5’-CTTGGTCATTTAGAGGAAGTAA-3’) ITS2 (5’-GCTGCGTTCTTCATCGATGC-3’)
  • Des reads de 2x250 bp ont été produits par Illumina Miseq
  • Archive : http://genome.jouy.inra.fr/formation/Metagenomics_03-2021/ITS1.tar.gz
  • Métadonnées : http://genome.jouy.inra.fr/~orue/FROGS_2026/metadata_ITS.tsv

Ravel dataset

  • The data consists of 394 samples of the vaginal microbiome of women of reproductive ages and the original studies focused on the link between microbial composition and vaginosis. Each sample is associated to several covariates:
    • ID: Woman unique ID
    • Ethnic_Group: Ethnic group of the woman (in Asian, Black, Hispanic and White)
    • pH: pH in the vagina
    • Nugent_Score: Nugent score, a score of bacterial vaginosis on scale from 0 to 10
    • Nugent_Cat: Nugent category, derived from the Nugent score. Can be either low (score in 0-3), intermediate (score in 4-6) or high (score in 7-10)
    • CST: Community State Type, more on that later.
  • Biom : http://genome.jouy.inra.fr/~orue/FROGS_2026/ravel.biom
  • Metadata : http://genome.jouy.inra.fr/~orue/FROGS_2026/ravel_metadata.tsv

Correction