Solution
mkdir -p ~/work/TRAINING/CLUSTER
mkdir -p ~/work/TRAINING/ANALYSES
cd ~/work/TRAINING
Les réponses aux questions de ce TP peuvent être visibles en appuyant sur le bouton Solution. À n’utiliser que si vous bloquez bien sûr !
L’objectif de cette partie est de présenter comment lancer des calculs sur l’infrastructure de migale (serveur front
).
Pour une question de reproductibilité et de tracabilité, les commandes que nous enverrons sur le cluster seront stockées dans des fichiers .sh
, nommés en fonction de l’outil à lancer.
Cette étape sert avant tout à vérifier que les fichiers récupérés et sur lesquels on s’apprête à travailler sont conformes à ce qu’on a demandé au prestataire de séquençage
Choses à vérifier :
FastQC
MultiQC
Avant même de nettoyer les reads, il peut s’avérer utile d’effectuer une classification taxonomique. Cela permet entre entre de détecter une contamination (hôte, environnement, humain…). Il faut donc dans l’idéal utiliser la banque la plus complète possible. Nous allons utiliser ici en l’occurence RefSeq et l’outil Kaiju
Les banques spécifiques à kaiju sont mises à disposition dans le répertoire suivant : /db/outils/kaiju/
FASTP
L’étape suivante consiste à filtrer et écarter les séquences de rRNA à partir de références, avec l’outil SortMeRNA /db/outils/sortmerna/
Dans certains projets, il peut être intéressant de filtrer les séquences d’un contaminant (hôte, contaminants connus…) Dans nos échantillons, il n’y a pas réellement d’hôte, mais voici par exemple la procédure pour écarter les séquences d’un des génomes viraux présents dans le jeu de données. Il s’agit de la séquence de Sorex araneus polyomavirus 1 isolate
qui est présente dans le fichier /save_projet/metagenomics_training/contaminants/conta.fasta
.
Maintenant que les reads sont nettoyés, nous pouvons passer à l’assemblage. Cette étape consiste en la construction de longs contigs à partir des reads.
Pour ce jeu de données nous avons choisi d’effectuer un assemblage poolé de tous nos échantillons. Dans certains cas, il peut être intéressant d’assembler les échantillons séparément. Nous vous proposons aujourd’hui d’utiliser MEGAHIT
QUAST
Maintenant, on aimerait replacer les reads sur les contigs pour obtenir les informations de couverture et de profondeur.
L’assemblage de shorts reads issus de métagénomes shotguns permet rarement de reconstruire des génomes complets. Cependant le regroupement de contigs par binning permet de regrouper les séquences présentant des propriétés proches et est un bon compromis aux génomes complets. En effet, bien que fragmentés, ces ébauches de génomes sont souvent issues d’organismes proches. L’approche de binning qu’utilise MetaBAT2
Pour l’évaluation des bins, nous utiliserons les deux métriques completeness et contamination estimés par CheckM CheckM
nous allons utiliser le workflow checkm2 predict qui est recommandé pour évaluer l’exhaustivité et la contamination des bins de génomes.
Les résultats seront disponibles dans la table CHECKM/quality_report.tsv
.
A partir de contigs au format FASTA, prokka --metagenome
). Il est basé sur une suite d’outils : prodigal
L’objectif de cette étape est d’annoter fonctionellement les gènes codant pour des protéines, à différente niveau de finesse et avec des ontologies ou des hiérarchies fonctionelles permettant l’aggrégation des annotations sur différents niveaux.
eggnog-mapper
Diamond
A work by Migale Bioinformatics Facility
Université Paris-Saclay, INRAE, MaIAGE, 78350, Jouy-en-Josas, France
Université Paris-Saclay, INRAE, BioinfOmics, MIGALE bioinformatics facility, 78350, Jouy-en-Josas, France