+ - 0:00:00
Notes for current slide
Notes for next slide

Croisement de données

DUBii - Module 5

Olivier Rué - Matthias Zytnicki

2021-03-25

1 / 23

Programme

  • Présentation des intervenants, organisation

  • Rappel sur les formats de fichiers

  • Bedtools (Quinlan and Hall, 2010)

  • TP en mode distanciation sociale

2 / 23

Rappels sur les formats de fichiers

Format Contenu
FASTA ?
FASTQ ?
SAM/BAM ?
BED/GTF/GFF ?
VCF ?
3 / 23

Rappels sur les formats de fichiers

Format Contenu
FASTA Information de séquence
FASTQ Séquence et qualité de lectures provenant d'un séquençage
SAM/BAM Alignement des lectures sur une référence
BED/GTF/GFF Coordonnées et annotations génomiques
VCF Coordonnées et annotations des variants génomiques
4 / 23

FASTA

>foo
ATGCC
>bar other optional text could go here
CCGTA
>bidou
ACTGCAGT
TTCGN
>repeatmasker
ATGTGTcggggggATTTT
>prot2; my_favourite_prot
MTSRRSVKSGPREVPRDEYEDLYYTPSSGMASP

FASTQ

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
5 / 23

SAM/BAM

6 / 23

SAM/BAM

7 / 23

BED

  • Browser Extensible Data

  • Ce sont des formats "d'intervalles". Chaque ligne contient un intervalle de coordonnées génomiques avec au minimum 3 colonnes :

# BED 3 columns
#chromosome start end
chr1 145 200
chr1 345 500
chr1 600 1000
  • Plus d'informations avec 6 colonnes :
# BED 6 columns
#chromosome start end name score strand
chr1 145 200 i1 0 +
chr1 345 500 i2 0 +
chr1 600 1000 i3 0 +
8 / 23

BED

9 / 23

GFF

  • General Feature Format

  • GFF puis GFF2 puis GFF3

  • GFF3 actuellement en vigueur : documentation

  • Format utilisé pour localiser et décrire toute zone caractéristique d'un génome (ex : un exon)

  • Un header

##gff-version 3
  • 9 colonnes décrivant des features
ctg123 . mRNA 1300 9000 . + . ID=mrna0001;Name=sonichedgehog
ctg123 . exon 1300 1500 . + . ID=exon00001;Parent=mrna0001
ctg123 . exon 1050 1500 . + . ID=exon00002;Parent=mrna0001
ctg123 . exon 3000 3902 . + . ID=exon00003;Parent=mrna0001
ctg123 . exon 5000 5500 . + . ID=exon00004;Parent=mrna0001
ctg123 . exon 7000 9000 . + . ID=exon00005;Parent=mrna0001
10 / 23

GFF3

  1. seqid - Nom du chromosome ou scaffold
  2. source - Nom du programme utilisé pour générer ce fichier
  3. type - Type d'élément (feature). Doit correspondre à l'ontologie SOFA (Eilbeck, Lewis, Mungall, Yandell, Stein, Durbin, and Ashburner, 2005)
  4. start - Début (1-based)
  5. end - Fin
  6. score - Score décimal
  7. strand - Brin + (forward) ou - (reverse).
  8. phase - Phase : 0, 1 ou 2 (base du codon)
  9. attributes - Liste de paires tag-valeur, par exemple ID, Name, Alias, Parent...
#seqid source type start end score strand phase attributes
ctg123 . mRNA 1300 9000 . + . ID=mrna0001;Name=bidou;Parent=gene001
11 / 23

GTF

  • Dérivé du GFF
  • 8 premières colonnes identiques
  • La 9ème (attributes) doit contenir gene_id ou transcript_id
  • Spécialisé dans l'annotation des gènes
    • gene_id obligatoire
    • transcript_id obligatoire
  • GTF == GFF2
chr1 Cufflinks transcript 62948 63887 1000 + . gene_id "ENSG00000240361"; transcript_id "ENST00000492842"; FPKM "0.1133032705"; frac "1.596713"; conf_lo "0.000000"; conf_hi "0.312052"; cov "0.351936"; full_read_support "yes";
12 / 23

GTF

  • Dérivé du GFF
  • 8 premières colonnes identiques
  • La 9ème (attributes) doit contenir gene_id ou transcript_id
  • Spécialisé dans l'annotation des gènes
    • gene_id obligatoire
    • transcript_id obligatoire
  • GTF == GFF2
chr1 Cufflinks transcript 62948 63887 1000 + . gene_id "ENSG00000240361"; transcript_id "ENST00000492842"; FPKM "0.1133032705"; frac "1.596713"; conf_lo "0.000000"; conf_hi "0.312052"; cov "0.351936"; full_read_support "yes";
Attention au parsing du GTF, il y a des espaces dans la 9ème colonne !
13 / 23

VCF

  • Variant Calling Format

  • En migration vers gVCF ()

  • Header décrivant le format et l'obtention du fichier

  • Une ligne par variant (SNV, INSERTION, DELETION...)

14 / 23

VCF

15 / 23

Système de coordonnées

0-based:

ACTGACTG
012345678
  • BED
  • BAM

1-based:

ACTGACTG
12345678
  • GTF
  • GFF
  • SAM
  • VCF
16 / 23

Système de coordonnées

0-based:

ACTGACTG
012345678
  • BED
  • BAM

1-based:

ACTGACTG
12345678
  • GTF
  • GFF
  • SAM
  • VCF
Les outils font automatiquement la conversion, attention si vous cherchez l'information directement !
17 / 23

BEDTOOLS

  • Le couteau suisse pour travailler sur des fichiers d'intervalles et croiser différents types de données

  • Permet de nombreuses manipulations et croisement sur :

    • BAM
    • BED
    • GFF/GTF
    • VCF

18 / 23

Une super documentation !

  • Avec des schémas

  • Une documentation complète

  • De nombreux exemples

Exemple pour l'outil intersect

19 / 23

Performance

  • Pas de multithreading avec Bedtools
  • Sur de gros jeux de données, il faut que les fichiers soient triés (de la même manière bien sûr)

20 / 23

TP : Données à croiser

  • Génome humain : FASTA
  • Annotation : GFF3
  • Variants : VCF
  • Alignements : BAM
  • Transcrits : GTF

21 / 23

TP : Données à croiser

  • Génome humain : FASTA
  • Annotation : GFF3
  • Variants : VCF
  • Alignements : BAM
  • Transcrits : GTF

Ce document vous permettra de suivre pas à pas le TP associé à la suite BEDtools

22 / 23

References

Broad Institute (2018). Picard Tools. http://broadinstitute.github.io/picard/.

Eilbeck, K., S. E. Lewis, C. J. Mungall, et al. (2005). “The Sequence Ontology: a tool for the unification of genome annotations”. In: Genome biology 6.5, p. R44.

Li, H., B. Handsaker, A. Wysoker, et al. (2009). “The sequence alignment/map format and SAMtools”. In: Bioinformatics 25.16, pp. 2078–2079.

Quinlan, A. R. and I. M. Hall (2010). “BEDTools: a flexible suite of utilities for comparing genomic features”. In: Bioinformatics 26.6, pp. 841–842.

23 / 23

Programme

  • Présentation des intervenants, organisation

  • Rappel sur les formats de fichiers

  • Bedtools (Quinlan and Hall, 2010)

  • TP en mode distanciation sociale

2 / 23
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow