Pour vous approprier les commandes présentées ci-dessus, nous vous proposons d’analyser un fichier d’expression complet et de générer différentes représentations graphiques pour acquérir une intuition de la distribution des données.
Nous vous demandons d’écrire toutes les commandes dans un script R bien organisé (divisé en sections pour les différentes étapes), documenté (en utilisant les commentaires R précédés d’un #
), et qui pourra être exécuté par quelqu’un d’autre (reproductibilité).
Chaque langage de programmation établit des recommandations concernant le style du code, notamment concernant la façon de nommer les variables et fonctions, l’indentation des blocs de code, l’espacement, …
Pour des raisons historiques, en R il existe plusieurs conventions alternatives pour nommer les variables et fonctions. Pour plus de détail, voici un très bon article de synthèse:
Pour les travaux personnels, nous recommandons les conventions de Google R Style https://google.github.io/styleguide/Rguide.xml#identifiers, avec cependant une flexibilité: pour les variables, nous suggérons d’utiliser la convention lowerCamelCase plutôt que period.separated.
avg.clicks
avgClicks
Lisez également attentivement les recommandations d’espacement.
#### Data download ####
). Cette convention permet à RStudio d’afficher un menu des sections de votre code, pour vous y déplacer plus facilement.Connectez-vous à la section “Study cases” de ce module d’enseignement.
Cliquez sur le lien Bacterial regulons
Avec le bouton droit, cliquez sur le lien du tableau Counts per gene, et copiez ce lien.
Connectez-vous au serveur RStudio du cluster core de l’IFB: https://rstudio.cluster.france-bioinformatique.fr/.
Note: pour les séances de travaux pratiques en salle de cours, nous insistons pour que tout le monde utilise le serveur RStudio du cluster IFB. Cependant, pour le travail personnel, rien ne vous empêche d’utiliser votre propre ordinateur. Vous devrez cependant alors installer vous-mêmes les librairies R requises.
Créez un nouveau fichier R (File -> New File -> R script), que vous sauvegarderez sous le nom bacterial_regulon_analysis.R
.
rédigez une section de code intitulée #### Data download ####
(convention RStudio pour les titres de section dans le code R), qui effectuera les opérations suivantes;
~/TP_bacterial_regulons
)cutadapt_bwa_featureCounts_all.tsv
(celui dont vous avez précédemment copié le lien);Exécutez le script et vérifiez le résultat.
Entamez une nouvelle section intitulée “Exploration of the transcriptome table”.
Avec la fonction read.delim()
, chargez le tableau de comptages RNA-seq (nombre de reads / gène) dans une variable nommée rawCounts
.
Utilisez la commande summary()
pour calculer des statistiques de base sur chaque colonne du tableau.
Convertissez les comptages par la fonction log2
.
Explorez la distribution des valeurs transformées par log2, en utilisant différentes représentations graphiques vues lors de la séance d’introduction: histogramme, boîte à moustache, …
Calculez pour chaque gène la moyenne des log2(counts) par condition, et dérivez-en les valeurs \(M\) et \(A\).
Dessinez un nuage des points comparant les valeurs moyennes entre conditions.
Dessinez un MA plot.
Un script R proprement structuré (sections) et documenté (expliquez ce que vous allez faire à chaque étape, documentez les variables), qui pourra être compris et reproduit par un utilsiateur de R.