module-3-Stat-R

Logo

Analyse statistique avec R

View the Project on GitHub DU-Bii/module-3-Stat-R

Statistics with R – 2021 session

Programme

Goals

The aim of this module is to provide you with the bases of R programming and to present you some statistical concepts for high-throuput data.

To follow this course, prior knowledge is expected on:

Link to the prerequisites

Intervenants

  1. Claire Vandiedonck (https://orcid.org/0000-0002-6669-6923)
  2. Jacques van Helden (https://orcid.org/0000-0002-8799-8584)
  3. Anne Badel (https://orcid.org/0000-0002-2777-5979)
  4. Magali Berland (https://orcid.org/0000-0002-6762-5350)
  5. Antoine Bridier-Nahmias (https://orcid.org/0000-0002-0376-6840)
  6. Olivier Sand (https://orcid.org/0000-0003-1465-1640)
  7. Bruno Toupance (https://orcid.org/0000-0002-8244-1824)
  8. Clémence Réda(https://clreda.github.io/)
  9. Yves Clément (https://orcid.org/0000-0002-5932-9412)
  10. Olivier Taboureau (https://orcid.org/0000-0001-7081-2491)
Doc Description URL
Git pages Web site of the course (to see the supports) https://du-bii.github.io/module-3-Stat-R/stat-R_2021/
Git repo Repository enabling to download or clone the teaching material on your computer https://github.com/DU-Bii/module-3-Stat-R
Serveur Jupyter Hub IFB Python but also R! https://jupyterhub.cluster.france-bioinformatique.fr/
RStudio at IFB cluster link to RStudio on th IFB cluster https://rstudio.cluster.france-bioinformatique.fr/
Slack forum pour échanges et discussions https://dubii.slack.com

Teaching material

Session 1. R base en explorant des données omiques

Objectifs

  1. Vérification et consolidation des prerequis: session R, vecteurs, matrices.
  2. Dataframes: création, extraction de données, manipulation.

Supports de cours

Session 2. Renforcement de R

Objectifs

  1. Contrôles de flux: boucles versus vectorisation, excutions conditionnelles

  2. Fonctions: implémentation

  3. Paquets/librairies: installation et troubleshooting, chargement, utilisation

  4. Figures à façon avec R base

  5. Introduction au Tidyverse: ggplot2, dplyr, tidyr

Supports de cours

Session 3. Statistiques pour les données à haut-débit / RStudio et rapport Rmarkdown

Objectifs

  1. Statistiques pour les omiques:
  1. RStudio & Rapport Rmarkdown

Supports de cours

Session 4. Analyse en composantes principales et exploration des données multidimensionelles

Objectifs

  1. Analyse en composantes principales (ACP)

    • Comprendre le principe de base de l’analyse en composantes principales, ainsi que les objectifs de cette méthode.

    • Réaliser une ACP avec R, obtenir des visualisations graphiques pour aider à l’interprétation (cercle des corrélations, biplot, contribution des variables et des individus).

  2. Exploration de données multi-omiques multidimensionelles

    • Maîtriser les téléchargements et chargements de fichiers de données et métadonnées
    • Charger des fichiers de données
    • Rappel des concepts de base de corrélation entre deux variables
    • Extension à la corrélation entre $n$ variables
    • Applications à des jeux de données de multi-omiques

Supports de cours

Sessions 5 et 6 (rassemblées en une journée)

Objectifs

Supports pédagogiques

Topics Support Formats
The TCGA BIC study case Intro [pdf]
Data loading and exploration Tutorial (optional) [html] [Rmd]
Principes du clustering Cours [html] [Rmd]
  Tutorial + practical [html] [Rmd]
Analyse d’enrichissement fonctionnel Cours [html]
  Tutorial [html] [Rmd]
  Practical [html] [Rmd]
  Correction [html] [Rmd]
Supervised classification Slides  
  Tutorial + practical [html] [Rmd]

Travail personnel

  1. Après la Session 1

    • finir le tutorial des dataframes pour demain jeudi après-midi -> poser des questions sur slack si des points sont obscurs
    • faire le practical dans vos séances de travail personnel du vendredi des 2 1ères semaines -> les données serviront de Fil Rouge tout au long du module
    • faire le tutorial sur les factors pendant le temps de travail personnel
  2. Après la Session 2

    • finir le practical sur tidyverse pour jeudi 11/03/2021
    • fnir le practical sur les figures avec R base (correction disponible)
    • faire le practical sur les paquets (correction disponible)
    • facultatif: faire le practical sur les contrôles de flux et fonctions (correction disponible)
  3. Après la Session 3

    • revoir à tête reposée le practical sur les statistiques
    • revoir à tête reposée l’exemple de notebook Rmd sur Rstudio: Antoine l’a un peu complété
    • facultatif: pour les plus avancés, voir l’exemple du notebook .rmd optionnel sur les statistiques
  4. Après la session 4

    • terminer le TP de Magali Berlan sur l’ACP
    • réaliser le travail personnel de Jacques van Helden : application de l’ACP aux données multi-omiques de Pavkovicz
  5. Mini-projet

R tutorials and good practice

Doc Description URL
Cheet sheats RStudio Cheet sheats https://rstudio.com/resources/cheatsheets/
Tutorial Tutorial for Beginners by E. Paradis - English version https://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf
Tutorial Tutorial for Beginners by E. Paradis - French version https://cran.r-project.org/doc/contrib/Paradis-rdebuts_fr.pdf
R style guide Google’s R Style Guide https://google.github.io/styleguide/Rguide.html
Another reference for R style guide tidyversesStyle Guide https://style.tidyverse.org/

Ressources

Category Title Description Link
Coding The tidyverse R style guide Style recommendations for R code https://style.tidyverse.org/
Coding Tidyverse cheat sheet One-poage summary of basic tidyverse syntax https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Tidyverse+Cheat+Sheet.pdf
Versioning Happy Git and GitHub for the useR How to manage versioning of R code on a github repository https://happygitwithr.com/
Functions R Documentation List of R packages and functions https://www.rdocumentation.org/
Functions QuickR List R functions for stats and plotting https://www.rdocumentation.org/
Statistics and DataViz STDHA Statistical tools for high-throughput data analysis http://www.sthda.com/english/
Basic stats explained to biologists Points of Significance Nature Methods collection https://www.nature.com/collections/qghhqm/pointsofsignificance
DataViz R Graph gallery How to display your data http://www.r-graph-gallery.com/all-graphs/
DataViz DEFAKATOR Détecter des graphiques trompeurs https://www.youtube.com/watch?v=crTt-QIyS-o
DataViz Using color sin R Explains available packages for colors in R https://www.stat.ubc.ca/~jenny/STAT545A/block14_colors.html#using-colors-in-r
DataViz Using colors in R How to do a high resolution figure with R base https://danieljhocking.wordpress.com/2013/03/12/high-resolution-figures-in-r/
DataViz DataViz link tto the book https://clauswilke.com/dataviz/

Licence

Ce contenu est mis à disposition selon les termes de la licence Creative Commons Attribution - Partage dans les Mêmes Conditions 4.0 International (CC BY-SA 4.0). Consultez le fichier LICENSE pour plus de détails.