# R Session 1 - DU Bii 2021 - module 3 "R and stats"
---
---
## **Practical on dataframes on the study case "Mouse fibrotic kidney"**
*Wednesday 3rd of March, 2021*

teachers: Claire Vandiedonck & Anne Badel; helpers: Antoine Bridier-Nahmias, Bruno Toupace, Clémence Réda, Jacques van Helden


*Application proposed by Olivier Sand and Jacques van Helden; adapted by Anne Badel and Claire Vandiedonck*

- **Reference :**
    - Pavkovic, M., Pantano, L., Gerlach, C.V. et al. Multi omics analysis of fibrotic kidneys in two mouse models. Sci Data 6, 92 (2019). 
    - <https://doi.org/10.1038/s41597-019-0095-5> 
    - <https://www.nature.com/articles/s41597-019-0095-5#citeas>
    - Mouse fibrotic kidney browser: <http://hbcreports.med.harvard.edu/fmm/>
    - Data on Zenodo: <https://zenodo.org/record/2592516>


- **Samples** from two mouse models were collected. The first one is a reversible chemical-induced injury model (folic acid (FA) induced nephropathy). The second one is an irreversible surgically-induced fibrosis model (unilateral ureteral obstruction (UUO)). mRNA and small RNA sequencing, as well as 10-plex tandem mass tag (TMT) proteomics were performed with kidney samples from different time points over the course of fibrosis development. For both studies, kidneys were removed at each time point for total RNA isolation and protein sample preparation.
    - In the ***FA model***, mice were sacrificed before the treatment (day 0) and 1, 2, 7, and 14 days after a single injection of folic acid.   
    - In the ***UUO model***, mice were sacrificed before obstruction (day 0) and 3, 7, and 14 days after the ureter of the left kidney was obstructed via ligation.    


>**-> In this practical, we will explore the UUO transcriptome data:**
> "Raw" expression data were obtained after pseudocounting with Salmon algorithm (cf modules 4/5). In the paper, they further processed the data.
>
>-  **Objectives**
>
>    - reading of a first real data set
>    - manipulation of the dataset
>    - information retrieval
>    - graphic representations
>    
>
>- **Data sources**
>
>| Doc | URL | 
>|:-----------------------------|:--------------------------|
>| Total RNA for the experiment on Unilateral ureter obstruction (UUO) model | <https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE118339> |
>| Supplementary material of the article with all the data tables (zip archive)  | <https://zenodo.org/record/2592516> |


## 0. Avant toute chose
---

Faites une copie de ce notebook avec votre nom.

Définissez votre répertertoire de travail dans votre `/shared/home/login/RSession1`.

*__Tip :__*
_fonction recommandée : `setwd()`_

In [None]:
# votre code

## 1. The input data
---

Vous partirez des deux fichiers de données téléchargés suivants présents dans le repertoire `/shared/projects/dubii2021/trainers/module3/data/pavkovic/1.datainit`:

- `pavkovic2019_transcriptome_uuo_raw.tsv`, contenant les données brutes, gènes en ligne avec leur identifiant ENSEMBLID, échantillons en colonnes
- `pavkovic2019_transcriptome_uuo_metadata.tsv`, contenant les metadata, c'est-à dire le type de données, les conditions et les numéros d'échantillon.

Ouvrez les d'abord dans l'édituer TSV du JupyterLab pour identifier s'ils contiennet des entêtes, des noms de lignes. Regardez également comment est remplie la colonne "color' du fichier metadata.

Ci-dessous, vous les importerez dans R et les reformaterez.


### A. Le data.frame `metadata`

Importez-le dans R et affichez-le.

*__Tip :__*
_fonction recommandée : `read.table()` et les options `header`, `sep` et `comment.char` appropriées._

- Quelle est sa structure et ses dimensions du dataframe "metadata" ?

*__Tip :__*
_fonction recommandée : `str()` et `dim`._

- Affichez le dataframe

- remettre les lignes dans l'ordre (normal, day3, day7, day14)

*__Tip :__*
_fonction recommandée : `order()`_

### B. Le data.frame `rawData`

Importez-le dans R.

*__Tip :__*
_fonction recommandée : `read.table()` et les options `header`, `sep` et `row.names` appropriées._

In [None]:
#votre code

- Quelles sont la structure et les dimensions du data.frame "rawData" ?

- Affichez les 1ères lignes, les dernières lignes et 7 lignes au milieu pour vérifier que le formatage est similaire.

*__Tip :__*
_fonctions recommandées : `head()`, `tail` et `median`._

- testez si les échantillons sont dans le même ordre que dans le fichier metadata

*__Tip :__*
_fonctions recommandées : `names()`, `==`._

- remettez les échantillons dans le  même ordre que celui du fichier metadata et vérifiez que l'odre est bien le même


- listez tous les objets intermediaires créés et ne gardez que `metadata` et `rawData` avec le même ordre pour les échantillons

*__Tip :__*
_fonctions recommandées : `ls()`, `rm()`._

## 2. Quelques manipulations de base des dataframes
---

- Extraire du jeu de données "rawData" l'information de la $101^{ème}$ ligne

- Identifiez le nom du gène de la $50^{ème}$ ligne

- Extraire du jeu de données "rawData" l'information pour le gène **ENSMUSG00000001855**

- Extraire pour le jeu gène **ENSMUSG00000003810** l'information concernant le jour 7, **day7_8**

- Extraire du jeu de données "rawData" l'information pour les $10^{ème}$ et $9^{ème}$ colonnes pour les lignes 30 à 35, 6 et 15:

- Créez un sous-datframe en extrayant du jeu de données "rawData" l'information pour les colonnes concernant les expériences des jours **day3**. Effectuez une première fois l'opération sans utiliser le dataframe metadata avec la fonction `subset()`. Recommencez en utilisant le dataframe metadata et la fonction `which()`. Comparez les deux sous-dataframes obtenus pour vérifier que vous avez réussi.

*__Tip :__*
_fonctions recommandées : `subset()` avec l'argument `select`, `grep()`, `which()`, `identical()`._

Supprimez ensuite les sous-dataframes intermédiaires.

## 3. Generation de statistiques descriptives sur les données brutes d'expression
---

### A. Pour chaque échantillon

- Donnez un résumé des données à l'aide de la commande `summary()`

- Décrire à présent les 15 échantillons avec l'étendue (min et max), les valeurs de tendance (moyenne, mediane), de dispersion (écart-type, distance inter-quartile, coefficient de variation = sd/mean), et quelques valeurs caractéristiques de percentiles (5%, 15%, 75% et 95%) des niveaux d'expression.
- Vous stockerez ces résultats dans un nouveau dataframe que vous appellerez `sample_raw_stats` qui inclura les colonnes de metadata en 1ères colonnes, puis mean, sd, cv, IQR, min, p05, Q1, median, Q3, p95 et max.


*__fonction recommandées :__*

`data.frame()`, `as.data.frame()`, `matrix()`, `cbind()`

`min()`, `max()`ou `range()`

`mean()`, `sd()`, `median()` : ajoutez na.rm=T pour ne pas inclure les données manquantes

`quantile()` avec l'option `prob=`

`apply()` pour appliquer une fonction sur les vecteurs d’un dataframe en ligne ou en colonne


### B. Pour chaque gène

- Vérifiez qu'il n'y a bien qu'une seule occurence de chaque gène dans le tableau rawData

*__fonction recommandées :__*

`length()`, `unique()`, `==`

Pour chaque gène:

- Calculer la moyenne, la médiane, l’écart type, le coefficient de variation (sd/mean) des niveaux d'expression.
- Calculer également la moyenne, l’écart type et le coefficient de variation (sd/mean) du nombre de reads par gène pour chaque condition.
- Vous stockerez ces résultats dans un nouveau dataframe que vous appellerez `gene_raw_stats` avec un gène par ligne.

*__fonction recommandées :__*

`data.frame()`, `as.data.frame()`, `matrix()`, `cbind()`

`min()`, `max()`ou `range()`

`mean()`, `sd()`, `median()` : ajoutez na.rm=T pour ne pas inclure les données manquantes

`quantile()` avec l'option `prob=`

`apply()` pour appliquer une fonction sur les vecteurs d’un dataframe en ligne ou en colonne

`colSums()`, `colMeans()`, `rowSums()` ou `rowMeans()`

## 4. Quelques questions sur les données d'expression
---

### A. Sur les gènes:

-	Combien de gènes ne sont pas exprimés du tout dans aucun échantillon ?

*__Tip :__* vous pouvez regarder la  moyenne est égale à 0 dans ce cas! Ou alors vous faites la somme et comptez les sommes égales à 0.

- Quel est le gène le plus fortement exprimé en moyenne sur l'ensemble des échantillons? Affichez les valeurs d'expression du dataframe rawData pour ce gène.

*__Tip :__* vous pouvez utiliser le dataframe de de stats sur les gènes et la fonction `which.max()`

- Représentez graphiquement l'expression de gène en fonction du jour à l'aide de la fonction `plot()`

*__Tip :__* les cooronnées sur l'axe des X correspondant au jour (0,3, 7 ou 14), donc générez ces positions avec `rep()`.

- Ajouter la moyenne de chaque condition pour ce gène sous forme d'une ligne ***(optionnel)***

*__Tip :__* après avoir généré le plot(), utilisez la fonction `lines()` dans la même cellule du notebook.

- Ajouter l'écart-type pour chaque condition sous forme d'un segment de droite ***(optionnel)***

*__Tip :__* après avoir généré le plot(), utilisez la fonction `segments()` dans la même cellule du notebook.

- Pour chaque condition, extrayez le gène le plus exprimé en moyenne à partir du dataframe "gene_raw_stats" ***(optionnel)***

Est-ce toujours le même?

-	Quel est le gène dont l’expression varie le plus parmi tous les échantillons en terme d’écart type? Est-ce le même que le plus fortement exprimé ?

- Représentation graphique des 10 gènes ayant les plus grandes valeurs de CV ***(optionnel)***:


    - extraire les 10 gènes en question
    
  *__Tip :__* triez les données pour sélectionner les 10 plus fortes


    - extraire les 10 gènes en questionreprésentation graphique (expression en fonction du jour du traitement)

       - quelle est la caractéristique de ces gènes ayant un CV très élevé ?

Dans la suite de l'analyse, nous retirerons ces gènes exprimés dans peu d'échantillons.

### B. Sur les échantillons

-	Quel échantillon a le coefficient de variation moyen le plus élevé ? Proposez une représentation graphique.


*__Tip :__* utilisez le dataframe sample_raw_stats

-	Quelle est le nombre total de pseudocounts par échantillon/librairie? Donnez un résumé et faites une représentation graphique (boxplot et histogramme de ces totaux)

*__Tip :__* utilisez la fonction `colSums()`

=> On voit donc que les librarires sont de taille variable. On ne peut donc pas comparer les échantillons entre eux directement.

## 5. Transformation des data pour les analyses ultérieures
---

Dans cette partie les commandes vous sont données. Réfléchissez aux interprétations.

### A. transformation en variable discrète

Beaucoup d'outils d'analyse de RNASeq ont besoin de variables entières (données de comptage). Arrondissez toutes les valeurs à l'entier le plus proche avec la fonction `round()`. Sauvergardez ce dataframe sous le nom `rawCount`.

In [None]:
rawCount <- round(rawData)
head(rawCount)

### B. Distributions des comptes

AVant de transformer les données, il est nécessaire de regarder leur distribution globale et entre échantillons.

Affichez sous forme d'un seul histogramme (fonction `hist()`) l'ensemble des valeurs (fonction `unlist()`). Pensez à mettre un titre (option `main = `), un nom à l'axe des abcisses (option `xlab = `) et à l'axe des ordonnées (option `ylab = `).

#### 1. distribution of raw values

In [None]:
hist(unlist(rawData), 
     breaks = 1000, 
     main = "Raw value distribution", 
     xlab = "Raw values", 
     ylab = "Number of features (all samples)")

#### 2. distribution of raw counts

In [None]:
hist(unlist(rawCount), 
     breaks = 1000, 
     main = "Raw value distribution", 
     xlab = "Raw values", 
     ylab = "Number of features (all samples)")

The distribution of raw counts is not very informative, because the range is defined by some outlier, i.e. a feature having a huge values respective to the rest of the distribution. 

This problem is particularly sensitive for RNA-seq data: even with a strong zoom on the abcsissa range from 0 to 500, the histogram shows a steep drop in the first bins. 

#### 3.  distribution of raw counts - right-side trimming

In order to see the relevant part of the data it is convenient to truncate the histogram to the 95th percentile.

In [None]:
p95 <- quantile(x = unlist(rawCount), probs = 0.95)

## Select the values below this percentile
allData <- unlist(rawCount)
# length(allValues)
p95Data <- allData[allData <= p95]
# length(p95Values)

## Plot the histogram
hist(p95Data, breaks = 100, 
     main = "Distribution of raw values\nbelow the 95th percentile", 
     xlab = "Raw values (below percentile 95)", 
     ylab = "Number of features (all samples)")

#### 4. distribution of raw counts - two-sides trimming

For visualization, it is sometimes convenient to truncate both tails of the distribution, in order to avoid both the outliers (right tail) and the sometimes large number of zero values. This is particularly useful for single-cell RNA-seq data, which can have a "zero-inflated" distribution, but it is also useful for other data types. 


In [None]:
p05 <- quantile(x = unlist(rawCount), probs = 0.05)
p95 <- quantile(x = unlist(rawCount), probs = 0.95)

## Select the values below this percentile
allData <- unlist(rawCount)
# length(allValues)
trimmedData <- allData[(allData >= p05) & (allData <= p95)]
# length(trimmedValues)

## Plot the histogram
hist(trimmedData, breaks = 100, 
     main = "Distribution of trimmed raw values\nfrom p05 to p95", 
     xlab = "Raw values (between p05 and p95)", 
     ylab = "Number of features (all samples)")

#### 5. log2-transformed values of raw counts

A typical normalising approach is apply a log2 transformation .

For RNA-seq data, this might however create a problem when the counts of a given gene in a given sample is 0. To circumvent this, we can add an epsilon parameter (epsilon = 0.1) before the log2 transformation (function `log2()`).

- Log2-transformation

In [None]:
epsilon = 0.1
log2Values <- log2(rawData + epsilon)

- histogram

In [None]:
x <- unlist(log2Values)
minx <- floor(min(x))
maxx <- ceiling(max(x))
hist(x, 
     breaks = seq(from = minx, to = maxx, by = 0.1),
     main = "log2(values) distribution",
     xlab = "log2(raw + epsilon)", 
     ylab = "Number of features", col = "#BBFFBB")

-  box plots

We can now inspect the distribution of counts per sample with the `boxplot()` function.

    - boxplot of the raw counts

In [None]:
boxplot(rawCount, las = 2)

    - boxplot of the log2-transformed values of raw counts

In [None]:
boxplot(log2Values, las = 2)

### C. feature filtering

We filter out the features having very low values across all the samples, which we consider as undetected. 

- search for undetected features

In [None]:
undetectedLimit = 10
undetectedFeatures <- apply(rawData, MARGIN = 1, FUN = sum)
undetectedFeatures <- apply(rawData, MARGIN = 1, FUN = sum) < undetectedLimit
length(undetectedFeatures)
sum(undetectedFeatures)

- storage in `log2Filtered` data.frame

In [None]:
log2Filtered <- log2Values[!undetectedFeatures, ]

- dimensions de `log2Filtered`

In [None]:
dim(log2Filtered)

- boxplot before and after filtering

Remember to share your graphical window using the command `(par(mfrow=c(1,2))` and then return to the original parameters using the command `(par(mfrow=c(1,1))`.

In [None]:
par(mfrow = c(1,2))
boxplot(log2Values, 
        col = metadata$color,
        horizontal = TRUE, 
        las = 1, 
        main = "log2-transformed", 
        xlab = "log2(value)")
boxplot(log2Filtered, 
        col = metadata$color,
        horizontal = TRUE, 
        las = 1,
        main = "Filtered features", 
        xlab = "log2(value)")
par(mfrow = c(1,1))

We use the remaining genes for the subsequent analyses. 

## 6. Représentation graphique des 10 gènes ayant les plus grandes valeurs de CV ***(optionnel)***

Que se passe t'il après ces opérations de filtrage ?

- calcul des CV

In [None]:
gene_mean <- apply(log2Filtered, 1, mean)
gene_sd <- apply(log2Filtered, 1, sd)
gene_cv <- gene_sd / gene_mean

- extraction des 10 plus grands CV

In [None]:
gene_cv_order <- order(gene_cv, decreasing = TRUE)
gene_cv_order[1:10]

- représentation graphique

In [None]:
plot(4, 6, xlim = c(-1, 15), ylim = c(0, max(log2Filtered[gene_cv_order[1:10], ])), type = "n", xlab = "day", ylab = "expr", axes = FALSE)
axis(side = 1, at = c(0, 3, 7, 14))
axis(2)
delta = 0.15
for (i in 1:10)
  points(rep(c(0, 3, 7, 14), c(3, 4, 4, 4)) + ((i-5) * delta), log2Filtered[gene_cv_order[i], ], col = i, pch = i)

Qu'en pensez-vous?

## Pensez à sauvegardez vos données
à l'aide de la fonction `save()` ou de la fonction `write.table()`

---
---

In [None]:
sessionInfo()