
# DU Bii - module 3: R and stats
---
## **Session 2: tutorial on packages**
*Thursday 4th of March, 2021*

teachers: Claire Vandiedonck & Magali Berland; helpers: Antoine Bridier-Nahmias, Yves Clément, Bruno Toupance, Jacques van Helden

*Content of this tutorial:*

- lister des paquets installés
- utiliser un paquet installé utile en génomique
- installer un paquet utile en génomique et l'utiliser

L'exemple d'utilisation portera sur des variants génétiques et des sites de chromatine ouverte.




---
## **Before going further**

<div class="alert alert-block alert-danger"><b>Caution:</b><br> 
    <b>1. Create a new directory "Rsession2" </b> in your home with a right click in the left-hand panel of the lab.<br>
    <b>2. Save a backup copy of this notebook in this folder </b>: in the left-hand panel, right-click on this file and select "Duplicate" and add your name, e.g: "tutorial_functions_vandiedonck.ipynb" and move it to the proper folder<br>
You can also make backups during the analysis. Don't forget to save your notebook regularly.
</div>

Set your working directory and check it:

In [None]:
setwd('/shared/home/cvandiedonck/RSession2') #change with your login!!!
getwd() #change is visible

<div class="alert alert-block alert-warning"><b>Warning:</b> you are strongly advised to run the cells in the indicated order. If you want to rerun cells above, you can just restart the kernel to start at 1 again. </div>

<div class="alert alert-block alert-info"> 
    
<b><em> About jupyter notebooks:</em></b> <br>

- To add a new cell, click on the "+" icon in the toolbar above your notebook <br>
- You can "click and drag" to move a cell up or down <br>
- You choose the type of cell in the toolbar above your notebook: <br>
    - 'Code' to enter command lines to be executed <br>
    - 'Markdown' cells to add text, that can be formatted with some characters <br>
- To execute a 'Code' cell, press SHIFT+ENTER or click on the "play" icon  <br>
- To display a 'Markdown' cell, press SHIFT+ENTER or click on the "play" icon  <br>
- To modify a 'Markdown'cell, double-click on it <br>
<br>    

<em>  
To make nice html reports with markdown: <a href="https://dillinger.io/" title="dillinger.io">html visualization tool 1</a> or <a href="https://stackedit.io/app#" title="stackedit.io">html visualization tool 2</a>, <a href="https://www.tablesgenerator.com/markdown_tables" title="tablesgenerator.com">to draw nice tables</a>, and the <a href="https://medium.com/analytics-vidhya/the-ultimate-markdown-guide-for-jupyter-notebook-d5e5abf728fd" title="Ultimate guide">Ultimate guide</a>. <br>
Further reading on JupyterLab notebooks: <a href="https://jupyterlab.readthedocs.io/en/latest/user/notebook.html" title="Jupyter Lab">Jupyter Lab documentation</a>.<br>   
</em>
    
    
</div>   

__*=> About this jupyter notebook*__

This a jupyter notebook in **R**, meaning that the commands you will enter or run in `Code` cells are directly understood by the server in the R language.
<br>You could run the same commands in a Terminal or in RStudio. 


> In this tutorial, you will run one cell at a time.

<mark> Do not hesitate to try other commands by adding other cells.</mark>



## 1. Lister les paquets installés
---

- identifier les répertoires, c'est à dire les `librairies` dans lesquels les paquets sont installés avec la function `.libPaths()`

In [None]:
.libPaths()

<div class="alert alert-block alert-info"> 
    
<b><em> Info:</em></b> <br>
A ce stade, un seul repertoire doit apparaitre: <b>/shared/ifbstor1/software/miniconda/envs/r-4.0.2/lib/R/library</b>.<br>Plus tard dans le tutorial, nous chargerons un nouveau paquet dans un repertoire personnel dans votre home <b>/shared/ifbstor1/home/mylogin/R/x86_64-conda_cos6-linux-gnu-library/4.0</b>
<br>    



- Combien de paquets sont installées dans ce(s) repertoire(s)?

In [None]:
length(list.files(.libPaths()[1]))# modifier l'indice selon le repertoire souhaité

- identifier la liste des paquets installés dans ce(s) répertoire(s).

On pourrait utiliser la commande suivante:

In [None]:
head(list.files(.libPaths()[2]))

Mais on peut récupérer plus d'information sur les versions et les repertoires avec la function `installed.packages()`. La fonction retournant un grand nombre d'informations, listons les avant d'en sélectionner les plus utiles.

In [None]:
print(colnames(installed.packages()))

Affichons les 1ère, 2ème et 3ème colonnes:

In [None]:
head(installed.packages()[,c(1,2,3)])

- Identifions à présent quels paquets sont déjà chargés dans notre session

In [None]:
sessionInfo()

## 2. Utilisons un paquet installé
---

L’objectif de cette partie est d’utiliser le paquet `GenomicRanges` de ___Bioconductor___ afin de détecter des chevauchements entre une liste de SNPs et des sites d’H3K27ac (enhancers actifs).


### 2.1. Chargeons le paquet

- Installer Bioconductor si ce n’est déjà fait

L'execution conditionnelle ci-dessous premet de n'installer le paquet que s'il ne l'est pas encore. C'est ainsi que nous vous conseillons d'invoquer toutes les installations de paquets dans vos scripts afin de permettre une portabilité entre utilisateurs, en leur épargant la réinstallation de paquets qu'ils ont déjà.

In [None]:
if (!requireNamespace("BiocManager"))
  install.packages("BiocManager")

Vous pouvez à présent insatller GenomicRanges de la même façon!

In [None]:
if (!requireNamespace("GenomicRanges"))
  BiocManager::install("GenomicRanges")

A présent chargez le paquet GenomicRanges dans votre session de R:

In [None]:
library(GenomicRanges)

Vérifiez quelle version est chargée:

In [None]:
sessionInfo()# vous noterez que l'installation de GenomicRanges a nécessite celle de IRanges

### 2.2. Cherchez de la documentation sur ce paquet:

- soit à https://www.bioconductor.org/packages/release/bioc/html/GenomicRanges.html
- ou en consultant la vignette:
`browseVignettes("GenomicRanges")`

<div class="alert alert-block alert-warning"><b> Warning</b>. Le chargement de vignettes ne fonctionne pas dans les notebooks jupyter.</div>

### 2.3. Importez les data:

- Importez les données de SNPs et de sites d’acétylation (fichiers sur la page web ou dans `/shared/projects/dubii2021/trainers/module3/data/`)

In [None]:
snps <- read.table("/shared/projects/dubii2021/trainers/module3/data/hgTables_SNPs.txt", header = T, stringsAsFactors = F, fill = T)
str(snps)

In [None]:
h3k27ac <- read.table("/shared/projects/dubii2021/trainers/module3/data/hgTables_H3K27Ac.txt", stringsAsFactors = F, skip = 1)
str(h3k27ac)

- Donnez un nom de colonnes au dataframe des cites d’acétylation (« chrom », « start », « end », « id »)

In [None]:
names(h3k27ac) <- c("chrom", "start", "end", "id")
str(h3k27ac)

### 2.4. Utilisation de la fonction `makeGRangesFromDataFrame` du paquet **GenomicRanges**

- Cette fonction va générer un objet de type GRanges. Regardez la documentation correspondante.

In [None]:
?GRanges

- Générez des objets de type `GRanges` avec la function `makeGRangesFromDataFrame` du paquet **GenomicRanges** pour chacun des deux dataframes en ne gardant que les colonnes 2 à 7 pour les SNPs

In [None]:
snps_GR <- makeGRangesFromDataFrame(snps[,c(2:5,7)], keep.extra.columns = TRUE)
snps_GR
str(snps_GR)

In [None]:
h3k27ac_GR <- makeGRangesFromDataFrame(h3k27ac, keep.extra.columns = TRUE)
h3k27ac_GR
str(h3k27ac_GR)

Si vous inspectez les deux objets, ils ont tous les deux 7 slots comme tout objet de type GenomicRanges

- Identifiez abvec la fonction `findOverlaps()` les chevauchements entre les deux datasets, c'es à dire entre les SNPs et les sites d'acétylation.

In [None]:
# Find overlaps between SNPs and acetylation sites
overlaps <- findOverlaps(h3k27ac_GR, snps_GR)
overlaps

La commande suivante vous donne le nombre d'overlaps par élément, ici combien de SNPs sont trouvés pour chaque site d'acetylation (de 0 à 6 selon le site)

In [None]:
print(countOverlaps(h3k27ac_GR, snps_GR))

Vous pouvez générer et sauvergarder  un sous-jeu des 18 sites d'actylation contenant au moins un SNP avec la commande suivante:

In [None]:
h3k27ac_SNPs_GR <- subsetByOverlaps(h3k27ac_GR, snps_GR)

## 3. Installons un paquet non installé et utilisons-le
---

Nous continuons l'exemple ci-dessus avec l'utilisation du package `biomaRt` de ***Bioconductor** pour connaître les gènes les plus proches de ces sites partagés.

- installation et chargement du paquet

Il s'agit d'un paquet de Bioconductor, donc utilisez la fonction `BiocManager()` pour l'installer si vous avez une version de R >=3.5.

<div class="alert alert-block alert-warning"><b>  Warning</b>. Dans beaucoup de tutoriels, vous trouvez encore l'installation de paquets de Bioconductor avec la fonction <b>biocLite()</b>. Cette méthode est obsolète pour les versions de R>=3.5=</div>

In [None]:
# installation et chargement de biomaRt:
if (!requireNamespace("biomaRt"))
  BiocManager::install("biomaRt")
library(biomaRt)

- Consultez la documentation de BioMart: https://bioconductor.org/packages/release/bioc/vignettes/biomaRt/inst/doc/biomaRt.html

- Quelles sont les bases de données interrogeables dans la base de donnees ensembl avec biomaRt ?

In [None]:
listMarts(host = "www.ensembl.org")

- Sélectionner à présent le dataset Homo Sapiens de la base de donnees Ensembl avec la fonction `useDataset()` ou directement `useMart()` :

In [None]:
ensembl <- useMart("ENSEMBL_MART_ENSEMBL", host = "www.ensembl.org", dataset = "hsapiens_gene_ensembl")

- Combien y a-t- il de bases de datasets interrogeables dans cette base de donnees ?


In [None]:
dim(listDatasets(ensembl))[1]

- Combien y a-t- il de champs interrogeables dans la base de donnees ensembl Homo Sapiens ?


In [None]:
nrow(listAttributes(ensembl))

- Identifier les genes à +/- 20 kb des sites d'actelylation contenant au moins un SNP:

In [None]:
info <- data.frame(h3k27ac_SNPs_GR@seqnames@values, h3k27ac_SNPs_GR@ranges@start,
                   h3k27ac_SNPs_GR@ranges@start + h3k27ac_SNPs_GR@ranges@width)

In [None]:
str(info)
names(info) <- c("chr", "start", "end")

In [None]:
mapgenes <- NULL
for (i in 1:nrow(info)) {
  genes <-getBM(attributes = c("hgnc_symbol", "description", "ensembl_gene_id","chromosome_name",
                              "start_position", "end_position", "strand"),
               filters = c("chromosome_name", "start", "end"),
               values = list(gsub("chr", "", info$chr[i]),info$start[i] - 10000, info$end[i] + 10000), mart = ensembl)
  genes$site <- paste0(info$chr[i], ":", info$start[i], "-", info$end[i])
  mapgenes <- rbind(mapgenes, genes)
}
mapgenes[,c(8, 1:7)] # pour redoronner les colonnes et voir les resultats

<div class="alert alert-block alert-success"><b>Success:</b> Well done! Vous savez maintenant installer des paquets, indetifier les librairies où ils sont installés et utilisez deux paquets emblématiques en génomique. 
</div>
    

Of course, you can improve your functions by adding warnings if the input files are not as expected, or by adding some documentation (start with annotations!).

<div class="alert alert-block alert-danger"><b>Caution:</b><br> 
 Don't forget to save you notebook and export a copy as an <b>html</b> file as well <br>
- Open "File" in the Menu<br>
- Select "Export Notebook As"<br>
- Export notebook as HTML<br>
- You can then open it in your browser even without being connected to the IFB Jupyter hub! 
</div>

In [None]:
sessionInfo()