DUBii 2019 - Module 3 : Analyse statistique avec R

Séance 2 : échantillonnage, estimation et tests statistiques

Leslie REGAD

2019-02-14

Plan

Expérience aléatoire

Variable aléatoire (VA) / Unité statistique

Deux types de VA réelles

\(\quad\)

Variable réelle discrète

Variable quantitative continue

Etude de cas : le myélome multiple (MM)

Cas d'étude

Est-ce le dosage urinaire de la molécule déoxypyridinoline (pyr) est un bon marqueur pour détecter le MM ?

\(\quad\)

\(\rightarrow\) est-ce que le taux de pyr des patients malades est plus grand que celui des individus sains ?

Population = ensemble d’individus ayant des caractéristiques qui leur sont propres

Mise en place du protocole

\(\rightarrow\) Récolte des données

Analyse des données avec R

dataMyelom <- read.table("data/myelom.txt", sep="\t", header=T)
dim(dataMyelom)
[1] 218  38
table(dataMyelom[,"diagn"])

  0   1 
 40 178 

Description des deux échantillons

boxplot(pyr~diagn, data=dataMyelom, ylab="Valeur de pyr (micmol/mmolcreat)", col = "steelblue3")

Mise en place du protocole

\(\rightarrow\) Récolte des données

Estimation de paramètres

by(dataMyelom[,"pyr"], dataMyelom["diagn"], mean)
diagn: 0
[1] 5.6985
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- 
diagn: 1
[1] 7.241742

Les fluctuations d'échantillonnage

  1. tire un échantillon de 20 indidivus et calcule la moyenne de \(X\) dans cet échantillon
ech1 <- rnorm(n=20, mean=4, sd=sqrt(12))
mean(ech1)
[1] 4.677439
  1. tire un deuxième échantillon de 20 indidivus et calcule la moyenne de \(X\) dans cet échantillon
ech2 <- rnorm(n=20, mean=4, sd=sqrt(12))
mean(ech2)
[1] 4.922556

\(\rightarrow\) Les différences entre les deux estimateurs sont dues aux fluctuations d'échantillonnage

Estimation de paramètres

by(dataMyelom[,"pyr"], dataMyelom["diagn"], var)
diagn: 0
[1] 6.390654
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- 
diagn: 1
[1] 16.72764

Estimation d'un paramètre : Intervalle de confiance (IC)

\(\quad\)

\[ p(m_{inf} < \mu < m_{sup}) = 1- \alpha \]

IC de la moyenne : 2 cas

\(\quad\)

IC du taux de pyr à 95%

alpha <- 0.05
pyr0 <- dataMyelom[which(dataMyelom[,"diagn"]==0),"pyr"]
borneInf.0 <- mean(pyr0) - qnorm(1-alpha/2) * sqrt(var(pyr0)/length(pyr0)) 
borneSup.0 <- mean(pyr0) + qnorm(1-alpha/2) * sqrt(var(pyr0)/length(pyr0)) 
round(c(borneInf.0, borneSup.0),2)
[1] 4.92 6.48
pyr1 <- dataMyelom[which(dataMyelom[,"diagn"]==1),"pyr"]
borneInf.1 <- mean(pyr1) - qnorm(1-alpha/2) * sqrt(var(pyr1)/length(pyr1)) 
borneSup.1 <- mean(pyr1) + qnorm(1-alpha/2) * sqrt(var(pyr1)/length(pyr1)) 
round(c(borneInf.1, borneSup.1),2)
[1] 6.64 7.84

Cas d'étude : Introduction aux tests statistiques

\(\quad\)

Déroulement d'un test statistique

\(\quad\)

Réaliser le test va consister à choisir une des deux hypothèses (H0 ou H1) en se basant sur les données des échantillons

\(\quad\)
\(\rightarrow\) Est-ce que les données des échantillons (\(m_1\) et \(m_2\)) sont compatibles avec H0 ?

Est-ce que les données sont compatibles avec H0 ?

  1. Définir un critère statistique \(S\) dont la loi sous H0 est connue
    \(S = M_2 - M_1\) avec \(M\)=moyenne de \(X\) dans 1 échantillon
    \(\quad\)
    Sous H0 ( \(n_1\) et \(n_2 > 30\)) : \(S \sim \mathcal{N} \left(0 ; \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2} }\right)\)

  1. Calculer \(s_{obs}\) = valeur de \(S\) calculée sur les échantillons : \(s_{obs} = m_1 - m_2\)

  2. Regarde si la réalisation \(s_{obs}\) est fortement probable sous H0 (quand \(\mu_1 = \mu_2\))

Est-ce que les données sont compatibles avec H0 ?

Est-ce que les données sont compatibles avec H0 ?

Interprétation de la p-value : \(p(S>s_{obs})\)

\(\quad\)

Les erreurs

Deux erreurs possibles quand on conclut au test :

Interprétation de la p-value : \(p(S>s_{obs})\)

\(\quad\)

\(\quad\)

Comparaison du taux de pyr chez les patients malades et contrôles

Est-ce que le taux de pyr des patients malades est plus grand que celui des individus sains ?
t.test(pyr~diagn, data=dataMyelom, var.equal=TRUE, alternative="less")

    Two Sample t-test

data:  pyr by diagn
t = -2.2878, df = 216, p-value = 0.01156
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
      -Inf -0.428922
sample estimates:
mean in group 0 mean in group 1 
       5.698500        7.241742 

Les différents types de tests

Les différents types de tests

Merci de votre attention !!!

\(\quad\) \(\quad\)

Place au TP : Etude des caractéristiques des patients atteints d'une cirrhose du foie et des individus sains.