
Cours 4
Université de la Polynésie française
UE 6.7 Biostatistiques 2
“Description probabiliste de la génération des données par des processus sous-jacents”
Probabiliste : Distribution normale, définie par la moyenne (\(\mu\)) et l’écart-type (\(\sigma\)) :
\(\mathrm{y}_i \sim \mathrm{Normal(\mu}_i,~\mathrm{\sigma)}\)
Processus sous-jacents : Variables explicatives, décrivant la valeur attendue \(\mu\)

La masse dépend de la taille des manchots et de l’espèce (même pente)
\[ \begin{align} \mathrm{Weight}_i &\sim \mathrm{Normal}(\mu_i,~\sigma) \\ \mu_i &= a_{\text{species}[i]} + b \cdot \mathrm{billlength}_i \end{align} \]
ANCOVA

La masse dépend de la taille des manchots et de l’espèce (pentes différentes par espèce)
\[ \begin{align} \mathrm{Weight}_i &\sim \mathrm{Normal}(\mu_i,~\sigma) \\ \mu_i &= a_{\text{species}[i]} + b_{\text{species}[i]} \cdot \mathrm{billlength}_i \end{align} \]
ANCOVA
Analysis of Variance Table
Response: body_mass_g
Df Sum Sq Mean Sq F value Pr(>F)
species 2 145190219 72595110 341.89 < 2.2e-16 ***
Residuals 330 70069447 212332
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
L’ANOVA nous dit : « Il y a une différence entre les espèces »
Mais laquelle des espèces diffère des autres ?
Pour 3 espèces, nous avons 3 comparaisons possibles :
Pourquoi ne pas simplement faire 3 modèles ?

FWER : La probabilité de faire au moins une erreur de type I dans un ensemble de tests
| Nombre de groupes | Nombre de comparaisons | FWER (sans correction) |
|---|---|---|
| 2 | 1 | 5,0% |
| 3 | 3 | 14,3% |
| 4 | 6 | 26,5% |
| 5 | 10 | 40,1% |
| 10 | 45 | 90,0% |
Nous devons ajuster nos valeurs p pour contrôler le FWER
| Méthode | Description | Quand l’utiliser |
|---|---|---|
| Bonferroni | Divise α par le nombre de tests | Tests simples, peu de tests |
| Holm-Bonferroni | Bonferroni séquentiel (moins strict) | Alternative à Bonferroni |
| Benjamini-Hochberg | Contrôle le taux de fausses découvertes | Beaucoup de tests |
| Tukey HSD | Tient compte de toutes les comparaisons | Comparaisons multiples |
Les tests de Tukey sont souvent utilisés pour les tests post-hoc
Rm_spec <- lm(body_mass_g ~ species, data = penguins)
library(modelbased)
estimate_contrasts(m_spec, p_adjust = "tukey")Marginal Contrasts Analysis
Level1 | Level2 | Difference | SE | 95% CI | t(330) | p
---------------------------------------------------------------------------------
Chinstrap | Adelie | 26.92 | 67.65 | [-106.16, 160.01] | 0.40 | 0.916
Gentoo | Adelie | 1386.27 | 56.91 | [1274.32, 1498.22] | 24.36 | < .001
Gentoo | Chinstrap | 1359.35 | 70.05 | [1221.55, 1497.15] | 19.41 | < .001
Variable predicted: body_mass_g
Predictors contrasted: species
p-value adjustment method: Tukey

Récemment, les chercheurs s’éloignent des valeurs p comme seuils rigides. L’ampleur de l’effet (importance biologique) importe plus que p < 0,05 !
Tracez l’IC 95%
« Intervalle de confiance à 95% : est une plage calculée de sorte que, si on la répète plusieurs fois, 95% de ces intervalles contiendraient la vraie valeur du paramètre. »
Pas de chevauchement : Les groupes sont statistiquement significativement différents (p < 0,05)
Chevauchement : Peuvent être statistiquement significativement différents, mais l’effet est probablement petit

Analysis of Variance Table
Response: body_mass_g
Df Sum Sq Mean Sq F value Pr(>F)
bill_length_mm 1 74792533 74792533 540.6978 < 2e-16 ***
species 2 94153502 47076751 340.3320 < 2e-16 ***
bill_length_mm:species 2 1081048 540524 3.9076 0.02103 *
Residuals 327 45232583 138326
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Marginal Contrasts Analysis
Level1 | Level2 | Difference | SE | 95% CI | t(327) | p
-----------------------------------------------------------------------------
Chinstrap | Adelie | -34.63 | 17.89 | [-69.82, 0.56] | -1.94 | 0.130
Gentoo | Adelie | 13.89 | 16.03 | [-17.64, 45.42] | 0.87 | 0.662
Gentoo | Chinstrap | 48.52 | 17.53 | [ 14.04, 83.01] | 2.77 | 0.016
Variable predicted: body_mass_g
Predictors contrasted: bill_length_mm
Predictors averaged: bill_length_mm (44)
p-value adjustment method: Tukey
Estimated Marginal Effects
species | Slope | SE | 95% CI | t(327) | p
--------------------------------------------------------------
Adelie | 93.75 | 11.60 | [70.92, 116.58] | 8.08 | < .001
Chinstrap | 59.12 | 13.61 | [32.34, 85.90] | 4.34 | < .001
Gentoo | 107.64 | 11.04 | [85.92, 129.36] | 9.75 | < .001
Marginal effects estimated for bill_length_mm
Type of slope was dY/dX
TP 04