
Cours 6
Université de la Polynésie française
UE 6.7 Biostatistiques 2
check_model()
Propriétés :
Pour la régression (par exemple) :
\[ \begin{align} y_i &\sim \mathrm{Normal}(\mu_i, \sigma) \\ \mu_i &= a + b \cdot x_i \end{align} \]
Mais qu’est-ce qui suit exactement une distribution normale ?

Les résidus (différence entre les données et les prédictions) suivent la normalité
Pas les données brutes elles-mêmes
\(\mathrm{residual}_i = y_i - \mu_i\)
La distribution normale décrit le bruit aléatoire autour de la droite de régression
\[ \begin{align} y_i &\sim \mathrm{Normal}(\mu_i, \sigma) \\ \mu_i &= a + b \cdot x_i \end{align} \]
Certains types de données ne peuvent jamais produire de résidus normalement distribués :
Vous comptez le nombre d’oursins dans des quadrats de 1 m²

Problèmes avec un modèle normal :
Couverture corallienne

Problèmes avec un modèle normal :
Vous mesurez la biomasse (mg/L) en fonction de la température

Problèmes avec un modèle normal :
Incertitude erronée : Les intervalles de confiance et les valeurs p deviennent peu fiables
Estimations biaisées : Votre pente et votre ordonnée à l’origine seront systématiquement erronées
Hypothèses violées : Les graphiques de résidus montrent des motifs clairs au lieu d’une dispersion aléatoire
Les modèles linéaires généralisés (GLMs) étendent les modèles linéaires pour gérer d’autres distributions
\[ y_i \sim \mathrm{Normal}(\mu, \sigma) \]
\[ y_i \sim \mathrm{Gamma}(\alpha, \beta) \]
| Type de réponse | Distribution | Exemple |
|---|---|---|
| Continu | Normal | Température, différence de taille |
| Comptages | Poisson | Nombre de larves, abondance de poissons |
| Binaire (Oui/Non) | Binomiale | Survie, présence/absence |
| Strictement positif | Gamma | Biomasse, concentration de nutriments |
| Distribution | Formule | Paramètres | Contraintes |
|---|---|---|---|
| Normal | \(y_i \sim \mathrm{Normal}(\mu, \sigma)\) | \(\mu\) (moyenne) \(\sigma\) (ET) |
\(\mu \in \mathbb{R}\) \(\sigma > 0\) |
| Poisson | \(y_i \sim \mathrm{Poisson}(\lambda)\) | \(\lambda\) (moyenne) | \(\lambda > 0\) |
| Binomiale | \(y_i \sim \mathrm{Binomial}(n, p)\) | \(n\) (essais) \(p\) (prob.) |
\(n \in \mathbb{N}\) \(p \in (0, 1)\) |
| Gamma | \(y_i \sim \mathrm{Gamma}(\alpha, \beta)\) | \(\alpha\) (forme) \(\beta\) (taux) |
\(\alpha > 0\) \(\beta > 0\) |
Une variable continue (\(y\)) augmente/diminue avec une autre variable continue (\(x\))
Les comptages (\(y\)) augmentent/diminuent avec une autre variable continue (\(x\))
\[ \begin{align} \mathrm{y}_i \sim \mathrm{Normal(\mu}_i,~\mathrm{\sigma)} \\ \mu_i = a + b \cdot \mathrm{x}_i\\ \end{align} \]
\[ \begin{align} \mathrm{y}_i \sim \mathrm{Poisson}(\lambda_i) \\ \log(\lambda_i) = a + b \cdot \mathrm{x}_i\\ \end{align} \]
\(\mu_i\) peut avoir n’importe quelle valeur
\(\lambda_i\) doit être > 0 !
Une variable continue (\(y\)) augmente/diminue avec une autre variable continue (\(x\))
Les comptages (\(y\)) augmentent/diminuent avec une autre variable continue (\(x\))
\[ \begin{align} \mathrm{y}_i \sim \mathrm{Normal(\mu}_i,~\mathrm{\sigma)} \\ \mu_i = a + b \cdot \mathrm{x}_i\\ \end{align} \]
\[ \begin{align} \mathrm{y}_i \sim \mathrm{Poisson}(\lambda_i) \\ \begin{aligned} {\color{darkorange}\log}(\lambda_i) &= a + b \cdot \mathrm{x}_i\\ \lambda_i &= e^{a + b \cdot x_i} \end{aligned} \end{align} \]
\(\mu_i\) peut avoir n’importe quelle valeur
\(\lambda_i\) doit être > 0 !
Fonction de lien assure que \(\lambda_i\) est positive
La fonction de lien transforme le paramètre de distribution pour correspondre au modèle linéaire
| Type de données | Distribution | Lien typique | Assure |
|---|---|---|---|
| Comptages | Poisson | log | \(\mu > 0\) |
| Binaire (0/1) | Binomiale | logit | \(0 < p < 1\) |
| Strictement positif | Gamma | log | \(\mu > 0\) |
| Normal | Normal | identité | pas de contrainte |
Les mêmes outils fonctionnent !
Différences clés :

Impact des variables explicatives
Comparaisons (test post-hoc)
Marginal Contrasts Analysis
Level1 | Level2 | Difference | SE | 95% CI | z | p
------------------------------------------------------------------
Site B | Site A | 4.10 | 0.60 | [2.92, 5.28] | 6.80 | < .001
Variable predicted: count
Predictors contrasted: site
p-value adjustment method: Tukey
Contrasts are on the response-scale.
Le lien logit assure que les probabilités prédites restent entre 0 et 1 :
\[ \log\left(\frac{p_i}{1-p_i}\right) = a + b \cdot \text{site}_i \]
Note
L’utilisation de cbind() préserve l’effort d’échantillonnage : 50% de couverture à partir de 80 points est plus précis que 50% à partir de 8 points !
Impact des variables explicatives
Analysis of Deviance Table
Model: binomial, link: logit
Response: cbind(coral_points, non_coral_points)
Terms added sequentially (first to last)
Df Deviance Resid. Df Resid. Dev Pr(>Chi)
NULL 8 76.291
site 2 71.703 6 4.587 2.69e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Moyennes prédites
Estimated Marginal Means
site | Probability | 95% CI
---------------------------------
A | 0.17 | [0.13, 0.22]
B | 0.36 | [0.30, 0.42]
C | 0.53 | [0.47, 0.60]
Variable predicted: cbind(coral_points, non_coral_points)
Predictors modulated: site
Predictors averaged: coral_points (28), non_coral_points (52)
Predictions are on the response-scale.
Comparaisons (test post-hoc)
Marginal Contrasts Analysis
Level1 | Level2 | Difference | SE | 95% CI | z | p
------------------------------------------------------------------
B | A | 0.19 | 0.04 | [0.11, 0.26] | 4.77 | < .001
C | A | 0.36 | 0.04 | [0.28, 0.44] | 8.99 | < .001
C | B | 0.17 | 0.04 | [0.09, 0.26] | 3.92 | < .001
Variable predicted: cbind(coral_points, non_coral_points)
Predictors contrasted: site
Predictors averaged: coral_points (28), non_coral_points (52)
p-value adjustment method: Tukey
Contrasts are on the response-scale.

Impact des variables explicatives
Moyennes prédites
Model-based Predictions
temperature | Predicted | SE | 95% CI
----------------------------------------------
15.00 | 5.06 | 0.33 | [4.42, 5.78]
16.67 | 5.79 | 0.32 | [5.18, 6.48]
18.33 | 6.63 | 0.31 | [6.04, 7.28]
20.00 | 7.60 | 0.29 | [7.03, 8.21]
21.67 | 8.70 | 0.30 | [8.12, 9.33]
23.33 | 9.97 | 0.34 | [9.30, 10.68]
Variable predicted: biomass
Predictors modulated: temperature
Predictions are on the response-scale.
Vous connaissez déjà les concepts — les GLMs ne sont qu’une généralisation
TP 06