Hypothèses des Modèles Linéaires

Cours 5

Andreas Eich

Université de la Polynésie française
UE 6.7 Biostatistiques 2

Les trois hypothèses clés

1. Indépendance

Les observations sont indépendantes les unes des autres

2. Homoscédasticité

La variance des résidus est constante

3. Normalité

Les résidus suivent une distribution normale

Hypothèse 1 : Indépendance

Les observations sont indépendantes

Violation = une observation influence une autre

  • Mesures répétées des mêmes individus
  • Impact spatial
  • Pseudo-réplication
  • Structure hiérarchique (sites, populations)

Conséquences

  • Sous-estimation de l’erreur-type
  • Intervalles de confiance trop étroits
  • Valeurs p trop petites

Ce sont des conséquences graves !

Hypothèse 1 : Indépendance

Structure hiérarchique

Hypothèse 1 : Indépendance

Mesures répétées

Hypothèse 1 : Indépendance

Corrélation spatiale/temporelle

Hypothèse 2 : Homoscédasticité

Variance constante

La variance augmente

\[ \begin{align} y_i &\sim \mathrm{Normal}(\mu_i,~{\color{#D81B60}{\sigma}}) \\ \mu_i &= a + b x_i \end{align} \]

Hypothèse 2 : Homoscédasticité

Exemples

  • La variance augmente avec la moyenne
  • Données de comptage (abondance)
  • Processus allométriques
  • Taille du corps et métabolisme

Conséquences

  • Erreurs-types biaisées
  • Les IC et tests sont moins fiables
  • Moins grave que la non-indépendance

Hypothèse 3 : Normalité des résidus

Les résidus (pas les données brutes !) suivent une distribution normale

\[ \begin{align} y_i &\sim \mathrm{\color{#D81B60}{Normal}}(\mu_i,~{\sigma}) \\ \mu_i &= a + b x_i \end{align} \]

Hypothèse 3 : Normalité des résidus

Exemples

  • Données strictement positives (hauteurs, poids)
  • Données en pourcentage (entre 0 et 100%)
  • Données de comptage (abondance)
  • Probabilités (par ex. transects point-intercept)

Conséquences

  • Intervalles de confiance biaisés
  • Les valeurs p sont moins fiables
  • Moins grave que la non-indépendance ou l’hétéroscédasticité grave

Évaluation du modèle

Les hypothèses sont-elles violées ?

Puis-je me permettre d’utiliser lm() ?

Le paquet performance aide à décider :

library(performance)

m_spec <- lm(body_mass_g ~ species, data = penguins)

check_model(m_spec)

Évaluation du modèle

Évaluation du modèle : Indépendance

  • Aucun graphique ne peut aider pour cela
  • Comprenez vos données.
  • Y a-t-il une structure ?
  • Y a-t-il des groupes corrélés ?
  • Les individus sont-ils mesurés plusieurs fois ?
  • Y a-t-il une corrélation spatiale ou temporelle ?

Évaluation du modèle : Homoscédasticité

Homoscédastique

Évaluation du modèle : Homoscédasticité

Violation de l’homoscédasticité

Évaluation du modèle : Normalité

Graphique Quantile-Quantile (QQ)

  • Compare les quantiles observés aux quantiles théoriques d’une distribution normale
  • Si les points suivent la ligne : distribution normale
  • Écarts aux extrêmes : queues lourdes/légères
  • Motif en S : asymétrie

Évaluation du modèle : Normalité

Données réelles

  • Les données environnementales réelles violent souvent au moins une de ces hypothèses

  • Au lieu de faire des tests non paramétriques (forçant les données en rangs, par ex. Wilcoxon, Kruskal Wallis, etc.), les modèles linéaires peuvent être étendus

Données réelles

Avantages des modèles linéaires par rapport aux tests non paramétriques

  • Plus faciles à interpréter : les coefficients ont une signification biologique réelle

  • Nous modélisons les données réelles (grammes, mètres, comptages) au lieu des rangs (1er, 2e, 3e)

  • Les interactions (c’est-à-dire que l’effet d’une variable dépend d’une autre) sont possibles

  • Permettent les prédictions

  • Visualisations honnêtes avec IC et ampleur de l’effet

Les trois hypothèses clés

1. Indépendance

Les observations sont indépendantes les unes des autres

2. Homoscédasticité

La variance des résidus est constante

3. Normalité

Les résidus suivent une distribution normale

En cas de violation

Modèles à effets mixtes

(paquet glmmTMB)

Structure de variance

(paquets nlme & glmmTMB)

Modèles linéaires généralisés (GLM)

=> cours suivant

À vous de jouer

  1. Allez sur le site du cours
  2. Allez au calendrier
  3. Cliquez sur TP 05
  4. Connectez-vous à Posit Cloud