Résumé Partie 1

Notions de base en R

Objets et fonctions

Objets : Conteneurs pour des données, des modèles, des colonnes et des variables
Fonctions : Opérations exécutées sur des objets ; les arguments peuvent être nommés ou non (ordre par défaut appliqué)
Convention de nommage : data_votre_nom <- valeur
Opérateur pipe (%>%) : Passe la sortie d’une fonction comme entrée de la suivante

Visualisation des données avec ggplot2

Approche par couches : Construire des graphiques en ajoutant des couches séquentiellement
Couches essentielles : Données → esthétiques (aes()) → géométrie (geom_*())
Flexibilité : Combiner des données provenant de différents data frames dans un même graphique

Modèles statistiques

Qu’est-ce qu’un modèle ?

Une représentation probabiliste de la façon dont les données sont générées par des processus sous-jacents. Le modèle capture : - Composante systématique : Comment les variables explicatives prédisent la réponse - Composante aléatoire : Variance restante (résidus) supposée suivre une loi normale

Notation du modèle

\(y \sim \text{Normal}(\mu, \sigma)\) \(\mu = a + b \cdot x\)

En R : lm(response ~ explanatory_variables)

Concepts clés

Variable réponse : La variable que vous voulez expliquer/prédire.

Variables explicatives : Variables décrivant les processus sous-jacents : - Catégorielles (par ex., site, traitement, espèce) → tester les différences entre groupes - Numériques (par ex., température, âge) → tester des relations de dépendance

Types d’effet : - Additif (+) : Les variables agissent indépendamment - Interactif (*) : Une variable modifie l’effet d’une autre sur la réponse

Sorties du modèle

Sortie	Interprétation
p-value	Probabilité d’observer vos données si les variables explicatives n’avaient aucun effet. p < 0.05 → effet significatif
R²	Proportion de la variance de la réponse expliquée par le modèle (échelle 0–1)
Coefficients	Depuis `summary(model)` → intercept, pentes et leur signification
Tableau ANOVA	Depuis `anova(model)` → tester l’impact global de chaque variable explicative

Tests post-hoc

Après qu’une ANOVA ait trouvé un effet significatif, les tests post-hoc identifient quels groupes spécifiques diffèrent.

Problème des comparaisons multiples

Problème : Comparer de nombreux couples de groupes augmente les “faux positifs” (risque de conclure à tort à un effet)
Exemple : 3 groupes = 3 comparaisons par paires. Si chaque comparaison a un risque d’erreur de 5 %, le risque total ≈ 14 %
Solution : Appliquer un ajustement des p-values (ajouter une petite pénalité), adapté au nombre de comparaisons.

En R

estimate_contrasts(model, p_adjust = "tukey") fournit des p-values ajustées et des intervalles de confiance pour les comparaisons par paires.

Hypothèses du modèle

1. Indépendance

Chaque observation est statistiquement indépendante ; pas de structure cachée reliant les observations.

Violations : - Données hiérarchiques (réplicats dans des sites) - Mesures répétées du même individu - Autocorrélation spatiale (points proches plus semblables) - Autocorrélation temporelle (séries temporelles)

Vérification : Réfléchir à la manière dont les données ont été collectées.

2. Homoscedasticité (variance égale)

La variance (dispersion) des résidus est constante entre tous les groupes et valeurs prédites.

Le modèle suppose : \(y \sim \text{Normal}(\mu, \sigma)\) avec une seule valeur de σ pour l’ensemble des données.

Violations : La variance augmente/diminue selon le groupe ou les valeurs ajustées (ex. données hétéroscédastiques).

Vérification : Le graphique “Homogénéité des variances” doit montrer des points répartis uniformément autour de la ligne de référence ; pas de motif en entonnoir.

3. Normalité

Les résidus (erreurs restantes après le modèle) suivent une distribution normale.

Pourquoi : Le modèle linéaire dérive intervalles de confiance et p-values en supposant des erreurs normales.

Violations : Résidus fortement asymétriques, bimodaux ou avec des valeurs aberrantes extrêmes.

Vérification : Graphique Q-Q de normalité des résidus — les points doivent se situer le long de la ligne. De légères déviations sont acceptables ; des écarts majeurs posent problème.