coral_by_site <- coral_transects %>%
group_by(____, ____) %>%
summarise(percent_cover = mean(____))Indications pour TP 05
Je vous donne ici de l’aide au cas où vous auriez du mal à résoudre les tâches. Veuillez d’abord essayer de résoudre les tâches sans ces indications. Toutes les informations dont vous avez besoin se trouvent dans le document .qmd que je vous ai partagé.
Tâche 1
Regroupez les données par site et coast et calculez la moyenne de la colonne percent_cover :
Dans group_by(), vous voulez regrouper par deux colonnes : site et coast. Ajoutez simplement les deux noms séparés par une virgule.
Dans mean(), vous voulez calculer la moyenne de la colonne percent_cover.
La solution complète :
coral_by_site <- coral_transects %>%
group_by(site, coast) %>%
summarise(percent_cover = mean(percent_cover))Tâche 2
Que remarquez-vous lors de la comparaison des valeurs p de m_wrong et m_right ?
Regardez les valeurs p dans la sortie ANOVA : - m_wrong montre probablement une valeur p beaucoup plus petite (plus « significative ») - m_right montre une valeur p plus grande (peut-être pas significative)
Pourquoi ? Parce que m_wrong traite chaque transect comme indépendant, gonflant artificiellement la taille de l’échantillon de 13 sites à 39 mesures. Cela donne au modèle un faux sentiment de confiance et réduit la valeur p.
m_right reconnaît correctement que vous n’avez que 13 sites indépendants, pas 39 mesures. C’est l’approche honnête !
Tâche 3
Pourquoi pensez-vous que les IC dans m_wrong sont tellement plus petits que dans m_right ?
Les intervalles de confiance (IC) dans m_wrong sont beaucoup plus étroits parce que :
- Taille d’échantillon gonflée : Le modèle pense qu’il a 39 observations indépendantes alors qu’il n’a réellement que 13 sites indépendants
- Variance sous-estimée : En ne tenant pas compte du regroupement des transects au sein des sites, le modèle sous-estime la vraie variabilité dans les données
- Fausse précision : Des IC plus étroits suggèrent des estimations plus précises, mais cette précision est illusoire
En revanche, m_right tient correctement compte du vrai nombre d’observations indépendantes (13 sites) et produit donc des intervalles de confiance plus larges et plus honnêtes qui reflètent l’incertitude réelle dans les données.
Leçon clé : La pseudoréplication conduit à une confiance excessive dans vos résultats !
Tâche 4
Créez un modèle avec flipper_length_mm comme variable réponse et body_mass_g comme variable explicative, puis tracez le graphique de variance :
m_gentoo <- lm(____ ~ _____, data = penguins_gentoo)
check_model(m_gentoo, check = "homogeneity")Que voulez-vous prédire ? flipper_length_mm est votre variable réponse (vient avant ~). Qu’est-ce qui explique la variation dans la longueur des nageoires ? body_mass_g est votre variable explicative (vient après ~).
Solution complète :
m_gentoo <- lm(flipper_length_mm ~ body_mass_g, data = penguins_gentoo)
check_model(m_gentoo, check = "homogeneity")Regardez le graphique : Les résidus se dispersent-ils également sur l’axe des x, ou la dispersion augmente/diminue-t-elle quelque part ? Si vous voyez une forme d’entonnoir (s’élargissant), c’est de l’hétéroscédasticité !
Tâche 5
Pour chacun des trois modèles (m_poci, m_cover, m_ancova), évaluez si une hypothèse principale a été violée. Pensez-vous qu’il est correct d’utiliser le modèle ?
Tous les modèles peuvent être utilisés, mais les résidus dans m_gentoo sont à la limite de ne pas être distribués normalement.
