Indications pour TP 01

Auteur·rice

Andreas Eich

Mis à jour

02.02.2025

Je vous donne ici de l’aide au cas où vous auriez du mal à résoudre les tâches. Veuillez d’abord essayer de résoudre les tâches sans ces indications. Toutes les informations dont vous avez besoin se trouvent dans le document .qmd que je vous ai partagé.

Tâche 1

Utilisez le chunk de code R ci-dessous et remplacez ____ par le nom du cadre de données (penguins). Lorsque vous exécutez le chunk, vous verrez les premières lignes :

head(____)

Afficher l’indice

head() est une fonction. Pour l’utiliser, vous mettez le nom de l’ensemble de données entre les parenthèses. Le nom de l’ensemble de données est penguins, donc vous voulez remplacer ____ par ce nom.

Vérification d’apprentissage 1

Que contient chaque ligne dans penguins ?

Données pour tous les manchots sur une île spécifique, par exemple Biscoe
Données pour tous les manchots d’une espèce, par exemple Adélie
Données pour un seul manchot

Afficher l’indice

Essayez d’imaginer comment les chercheurs ont entré les données. Quelle serait l’unité d’observation naturelle pour les biologistes de terrain ?

Tâche 2

Sélectionnez la colonne bill_length_mm du cadre de données penguins :

____$____

Afficher l’indice

Le nom de l’ensemble de données est penguins, et vous voulez accéder à une colonne appelée bill_length_mm. Ainsi, d’abord, vous dites à R le nom des données, puis, que vous voulez accéder à une colonne ($), et ensuite vous donnez le nom de la colonne (bill_length_mm).

Tâche 3

Calculez les valeurs minimale, maximale et moyenne pour bill_length_mm :

min(____$____)
max(____$____)
mean(____$____)

Afficher l’indice

Ci-dessus, vous avez appris comment accéder à une colonne dans un cadre de données avec l’opérateur $. Utilisez la même méthode ici, c.-à-d. Insérez dans chaque fonction d’abord le nom du cadre de données (penguins), puis utilisez $ pour accéder à la colonne bill_length_mm.

Tâche 4

Regroupez les données par species et sex avant de calculer la moyenne de bill_length_mm :

penguins %>% # 1. Prendre l'ensemble de données des manchots
  group_by(species, ____) %>% # 2. Le regrouper par espèce et sexe
  summarize(mean_bill_length_mm = mean(bill_length_mm)) # 3. créer une nouvelle colonne appelée "mean_bill_length_mm" et attribuer les valeurs moyennes de chaque groupe

Afficher l’indice

group_by() fonctionne avec plusieurs variables de regroupement. Vous pouvez simplement ajouter sex pour regrouper les données également par sexe. La moyenne (étape 3) sera ensuite calculée pour les combinaisons des deux groupes.

Tâche 5

Regroupez les données par species et sex et en plus de la valeur moyenne et minimale de bill_length_mm, calculez la valeur maximale. Indice : Si vous créez des colonnes en R, elles ne peuvent pas contenir d’espaces ni de traits d’union -.

penguins %>% # 1. Prendre l'ensemble de données des manchots
  group_by(species, ____) %>% # 2. Le regrouper par espèce et sexe
  summarize(
    mean_bill_length_mm = mean(bill_length_mm), # 3.1. créer une nouvelle colonne appelée "mean_bill_length_mm" et attribuer les valeurs moyennes de chaque groupe
    min_bill_length_mm = min(bill_length_mm), # 3.2. créer une nouvelle colonne appelée "min_bill_length_mm" et attribuer les valeurs minimales de chaque groupe
    ____ = ____(____) # 3.3. créer une nouvelle colonne appelée "max_bill_length_mm" et attribuer les valeurs maximales de chaque groupe
  )

Afficher l’indice

Comme dans la Tâche 4, regroupez les données également par sex. À l’étape 3.3, vous pouvez maintenant calculer la valeur maximale de bill_length_mm. Le nom à gauche de = est le nom de la nouvelle colonne que vous allez créer. Appelez cette colonne max_bill_length_mm. Souvenez-vous que vous créez une nouvelle colonne avant le =. Utilisez ensuite la fonction max() pour calculer la valeur maximale de bill_length_mm.

Vérification d’apprentissage 2

Pourquoi pensez-vous qu’il est dangereux de faire ce qui suit :

penguins <- penguins %>%
  filter(species == "Adelie")

Afficher l’indice

Avec la fonction filter, vous ne conservez qu’un sous-ensemble des données. Vous remplaceriez l’ensemble de données entier par une seule espèce. Pensez à ce qui se passerait dans les tâches ultérieures.

Tâche 6

Créez un nouveau sous-ensemble des données. Utilisez un nom raisonnable pour le nouvel ensemble de données. Filtrez pour exclure les manchots Adélie (avec !=, voir ci-dessus), et un body_mass_g inférieur ou égal à 4000 g :

____ <- ____ %>%
  filter(____, ____)

Afficher l’indice

D’abord, sélectionnez un nom raisonnable pour le nouveau sous-ensemble de données que vous créez. Ce nom devrait refléter la façon dont vous avez filtré les données originales. penguins_chinstrap_entoo_light, peng_not_adelie_below4kg, etc. fonctionneraient.

Ensuite (après <-), vous devez donner l’ensemble de données que vous voulez filtrer (penguins).

Dans la fonction filter, vous voulez d’abord exclure tous les manchots Adélie. Pensez à cela comme « les entrées dans la colonne species ne sont pas égales à (!=) Adélie ». Rappelez-vous que le texte en R doit être enveloppé avec "".

Comme deuxième étape de filtrage, conservez uniquement les manchots en dessous ou égaux à 4000 g. Pensez à cela comme « les entrées dans la colonne body_mass_g sont plus petites ou égales à (<=) 4000 g ». Rappelez-vous que les nombres n’ont pas besoin d’être enveloppés avec "".

Rappelez-vous que chaque condition à l’intérieur de filter() est séparée par une virgule.

Tâche 7

Utilisez str() pour l’ensemble de données penguins :

str(____)

Afficher l’indice

str() montre la structure d’un cadre de données : types de variables, longueurs, etc. Vous devez insérer le nom de l’ensemble de données (penguins) dans la fonction str().

Tâche 8

Utilisez levels() ci-dessous, pour voir les niveaux de penguins$island :

levels(____$____)

Afficher l’indice

levels() affiche toutes les catégories possibles dans un facteur. Ceci est utile avant de tracer ou de modéliser des variables catégoriques. Vous devez insérer le nom de l’ensemble de données et de la colonne dans la fonction levels(). Rappelez-vous que vous pouvez accéder à une colonne avec l’opérateur $.