_03-ex.Rmd


Pour ces exercices, nous allons utiliser les jeux de données `us_states` et `us_states_df` du paquetage **spData**.
Vous devez avoir chargé ce paquet, ainsi que les autres paquets utilisés dans le chapitre sur les opérations d'attributs (**sf**, **dplyr**, **terra**) avec des commandes telles que `library(spData)` avant de tenter ces exercices :

```{r 03-ex-e0, include=TRUE, message=FALSE}
library(sf)
library(dplyr)
library(terra)
library(spData)
data(us_states)
data(us_states_df)
```

`us_states` est un objet spatial (de classe `sf`), contenant la géométrie et quelques attributs (dont le nom, la région, la superficie et la population) des états des États-Unis contigus.
`us_states_df` est un tableau de données (de classe `data.frame`) contenant le nom et des variables supplémentaires (dont le revenu médian et le niveau de pauvreté, pour les années 2010 et 2015) des états américains, y compris l'Alaska, Hawaii et Porto Rico.
Les données proviennent du *United States Census Bureau*, et sont documentées dans `?us_states` et `?us_states_df`.

E1. Créez un nouvel objet appelé `us_states_name` qui ne contient que la colonne `NAME` de l'objet `us_states` en utilisant la syntaxe de base de R (`[`) ou du tidyverse (`select()`).
Quelle est la classe du nouvel objet et qu'est-ce qui le rend géographique ?

```{r 03-ex-e1}
us_states_name = us_states["NAME"]
class(us_states_name)
attributes(us_states_name)
attributes(us_states_name$geometry)
```

```{asis}
- Il est à la fois de classe `sf` et `data.frame` : il a 2 classes.
- C'est la classe `sf` qui en fait un objet géographique.
- Plus précisément, ce sont les attributs de l'objet (`sf_column`) et la colonne de géométrie (comme `bbox`, `crs`) qui vont le définir comme tel.
```

E2. Sélectionnez les colonnes de l'objet `us_states` qui contiennent des données sur la population.
Obtenez le même résultat en utilisant une commande différente (bonus : essayez de trouver trois façons d'obtenir le même résultat).
Indice : essayez d'utiliser les fonctions d'aide, telles que `contains` ou `matches` du paquet  **dplyr** (voir `?contains`).

```{r 03-ex-e2}
us_states %>% dplyr::select(total_pop_10, total_pop_15)

# or
us_states %>% dplyr::select(starts_with("total_pop"))

# or
us_states %>% dplyr::select(contains("total_pop"))

# or
us_states %>% dplyr::select(matches("tal_p"))
```

E3. Trouvez tous les États ayant les caractéristiques suivantes (bonus : trouvez *et* représentez-les) :

- Appartenir à la région du Midwest.
- Appartenir à la région Ouest, avoir une superficie inférieure à 250 000 km^2^ *et* en 2015 une population supérieure à 5 000 000 de résidents (indice : vous devrez peut-être utiliser la fonction `units::set_units()` ou `as.numeric()`).
- Appartenant à la région Sud, avoir une superficie supérieure à 150 000 km^2^ *et* une population totale en 2015 supérieure à 7 000 000 de résidents.

```{r 03-ex-e3}
us_states %>% 
  filter(REGION == "Midwest")

us_states %>% filter(REGION == "West", AREA < units::set_units(250000, km^2),total_pop_15 > 5000000)
# or
us_states %>% filter(REGION == "West", as.numeric(AREA) < 250000,total_pop_15 > 5000000)

us_states %>% filter(REGION == "South", AREA > units::set_units(150000, km^2), total_pop_15 > 7000000)
# or
us_states %>% filter(REGION == "South", as.numeric(AREA) > 150000, total_pop_15 > 7000000)
```

E4. Quelle était la population totale en 2015 dans l'ensemble de données `us_states` ?
Quel était le minimum et le maximum de la population totale en 2015 ?

```{r 03-ex-e4}
us_states %>% summarize(total_pop = sum(total_pop_15),
                        min_pop = min(total_pop_15),
                        max_pop = max(total_pop_15))
```

E5. Combien d'États y a-t-il dans chaque région ?

```{r 03-ex-e5}
us_states %>%
  group_by(REGION) %>%
  summarize(nr_of_states = n())
```

E6. Quelle était la population totale minimale et maximale en 2015 dans chaque région ?
Quelle était la population totale en 2015 dans chaque région ?

```{r 03-ex-e6}
us_states %>%
  group_by(REGION) %>%
  summarize(min_pop = min(total_pop_15),
            max_pop = max(total_pop_15),
            tot_pop = sum(total_pop_15))
```

E7. Effectuez une jointure entre les variables de `us_states_df` à `us_states`, et créez un nouvel objet appelé `us_states_stats`.
Quelle fonction avez-vous utilisée et pourquoi ?
Quelle variable est la clé dans les deux ensembles de données ?
Quelle est la classe du nouvel objet ?

```{r 03-ex-e7}
us_states_stats = us_states %>%
  left_join(us_states_df, by = c("NAME" = "state"))
class(us_states_stats)
```

E8. `us_states_df` a deux lignes de plus que `us_states`.
Comment pouvez-vous les trouver ? (indice : essayez d'utiliser la fonction `dplyr::anti_join()`)

```{r 03-ex-e8}
us_states_df %>%
  anti_join(st_drop_geometry(us_states), by = c("state" = "NAME"))
```

E9. Quelle était la densité de la population en 2015 dans chaque État ?
Quelle était la densité de la population en 2010 dans chaque État ?

```{r 03-ex-e9}
us_states2 = us_states %>%
  mutate(pop_dens_15 = total_pop_15/AREA,
         pop_dens_10 = total_pop_10/AREA)
```

E10. Estimez le changement de la densité de la population entre 2010 et 2015 dans chaque État.
Calculez ce changement en pourcentages et cartographiez-les.

```{r 03-ex-e10}
us_popdens_change = us_states2 %>%
  mutate(pop_dens_diff_10_15 = pop_dens_15 - pop_dens_10,
         pop_dens_diff_10_15p = (pop_dens_diff_10_15/pop_dens_15) * 100)
plot(us_popdens_change["pop_dens_diff_10_15p"])
```

E11. Changez les noms des colonnes dans `us_states` en minuscules. (Indice : les fonctions d'aide - `tolower()` et `colnames()` peuvent vous aider).

```{r 03-ex-e11}
us_states %>%
  setNames(tolower(colnames(.)))
```

E12. En utilisant `us_states` et `us_states_df`, créez un nouvel objet appelé `us_states_sel`.
Ce nouvel objet ne doit avoir que deux variables - `median_income_15` et `geometry`.
Changez le nom de la colonne `median_income_15` en `Income`.

```{r 03-ex-e12}
us_states_sel = us_states %>%
  left_join(us_states_df, by = c("NAME" = "state")) %>%
  dplyr::select(Income = median_income_15)
```

E13. Calculez l'évolution du nombre de résidents vivant sous le seuil de pauvreté entre 2010 et 2015 pour chaque État. (Conseil : voir ?us_states_df pour la documentation sur les colonnes traitant du niveau de pauvreté).
Bonus : Calculez l'évolution du *pourcentage* de résidents vivant sous le seuil de pauvreté dans chaque État.

```{r 03-ex-e13}
us_pov_change = us_states %>%
  left_join(us_states_df, by = c("NAME" = "state")) %>%
  mutate(pov_change = poverty_level_15 - poverty_level_10)
 
# Bonus
us_pov_pct_change = us_states %>%
  left_join(us_states_df, by = c("NAME" = "state")) %>%
  mutate(pov_pct_10 = (poverty_level_10 / total_pop_10) * 100, pov_pct_15 = (poverty_level_15 / total_pop_15) * 100) %>%
  mutate(pov_pct_change = pov_pct_15 - pov_pct_10)
```

E13. Calculez l'évolution du nombre de résidents vivant sous le seuil de pauvreté entre 2010 et 2015 pour chaque État. (Conseil : voir ?us_states_df pour la documentation sur les colonnes traitant du niveau de pauvreté).
Bonus : Calculez l'évolution du *pourcentage* de résidents vivant sous le seuil de pauvreté dans chaque État.

```{r 03-ex-e14}
us_pov_change_reg = us_pov_change %>%
  group_by(REGION) %>%
  summarize(min_state_pov_15 = min(poverty_level_15),
            mean_state_pov_15 = mean(poverty_level_15),
            max_state_pov_15 = max(poverty_level_15))

# Bonus
us_pov_change %>%
  group_by(REGION) %>%
  summarize(region_pov_change = sum(pov_change)) %>%
  filter(region_pov_change == max(region_pov_change)) %>%
  pull(REGION) %>%
  as.character()
```

E15. Créez un raster à partir de zéro avec neuf lignes et colonnes et une résolution de 0,5 degré décimal (WGS84).
Remplissez-le de nombres aléatoires.
Sélectionnez les valeurs des cellules de chaque coin. 

```{r 03-ex-e15}
r = rast(nrow = 9, ncol = 9, res = 0.5,
         xmin = 0, xmax = 4.5, ymin = 0, ymax = 4.5,
         vals = rnorm(81))
# using cell IDs
r[c(1, 9, 81 - 9 + 1, 81)]
r[c(1, nrow(r)), c(1, ncol(r))]
```

E16. Quelle est la classe la plus commune de notre exemple de raster `grain` (indice : `modal`) ?

```{r 03-ex-e16}
grain = rast(system.file("raster/grain.tif", package = "spData"))
global(grain, fun = modal) # une seule valeur est représenté en cas d'egalité
freq(grain) # les categories les plus présentes sont silt et sand 
```

E17. Utilisez un histogramme et un boxplot sur le fichier `dem.tif` du paquet **spDataLarge** (`system.file("raster/dem.tif", package = "spDataLarge")`). 

```{r 03-ex-e17}
dem = rast(system.file("raster/dem.tif", package = "spDataLarge"))
hist(dem)
boxplot(dem)

# Nous pouvons également utiliser ggplot2 après avoir converti SpatRaster en tableau de données.
library(ggplot2)
ggplot(as.data.frame(dem), aes(dem)) + geom_histogram()
ggplot(as.data.frame(dem), aes(dem)) + geom_boxplot()
```