src/04-readr.html

<!DOCTYPE html>
<html lang="" xml:lang="">
  <head>
    <title>readr</title>
    <meta charset="utf-8" />
    <meta name="author" content="Alberto Torres Barrán" />
    <meta name="date" content="2021-02-01" />
    <link href="libs/remark-css-0.0.1/default.css" rel="stylesheet" />
    <link rel="stylesheet" href="custom.css" type="text/css" />
  </head>
  <body>
    <textarea id="source">
class: center, middle, inverse, title-slide

# readr
## Entornos de Análisis de Datos: R
### Alberto Torres Barrán
### 2021-02-01

---

<script type="text/x-mathjax-config">
MathJax.Hub.Config({
  TeX: {
    Macros: {
      Xcal: "{\\mathcal{X}}",
      Xbf: "{\\mathbf{X}}",
      Qbf: "{\\mathbf{Q}}",
      Zbf: "{\\mathbf{Z}}",
      Vbf: "{\\mathbf{V}}",
      Hbf: "{\\mathbf{H}}",
      Rbb: "{\\mathbb{R}}"
    },
    extensions: ["AMSmath.js","AMSsymbols.js"]
  }
});
</script>


## Introducción

- Paquete para importar y exportar ficheros de texto
- Importar datos:
    + `read_csv()`, para ficheros CSV
    + `read_csv2()`, para ficheros CSV separados por ";"
    + `read_delim()`, para ficheros ASCII delimitados por otros caracteres distintos de "," y ";"
    + `read_tsv()`, para ficheros ASCII delimitados por tabuladores
    + `read_table()`, para ficheros ASCII delimitados por espacios

- Exportar datos: `write_csv()`. `write_csv2()`, etc.

- Más información: [*vignette* readr](https://readr.tidyverse.org/articles/readr.html)

---

## Ejemplo


```r
write_csv(mpg, "mpg.csv")
mpg1 &lt;- read_csv("mpg.csv")
head(mpg1)
## # A tibble: 6 x 11
##   manufacturer model displ  year   cyl trans      drv     cty   hwy fl    class  
##   &lt;chr&gt;        &lt;chr&gt; &lt;dbl&gt; &lt;dbl&gt; &lt;dbl&gt; &lt;chr&gt;      &lt;chr&gt; &lt;dbl&gt; &lt;dbl&gt; &lt;chr&gt; &lt;chr&gt;  
## 1 audi         a4      1.8  1999     4 auto(l5)   f        18    29 p     compact
## 2 audi         a4      1.8  1999     4 manual(m5) f        21    29 p     compact
## 3 audi         a4      2    2008     4 manual(m6) f        20    31 p     compact
## 4 audi         a4      2    2008     4 auto(av)   f        21    30 p     compact
## 5 audi         a4      2.8  1999     6 auto(l5)   f        16    26 p     compact
## 6 audi         a4      2.8  1999     6 manual(m5) f        18    26 p     compact
```

---

## Directorio de trabajo

- Directorio donde apunta RStudio
    
    ```r
    getwd()
    ## [1] "C:/Users/alberto/Desktop/curso-analisis-datos-R/src"
    ```

- Se puede cambiar con `setwd()` 

- Normalmente es el directorio que aparece en la pestaña `Files` de RStudio 

  1. Se puede cambiar de directorio haciendo click en `...`
  
  2. Se puede asignar ese nuevo directorio como directorio de trabajo con `More &gt; Set as working directory`

- Directorio por defecto donde se buscan los ficheros a importar

- Alternativamente, podemos especificar el la ruta completa o la ruta relativa:

  1. `.` hace referencia al directorio actual

  2. `..` hace referencia al directorio anterior

---

## Parámetros opcionales

- `col_names`, si TRUE, la primera fila es el nombre de las variables. También se le puede pasar un vector de cadenas de caracteres con los nombres

- `delim`, carácter que separa las columnas (solo en `read_delim()`)

- `na`, vector con cadenas que se interpretan como missing values. Por defecto `NA` y la cadena vacía

- `col_types`, vector de clases para las columnas (ver documentación de `col()`). Por defecto se intenta adivinar el tipo de cada columna a partir de las 1000 primeras líneas.

- `n_max`, número máximo de líneas a leer del fichero

- `skip`, número de líneas a ignorar al princpio del fichero

- `locale`, parámetro que nos permite cambiar el enconding, separador decimal y formato de fechas (ver documentación de `locale()`)

&lt;!--
- `comment`, una cadena de caracteres que identifica líneas de texto a ignorar (comentarios)

- `trim_ws`, si vale TRUE, se eliminan los espacios en blanco al principio y al final de cada campo
--&gt;

---

## Funciones de R base

- Es muy importante no confundir las funciones de R base `read.csv`, `read.csv2`, `read.table`, etc., con su equivalente de `readr`

- Similitudes:

  1. mismo nombre, pero cambiando la `_` por `.`
  
  2. realizan la misma operación básica, importar un fichero de texto en R
  
- Diferencias: 

  1. nombre de los parámetros opcionales
  
  2. tipo de retorno (`data.frame` vs `tibble`)
  
  3. funciones de `readr` son más rápidas
  
  
- Se recomienda usar las funciones de la librería `readr`

---

## Ejemplos accidentes bicicletas Madrid

.small[
[Fuente](https://datos.madrid.es/portal/site/egob/menuitem.c05c1f754a33a9fbe4b2e4b284f1a5a0/?vgnextoid=20f4a87ebb65b510VgnVCM1000001d4a900aRCRD&amp;vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD&amp;vgnextfmt=default)
]


```r
accidentes &lt;- read_csv2('../data/AccidentesBicicletas_2017.csv', 
                        skip = 2, locale = locale(encoding = 'latin1'))
```


```r
head(accidentes, 4)
## # A tibble: 4 x 8
##   Fecha `TRAMO HORARIO` `Nm Tot Victima~ DISTRITO Lugar Numero `Tipo Accidente`
##   &lt;chr&gt; &lt;chr&gt;                      &lt;dbl&gt; &lt;chr&gt;    &lt;chr&gt;  &lt;dbl&gt; &lt;chr&gt;           
## 1 01/0~ DE 6:00 A 6:59                 1 ARGANZU~ CALL~    120 CHOQUE CON OBJE~
## 2 02/0~ DE 21:00 A 21:~                1 SAN BLAS CALL~     14 CAÍDA BICICLETA 
## 3 03/0~ DE 19:00 A 19:~                1 CENTRO   CALL~      8 CAÍDA BICICLETA 
## 4 04/0~ DE 21:00 A 21:~                1 CENTRO   CALL~     13 CAÍDA BICICLETA 
## # ... with 1 more variable: `Tipo Vehiculo` &lt;chr&gt;
```

---

## Ejemplos jugadores mundial

.small[
[Fuente](https://opendata.stackexchange.com/questions/1791/any-open-data-sets-for-the-football-world-cup-in-brazil-2014)
]


```r
worldcup &lt;- read_tsv('../data/worldcupplayerinfo_20140701.tsv')
```

---


```r
worldcup &lt;- read_tsv('../data/worldcupplayerinfo_20140701.tsv', 
*                    col_types = list("X11" = col_skip(), "X12" = col_skip()))

worldcup
## # A tibble: 736 x 10
##    Group Country  Rank Jersey Position   Age Selections Club         Player   Captain
##    &lt;chr&gt; &lt;chr&gt;   &lt;dbl&gt;  &lt;dbl&gt; &lt;chr&gt;    &lt;dbl&gt;      &lt;dbl&gt; &lt;chr&gt;        &lt;chr&gt;    &lt;chr&gt;  
##  1 A     Brazil      3      1 Goalie      31          9 Botafogo     Jeffers~ 0      
##  2 A     Brazil      3     12 Goalie      34         80 Toronto FC   Julio C~ 0      
##  3 A     Brazil      3     22 Goalie      31          6 Atletico Mi~ Victor   0      
##  4 A     Brazil      3      2 Defender    31         75 Barcelona    Dani Al~ 0      
##  5 A     Brazil      3     13 Defender    30         12 Bayern Muni~ Dante    0      
##  6 A     Brazil      3      4 Defender    27         36 Chelsea      David L~ 0      
##  7 A     Brazil      3     15 Defender    27          5 Napoli       Henrique 0      
##  8 A     Brazil      3     23 Defender    32         72 Roma         Maicon   0      
##  9 A     Brazil      3      6 Defender    26         31 Real Madrid  Marcelo  0      
## 10 A     Brazil      3     14 Defender    32          9 Paris Saint~ Maxwell  0      
## # ... with 726 more rows
```

---

## Ejemplo espacios

.small[
[Fuente](https://github.com/tidyverse/readr/blob/master/inst/extdata/massey-rating.txt) (ligeramente modificado)
]


```r
massey &lt;- read_table('../data/massey-rating.txt')
```

---


```r
massey
## # A tibble: 10 x 11
##      UCC   PAY   LAZ   KPK RT      COF   BIH   DII ACU   Team         Conf 
##    &lt;dbl&gt; &lt;dbl&gt; &lt;dbl&gt; &lt;dbl&gt; &lt;chr&gt; &lt;dbl&gt; &lt;dbl&gt; &lt;dbl&gt; &lt;chr&gt; &lt;chr&gt;        &lt;chr&gt;
##  1     1     1     1     1 1         1     1     1 1     Ohio St      B10  
##  2     2     2     2     2 2         2     2     2 2     Oregon       P12  
*##  3     3     4     3     4 -         4     3     4 3     Alabama      SEC  
##  4     4     3     4     3 4         3     5     3 4     TCU          B12  
*##  5     6     6     6     5 5         7     6     5 -     Michigan St  B10  
##  6     7     7     7     6 7         6    11     8 8     Georgia      SEC  
##  7     5     5     5     7 -         8     4     6 5     Florida St   ACC  
##  8     8     8     9     9 10        5     7     7 7     Baylor       B12  
##  9     9    11     8    13 11       11    12     9 -     Georgia Tech ACC  
## 10    13    10    13    11 8         9    10    11 10    Mississippi  SEC
```

---


```r
massey &lt;- read_table('../data/massey-rating.txt', na = c("-"))
```


```r
massey
## # A tibble: 10 x 11
##      UCC   PAY   LAZ   KPK    RT   COF   BIH   DII   ACU Team         Conf 
##    &lt;dbl&gt; &lt;dbl&gt; &lt;dbl&gt; &lt;dbl&gt; &lt;dbl&gt; &lt;dbl&gt; &lt;dbl&gt; &lt;dbl&gt; &lt;dbl&gt; &lt;chr&gt;        &lt;chr&gt;
##  1     1     1     1     1     1     1     1     1     1 Ohio St      B10  
##  2     2     2     2     2     2     2     2     2     2 Oregon       P12  
##  3     3     4     3     4    NA     4     3     4     3 Alabama      SEC  
##  4     4     3     4     3     4     3     5     3     4 TCU          B12  
##  5     6     6     6     5     5     7     6     5    NA Michigan St  B10  
##  6     7     7     7     6     7     6    11     8     8 Georgia      SEC  
##  7     5     5     5     7    NA     8     4     6     5 Florida St   ACC  
##  8     8     8     9     9    10     5     7     7     7 Baylor       B12  
##  9     9    11     8    13    11    11    12     9    NA Georgia Tech ACC  
## 10    13    10    13    11     8     9    10    11    10 Mississippi  SEC
```

---

## Libreria readxl

  * Fichero de ejemplo que viene con la librería
    
    ```r
    library(readxl)
    excel_ex &lt;- readxl_example("datasets.xlsx")
    excel_ex
    ## [1] "C:/Users/alberto/Documents/R/win-library/4.0/readxl/extdata/datasets.xlsx"
    ```

  * Podemos listar las hojas de un fichero Excel:
    
    ```r
    excel_sheets(excel_ex)
    ## [1] "iris"     "mtcars"   "chickwts" "quakes"
    ```

  * Leer como tibble/dataframe:
    
    ```r
    cars &lt;- read_excel(excel_ex, sheet = "mtcars")
    head(cars)
    ## # A tibble: 6 x 11
    ##     mpg   cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb
    ##   &lt;dbl&gt; &lt;dbl&gt; &lt;dbl&gt; &lt;dbl&gt; &lt;dbl&gt; &lt;dbl&gt; &lt;dbl&gt; &lt;dbl&gt; &lt;dbl&gt; &lt;dbl&gt; &lt;dbl&gt;
    ## 1  21       6   160   110  3.9   2.62  16.5     0     1     4     4
    ## 2  21       6   160   110  3.9   2.88  17.0     0     1     4     4
    ## 3  22.8     4   108    93  3.85  2.32  18.6     1     1     4     1
    ## 4  21.4     6   258   110  3.08  3.22  19.4     1     0     3     1
    ## 5  18.7     8   360   175  3.15  3.44  17.0     0     0     3     2
    ## 6  18.1     6   225   105  2.76  3.46  20.2     1     0     3     1
    ```

---

## Parámetros útiles

 - `range`: rango de celdas a importar, en lugar de la hoja completa (por ejemplo: "C3:F14")
 
 - `sheet`: número o nombre de la hoja a leer. Por defecto la primera
 
 - `col_names`: `TRUE` si la primera fila contiene los nombres de las columnas

 - `na`: vector con cadenas que se interpretan como missing values. Por defecto celdas vacias
 
 - `col_types`: tipo de cada columna. Por defecto se intenta inferir de los datos. Posibles valores: "skip", "guess", "logical", "numeric", "date", "text" or "list"

---

## Otros formatos

- `readr` y `readxl` solo tienen funciones para importar ficheros de texto/Excel

- Para otros formatos, existen librerías específicas:

  + `haven`, para ficheros de SPSS, Stata y SaS
    
  + `DBI` junto con otro paquete específico dependiendo de la BD (`RMySQL`, `RSQLite`, etc.) nos permite hacer *querys* contra una BD
    
  + `jsonlite`, para ficheros JSON
    
  + `xml2`, para ficheros XML
    </textarea>
<style data-target="print-only">@media screen {.remark-slide-container{display:block;}.remark-slide-scaler{box-shadow:none;}}</style>
<script src="https://remarkjs.com/downloads/remark-latest.min.js"></script>
<script src="macros.js"></script>
<script>var slideshow = remark.create({
"highlightStyle": "github",
"highlightLines": true,
"countIncrementalSlides": false
});
if (window.HTMLWidgets) slideshow.on('afterShowSlide', function (slide) {
  window.dispatchEvent(new Event('resize'));
});
(function(d) {
  var s = d.createElement("style"), r = d.querySelector(".remark-slide-scaler");
  if (!r) return;
  s.type = "text/css"; s.innerHTML = "@page {size: " + r.style.width + " " + r.style.height +"; }";
  d.head.appendChild(s);
})(document);

(function(d) {
  var el = d.getElementsByClassName("remark-slides-area");
  if (!el) return;
  var slide, slides = slideshow.getSlides(), els = el[0].children;
  for (var i = 1; i < slides.length; i++) {
    slide = slides[i];
    if (slide.properties.continued === "true" || slide.properties.count === "false") {
      els[i - 1].className += ' has-continuation';
    }
  }
  var s = d.createElement("style");
  s.type = "text/css"; s.innerHTML = "@media print { .has-continuation { display: none; } }";
  d.head.appendChild(s);
})(document);
// delete the temporary CSS (for displaying all slides initially) when the user
// starts to view slides
(function() {
  var deleted = false;
  slideshow.on('beforeShowSlide', function(slide) {
    if (deleted) return;
    var sheets = document.styleSheets, node;
    for (var i = 0; i < sheets.length; i++) {
      node = sheets[i].ownerNode;
      if (node.dataset["target"] !== "print-only") continue;
      node.parentNode.removeChild(node);
    }
    deleted = true;
  });
})();
(function() {
  "use strict"
  // Replace <script> tags in slides area to make them executable
  var scripts = document.querySelectorAll(
    '.remark-slides-area .remark-slide-container script'
  );
  if (!scripts.length) return;
  for (var i = 0; i < scripts.length; i++) {
    var s = document.createElement('script');
    var code = document.createTextNode(scripts[i].textContent);
    s.appendChild(code);
    var scriptAttrs = scripts[i].attributes;
    for (var j = 0; j < scriptAttrs.length; j++) {
      s.setAttribute(scriptAttrs[j].name, scriptAttrs[j].value);
    }
    scripts[i].parentElement.replaceChild(s, scripts[i]);
  }
})();
(function() {
  var links = document.getElementsByTagName('a');
  for (var i = 0; i < links.length; i++) {
    if (/^(https?:)?\/\//.test(links[i].getAttribute('href'))) {
      links[i].target = '_blank';
    }
  }
})();
// adds .remark-code-has-line-highlighted class to <pre> parent elements
// of code chunks containing highlighted lines with class .remark-code-line-highlighted
(function(d) {
  const hlines = d.querySelectorAll('.remark-code-line-highlighted');
  const preParents = [];
  const findPreParent = function(line, p = 0) {
    if (p > 1) return null; // traverse up no further than grandparent
    const el = line.parentElement;
    return el.tagName === "PRE" ? el : findPreParent(el, ++p);
  };

  for (let line of hlines) {
    let pre = findPreParent(line);
    if (pre && !preParents.includes(pre)) preParents.push(pre);
  }
  preParents.forEach(p => p.classList.add("remark-code-has-line-highlighted"));
})(document);</script>

<script>
slideshow._releaseMath = function(el) {
  var i, text, code, codes = el.getElementsByTagName('code');
  for (i = 0; i < codes.length;) {
    code = codes[i];
    if (code.parentNode.tagName !== 'PRE' && code.childElementCount === 0) {
      text = code.textContent;
      if (/^\\\((.|\s)+\\\)$/.test(text) || /^\\\[(.|\s)+\\\]$/.test(text) ||
          /^\$\$(.|\s)+\$\$$/.test(text) ||
          /^\\begin\{([^}]+)\}(.|\s)+\\end\{[^}]+\}$/.test(text)) {
        code.outerHTML = code.innerHTML;  // remove <code></code>
        continue;
      }
    }
    i++;
  }
};
slideshow._releaseMath(document);
</script>
<!-- dynamically load mathjax for compatibility with self-contained -->
<script>
(function () {
  var script = document.createElement('script');
  script.type = 'text/javascript';
  script.src  = 'https://mathjax.rstudio.com/latest/MathJax.js?config=TeX-MML-AM_CHTML';
  if (location.protocol !== 'file:' && /^https?:/.test(script.src))
    script.src  = script.src.replace(/^https?:/, '');
  document.getElementsByTagName('head')[0].appendChild(script);
})();
</script>
  </body>
</html>