Repositorio de acompañamiento a "¿Cómo puedo preparar mi texto digital para su estudio? Extracción (web scraping), limpieza y marcado automático de corpus"

La finalidad de este repositorio es complementar al capítulo de las siguientes formas:

Dar detalles para los cuales no había espacio en el capítulo (p. ej. capturas de pantalla adicionales)
Proporcionar los ejemplos de código en formato fácilmente copiable
Abordar nuevas operaciones de extracción para las cuales no había espacio en el capítulo, como la extracción de información desde fuentes documentos XML y JSON con OpenRefine y diversos tipos de extracciones con el lenguaje Python
También se aborda el marcado con lenguajes de estructuración de contenido (p. ej. XML) de la información extraída (cuya extracción se efectuó en formatos delimitados como CSV o TSV y en texto plano)

El repositorio está estructurado como sigue:

Una primera parte cubre la extracción con OpenRefine, como complemento a lo que se ha visto en el capítulo
Una segunda parte cubre la extracción con el lenguaje de programación Python, que no se ha abordado en el capítulo
La tercera parte aborda el marcado automático de la información extraída, usando lenguajes de estructuración de datos (p. ej. XML)

Name		Name	Last commit message	Last commit date
Latest commit History 38 Commits
01-extraccion-con-openrefine		01-extraccion-con-openrefine
02-extraccion-con-python		02-extraccion-con-python
03-marcado-automatico		03-marcado-automatico
.gitignore		.gitignore
README.md		README.md

Provide feedback