Repositorio de acompañamiento a "¿Cómo puedo preparar mi texto digital para su estudio? Extracción (web scraping), limpieza y marcado automático de corpus"
La finalidad de este repositorio es complementar al capítulo de las siguientes formas:
- Dar detalles para los cuales no había espacio en el capítulo (p. ej. capturas de pantalla adicionales)
- Proporcionar los ejemplos de código en formato fácilmente copiable
- Abordar nuevas operaciones de extracción para las cuales no había espacio en el capítulo, como la extracción de información desde fuentes documentos XML y JSON con OpenRefine y diversos tipos de extracciones con el lenguaje Python
- También se aborda el marcado con lenguajes de estructuración de contenido (p. ej. XML) de la información extraída (cuya extracción se efectuó en formatos delimitados como CSV o TSV y en texto plano)
El repositorio está estructurado como sigue:
- Una primera parte cubre la extracción con OpenRefine, como complemento a lo que se ha visto en el capítulo
- Una segunda parte cubre la extracción con el lenguaje de programación Python, que no se ha abordado en el capítulo
- La tercera parte aborda el marcado automático de la información extraída, usando lenguajes de estructuración de datos (p. ej. XML)