Skip to content

HD-aula-Literatura/II-2-scraping

Repository files navigation

Repositorio de acompañamiento a "¿Cómo puedo preparar mi texto digital para su estudio? Extracción (web scraping), limpieza y marcado automático de corpus"

La finalidad de este repositorio es complementar al capítulo de las siguientes formas:

  • Dar detalles para los cuales no había espacio en el capítulo (p. ej. capturas de pantalla adicionales)
  • Proporcionar los ejemplos de código en formato fácilmente copiable
  • Abordar nuevas operaciones de extracción para las cuales no había espacio en el capítulo, como la extracción de información desde fuentes documentos XML y JSON con OpenRefine y diversos tipos de extracciones con el lenguaje Python
  • También se aborda el marcado con lenguajes de estructuración de contenido (p. ej. XML) de la información extraída (cuya extracción se efectuó en formatos delimitados como CSV o TSV y en texto plano)

El repositorio está estructurado como sigue:

  • Una primera parte cubre la extracción con OpenRefine, como complemento a lo que se ha visto en el capítulo
  • Una segunda parte cubre la extracción con el lenguaje de programación Python, que no se ha abordado en el capítulo
  • La tercera parte aborda el marcado automático de la información extraída, usando lenguajes de estructuración de datos (p. ej. XML)

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published