Skip to content

Latest commit

 

History

History
13 lines (11 loc) · 638 Bytes

README.md

File metadata and controls

13 lines (11 loc) · 638 Bytes

Chức năng hệ thống

  • Khảo sát thông tin các video trong kênh
  • Phân tích thống kê dựa trên các thông tin đó

Mô hình hoạt động

image

  1. Youtube crawler: tự động thu thập và làm sạch dữ liệu video trên kênh
  2. Kafka: stream dữ liệu đổ về
  3. Spark Streaming: consum data vào lưu trữ data stream vào HDFS
  4. HDFS: Lưu toàn bộ dữ liệu
  5. Spark: Xử lý dữ liệu để tối ưu cho phân tích
  6. Superset: Phân tích và visualize dữ liệu qua Hive