Celem pierwszego projektu jest przygotowanie plakatu w formacie A2, który przedstawi graficznie najciekawsze wyniki eksploracji jednego z dwóch zbiorów danych: wynikach badania PISA lub statystykach FIFA'19.
Projekt wykonywany będzie w trzech etapach oddawanych podczas zajęć projektowych.
- Etap 1: Przygotowanie raportu dla jednowymiarowych i dwuwymiarowych statystyk podsumowujących poszczególne zmienne lub zmienne podzielone na grupy.
- Etap 2: Przygotowanie raportu dla wielowymiarowych zestawień podsumowujących wybrany aspekt danych.
- Etap 3: Przygotowanie plakatu podsumowującego i opisującego wybrany aspekt danych. Ostateczny plakat powinien składać się ze zbioru przynajmniej trzech wykresów oraz komentarzy/opisów do wykresów.
Kody źródłowe wykresów, raportów i plakatu w postaci elektronicznej należy umieścić na GitHubie.
- Wyniki etapu 1 będą nadstawione na zajęciach projektowych 24 października
- Wyniki etapu 2 będą nadstawione na zajęciach projektowych 14 listopada
- Wyniki etapu 3 będą nadstawione na wykładzie 21 listopada (na wykład należy przynieść wydrukowany plakat).
Projekt wykonywać można w grupie do 3 osób.
Wykresy mogą być wykonane w dowolnym narzędziu i złożone w plakat z użyciem dowolnej techniki.
Przykładowe plakaty z poprzedniego roku można obejrzeć pod adresem http://smarterpoland.pl/index.php/2018/12/data-movies-and-ggplot2/ a sprzed dwóch lat pod adresem http://smarterpoland.pl/index.php/2018/01/0-1/
Pomysły i prototyp wykresów należy możliwie wcześnie i często konsultować z prowadzącym projekt.
Wydrukowane plakaty zostaną wywieszone na 1. piętrze budynku MiNI. Na plakacie powinna znajdować się nazwa zespołu lub inna informacja identyfikująca autorów. Można, ale nie trzeba umieszczać imiona i nazwiska.
Za ten projekt można otrzymać od 0 do 20 punktów, z czego:
- do 5 punktów uzyskuje się za różnorodność wykorzystanych technik eksploracji danych (ilościowych, jakościowych, par zmiennych),
- do 5 punktów uzyskuje się za wybór interesujących cech tworzących spójna historię,
- do 10 punktów uzyskuje się za estetykę, czytelność i jakość końcowego rozwiązania.
Dane PISA są bardziej złożone, więc osoby pracujące nad nimi otrzymają dodatkowe 10-15% bonusu punktowego.
Nie trzeba na plakacie umieścić wszystkich możliwych statystyk, to jest zresztą niemożliwe. Plakat powinien objaśniać jedną rzecz, ale objaśniać ją dobrze.
Ze strony https://www.oecd.org/pisa/data/2015database/ można pobrać dane dotyczące badania PISA - umiejętności matematycznych, przyrodniczych i czytania ze zrozumieniem wśród 15 latków w roku 2015. Jest to zbiór danych kilkuset tysięcy uczniów z kilkudziesięciu krajów. Pełny zbiór danych to ponad 2000 zmiennych. Wybrane charakterystyki uczniów dostępne są w kwestionariuszach, np. na stronie https://www.oecd.org/pisa/data/CY6_QST_MS_STQ_PBA_Final.pdf
Bazując na tych danych należy wykonać eksplorację w celu odpowiedzenia na jedno lub kilka z pytań:
- jakie zmienne różnią najbardziej uczniów w Polsce od innych krajów (i dlaczego)
- czy wyniki uczniów zależą od zamożności, wykształcenia/zawodu rodziców?
- czy różnice pomiędzy dużymi i małymi miastami są duże?
- czy różnice pomiędzy płciami są różne w różnych krajach?
- inne interesujące pytania
Na stronie https://www.kaggle.com/karangadiya/fifa19 znajduje się zbiór danych ze statystykami piłkarzy (19k) w FIFA 19.
Bazując na tych danych należy wykonać eksplorację w celu zaprezentowania dowolnej wybranej historii ukrytej w danych.