- Nazwa przedmiotu:
- Data Exploration and Visualisation
- Koordynator przedmiotu:
- dr hab. Przemysław Biecek, prof. uczelni
- Status przedmiotu:
- Obowiązkowy
- Poziom kształcenia:
- Studia II stopnia
- Program:
- Data Science
- Grupa przedmiotów:
- Współny
- Kod przedmiotu:
- .
- Semestr nominalny:
- 2 / rok ak. 2021/2022
- Liczba punktów ECTS:
- 4
- Liczba godzin pracy studenta związanych z osiągnięciem efektów uczenia się:
- 1. godziny kontaktowe – 65 h; w tym
a) obecność na wykładach – 15 h
b) obecność na zajęciach projektowych – 45 h
c) konsultacje – 5 h
2. praca własna studenta – 45 h; w tym
a) zapoznanie się z literaturą – 10 h
b) przygotowanie projektów – 30 h
c) przygotowanie do zajęć projektowych (prace domowe) – 5 h
Razem 110 h, co odpowiada 4 pkt. ECTS
- Liczba punktów ECTS na zajęciach wymagających bezpośredniego udziału nauczycieli akademickich:
- 1. obecność na wykładach – 15 h
2. obecność na zajęciach projektowych – 45 h 3. konsultacje – 5 h
Razem 65 h, co odpowiada 3 pkt. ECTS
- Język prowadzenia zajęć:
- angielski
- Liczba punktów ECTS, którą student uzyskuje w ramach zajęć o charakterze praktycznym:
- 1. obecność na zajęciach projektowych – 45 h
2. przygotowanie projektów – 30 h
3. przygotowanie do zajęć projektowych (prace domowe) – 5 h
Razem 75 h, co odpowiada 3 pkt. ECTS
- Formy zajęć i ich wymiar w semestrze:
-
- Wykład15h
- Ćwiczenia0h
- Laboratorium0h
- Projekt45h
- Lekcje komputerowe0h
- Wymagania wstępne:
- Statistics, Programming in R or python
- Limit liczby studentów:
- Number of groups: no limits Project classes – the number of students in a group matches the limits defined by the Warsaw University of Technology
- Cel przedmiotu:
- Learning techniques for data visualization and exploration. Techniques that will be covered: descriptive statistics, statistical tests for group comparison, goodness of fit tests, assessment of the strength of the relationship between variables.
Techniques for visualisation of the distribution relationship between pair and larger group of variables.
Techniques for exploration and explanation of predictive models.
- Treści kształcenia:
- Lecture:
One-dimensional data exploration techniques (location measures, measures of variability)
Two-dimensional data exploration techniques (correlation, statistical tests for the significance of the strength of relations between variables, correspondence analysis, canonical analysis)
Dimension reduction techniques in data exploration (Principal Component Analysis, Multi Dimensional Reduction)
Visualization of single variable distribution (histogram, boxplots) Visualization of variable pair distribution (scatter chart, mosaic chart) Visualization of the distribution of relationships between variable sets (association rules, Bayesian networks)
The topic of testing multiple sets. Problems and challenges in the analysis of high-dimensional data. Techniques of exploration and explainability of the predictive model (model exploration pyramid, bias and fairness topic in bottom analysis)
Project classes:
Development of tools automating data exploration The application of the developed tool for new data from the OpenML
- Metody oceny:
- During the semester, students will have to complete two projects, one related to data visualization and one for data exploration. Projects will be developed at home, but their results will be presented in class. Each of these projects will be evaluated on a scale from 0 to 100 points.
Additional points will be gained from homework and activity in presenting research papers.
To pass it is necessary to obtain a total of at least 50% of points.
- Egzamin:
- nie
- Literatura:
- 1. Przemysław Biecek, „Zbiór esejów o sztuce pokazywania danych”, Wydawnictwo Uniwersytetu Warszawskiego, 2016
2. Edward R. Tufte, “The Visual Display of Quantitative Information”, Graphics Press, 2001
3. John Tukey, ,,Exploratory Data Analysis'', Pearson, 1977
We will use R for data exploration and visualisation
- Witryna www przedmiotu:
- .
- Uwagi:
- .
Efekty uczenia się
Profil ogólnoakademicki - wiedza
- Charakterystyka W01
- The graduate knows the key methods, algorithms and Big Data analysis environments as well as various conditions related to data analysis, including ethics
Weryfikacja: Homeworks + Project 2
Powiązane charakterystyki kierunkowe:
DS2_W01
Powiązane charakterystyki obszarowe:
- Charakterystyka W02
- The graduate knows tools for data exploration and communication of results in the area of data analysis
Weryfikacja: Homeworks + Project 1
Powiązane charakterystyki kierunkowe:
DS2_W04
Powiązane charakterystyki obszarowe:
- Charakterystyka W03
- The graduate knows the techniques of clear and correct data presentation using static and interactive graphics and understands the ethical aspects of data presentation
Weryfikacja: Homeworks + Project 1, 2
Powiązane charakterystyki kierunkowe:
DS2_W08
Powiązane charakterystyki obszarowe:
Profil ogólnoakademicki - umiejętności
- Charakterystyka U01
- The graduate can prepare statistical plots and interactive visualization of complex data
Weryfikacja: Homeworks + Project 1
Powiązane charakterystyki kierunkowe:
DS2_U06
Powiązane charakterystyki obszarowe:
- Charakterystyka U02
- The graduate knows how to perform exploratory analysis of real data and is able to propose and verify the correctness of the theoretical model
Weryfikacja: Homeworks + Project 1
Powiązane charakterystyki kierunkowe:
DS2_U08
Powiązane charakterystyki obszarowe:
- Charakterystyka U03
- The graduate is able to prepare a holistic solution to a given problem, including data acquisition, initial processing, selection of appropriate methods, e.g. predictive ones and their application, and critical analysis of the obtained results.
Weryfikacja: Homeworks + Project 2
Powiązane charakterystyki kierunkowe:
DS2_U12
Powiązane charakterystyki obszarowe:
Profil ogólnoakademicki - kompetencje społeczne
- Charakterystyka K01
- The graduate is able to think and act in a creative and entrepreneurial way.
Weryfikacja: Homeworks + Project 1, 2
Powiązane charakterystyki kierunkowe:
DS2_K04
Powiązane charakterystyki obszarowe: