Nazwa przedmiotu:
Przetwarzanie danych ustrukturyzowanych
Koordynator przedmiotu:
dr Anna Cena/ dr inż. Maciej Bartoszuk
Status przedmiotu:
Obowiązkowy
Poziom kształcenia:
Studia I stopnia
Program:
Matematyka
Grupa przedmiotów:
Wspólne
Kod przedmiotu:
1120-DS000-ISP-0124
Semestr nominalny:
2 / rok ak. 2022/2023
Liczba punktów ECTS:
5
Liczba godzin pracy studenta związanych z osiągnięciem efektów uczenia się:
1. obecność na wykładach – 30 h 2. obecność na laboratoriach – 30 h 3. przygotowanie do zajęć lab. – 30 h 4. zapoznanie się z literaturą – 20 h Razem: 30+30+30+20 = 110 h, czyli – 5 p. ECTS
Liczba punktów ECTS na zajęciach wymagających bezpośredniego udziału nauczycieli akademickich:
1. obecność na wykładach – 30 h 2. obecność na laboratoriach – 30 h Razem: 30+30 = 60 h, czyli – 2 p. ECTS
Język prowadzenia zajęć:
polski
Liczba punktów ECTS, którą student uzyskuje w ramach zajęć o charakterze praktycznym:
1. obecność na laboratoriach – 30 h 2. przygotowanie do zajęć lab. –30 h Razem: 30+30 = 60 h, czyli – 2 p. ECTS
Formy zajęć i ich wymiar w semestrze:
  • Wykład30h
  • Ćwiczenia0h
  • Laboratorium30h
  • Projekt15h
  • Lekcje komputerowe0h
Wymagania wstępne:
Podstawy programowania i przetwarzania danych Algebra liniowa z geometrią analityczną
Limit liczby studentów:
Bez limitu
Cel przedmiotu:
Celem przedmiotu jest przegląd najczęściej stosowanych w praktyce metod przetwarzania danych i przygotowywania ich do analizy. Szczególny nacisk położony jest na omówienie i ćwiczenie technik filtrowania, przekształcania i agregacji zmiennych lub całych zbiorów danych, także w podgrupach. Uczestnicy kursu poznają najbardziej podstawowe metody czyszczenia danych, ich wizualizacji i podsumowywania, a także imputacji braków danych. Ponadto nabywają umiejętność przetwarzania danych w postaci tekstowej, m.in. z różnego rodzaju API i innych zasobów internetowych. Do osiągnięcia powyższych celów używany jest przede wszystkim język R wraz z bogatym zbiorem pakietów dla tego środowiska. Szczególnie jednak eksponowane są techniki i funkcje obecne w innych środowiskach, m.in. Python 3.
Treści kształcenia:
1. Podstawowe atomowe typy danych w R: Wektory i NULL 2. Zwektoryzowane operacje na wektorach atomowych. Przekształcanie i filtrowanie zmiennych. Agregacja zmiennych 3. Przetwarzanie danych tekstowych. Wyrażenia regularne 4. Listy. Funkcje 5. Instrukcja sterująca i pętle 6. Atrybuty obiektów. Programowanie obiektowe w stylu S3 7. Typy złożone: obiekty reprezentujące czas, czynniki, szeregi czasowe, macierze i ramki danych oraz podstawowe operacje na nich 8. Niestandardowa ewaluacja. Formuły 9. Filtrowanie, przekształcanie i czyszczenie ramek danych. Imputacja braków danych 10. Agregacja i inne operacje na danych w podgrupach. Scalanie ramek danych 11. Przetwarzanie danych tekstowych. Wyrażenia regularne 12. Operacje na plikach i katalogach. Pobieranie danych z API. Wydobywanie informacji ze stron WWW 13. Tworzenie wykresów 14. Python 3: numpy, scipy, pandas
Metody oceny:
Na zaliczenie składają się oceny zdobyte za rozwiązania 3-5 prac domowych oraz zadań projektowych. Do zdobycia maks. 100 p. Ocena końcowa wynika z sumy punktów; ≤50 p. - 2,0; (50,60] – 3,0; (60,70] – 3,5; (70,80] – 4,0; (80,90] – 4,5; >90 – 5,0. Szczegółowy regulamin zaliczenia podawany jest na początku semestru.
Egzamin:
nie
Literatura:
1. Gągolewski M., Programowanie w języku R. Analiza danych, obliczenia, symulacje, Wydawnictwo Naukowe PWN, wydanie II, 2016 2. Wickham H., Grolemund G., R for Data Science, O'Reilly, 2016 3. Chambers J.M., Programming with Data, Springer, 1998 4. Chambers J.M., Software for Data Analysis. Programming with R, Springer, 2008 5. Matloff N.S., The Art of R Programming: A Tour of Statistical Software Design, No Starch Press, 2011 6. Venables W.N., Ripley B.D., S Programming, Springer, 2000 7. Wickham H., Advanced R, Chapmah & Hall/CRC, 2014 8. Gagolewski M., Bartoszuk M., Cena A., Przetwarzanie i analiza danych w języku Python, Wydawnictwo Naukowe PWN, Warszawa, 2016 9. McKinney W., Python for Data Analysis. Data Wrangling with Pandas, NumPy, and IPython, O'Reilly Media, 2012 10. Richert W., Coelho L.P., Building Machine Learning Systems with Python, Packt Publishing, 2013
Witryna www przedmiotu:
brak
Uwagi:

Efekty uczenia się

Profil ogólnoakademicki - wiedza

Charakterystyka W01
Zna podstawy programowania w języku R i jego najważniejsze typy danych (w tym wektory atomowe, listy, funkcje, czynniki, szeregi czasowe, macierze oraz ramki danych)
Weryfikacja: ocena prac domowych oraz projektów
Powiązane charakterystyki kierunkowe:
Powiązane charakterystyki obszarowe:
Charakterystyka W02
Zna podstawowe metody i algorytmy wykorzystywane w przetwarzaniu i eksploracji danych oraz przygotowywaniu ich do analizy
Weryfikacja: ocena prac domowych oraz projektów
Powiązane charakterystyki kierunkowe:
Powiązane charakterystyki obszarowe:

Profil ogólnoakademicki - umiejętności

Charakterystyka U01
Umie przeprowadzić wstępną analizę danych, m.in. podsumować wartości zmiennych oraz przedstawić je w postaci graficznej
Weryfikacja: ocena prac domowych oraz projektów
Powiązane charakterystyki kierunkowe:
Powiązane charakterystyki obszarowe:
Charakterystyka U02
Umie zaimplementować proste metody przetwarzania i analizy danych oraz ocenić ich złożoność pamięciową i czasową
Weryfikacja: ocena prac domowych oraz projektów
Powiązane charakterystyki kierunkowe:
Powiązane charakterystyki obszarowe:
Charakterystyka U03
Potrafi pozyskiwać dane ze źródeł tekstowych i zasobów w internecie, wyczyścić je i przygotować do analizy
Weryfikacja: ocena prac domowych oraz projektów
Powiązane charakterystyki kierunkowe:
Powiązane charakterystyki obszarowe:

Profil ogólnoakademicki - kompetencje społeczne

Charakterystyka K01
Zna potrzebę uczenia się przez całe życie i podnoszenia kompetencji zawodowych oraz potrafi myśleć i działać w sposób przedsiębiorczy
Weryfikacja: ocena prac domowych oraz projektów
Powiązane charakterystyki kierunkowe: M1_K02
Powiązane charakterystyki obszarowe: