- Nazwa przedmiotu:
- Metody eksploracji danych w odkrywaniu wiedzy
- Koordynator przedmiotu:
- Rajmund Kożuszek
- Status przedmiotu:
- Fakultatywny dowolnego wyboru
- Poziom kształcenia:
- Studia II stopnia
- Program:
- Informatyka
- Grupa przedmiotów:
- Przedmioty techniczne - zaawansowane
- Kod przedmiotu:
- MED
- Semestr nominalny:
- 2 / rok ak. 2021/2022
- Liczba punktów ECTS:
- 4
- Liczba godzin pracy studenta związanych z osiągnięciem efektów uczenia się:
- 1. liczba godzin kontaktowych – 60 godz., w tym
obecność na wykładach 30 godz.,
obecność na zajęciach projektowych 30 godz.,
2. praca własna studenta – 60 godz., w tym
wykonanie projektu 46 godz.
przygotowanie dokumentacji projektowej 5 godz.
przygotowanie do sprawdzianów 9 godz.
Łączny nakład pracy studenta wynosi 120 godz., co odpowiada 4 pkt. ECTS.
- Liczba punktów ECTS na zajęciach wymagających bezpośredniego udziału nauczycieli akademickich:
- 2,0 pkt. ECTS, co odpowiada 60 godz. kontaktowym
- Język prowadzenia zajęć:
- polski
- Liczba punktów ECTS, którą student uzyskuje w ramach zajęć o charakterze praktycznym:
- 2,7 pkt. ECTS, co odpowiada 30 godz. zajęć projektowych, 46 godz. wykonywania projektu i 5 godz. przygotowania dokumentacji projektowej
- Formy zajęć i ich wymiar w semestrze:
-
- Wykład30h
- Ćwiczenia0h
- Laboratorium0h
- Projekt30h
- Lekcje komputerowe0h
- Wymagania wstępne:
- Wymagana jest umiejętność programowania w języku C, C++, C# lub Python.
- Limit liczby studentów:
- 30
- Cel przedmiotu:
- Celem wykładu jest zapoznanie studentów z podstawami teoretycznymi oraz wydajnymi metodami i algorytmami eksploracji danych. Celem projektu jest nabycie przez studentów umiejętności ich wydajnego implementowania, usprawniania, planowania i prowadzenia badań o charakterze naukowym, właściwego wysnuwania wniosków i dokumentowania prowadzonych prac.
- Treści kształcenia:
- Wykład:
1. Eksploracja danych. Eksploracja danych a proces odkrywania wiedzy. Zadania eksploracji danych. Eksploracja danych jako dziedzina multidyscyplinarna. Aktualne wyzwania w eksploracji danych.
2. Częste wzorce i reguły asocjacyjne. Skalowalne metody odkrywania częstych wzorców i reguł asocjacji w transakcyjnych i relacyjnych bazach danych, z uwzględnieniem hierarchii pojęć i negacji. Określanie ograniczeń w języku eksploracji danych. Wykorzystywanie nałożonych ograniczeń w celu zwiększenia wydajności procesu odkrywania wzorców. Odkrywanie wzorców wysokiej użyteczności.
3. Miary oceny reguł asocjacyjnych. Właściwości miar oceny reguł asocjacyjnych, takich jak współczynnik podniesienia, współczynnik pewności, współczynnik zależności, iloraz szans i współczynnik wzrostu.
4. Zwięzłe reprezentacje częstych wzorców. Generatory, zbiory zamknięte, uogólnione zbiory wolne od dysjunkcji i minimalne dysjunkcyjne jako podstawowe elementy bezstratnych reprezentacji częstych wzorów. Metody odkrywania zwięzłych reprezentacji częstych wzorców. Zastosowanie reprezentacji do wyprowadzania wszystkich częstych wzorców.
5. Zwięzłe reprezentacje reguł asocjacyjnych. Generatory i zbiory zamknięte jako elementy składowe bezstratnych reprezentacji reguł asocjacyjnych, takich jak reguły reprezentatywne, minimalne nieredundantne reguły i szablony reguł. Mechanizmy wyprowadzania reguł asocjacyjnych z tych reprezentacji.
6. Wzorce i reguły sekwencyjne. Odkrywanie częstych wzorców i reguł sekwencyjnych. Reprezentacje częstych wzorców i reguł sekwencyjnych. Odkrywanie wzorców i reguł sekwencyjnych wysokiej użyteczności
7. Klasyfikacja. Wykorzystanie wzorów kontrastowych w klasyfikacji.
8. Predykcja. Wykorzystanie impulsowych sieci neuronowych do prognozowania.
9. Miary podobieństwa i odległości obiektów. Skuteczne metody odkrywania obiektów najbardziej podobnych (lub najbliższych) ze względu na miary, takie jak odległość Minkowskiego i miary podobieństwa: Jaccard, Tanimoto i kosinus.
10. Grupowanie. Metody gęstościowego grupowania obiektów i odkrywania anomalii, takie jak DBSCAN i NBC, oraz ich wydajne modyfikacje, takie jak TI-DBSCAN i TI-NBC, wykorzystujące własność nierówności trójkąta wprost lub przy użyciu drzewa VP-tree.
11. Zależności funkcyjne i przybliżone. Metody wykrywania zależności funkcyjnych i przybliżonych pomiędzy zbiorami atrybutów w bazach danych.
12. Zbiory przybliżone. Metody odkrywania reduktów zbioru atrybutów warunkowych i reguł decyzyjnych.
13. Wnioskowanie w przypadku niekompletnej informacji. Uprawnione podejścia do wnioskowania na podstawie danych z brakującymi wartościami oraz na podstawie częściowej wiedzy.
Projekt:
Projekt obejmuje:
- dogłębne zapoznanie się z algorytmami eksploracji danych, które prowadzący projekt zlecił do realizacji,
- wymóg konsultacji interpretacji tematu i zakresu projektu,
- konsultowanie z prowadzącym planowanego rozwiązania zadania projektowego,
- wydajną implementację zadanych algorytmów eksploracji danych,
- przeprowadzenie eksperymentów umożliwiających ocenę jakości i wydajności zrealizowanych algorytmów,
- przeprowadzenie tej oceny i wysnucie wniosków na podstawie przeprowadzonych eksperymentów,
- przygotowanie dokumentacji projektu,
- prezentację uzyskanych wyników.
- Metody oceny:
- (-)
- Egzamin:
- nie
- Literatura:
- 1. Morzy T., Eksploracja danych, Metody i algorytmy, Wydawnictwo Naukowe PWN, 2013
2. Han J., Kamber M., Pei, J., Data Mining: Concepts and Techniques, The Morgan Kaufmann Series in Data Management Systems, 3rd edition, Morgan Kaufmann, 2011
3. Kryszkiewicz M., Concise Representations of Frequent Patterns and Association Rules, Prace Naukowe, Elektronika, Oficyna Wydawnicza Politechniki Warszawskiej, z. 142 (2002)
oraz dostępne na stronach Internetowych publikacje z dziedziny eksploracji danych, o których wykładowca będzie informował w materiałach wykładowych lub na bieżąco w trakcie zajęć.
- Witryna www przedmiotu:
- https://usosweb.usos.pw.edu.pl/kontroler.php?_action=katalog2/przedmioty/pokazPrzedmiot&prz_kod=103C-INxxx-MSP-MED
- Uwagi:
- (-)
Efekty uczenia się