Nazwa przedmiotu:
Metody odkrywania wiedzy
Koordynator przedmiotu:
Paweł CICHOSZ
Status przedmiotu:
Fakultatywny dowolnego wyboru
Poziom kształcenia:
Studia II stopnia
Program:
Elektronika
Grupa przedmiotów:
Przedmioty techniczne - zaawansowane
Kod przedmiotu:
MOW
Semestr nominalny:
2 / rok ak. 2018/2019
Liczba punktów ECTS:
3
Liczba godzin pracy studenta związanych z osiągnięciem efektów uczenia się:
1. udział w wykładach: 15 x 2 godz. = 30 godz. 2. przygotowanie do kolejnych wykładów i realizacji projektu (przejrzenie materiałów z wykładu i dodatkowej literatury, próba rozwiązania ćwiczeń domowych sformułowanych na wykładzie): 15 x 20 min. = 5 godz. 2. udział w konsultacjach związanych z realizacją projektu: 6 x 30 min. = 3 godz. 3. realizacja zadań projektowych: 30 godz. (w tym zapoznanie się z literaturą, analiza zadania, implementacja algorytmów, strojenie parametrów, przeprowadzenie badań, sporządzenie dokumentacji) 4. przygotowanie do kolokwiów: 2 x 5 godz. = 10 godz. Razem: 30 + 5 + 3 + 30 + 10 = 78 godz.
Liczba punktów ECTS na zajęciach wymagających bezpośredniego udziału nauczycieli akademickich:
1 wykład: 30 godz. konsultacje: 3 godz. razem: 33 godz. (1 punkt ECTS)
Język prowadzenia zajęć:
polski
Liczba punktów ECTS, którą student uzyskuje w ramach zajęć o charakterze praktycznym:
1 projekt 30 godz. konsultacje: 3 godz. razem: 33 godz. (1 punkt ECTS)
Formy zajęć i ich wymiar w semestrze:
  • Wykład30h
  • Ćwiczenia0h
  • Laboratorium0h
  • Projekt15h
  • Lekcje komputerowe0h
Wymagania wstępne:
podstawowa wiedza z zakresu metod probabilistycznych podstawowa wiedza z zakresu informatyki podstawowa umiejętność programowania
Limit liczby studentów:
60
Cel przedmiotu:
1. Zapoznanie studentów z najważniejszymi algorytmami stosowanymi do odkrywania wiedzy w danych, czyli odkrywania występujących w danych zależności i formułowania ich w postaci umożliwiającej wnioskowanie 2. Zapoznanie studentów z zasadami stosowania algorytmów odkrywania wiedzy. 3. Ukształtowanie umiejętności w zakresie stosowania algorytmów odkrywania wiedzy do analizowania rzeczywistych zbiorów danych.
Treści kształcenia:
Plan wykładu: Wprowadzenie. Informacje o przedmiocie. Sformułowanie zadania odkrywania wiedzy. Charakterystyka procesu odkrywania wiedzy. Rodzaje wiedzy. Terminologia i notacja. Przykładowe zastosowania. Narzędzia ze statystyki i teorii informacji. Charakterystyka rozkładów atrybutów dyskretnych i ciągłych. Estymacja parametrów rozkładów. Identyfikacja wartości odstających. Estymacja przedziałowa. Testy statystyczne. Statystyczne i teorioinformacyjne miary zależności. Zadanie klasyfikacji. Sformułowanie zadania. Podstawowe miary jakości modeli. Nadmierne dopasowanie. Przykładowe zastosowania. Indukcja drzew decyzyjnych. Reprezentacja modelu. Zstępująca konstrukcja drzewa. Kryteria stopu. Kryteria wyboru testu. Przycinanie drzew decyzyjnych. Probabilistyczne drzewa decyzyjne. Przetwarzanie przykładów z brakującymi wartościami atrybutów. Klasyfikacja probabilistyczna. Twierdzenie Bayesa. Naiwny klasyfikator bayesowski. Minimalizacja prawdopodobieństwa pomyłki. Minimalizacja kosztów pomyłek. Zasada minimalnej długości kodu. Ocena modeli klasyfikacji. Analiza kosztów pomyłek. Wskaźniki jakości oparte na macierzy pomyłek. Analiza ROC. Procedury oceny modeli. Zadanie regresji. Sformułowanie zadania. Podstawowe miary jakości modeli. Nadmierne dopasowanie. Przykładowe zastosowania. Modele parametryczne. Reprezentacja parametryczna. Algorytm spadku gradientu. Model liniowy. Metoda najmniejszych kwadratów. Drzewa regresji. Reprezentacja modelu. Kryteria stopu. Kryteria wyboru testu. Drzewa modelowania. Metody pamięciowe. Algorytm najbliższych sąsiadów. Miary odległości. Lokalne modelowanie. Agregacja modeli. Koncepcja i motywacja. Techniki agregacji: bagging, boosting, las losowy. Modyfikacja reprezentacji. Dyskretyzacja atrybutów ciągłych. Numeryczne kodowanie atrybutów dyskretnych. Selekcja atrybutów. Funkcje jądrowe. Algorytm SVM. Zadanie grupowania. Sformułowanie zadania. Grupowanie płaskie i hierarchiczne. Przykładowe zastosowania. Grupowanie na podstawie niepodobieństwa. Miary niepodobieństwa. Rodzina algorytmów k środków. Hierarchiczne grupowanie wstępujące. Ocena modeli grupowania. Odkrywanie reguł asocjacyjnych. Sformułowanie zadania. Przykładowe zastosowania. Ocena jakości reguł asocjacyjnych. Algorytm Apriori. Sieci bayesowskie. Definicja sieci bayesowskiej. Założenia o warunkowej niezależności. Reprezentacja łącznego rozkładu prawdopodobieństwa. Wnioskowanie w sieciach bayesowskich. Nie-całkiem-naiwny klasyfikator bayesowski. Odkrywanie wiedzy w tekście. Reprezentacja wektorowa. Klasyfikacja tekstu. Grupowanie tekstu. Zakres projektu: Proponowane tematy projektów są podzielone na dwa rodzaje: analityczne oraz implementacyjno-analityczne. Środowiskiem do realizacji tematów obydwu rodzajów jest język R, zapoznanie się z którym jest efektem ubocznym wykonania projektu. Realizacja tematów analitycznych obejmuje pełen proces wnikliwej i szeroko zakrojonej analizy rzeczywistych danych oraz budowy modeli z wykorzystaniem szeregu algorytmów, których implementacje są dostępne w pakietach języka R. Zakres niezbędnych prac może obejmować przygotowanie danych, statystyczny opis danych, zmianę reprezentacji (modyfikację zestawu atrybutów) oraz tworzenie modeli i ocenę ich jakości. Tematy implementacyjno-analityczne obejmują część implementacyjną i część analityczną. Część implementacyjna polega albo na samodzielnej implementacji pewnego algorytmu, albo na modyfikacji istniejącej implementacji pewnego algorytmu. Część analityczna polega na eksperymentalnym zademonstrowaniu działania zaimplementowanego/zmodyfikowanego algorytmu w zastosowaniu do kilku wybranych zbiorów danych, w porównaniu z innymi algorytmami dostępnymi w R realizującymi to samo zadanie.
Metody oceny:
Ocena sumatywna oparta na wynikach kolokwiów, wstępnej dokumentacji oraz realizacji projektu. Ocena formatywna na podstawie interakcji ze studentami w czasie wykładu, rozwiązań ćwiczeń domowych formułowanych na wykładzie oraz pytań w ramach konsultacji.
Egzamin:
nie
Literatura:
1. Witten, I.H., Frank, E., Hall, M.A. (2011). Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann. 2. Cichosz, P. (2000, 2007). Systemy uczące się. WNT. 3. Publikacje w czasopismach (m.in. Machine Learning, Journal of Machine Learning Research, Artificial Intelligence, Journal of Artificial Intelligence Research) i materiałach konferencji (m.in. International Conference on Machine Learning).
Witryna www przedmiotu:
http://www.ise.pw.edu.pl/~cichosz/mow
Uwagi:

Efekty uczenia się

Profil ogólnoakademicki - wiedza

Charakterystyka MOW_W1
ma wiedzę na temat najważniejszych zadań i etapów procesu odkrywania wiedzy
Weryfikacja: kolokwium
Powiązane charakterystyki kierunkowe: K_W02, K_W03
Powiązane charakterystyki obszarowe:
Charakterystyka MOW_W2
ma wiedzę dotyczącą podstawowych technik opisu danych i wykrywania zależności
Weryfikacja: kolokwium
Powiązane charakterystyki kierunkowe: K_W01, K_W02, K_W03, K_W06
Powiązane charakterystyki obszarowe:
Charakterystyka MOW_W3
ma wiedzę na temat mechanizmów działania i zasad stosowania algorytmów tworzenia modeli predykcyjnych
Weryfikacja: kolokwium
Powiązane charakterystyki kierunkowe: K_W01, K_W04, K_W06
Powiązane charakterystyki obszarowe:
Charakterystyka MOW_W4
ma wiedzę dotyczącą metod oceny jakości modeli predykcyjnych
Weryfikacja: kolokwium
Powiązane charakterystyki kierunkowe: K_W06
Powiązane charakterystyki obszarowe:

Profil ogólnoakademicki - umiejętności

Charakterystyka MOW_U1
potrafi planować proces odkrywania wiedzy, dostosowując zakres analizy i dobierając algorytmy w zależności od potrzeb właściwości danych
Weryfikacja: projekt
Powiązane charakterystyki kierunkowe: K_U01, K_U14, K_U15
Powiązane charakterystyki obszarowe:
Charakterystyka MOW_U2
potrafi stosować algorytmy odkrywania wiedzy do rzeczywistych danych, intepretować uzyskane wyniki i poszukiwać możliwości ich poprawienia
Weryfikacja: projekt
Powiązane charakterystyki kierunkowe: K_U01, K_U07, K_U10, K_U13, K_U15, K_U16
Powiązane charakterystyki obszarowe:
Charakterystyka MOW_U4
potrafi przedstawić plan, przyjęte założenia i wyniki procesu odkrywania wiedzy w formie ustnej i pisemnej
Weryfikacja: projekt
Powiązane charakterystyki kierunkowe: K_U02, K_U03, K_U04
Powiązane charakterystyki obszarowe:
Charakterystyka projekt
potrafi posługiwać się językiem R i jego pakietami do analizy danych oraz implementacji i stosowania algorytmów odkrywania wiedzy, a także pozyskiwać informacje niezbędne do samodzielnego rozwiązywania związanych z tym problemów technicznych
Weryfikacja: MOW_U3
Powiązane charakterystyki kierunkowe: K_U01, K_U05, K_U15, K_U16
Powiązane charakterystyki obszarowe:

Profil ogólnoakademicki - kompetencje społeczne

Charakterystyka MOW_K1
potrafi realizować złożone zadania z zakresu odkrywania wiedzy pracując w zespole
Weryfikacja: projekt
Powiązane charakterystyki kierunkowe:
Powiązane charakterystyki obszarowe:
Charakterystyka MOW_K2
przezwyciężać problemy związane ze złożonością rozwiązywanych zadań odkrywania wiedzy oraz stosowanymi algorytmami i narzędziami
Weryfikacja: projekt
Powiązane charakterystyki kierunkowe: K_K01
Powiązane charakterystyki obszarowe: