Nazwa przedmiotu:
Metody odkrywania wiedzy
Koordynator przedmiotu:
Paweł CICHOSZ
Status przedmiotu:
Fakultatywny dowolnego wyboru
Poziom kształcenia:
Studia II stopnia
Program:
Informatyka
Grupa przedmiotów:
Przedmioty techniczne - zaawansowane
Kod przedmiotu:
MOW
Semestr nominalny:
2 / rok ak. 2015/2016
Liczba punktów ECTS:
4
Liczba godzin pracy studenta związanych z osiągnięciem efektów uczenia się:
1. udział w wykładach: 15 x 2 godz. = 30 godz. 2. przygotowanie do kolejnych wykładów i realizacji projektu (przejrzenie materiałów z wykładu i dodatkowej literatury, próba rozwiązania ćwiczeń domowych sformułowanych na wykładzie): 15 x 20 min. = 5 godz. 2. udział w konsultacjach związanych z realizacją projektu:15 godz. 3. realizacja zadań projektowych: 30 godz. (w tym zapoznanie się z literaturą, analiza zadania, implementacja algorytmów, strojenie parametrów, przeprowadzenie badań, sporządzenie dokumentacji) 4. przygotowanie do kolokwiów: 2 x 10 godz. = 20 godz. Razem: 30 + 5 + 15 + 30 + 20 = 100 godz.
Liczba punktów ECTS na zajęciach wymagających bezpośredniego udziału nauczycieli akademickich:
1. udział w wykładach: 15 x 2 godz. = 30 godz. 2. udział w konsultacjach związanych z realizacją projektu:15 godz. Razem: 30 + 15 = 45 godz. co daje ok. 2 ECTS
Język prowadzenia zajęć:
polski
Liczba punktów ECTS, którą student uzyskuje w ramach zajęć o charakterze praktycznym:
1. udział w konsultacjach związanych z realizacją projektu:15 godz. 2. realizacja zadań projektowych: 30 godz. (w tym zapoznanie się z literaturą, analiza zadania, implementacja algorytmów, strojenie parametrów, przeprowadzenie badań, sporządzenie dokumentacji) Razem: 15 + 30 = 45 godz., co daje ok. 2 ECTS
Formy zajęć i ich wymiar w semestrze:
  • Wykład30h
  • Ćwiczenia0h
  • Laboratorium0h
  • Projekt15h
  • Lekcje komputerowe0h
Wymagania wstępne:
podstawowa wiedza z zakresu metod probabilistycznych podstawowa wiedza z zakresu informatyki podstawowa umiejętność programowania
Limit liczby studentów:
60
Cel przedmiotu:
1. Zapoznanie studentów z najważniejszymi algorytmami stosowanymi do odkrywania wiedzy w danych, czyli odkrywania występujących w danych zależności i formułowania ich w postaci umożliwiającej wnioskowanie. 2. Zapoznanie studentów z zasadami stosowania algorytmów odkrywania wiedzy. 3. Ukształtowanie umiejętności w zakresie stosowania algorytmów odkrywania wiedzy do analizowania rzeczywistych zbiorów danych.
Treści kształcenia:
Wprowadzenie. Informacje o przedmiocie. Sformułowanie zadania odkrywania wiedzy. Charakterystyka procesu odkrywania wiedzy. Rodzaje wiedzy. Terminologia i notacja. Przykładowe zastosowania. Narzędzia ze statystyki i teorii informacji. Charakterystyka rozkładów atrybutów dyskretnych i ciągłych. Estymacja parametrów rozkładów. Identyfikacja wartości odstających. Estymacja przedziałowa. Testy statystyczne. Statystyczne i teorioinformacyjne miary zależności. Zadanie klasyfikacji. Sformułowanie zadania. Podstawowe miary jakości modeli. Nadmierne dopasowanie. Przykładowe zastosowania. Indukcja drzew decyzyjnych. Reprezentacja modelu. Zstępująca konstrukcja drzewa. Kryteria stopu. Kryteria wyboru testu. Przycinanie drzew decyzyjnych. Probabilistyczne drzewa decyzyjne. Przetwarzanie przykładów z brakującymi wartościami atrybutów. Klasyfikacja probabilistyczna. Twierdzenie Bayesa. Naiwny klasyfikator bayesowski. Minimalizacja prawdopodobieństwa pomyłki. Minimalizacja kosztów pomyłek. Zasada minimalnej długości kodu. Ocena modeli klasyfikacji. Analiza kosztów pomyłek. Wskaźniki jakości oparte na macierzy pomyłek. Analiza ROC. Procedury oceny modeli. Zadanie regresji. Sformułowanie zadania. Podstawowe miary jakości modeli. Nadmierne dopasowanie. Przykładowe zastosowania. Drzewa regresji. Reprezentacja modelu. Kryteria stopu. Kryteria wyboru testu. Drzewa modeli. Metody pamięciowe. Algorytm najbliższych sąsiadów. Miary odległości. Lokalne modelowanie. Modele parametryczne. Reprezentacja parametryczna. Algorytm spadku gradientu. Model liniowy. Metoda najmniejszych kwadratów. Klasyfikacja liniowa. Przezwyciężania ograniczenia liniowości. Maszyny wektorów nośnych i metody jądrowe. Margines klasyfikacji liniowej. Maksymalizacja marginesu klasyfikacji. Algorytmy SVM i SVR. Sztuczka jądrowa. Typy funkcji jądrowych. Agregacja modeli. Koncepcja i motywacja. Techniki agregacji: bagging, boosting, las losowy. Modyfikacja reprezentacji. Dyskretyzacja atrybutów ciągłych. Numeryczne kodowanie atrybutów dyskretnych. Selekcja atrybutów przez filtrowanie. Selekcja atrybutów przez opakowywanie algorytmów modelowania. Zadanie grupowania. Sformułowanie zadania. Grupowanie płaskie i hierarchiczne. Typy algorytmów grupowania. Przykładowe zastosowania. Grupowanie na podstawie niepodobieństwa. Miary niepodobieństwa. Rodzina algorytmów k środków. Hierarchiczne grupowanie wstępujące. Ocena modeli grupowania. Sieci bayesowskie. Definicja sieci bayesowskiej. Założenia o warunkowej niezależności. Reprezentacja łącznego rozkładu prawdopodobieństwa. Wnioskowanie w sieciach bayesowskich. Nie-całkiem-naiwny klasyfikator bayesowski. Odkrywanie wiedzy w tekście. Reprezentacja wektorowa. Klasyfikacja tekstu. Grupowanie tekstu. Zakres projektu: Proponowane tematy projektów są podzielone na dwa rodzaje: analityczne oraz implementacyjno-analityczne. Środowiskiem do realizacji tematów obydwu rodzajów jest język R, zapoznanie się z którym jest efektem ubocznym wykonania projektu. Realizacja tematów analitycznych obejmuje pełen proces wnikliwej i szeroko zakrojonej analizy rzeczywistych danych oraz budowy modeli z wykorzystaniem szeregu algorytmów, których implementacje są dostępne w pakietach języka R. Zakres niezbędnych prac może obejmować przygotowanie danych, statystyczny opis danych, zmianę reprezentacji (modyfikację zestawu atrybutów) oraz tworzenie modeli i ocenę ich jakości. Tematy implementacyjno-analityczne obejmują część implementacyjną i część analityczną. Część implementacyjna polega albo na samodzielnej implementacji pewnego algorytmu, albo na modyfikacji istniejącej implementacji pewnego algorytmu. Część analityczna polega na eksperymentalnym zademonstrowaniu działania zaimplementowanego/zmodyfikowanego algorytmu w zastosowaniu do kilku wybranych zbiorów danych, w porównaniu z innymi algorytmami dostępnymi w R realizującymi to samo zadanie.
Metody oceny:
Ocena sumatywna oparta na wynikach kolokwiów, wstępnej dokumentacji oraz realizacji projektu. Ocena formatywna na podstawie interakcji ze studentami w czasie wykładu, rozwiązań ćwiczeń domowych formułowanych na wykładzie oraz pytań w ramach konsultacji.
Egzamin:
nie
Literatura:
1. Witten, I.H., Frank, E., Hall, M.A. (2011). Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann. 2. Cichosz, P. (2000, 2007). Systemy uczące się. WNT. 3. Publikacje w czasopismach (m.in. Machine Learning, Journal of Machine Learning Research, Artificial Intelligence, Journal of Artificial Intelligence Research) i materiałach konferencji (m.in. International Conference on Machine Learning).
Witryna www przedmiotu:
http://www.ise.pw.edu.pl/~cichosz/mow
Uwagi:

Efekty uczenia się

Profil ogólnoakademicki - wiedza

Efekt MOW_W1
ma wiedzę na temat najważniejszych zadań i etapów procesu odkrywania wiedzy
Weryfikacja: kolokwium
Powiązane efekty kierunkowe: K_W04, K_W06
Powiązane efekty obszarowe: T2A_W02, T2A_W04
Efekt MOW_W2
ma wiedzę dotyczącą podstawowych technik opisu danych i wykrywania zależności
Weryfikacja: kolokwium
Powiązane efekty kierunkowe: K_W04, K_W06, K_W08
Powiązane efekty obszarowe: T2A_W02, T2A_W04, T2A_W07
Efekt MOW_W3
ma wiedzę na temat mechanizmów działania i zasad stosowania algorytmów tworzenia modeli predykcyjnych
Weryfikacja: kolokwium
Powiązane efekty kierunkowe: K_W04, K_W06
Powiązane efekty obszarowe: T2A_W02, T2A_W04
Efekt MOW_W4
ma wiedzę dotyczącą metod oceny jakości modeli predykcyjnych
Weryfikacja: kolokwium
Powiązane efekty kierunkowe: K_W06
Powiązane efekty obszarowe: T2A_W04

Profil ogólnoakademicki - umiejętności

Efekt MOW_U1
potrafi planować proces odkrywania wiedzy, dostosowując zakres analizy i dobierając algorytmy w zależności od potrzeb właściwości danych
Weryfikacja: projekt
Powiązane efekty kierunkowe: K_U01, K_U06, K_U12, K_U13
Powiązane efekty obszarowe: T2A_U01, T2A_U08, T2A_U09, T2A_U17, T2A_U18
Efekt MOW_U2
potrafi stosować algorytmy odkrywania wiedzy do rzeczywistych danych, intepretować uzyskane wyniki i poszukiwać możliwości ich poprawienia
Weryfikacja: projekt
Powiązane efekty kierunkowe: K_U01, K_U06, K_U09, K_U11
Powiązane efekty obszarowe: T2A_U01, T2A_U08, T2A_U09, T2A_U11, T2A_U16
Efekt MOW_U3
potrafi posługiwać się językiem R i jego pakietami do analizy danych oraz implementacji i stosowania algorytmów odkrywania wiedzy, a także pozyskiwać informacje niezbędne do samodzielnego rozwiązywania związanych z tym problemów technicznych
Weryfikacja: projekt
Powiązane efekty kierunkowe: K_U01, K_U04, K_U06, K_U13
Powiązane efekty obszarowe: T2A_U01, T2A_U05, T2A_U08, T2A_U09, T2A_U18
Efekt MOW_U4
potrafi przedstawić plan, przyjęte założenia i wyniki procesu odkrywania wiedzy w formie ustnej i pisemnej
Weryfikacja: projekt
Powiązane efekty kierunkowe: K_U02, K_U03
Powiązane efekty obszarowe: T2A_U02, T2A_U03

Profil ogólnoakademicki - kompetencje społeczne

Efekt MOW_K1
potrafi przezwyciężać problemy związane ze złożonością rozwiązywanych zadań odkrywania wiedzy oraz stosowanymi algorytmami i narzędziami
Weryfikacja: projekt
Powiązane efekty kierunkowe: K_K01
Powiązane efekty obszarowe: T2A_K06