- Nazwa przedmiotu:
- Rozpoznawanie obrazów i sygnałów mowy
- Koordynator przedmiotu:
- prof. Włodzimierz Kasprzak
- Status przedmiotu:
- Fakultatywny dowolnego wyboru
- Poziom kształcenia:
- Studia II stopnia
- Program:
- Automatyka i Robotyka
- Grupa przedmiotów:
- Przedmioty techniczne - zaawansowane
- Kod przedmiotu:
- ROSM
- Semestr nominalny:
- 3 / rok ak. 2015/2016
- Liczba punktów ECTS:
- 4
- Liczba godzin pracy studenta związanych z osiągnięciem efektów uczenia się:
- Bilans nakładu pracy studenta (100 godz.):
- udział w wykładach: 15 x 2 godz. = 30 godz.,
- udział w zajęciach projektowych: 15 x 1 godz. = 15 godz.,
- przygotowanie do wykładów (przejrzenie materiałów z wykładu i dodatkowej literatury (10 godz.), oraz próby rozwiązania zadań zawartych w podręczniku (5 godz.): 1 x 15 = 15 godz.
- realizacja zadania projektowego: 15 godz.,
- udział w konsultacjach: 2 godz.,
- przygotowanie do egzaminu (rozwiązanie zadań przedegzaminacyjnych) oraz obecność na egzaminie: 20 godz. + 3 godz. = 23 godz.
- Liczba punktów ECTS na zajęciach wymagających bezpośredniego udziału nauczycieli akademickich:
- Liczba godzin zajęć wymagających bezpośredniego udziału nauczycieli akademickich wynosi: 30 + 15 + 2 + 3 = 50 godz., co odpowiada ok. 2 punktom ECTS.
- Język prowadzenia zajęć:
- polski
- Liczba punktów ECTS, którą student uzyskuje w ramach zajęć o charakterze praktycznym:
- Liczba godzin pracy związanych z zajęciami o charakterze praktycznym wynosi: 15 + 15 + 5 + 15 = 50 godz., co odpowiada ok. 2 punktom ECTS.
- Formy zajęć i ich wymiar w semestrze:
-
- Wykład30h
- Ćwiczenia0h
- Laboratorium0h
- Projekt15h
- Lekcje komputerowe0h
- Wymagania wstępne:
- Limit liczby studentów:
- 30
- Cel przedmiotu:
- Celem przedmiotu jest zapoznanie z podstawami teorii klasyfikacji wzorców i zasadniczymi metodami komputerowego rozpoznawania obrazów cyfrowych i sygnałów mowy. W szczególności w zakresie rozpoznawania obrazów omawiane są zagadnienia: cyfrowej reprezentacji i segmentacji obrazów oraz rozpoznawania obiektów 2D i 3D. Rozpoznawanie mowy obejmuje zagadnienia: reprezentacji cyfrowego sygnału, analizy akustyczno-fonetycznej i rozpoznawania słów lub zdań mówionych. Studenci nabywają umiejętności praktycznego posługiwania się metodami rozpoznawania rozwiązując zadania i projektując systemy komputerowego rozpoznawania obrazu lub sygnału mowy.
- Treści kształcenia:
- Materiał podzielony jest na trzy części: rozpoznawanie wzorców, rozpoznawanie obrazów i rozpoznawanie sygnałów mowy.
W pierwszej części przedstawiono pojęcie wzorca, rodzaje wzorców, procesy klasyfikacji prostych wzorców i rozpoznawania złożonych wzorców. Następnie omówiono zagadnienia transformacji przestrzeni reprezentacji (cech) metodami analizy składowych głównych, linowej analizy dyskryminacyjnej i ananlizy składowych niezależnych.
Na koniec części pierwszej przedstawiono główne rodzaje klasyfikatorów (według funkcji potencjałów, Bayesa, k-NN, SVM, MLP), łaczenie klasyfikatorów (np. boosting) i podstawy klasteryzacji (k-średnich, X-średnich, EM).
W zakresie rozpoznawania obrazów omawiana jest najpierw problematyka reprezentacji obrazów, auto-kalibracji kamery, progowania i normowania obrazów.
Następnie przedstawiono podstawowe sposoby filtracji wstępnej obrazów i wyznaczania funkcji momentowych dla obszarów obrazu. Kolejne metody obejmują segmentację obrazu - wyznaczanie segmentów krawędziowych, linii prostych i krzywych, obszarów jednorodnych, cech tekstur i konturów.
Zakończenie części drugiej stanowią metody rozpoznawania obiektów 2D i 3D w obrazach.
W zakresie rozpoznawania mowy, prezentowane są zagadnienia: reprezentacji cyfrowego sygnału mowy w dziedzinie czasu i częstotliwości, przetwarzania i detekcji sygnału mowy w sygnale akustycznym, wyznaczania cech Mel-cepstralnych i według liniowej predykjcji, modelowania fonetycznego sygnału mowy, tworzenia statystycznego modelu HMM dla rozpoznawania słów i zdań.
- Metody oceny:
- Sprawdzanie założonych efektów kształcenia realizowane jest przez:
- ocenę wiedzy i umiejętności związanych z realizacją zadań projektowych – dokonywaną przez nauczyciela akademickiego, prowadzącego zajęcia z projektu, ocenę właściwego wyboru i zrozumienia metod oraz poprawności działania zaprojektowanych programów i sprawozdań z realizacji poszczególnych projektów,
- ocenę wiedzy i umiejętności wykazanych na egzaminie pisemnym o charakterze problemowym (na egzaminie student może korzystać z materiałów dydaktycznych).
- Egzamin:
- tak
- Literatura:
- 1. W. Kasprzak: Rozpoznawanie obrazów i sygnałów mowy. Warszawa, 2009, Oficyna Wydawnicza PW.
2. W. Malina, M. Smiatacz: Metody cyfrowego przetwarzania obrazów. Akademicka Oficyna Wydawnicza EXIT, Warszawa 2005.
3. W. Skarbek: Metody reprezentacji obrazów cyfrowych. Akademicka Oficyna Wydawnicza PLJ, W-wa 1993.
4. R. Duda, P. Hart, D. Stork: Pattern Classification. 2nd edition, John Wiley, 2001.
5. I. Pitas. Digital Image Processing Algorithms and Applications. John Wiley, New York, 2000.
6. L.Rabiner, B.-H.Juang: Fundamentals of speech recognition. Prentice Hall, New York, 1993.
7. J. Benesty, M.M. Sondhi, Y. Huang (eds): Handbook of Speech Processing. Springer, Berlin Heidelberg, 2008.
8. H. Niemann. Klassifikation von Mustern. 2nd edtition, Springer, Berlin, 2003.
9. D. Paulus, J. Hornegger: Applied Pattern Recognition. A Practical Introduction to Image and Speech Processing in C++. Vieweg, Braunschweig, 3d edition, 2001.
- Witryna www przedmiotu:
- Uwagi:
Efekty uczenia się
Profil ogólnoakademicki - wiedza
- Efekt ROSM_W01
- Rozszerzona i pogłębiona wiedza z matematyki, w tym z zakresu systemów stochastycznych. Teoretycznie podbudowana wiedza z zakresu analizy danych. Szczegółowa wiedza w zakresie metod klasyfikacji wzorców, rozpoznawania obrazów i sygnałów mowy.
Weryfikacja: Egzamin pisemny z zakresu wykładu. Projekt inżynierski demonstrujący znajomość metod i metodyki stosowanej dla rozwiązania wybranego zagadnienia rozpoznawania wzorców.
Powiązane efekty kierunkowe:
K_W01, K_W02, K_W04, K_W06
Powiązane efekty obszarowe:
T2A_W01, T2A_W02, T2A_W07, T2A_W02, T2A_W07, T2A_W01, T2A_W03, T2A_W04, T2A_W07
Profil ogólnoakademicki - umiejętności
- Efekt ROSM_U01
- Umiejętność posługiwania się technikami i narzędziami informacyjno-komunikacyjnymi właściwymi do realizacji zadań z zakresu rozpoznawania obrazów i sygnałów mowy. Umiejętność planowania i wykonywania symulacji komputerowych. Umiejętność formułowania i rozwiązywania prostych problemów badawczych. Umiejętność oceny przydatności metod i narzędzi. Umiejętność realizacji projektu inżynierskiego na podstawie specyfikacji.
Weryfikacja: Ocena realizacji projektu inżynierskiego, w tym sposobu analizy problemu i implementacji oraz dokumentacji.
Powiązane efekty kierunkowe:
K_U07, K_U08, K_U09, K_U11, K_U17, K_U18
Powiązane efekty obszarowe:
T2A_U07, T2A_U08, T2A_U09, T2A_U11, T2A_U18, T2A_U19
Profil ogólnoakademicki - kompetencje społeczne
- Efekt ROSM_K01
- Umiejętność myślenia i działania w sposób kreatywny
Weryfikacja: Ocena poprawności własnych ścieżek rozwiązań zadań egzaminacyjnych. Ocena innowacyjności rozwiązania w projekcie inżynierskim.
Powiązane efekty kierunkowe:
K_K01
Powiązane efekty obszarowe:
T2A_K06