Nazwa przedmiotu:
Analiza sygnału audio i rozpoznawanie mowy
Koordynator przedmiotu:
Rajmund Kożuszek
Status przedmiotu:
Fakultatywny dowolnego wyboru
Poziom kształcenia:
Studia II stopnia
Program:
Informatyka
Grupa przedmiotów:
Przedmioty techniczne - zaawansowane
Kod przedmiotu:
EASAR
Semestr nominalny:
2 / rok ak. 2021/2022
Liczba punktów ECTS:
4
Liczba godzin pracy studenta związanych z osiągnięciem efektów uczenia się:
1. liczba godzin kontaktowych – 47 godz., w tym • obecność na wykładach i dwóch sprawdzianach 18 godz., • obecność na ćwiczeniach 12 godz., • obecność na ćwiczeniach laboratoryjnych 15 godz., • konsultacje 2 godz., 2. praca własna studenta – 60 godz., w tym • przygotowanie do ćwiczeń 20 godz., • przygotowanie do laboratoriów 20 godz., • przygotowanie do dwóch sprawdzianów 20 godz. Łączny nakład pracy studenta wynosi 107 godz., co odpowiada 4 pkt. ECTS.
Liczba punktów ECTS na zajęciach wymagających bezpośredniego udziału nauczycieli akademickich:
1.76 pkt. ECTS, co odpowiada 47 godz. kontaktowym
Język prowadzenia zajęć:
polski
Liczba punktów ECTS, którą student uzyskuje w ramach zajęć o charakterze praktycznym:
2.50 pkt. ECTS, co odpowiada 32 godz. ćwiczeń i przygotowaniu do ćwiczeń plus 35 godz. przygotowań i realizacji laboratorium
Formy zajęć i ich wymiar w semestrze:
  • Wykład15h
  • Ćwiczenia15h
  • Laboratorium15h
  • Projekt0h
  • Lekcje komputerowe0h
Wymagania wstępne:
Od osób uczęszczających na przedmiot wymagana jest wiedza z zakresu matematyki i rachunku prawdopodobieństwa, znajomość podstaw programowania i struktur danych oraz podstaw przetwarzania sygnałów (w zakresie odpowiedniego przedmiotu na studiach I stopnia). Wymagana jest umiejętność programowania w języku wysokiego poziomu (np. C++, C#, Java, Python lub Matlab).
Limit liczby studentów:
30
Cel przedmiotu:
Celem jest zapoznanie z metodami komputerowej analizy sygnałów audio, w tym metodami rozpoznawania ludzkiej mowy, przeznaczonymi do tworzenia systemów automatycznego rozpoznawania komend/zdań i identyfikacji mówcy, a także nabycie umiejętności projektowania takich systemów.
Treści kształcenia:
Wykład (18h) : W1. Wprowadzenie – zastosowania, przegląd problematyki. Reprezentacja cyfrowego sygnału audio. (2h) W2. Przetwarzanie wstępne sygnału audio (1h) W3. Metody separacji i rozplatania sygnałów mieszanin (1h) W4. Lokalizacja źródeł dźwięku i ekstrakcja sygnału zainteresowania (1h) W5. Transformaty sygnału dźwięku i klasyfikacja dźwięków (2h) W6. Struktura systemu ASR – automatycznego rozpoznawania mowy (1h) W7. Sprawdzian (1h) W8. Model fonetyczny języka (1h) W9. Detekcja i parametryzacja sygnału mowy (1h) W10. Modele DTW i HMM w rozpoznawaniu słów i fraz zdaniowych (2h) W11. N-gramy i rozpoznawanie zdań (1h) W12. Rozpoznawanie mówcy – zagadnienia, struktura podstawowego rozwiązania (1h) W13. Zaawansowane metody modelowania i rozpoznawania mówcy (1h) W14. Sieci neuronowe w rozpoznawaniu mowy (1h) W15. Sprawdzian końcowy (1h) Ćwiczenia (6 x 2h) : C1. Przetwarzanie, separacja, ekstrakcja i lokalizacja źródeł C2. Transformacje i klasyfikacja dźwięku C3. Detekcja i przetwarzanie sygnału mowy C4. Analiza akustyczno-fonetyczna mowy C5. Rozpoznawanie fraz i zdań C6. Modelowanie i rozpoznawanie mówcy Laboratorium (1h + 7 x 2h) : L1. Wprowadzenie (1h) L2. Przetwarzanie, separacja i ekstrakcja źródeł L3. Lokalizacja źródeł L4. Transformacje i klasyfikacja dźwięku L5. Detekcja i przetwarzanie sygnału mowy L6. Analiza akustyczno-fonetyczna mowy L7. Rozpoznawanie fraz i zdań L8. Modelowanie i rozpoznawanie mówcy
Metody oceny:
Wykład prowadzony jest w tradycyjnej formie z wykorzystaniem materiałów w postaci elektronicznej. Przewiduje się 18 godzin części wykładowej realizowanej podczas 8 spotkań 2 godzinnych i 2 sprawdzianów po 1-godzinie. Ćwiczenia mają charakter rozwiązywania zadań o charakterze algorytmiczno-obliczeniowym przez Prowadzącego wspólnie ze studentami. Zadania stanowią praktyczną ilustrację zagadnień omawianych wcześniej na wykładzie. Przewiduje się 12 godzin ćwiczeń realizowanych podczas 6 spotkań 2 godzinnych. Oceniana jest aktywność studentów podczas zajęć, w tym rozwiązywanie podanych wcześniej zadań. Laboratorium polega na projektowaniu programistycznych rozwiązań wybranych zagadnień z wykorzystaniem narzędzi i bibliotek programów zainstalowanych na komputerach w laboratorium. Przewiduje się pracę w grupach 2-osobowych. Zajęcia w laboratorium składają się z 7 zajęć po 2 godziny każda, poświęcone odrębnym zagadnieniom przedstawianym podczas wykładu i ćwiczeń, oraz na jednych zajęciach 1 godzinnych wprowadzających. Oceniany jest stopień realizacji zadanych ćwiczeń laboratoryjnych.
Egzamin:
nie
Literatura:
- Literatura podstawowa 1. W. Kasprzak: Rozpoznawanie obrazów i sygnału mowy. Oficyna Wydawnicza PW, Politechnika Warszawska, 2009. 2. L. R. Rabiner and R. W. Schafer: Introduction to Digital Speech Processing. Foundations and Trends in Signal Processing, vol. 1, no. 1-2 (2007), pp. 1-194, NOW - the essence of knowledge, Boston - Delft. (Rozdziały: 1-6, 9) 3. J. Benesty, M. M. Sondhi, Y. Huang (eds): Handbook of Speech Processing. Springer, Berlin Heidelberg, 2008. (wybrane artykuły): - R.W. Schafer: Homomorphic Systems and Cepstrum Analysis of Speech. In [3], pp. 161-180. - S. Young: HMMs and related speech recognition technologies. In [3], 539-555. - A. E. Rosenberg, F. Bimbot, S. Parthasarathy: Overview of Speaker Recognition. In [3], pp. 725-741 4. W. Kasprzak: Adaptive computation methods in digital image sequence analysis. (Rozdziały 5-9). Prace Naukowe - Elektronika, Nr. 127 (2000), Oficyna Wydawnicza PW, Warszawa. - Literatura uzupełniająca 5. I. Goodfellow, Y. Bengio, A. Courville: Deep Learning. MIT Press, 2016. http://www.deeplearningbook.org (wybrane rozdziały) 6. G.E. Hinton et al.: Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. IEEE Signal Process. Mag., 29(6), 82–97, 2014 7. S. Makino, T.-W. Lee, H. Sawada: Blind Speech Separation. Berlin: Springer, 2007. 8. A. Cichocki, J. Karhunen, W. Kasprzak, R. Vigario: Neural Networks for Blind Separation with Unknown Number of Sources, Neurocomputing, Elsevier, NL, vol. 24 (1999), 55-93. 9. W. Kasprzak, N. Ding, N. Hamada: Relaxing the WDO assumption in blind extraction of speakers from speech mixtures. Journal of Telecommunications and Information Technology, Warsaw, Poland, vol. 2010, No. 4, 50-58. 10. Man-Wai Mak and Jen-Tzung Chien: Machine Learning for Speaker Recognition, INTERSPEECH 2016 Tutorial. 11. K. Fujimoto, N. Hamada, W. Kasprzak: Estimation and Tracking of Fundamental, 2-nd and 3-d Harmonic Frequencies for Spectrogram Normalization in Speech Recognition. Bulletin of the Polish Academy of Sciences. Technical Sciences, vol. 60(1) 2012, 71-8. DOI: 10.2478/v10175-012-0011-z 12. W. Kasprzak, P. Przybysz: Stochastic modelling of sentence semantics in speech recognition. Computer Recognition Systems 4, Advances in Intelligent and Soft Computing, vol. 95, pp. 737-746, Springer-Verlag, Berlin Heidelberg, 2011. (60%) (WoS 1 cyt.), (GS), link.springer.com, DOI: 10.1007/978-3-642-20320-6_75 13. C. Zieliński et al.: Variable structure robot control systems: The RAPP approach. Robotics and Autonomous Systems, 94 (2017) 226–244, North-Holland. 14. W.Kasprzak et al.: Agentowa struktura wielomodalnego interfejsu do Narodowej Platformy Cyberbezpieczeństwa. Pomiary Automatyka Robotyka, tom 23, nr 3/2019, 41-54 (część I), tom 23, nr 4/2019 (część II) 5-18. - Oprogramowanie 1. Carnegie Mellon University: Biblioteka Sphinx4. 2004. http://cmusphinx.sourceforge.net/doc/sphinx4/ 2. Projekt KALDI: http://kaldi.sourceforge.net/index.html 3. Projekt CLARIN: http://mowa.clarin-pl.eu/ 4. Projekt ALIZE: biblioteka „open source”. http://alize.univ-avignon.fr Kod programu: https://github.com/ALIZE-Speaker-Recognition Publikacje: http://mistral.univ-avignon.fr/publications.html 5. Platforma biometryczna Mistral: http://mistral.univ-avignon.fr/
Witryna www przedmiotu:
https://usosweb.usos.pw.edu.pl/kontroler.php?_action=katalog2/przedmioty/pokazPrzedmiot&prz_kod=103A-INISY-MSP-EASAR
Uwagi:
(-)

Efekty uczenia się