Nazwa przedmiotu:
Zaawansowane przetwarzanie danych multimedialnych
Koordynator przedmiotu:
Rajmund Kożuszek
Status przedmiotu:
Fakultatywny dowolnego wyboru
Poziom kształcenia:
Studia II stopnia
Program:
Informatyka
Grupa przedmiotów:
Przedmioty techniczne - podstawowe
Kod przedmiotu:
ZPDM
Semestr nominalny:
4 / rok ak. 2021/2022
Liczba punktów ECTS:
4
Liczba godzin pracy studenta związanych z osiągnięciem efektów uczenia się:
1. liczba godzin kontaktowych – 64 godz., w tym obecność na wykładach 30 godz., obecność na laboratorium 15 godz., obecność na egzaminie 2 godz. spotkania projektowe 15 godz. konsultacje 2 godz. 2. praca własna studenta – 61 godz., w tym realizacja projektu 25 godz., przygotowanie do laboratorium 20 godz., przygotowanie do egzaminu 16 godz. Łączny nakład pracy studenta wynosi 125 godz., co odpowiada 5 pkt. ECTS.
Liczba punktów ECTS na zajęciach wymagających bezpośredniego udziału nauczycieli akademickich:
2,56 pkt. ECTS, co odpowiada 79 godz. kontaktowym
Język prowadzenia zajęć:
polski
Liczba punktów ECTS, którą student uzyskuje w ramach zajęć o charakterze praktycznym:
2,20 pkt. ECTS, co odpowiada 55 godz. zajęć praktycznych
Formy zajęć i ich wymiar w semestrze:
  • Wykład30h
  • Ćwiczenia0h
  • Laboratorium15h
  • Projekt15h
  • Lekcje komputerowe0h
Wymagania wstępne:
Osoby uczęszczające na przedmiot powinny przede wszystkim mieć wiedzę związaną z podstawami cyfrowego przetwarzania sygnałów dźwiękowych i obrazów. Wymagana będzie również umiejętność programowania w języku Python lub korzystania ze środowiska Matlab.
Limit liczby studentów:
32
Cel przedmiotu:
Celem przedmiotu jest omówienie i analiza zaawansowanych zagadnień związanych z cyfrowym przetwarzaniem danych multimedialnych, obejmujących przede wszystkim przetwarzanie sygnałów muzyki, mowy i obrazu z uwzględnieniem akustycznych i optycznych zjawisk fizycznych, ograniczeń percepcji słuchowej i wzrokowej oraz efektów psychoakustycznych. Poruszane zagadnienia będą przedstawiane w formie interaktywnej z uwzględnieniem możliwości wykorzystania metod uczenia maszynowego (w tym sieci głębokich) w analizie, przetwarzaniu i syntezie sygnałów multimedialnych.
Treści kształcenia:
Wykład (30h): 1. Zagadnienia wstępne (2h): • Sygnały oraz systemy foniczne i wizyjne, przetwarzanie analogowo-cyfrowe (próbkowanie, nadpróbkowanie, kwantyzacja, kształtowanie szumu), modulacje cyfrowe, przetworniki foniczne konwencjonalne (PCM) i sigma-delta (SDM). • Współczesne systemy przetwarzania danych multimedialnych. 2. Kompresja, kodowanie i transmisja dźwięku (3h): • Algorytmy kompresji stratnej z wykorzystaniem transformacji MDCT, modulacji ADPCM, SBC i innych sygnałów audio. • Algorytmy kompresji bezstratnej. • Standardy przewodowej i bezprzewodowej transmisji dźwięku. 3. Filtracja cyfrowa (2h). • Filtry o stałej częstotliwości próbkowania. • Zespoły filtrów i filtry o zmiennej częstotliwości próbkowania. • Filtry adaptacyjne. 4. Cyfrowe efekty dźwiękowe (4h): • Algorytmy przetwarzania dźwięku w dziedzinie amplitudy (procesory dynamiki sygnału, bramki szumów). • Algorytmy przetwarzania dźwięku w dziedzinie czasu (echo, opóźnienia, pogłos, flanger, chorus). • Algorytmy przetwarzania dźwięku w dziedzinie częstotliwości (korekcja charakterystyk częstotliwościowych, filtracja, redukcja szumów i zniekształceń). 5. Lokalizacja i śledzenie źródeł dźwięku, detekcja, śledzenie i rozpoznawanie obiektów, metody akwizycji i analizy obrazu (4h). 6. Algorytmy syntezy i rozpoznawania w przetwarzaniu danych multimedialnych (3h). 7. Ekstrakcja i analiza cech sygnałów dźwiękowych (2h). 8. Analiza semantyczna obrazu (2h). 9. Uczenie maszynowe w przetwarzaniu sygnałów fonicznych, obrazów i sekwencji wizyjnych (8h): • Wspomaganie algorytmów ASR, detekcja, klasyfikacja sygnałów dźwiękowych, rozpoznawanie mówców, języka naturalnego, tłumaczenie. • Detekcja, analiza, klasyfikacja i rozpoznawanie sygnałów muzycznych oraz środowiskowych. • Wspomaganie przetwarzania danych multimedialnych z przetworników analogowo-cyfrowych i wizyjnych w lokalizacji i śledzeniu źródeł dźwięku i obiektów. • Detekcja i klasyfikacja obiektów obrazach statycznych i sekwencjach obrazów. Laboratorium (15h): Ćwiczenia laboratoryjne są zorganizowane w formie pięciu bloków tematycznych po trzy godziny zajęć i są realizowane w zespołach 2 osobowych w grupach laboratoryjnych 8 osobowych. Treści zadań laboratoryjnych obejmują: (1) badanie algorytmów kompresji i kodowania dźwięku oraz implementację algorytmów automatycznego rozpoznawania mowy (ASR), (2) implementację wybranych cyfrowych efektów dźwiękowych, (3) przetwarzanie sygnałów z macierzy mikrofonowych i głośnikowych oraz badanie algorytmów lokalizacji i śledzenia, (4) detekcję i klasyfikację obiektów w sekwencji obrazów oraz (5) ekstrakcję i analizę cech danych multimedialnych. Student zapoznaje się również z technikami projektowania i programowania algorytmów niezbędnych w badaniach związanych z analizą danych multimedialnych. Projekt (15h): Projekt jest definiowany w formie wymagań i parametrów, jakie musi spełniać aplikacja i jest realizowany w grupach projektowych złożonych z 4-6 osób. Grupa projektowa wybiera implementację aplikacji z aktualnej listy projektów lub proponuje własną aplikację do akceptacji prowadzącego zajęcia projektowe. Treści zadań projektowych dotyczą zagadnień uczenia maszynowego w przetwarzaniu sygnałów fonicznych, obrazów i sekwencji wizyjnych.
Metody oceny:
Zajęcia laboratoryjne są prowadzone w grupach 2 osobowych z podziałem na zespoły laboratoryjne liczące 8 osób (5 terminów po 3 godziny). Projekt jest realizowany w grupach liczących od 4 do 6 osób. Spotkanie projektowe w sumie dla każdej grupy to 3 godziny.
Egzamin:
tak
Literatura:
1. LERCH, Alexander. An introduction to audio content analysis: Applications in signal processing and music informatics. Wiley-IEEE Press, 2012. 2. HILL, Paul. Audio and Speech Processing with MATLAB. CRC Press, 2018. 3. LI, Francis F.; COX, Trevor J. Digital Signal Processing in Audio and Acoustical Engineering. CRC Press, 2019. 4. ZÖLZER, Udo. Digital audio signal processing. New York: Wiley, 2008. 5. ZIELIŃSKI, T. P.; KOROHODA, P.; RUMIAN, R. Cyfrowe przetwarzanie sygnałów w telekomunikacji. Wydawnictwo Naukowe PWN, 2014. 6. DOWNEY, Allen B. Think DSP: digital signal processing in Python. " O'Reilly Media, Inc.", 2016.
Witryna www przedmiotu:
https://usosweb.usos.pw.edu.pl/kontroler.php?_action=katalog2/przedmioty/pokazPrzedmiot&prz_kod=103A-TLTBM-MSP-ZPDM
Uwagi:
(-)

Efekty uczenia się