Nazwa przedmiotu:
Image and Speech Recognition
Koordynator przedmiotu:
Prof. dr hab. inż. Włodzimierz Kasprzak
Status przedmiotu:
Obowiązkowy
Poziom kształcenia:
Studia II stopnia
Program:
Computer Science and Information Systems
Grupa przedmiotów:
Obligatory
Kod przedmiotu:
1120-INSZI-MSA-0116
Semestr nominalny:
2 / rok ak. 2023/2024
Liczba punktów ECTS:
5
Liczba godzin pracy studenta związanych z osiągnięciem efektów uczenia się:
.
Liczba punktów ECTS na zajęciach wymagających bezpośredniego udziału nauczycieli akademickich:
.
Język prowadzenia zajęć:
angielski
Liczba punktów ECTS, którą student uzyskuje w ramach zajęć o charakterze praktycznym:
.
Formy zajęć i ich wymiar w semestrze:
  • Wykład30h
  • Ćwiczenia15h
  • Laboratorium15h
  • Projekt0h
  • Lekcje komputerowe0h
Wymagania wstępne:
Students are expected to have the following background: - knowledge of basic computer science principles and skills, at a level sufficient to write a reasonably non-trivial computer program, preferably in one of the languages: C/C++, Java, C# or Pascal/Delphi, - familiarity with basic mathematical analysis, linear algebra and probability theory.
Limit liczby studentów:
Bez limitu
Cel przedmiotu:
The goal is to learn about basic methods and algorithms in digital image- and speech-analysis. The students will be able to design image and speech analysis programs dealing with pattern (image or speech) processing, pattern segmentation and object (or word) recognition.
Treści kształcenia:
We start with the principles of pattern recognition theory - pattern classification, recognition, understanding. Basic feature space transformations PCA, LDA and ICA are introduced and different classifiers are presented, e.g. a linear discriminate classifier, SVM, Bayes-, k-NN- and MLP-classifiers. Basic unsupervised learning approaches for pattern clustering and vector quantization are shown too. The second part covers basic image recognition solutions: image processing, segmentation and object recognition. The topics of image formation and low-level processing are presented, like camera auto-calibration, color spaces and compression schemas, and the processes of image binarization, normalization and filtering. Among image segmentation methods we introduce algorithms for edge following and line segment detection, Hough transforms, homogeneous region detection, texture- and shape description. Approaches to model-based sequence and object recognition incude: dynamic programming search, heuristic matching strategies, graph search and MAP estimation. The third part deals with speech recognition. It starts with basic signal processing in the time and frequency domain (speech source detection, basic frequency estimation, noise elimination, windowed Fourier transform, FFT). Then basic feature detection approaches are presented, leading to the MFCC and LPC-based features. We illustrate the phonetic model of speech by spectrograms for different phoneme types, e.g. monophtongs, diphthongs, approximants, nasals, fricatives, and we introduce the tri-phone model. The spoken word recognition problem is solved by the use of Hidden Markow Models for word modeling with the Baum-Welch training and Viterbi search methods. Finally we introduce the N-gram-based modelling of sentences and token passing search for sentence recognition.
Metody oceny:
There is a continuous assessment method applied in this course. The points are collected during the semester time, a they come from two tests (2 x 30 pts.), covering the lecture and exercise material, and from a project work assessed in the project time (40 pts.).
Egzamin:
nie
Literatura:
Recommended reading: 1. W. Kasprzak, Image and speech recognition (in Polish: Rozpoznawanie obrazów i sygnałów mowy), WUT publishing house, Warszawa, 2009. 2. R. Duda, P. Hart, D. Stork, Pattern classification, 2nd edition, John Wiley & Sons, New York, 2001. 3. H. Niemann, Klassifikation von Mustern, 2nd edition, Springer, 2003. 4. R. C. Gonzales, P. C. Wintz, Digital image processing, Addison-Wesley, Reading, MA, 1987. 5. I. Pitas, Digital image processing algorithms and applications, John Wiley, New York, 2000. 6. L. Rabiner, B.-H. Juang, Fundamentals of speech recognition, Prentice Hall, New York, 1993. 7. J. Benesty, M.M. Sondhi, Y. Huang (eds), Handbook of speech processing, Springer, Berlin, 2008. Software: The exercise part is illustrated by programs in Matlab. The project work explores two open source program libraries (e.g. OpenCV and Marf), that contain implementations of basic tasks in image and speech analysis as well as pattern classification.
Witryna www przedmiotu:
brak
Uwagi:
.

Efekty uczenia się

Profil ogólnoakademicki - wiedza

Charakterystyka W01
Has extensive knowledge of mathematics regarding the use of linear programming and the linear and non-linear optimization for pattern classification and pattern recognition
Weryfikacja: tests
Powiązane charakterystyki kierunkowe: I2_W01
Powiązane charakterystyki obszarowe:
Charakterystyka W02
Knows advanced machine learning and computational intelligence methods, especially methods of learning the pattern classifiers and of pattern recognition methods (applied for digital image- and speech recognition)
Weryfikacja: tests
Powiązane charakterystyki kierunkowe: I2AI_W02, I2AI_W04
Powiązane charakterystyki obszarowe:
Charakterystyka W03
Has knowledge of the advanced algorithmics, data structures and methods of creating algorithms in particular required in systems of pattern recognition
Weryfikacja: tests
Powiązane charakterystyki kierunkowe: I2AI_W04, I2_W02
Powiązane charakterystyki obszarowe:

Profil ogólnoakademicki - umiejętności

Charakterystyka U01
Has the ability to collect, select and critically to interpret the technical information, and the ability to formulate opinions, ideas, problems and solutions
Weryfikacja: tests
Powiązane charakterystyki kierunkowe: I2_U02, I2_U08
Powiązane charakterystyki obszarowe:
Charakterystyka U02
Can design efficient algorithms and justify their accuracy
Weryfikacja: graded project tasks
Powiązane charakterystyki kierunkowe: I2_U03
Powiązane charakterystyki obszarowe:
Charakterystyka U03
Can formulate a hypothesis regarding technical and scientific topics in the field of Computer Science
Weryfikacja: graded project tasks
Powiązane charakterystyki kierunkowe: I2AI_U03
Powiązane charakterystyki obszarowe:
Charakterystyka U04
Speaks English in sufficient detail to enable seamless communication on professional issues
Weryfikacja: graded project tasks
Powiązane charakterystyki kierunkowe: I2_U08, I2_U10
Powiązane charakterystyki obszarowe:
Charakterystyka U05
Is able to work independently and in a team
Weryfikacja: tests
Powiązane charakterystyki kierunkowe: I2_U11
Powiązane charakterystyki obszarowe:
Charakterystyka U06
Is able to define the implementation stages and practically to carry out a complex information technology undertaking
Weryfikacja: graded project tasks
Powiązane charakterystyki kierunkowe: I2AI_U08, I2_U13
Powiązane charakterystyki obszarowe:
Charakterystyka U07
Can design information systems using artificial neural networks for function approximation or vector quantization
Weryfikacja: graded project tasks
Powiązane charakterystyki kierunkowe: I2AI_U01, I2AI_U07, I2_U07
Powiązane charakterystyki obszarowe:
Charakterystyka U08
Has the ability to perform word processing in signals (to process inscriptions in images and spoken words in audio signals)
Weryfikacja: graded project tasks
Powiązane charakterystyki kierunkowe: I2AI_U07, I2_U07
Powiązane charakterystyki obszarowe:

Profil ogólnoakademicki - kompetencje społeczne

Charakterystyka K01
Is able to think and act creatively
Weryfikacja: graded project tasks
Powiązane charakterystyki kierunkowe: I2_K04
Powiązane charakterystyki obszarowe:
Charakterystyka K02
Is aware of the responsibility for the tasks performed jointly within a teamwork
Weryfikacja: graded project tasks
Powiązane charakterystyki kierunkowe: I2_K05
Powiązane charakterystyki obszarowe: