- Nazwa przedmiotu:
- Uczenie ze wzmocnieniem
- Koordynator przedmiotu:
- Dr hab. inż. Maria Ganzha, prof. PW
- Status przedmiotu:
- Obowiązkowy
- Poziom kształcenia:
- Studia II stopnia
- Program:
- Informatyka i Systemy Informacyjne
- Grupa przedmiotów:
- Wspólne
- Kod przedmiotu:
- 1120-INMSI-MSP-0115
- Semestr nominalny:
- 2 / rok ak. 2022/2023
- Liczba punktów ECTS:
- 4
- Liczba godzin pracy studenta związanych z osiągnięciem efektów uczenia się:
- 1. Godziny kontaktowe – 52 h; w tym
a) obecność na wykładach – 15 h
b) obecność na zajęciach projektowych – 30 h
c) konsultacje – 5 h
d) obecność na egzaminie – 2 h
2. praca własna studenta – 60 h; w tym
a) zapoznanie się z literaturą – 15 h
b) przygotowanie do zajęć projektowych – 15 h
c) przygotowanie raportu/prezentacji – 15 h
d) przygotowanie do egzaminu – 15 h
Razem 112 h, co odpowiada 4 pkt. ECTS
- Liczba punktów ECTS na zajęciach wymagających bezpośredniego udziału nauczycieli akademickich:
- 1. obecność na wykładach – 15 h
2 obecność na zajęciach projektowych – 30 h
3. konsultacje – 5 h
4. obecność na egzaminie – 2 h
Razem 52 h, co odpowiada 2 pkt. ECTS
- Język prowadzenia zajęć:
- polski
- Liczba punktów ECTS, którą student uzyskuje w ramach zajęć o charakterze praktycznym:
- 1. obecność na zajęciach projektowych – 30 h
2. przygotowanie do zajęć projektowych – 15 h
Razem 45 h, co odpowiada 2 pkt. ECTS
- Formy zajęć i ich wymiar w semestrze:
-
- Wykład15h
- Ćwiczenia0h
- Laboratorium0h
- Projekt30h
- Lekcje komputerowe0h
- Wymagania wstępne:
- .
- Limit liczby studentów:
- Bez limitu
- Cel przedmiotu:
- Celem jest zapoznanie studentów z podstawowymi pojęciami, metodami i wybranymi algorytmami uczenia ze wzmocnieniem.
W trakcie zajęć praktycznych (projekt) studenci zdobędą doświadczenia związane z implementacją i stosowaniem takich algorytmów.
- Treści kształcenia:
- Wykład:
1. Uczenie ze wzmocnieniem – podstawowe pojęcia: środowisko, nagrody/polityka, uczeń/agent. Przykładowe problemy.
2. Procesy decyzyjne Markowa (MDP); funkcja wartości.
3. Programowanie dynamiczne w rozwiązywaniu MDP.
4. Predykcja funkcji wartości (metoda Monte-Carlo, TD-learning).
5. Uczenie ze wzmocnieniem w dużej (nieograniczonej) przestrzeni stanów – algorytmy aproksymacyjne; algorytm TD(lambda), gradient TD-learning (algorytmy Suttona).
6. Uczenie się optymalnej (prawie optymalnej) strategii; problem „wielorękiego bandyty”.
7. Uczenie typu Q-learning.
8. Metody aktor-krytyk (SARSA, metody zachłanne, …).
Projekt:
Studenci wybierają temat projektu na drugich zajęciach. Wynikami projektu są: prezentacja końcowa, raport techniczny, udokumentowany kod.
- Metody oceny:
- Ocena końcowa z przedmiotu ustalana jest według standardowej skali, na podstawie łącznej liczby punktów uzyskanych z egzaminu (50%) oraz projektu (50%).
- Egzamin:
- tak
- Literatura:
- 1. 1. R. Sutton, A.G. Barto, Reinforcement Learning: an introduction.
2. C. Szepesv'ari, Algorithms for Reinforcement Learning.
3. S. Russel, P. Norvig, Artificial Intelligence: A Modern Approach.
4. T. Mitchell, Machine Learning.
- Witryna www przedmiotu:
- brak
- Uwagi:
Efekty uczenia się
Profil ogólnoakademicki - wiedza
- Charakterystyka W01
- Zna i rozumie zaawansowane metody uczenia ze wzmocnieniem, procesy decyzyjne Markowa, jak również podstawy programowania dynamicznego
Weryfikacja: ocena prac domowych i egzaminu
Powiązane charakterystyki kierunkowe:
I2SI_W03, I2_W02, I2SI_W02
Powiązane charakterystyki obszarowe:
P7U_W, I.P7S_WG.o
- Charakterystyka W02
- Wie jak wybrać i zastosować zaawansowane metody uczenia ze wzmocnieniem i dostosować je do rozwiązywanego problemu
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe:
I2SI_W01, I2SI_W06
Powiązane charakterystyki obszarowe:
- Charakterystyka W03
- Posiada wiedzę o trendach rozwojowych i najistotniejszych nowych osiągnięciach w zakresie teorii i praktycznych zastosowań uczenia ze wzmocnieniem
Weryfikacja: ocena prac domowych i egzaminu
Powiązane charakterystyki kierunkowe:
I2SI_W02
Powiązane charakterystyki obszarowe:
Profil ogólnoakademicki - umiejętności
- Charakterystyka U01
- Potrafi pozyskiwać informacje dotyczące uczenia ze wzmocnieniem z literatury, baz danych i innych źródeł; potrafi integrować uzyskane informacje, dokonywać ich interpretacji i krytycznej oceny, a także wyciągać wnioski oraz formułować i wyczerpująco uzasadniać opinie
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe:
I2_U02
Powiązane charakterystyki obszarowe:
- Charakterystyka U02
- Potrafi pracować indywidualnie; potrafi ocenić czasochłonność zadania
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe:
I2_U11
Powiązane charakterystyki obszarowe:
- Charakterystyka U03
- Potrafi opracować szczegółową dokumentację wyników realizacji eksperymentu związanego ze stosowaniem metod uczenia ze wzmocnieniem, zadania projektowego lub badawczego; potrafi przygotować opracowanie zawierające omówienie tych wyników
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe:
I2_U06, I2_U07, I2_U08
Powiązane charakterystyki obszarowe:
- Charakterystyka U04
- Potrafi przygotować i przedstawić prezentację na temat realizacji zadania projektowego lub badawczego oraz poprowadzić dyskusję dotyczącą przedstawionej prezentacji
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe:
I2_U08, I2_U09
Powiązane charakterystyki obszarowe:
- Charakterystyka U05
- Potrafi dobrać narzędzia odpowiednie do implementacji metod uczenia ze wzmocnieniem, uwzględniając przy tym możliwości współczesnych komputerów
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe:
I2_U04, I2_U08, I2_U15**
Powiązane charakterystyki obszarowe:
Profil ogólnoakademicki - kompetencje społeczne
- Charakterystyka K01
- Krytycznie ocenia posiadaną wiedzę i odbierane treści
Weryfikacja: ocena prezentacji i projektu
Powiązane charakterystyki kierunkowe:
I2_K01
Powiązane charakterystyki obszarowe:
- Charakterystyka K02
- Jest gotowy stosować metody uczenia ze wzmocnieniem w sposób nieszablonowy i skuteczny
Weryfikacja: .
Powiązane charakterystyki kierunkowe:
I2_K04
Powiązane charakterystyki obszarowe: