- Nazwa przedmiotu:
- Uczenie ze wzmocnieniem
- Koordynator przedmiotu:
- Dr hab. inż. Maria Ganzha, prof. PW
- Status przedmiotu:
- Obowiązkowy
- Poziom kształcenia:
- Studia II stopnia
- Program:
- Informatyka i Systemy Informacyjne
- Grupa przedmiotów:
- Wspólne
- Kod przedmiotu:
- 1120-INMSI-MSP-0115
- Semestr nominalny:
- 2 / rok ak. 2020/2021
- Liczba punktów ECTS:
- 4
- Liczba godzin pracy studenta związanych z osiągnięciem efektów uczenia się:
- .
- Liczba punktów ECTS na zajęciach wymagających bezpośredniego udziału nauczycieli akademickich:
- .
- Język prowadzenia zajęć:
- polski
- Liczba punktów ECTS, którą student uzyskuje w ramach zajęć o charakterze praktycznym:
- .
- Formy zajęć i ich wymiar w semestrze:
-
- Wykład15h
- Ćwiczenia0h
- Laboratorium0h
- Projekt30h
- Lekcje komputerowe0h
- Wymagania wstępne:
- .
- Limit liczby studentów:
- Bez limitu
- Cel przedmiotu:
- Celem jest zapoznanie studentów z podstawowymi pojęciami, metodami i wybranymi algorytmami uczenia ze wzmocnieniem. W trakcie zajęć praktycznych (projekt) studenci zdobędą doświadczenia związane z implementacją i stosowaniem takich algorytmów.
- Treści kształcenia:
- Wykład:
Uczenie ze wzmocnieniem – podstawowe pojęcia: środowisko, nagrody/polityka, uczeń/agent. Przykładowe problemy. Procesy decyzyjne Markowa (MDP); funkcja wartości. Programowanie dynamiczne w rozwiązywaniu MDP. Predykcja funkcji wartości (metoda Monte-Carlo, TD-learning). Uczenie ze wzmocnieniem w dużej (nieograniczonej) przestrzeni stanów – algorytmy aproksymacyjne; algorytm TD(lambda), gradient TD-learning (algorytmy Suttona). Uczenie się optymalnej (prawie optymalnej) strategii; problem „wielorękiego bandyty”. Uczenie typu Q-learning. Metody aktor-krytyk (SARSA, metody zachłanne, ...).
Projekt:
Studenci wybierają temat projektu na drugich zajęciach. Wynikami projektu są: prezentacja końcowa, raport techniczny, udokumentowany kod.
- Metody oceny:
- Ocena końcowa z przedmiotu ustalana jest według standardowej skali, na podstawie łącznej liczby punktów uzyskanych z egzaminu (50%) oraz projektu (50%).
- Egzamin:
- tak
- Literatura:
- 1. 1. R. Sutton, A.G. Barto, Reinforcement Learning: an introduction.
2. C. Szepesv'ari, Algorithms for Reinforcement Learning.
3. S. Russel, P. Norvig, Artificial Intelligence: A Modern Approach.
4. T. Mitchell, Machine Learning.
- Witryna www przedmiotu:
- brak
- Uwagi:
Efekty uczenia się
Profil ogólnoakademicki - wiedza
- Charakterystyka W01
- Zna i rozumie zaawansowane metody uczenia ze wzmocnieniem, procesy decyzyjne Markowa, jak również podstawy programowania dynamicznego
Weryfikacja: ocena prac domowych i egzaminu
Powiązane charakterystyki kierunkowe:
I2SI_W02
Powiązane charakterystyki obszarowe:
- Charakterystyka W02
- Wie jak wybrać i zastosować zaawansowane metody uczenia ze wzmocnieniem i dostosować je do rozwiązywanego problemu
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe:
I2SI_W06
Powiązane charakterystyki obszarowe:
- Charakterystyka W03
- Posiada wiedzę o trendach rozwojowych i najistotniejszych nowych osiągnięciach w zakresie teorii i praktycznych zastosowań uczenia ze wzmocnieniem
Weryfikacja: ocena prac domowych i egzaminu
Powiązane charakterystyki kierunkowe:
I2_W02, I2SI_W02
Powiązane charakterystyki obszarowe:
P7U_W, I.P7S_WG.o
Profil ogólnoakademicki - umiejętności
- Charakterystyka U01
- Potrafi pozyskiwać informacje dotyczące uczenia ze wzmocnieniem z literatury, baz danych i innych źródeł; potrafi integrować uzyskane informacje, dokonywać ich interpretacji i krytycznej oceny, a także wyciągać wnioski oraz formułować i wyczerpująco uzasadniać opinie
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe:
I2_U01, I2_U05
Powiązane charakterystyki obszarowe:
- Charakterystyka U02
- Potrafi pracować indywidualnie; potrafi ocenić czasochłonność zadania
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe:
I2_U11
Powiązane charakterystyki obszarowe:
- Charakterystyka U03
- Potrafi opracować szczegółową dokumentację wyników realizacji eksperymentu związanego ze stosowaniem metod uczenia ze wzmocnieniem, zadania projektowego lub badawczego; potrafi przygotować opracowanie zawierające omówienie tych wyników
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe:
I2_U06, I2_U07
Powiązane charakterystyki obszarowe:
- Charakterystyka U04
- Potrafi przygotować i przedstawić prezentację na temat realizacji zadania projektowego lub badawczego oraz poprowadzić dyskusję dotyczącą przedstawionej prezentacji
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe:
I2_U01, I2_U06
Powiązane charakterystyki obszarowe:
- Charakterystyka U05
- Potrafi dobrać narzędzia odpowiednie do implementacji metod uczenia ze wzmocnieniem, uwzględniając przy tym możliwości współczesnych komputerów
Weryfikacja: ocena projektu
Powiązane charakterystyki kierunkowe:
I2_U04
Powiązane charakterystyki obszarowe:
Profil ogólnoakademicki - kompetencje społeczne
- Charakterystyka K01
- Potrafi stosować metody uczenia ze wzmocnieniem w sposób nieszablonowy i skuteczny
Weryfikacja: ocena prezentacji i projektu
Powiązane charakterystyki kierunkowe:
I2_K01, I2_K05
Powiązane charakterystyki obszarowe: