- Nazwa przedmiotu:
- Przetwarzanie danych w platformach Big Data
- Koordynator przedmiotu:
- Dr hab. inż. Maciej Grzenda, Dr inż Jarosław Legierski
- Status przedmiotu:
- Obowiązkowy
- Poziom kształcenia:
- Studia II stopnia
- Program:
- Informatyka
- Grupa przedmiotów:
- Wspólne
- Kod przedmiotu:
- 1120-INPAD-MSP-XXXX
- Semestr nominalny:
- 2 / rok ak. 2016/2017
- Liczba punktów ECTS:
- 4
- Liczba godzin pracy studenta związanych z osiągnięciem efektów uczenia się:
- .
- Liczba punktów ECTS na zajęciach wymagających bezpośredniego udziału nauczycieli akademickich:
- .
- Język prowadzenia zajęć:
- polski
- Liczba punktów ECTS, którą student uzyskuje w ramach zajęć o charakterze praktycznym:
- .
- Formy zajęć i ich wymiar w semestrze:
-
- Wykład15h
- Ćwiczenia0h
- Laboratorium30h
- Projekt0h
- Lekcje komputerowe0h
- Wymagania wstępne:
- Bazy danych
- Limit liczby studentów:
- .
- Cel przedmiotu:
- Celem przedmiotu jest przekazanie wiedzy na temat architektury i przykładowych środowisk Big Data umożliwiających pozyskiwanie, składowanie i analizę danych w trybie wsadowym i strumieniowym.
- Treści kształcenia:
- Wykład:
Przegląd zagadnień oraz oprogramowania nurtu Big Data, w tym projektów takich jak Apache Hadoop, Apache Spark, czy też Apache Flume.
Architektura systemów Big Data: pozyskiwanie danych, składowanie danych, przekazywanie danych w rozproszonej architekturze systemu, analiza danych, w tym analiza z wykorzystaniem metod uczenia maszynowego.
Przetwarzanie wsadowe a przetwarzanie strumieni danych.
Programowanie rozwiązań wykorzystujących platformy Big Data z uwzględnieniem m.in. wzorca MapReduce, użycia równoległego i rozproszonego przetwarzania danych oraz środowisk ułatwiających tworzenie kodu przetwarzania danych w trybie wsadowym i strumieniowym.
Wzorce projektowe i architektoniczne np. architektura Lambda i Kappa.
Laboratorium:
Konfiguracja pozyskiwania danych z różnorodnych źródeł. Programowanie zadań MapReduce. Programowanie przetwarzania wsadowego. Programowanie przetwarzania strumieniowego. Projektowanie architektury złożonego systemu.
- Metody oceny:
- Zaliczenie przedmiotu oparte jest o wyniki realizacji zadań punktowanych w trakcie laboratorium (60%) oraz kolokwium końcowe (40%). Maksymalna liczba dostępnych punktów wynosi 100. Wyniki zadań punktowanych są ogłaszane na stronie internetowej prowadzącego zajęcia w danej grupie laboratoryjnej lub rozsyłane do uczestników drogą mailową.
W końcowej części semestru student może skorzystać z terminu poprawkowego, w trakcie którego może poprawić jedno z zadań punktowanych lub kolokwium końcowe:
- termin poprawkowy jest ogłaszany studentom z wyprzedzeniem co najmniej jednego tygodnia,
- każdy ze studentów ma zagwarantowaną możliwość udziału w jednym terminie poprawkowym, przy założeniu, iż był obecny w oryginalnym terminie zadania/kolokwium lub przedstawił w terminie dokument uzasadniający nieobecność w tym terminie,
- najpóźniej tydzień przed terminem poprawkowym, studenci zainteresowani poprawianiem zadania/kolokwium, zobligowani są zadeklarować, które z zadań chcieliby poprawiać w terminie poprawkowym,
- ocena zadania uzyskana w terminie poprawkowym zastępuje oryginalną ocenę z tego zadania lub kolokwium.
Ocena końcowa zależy od łącznej liczby punktów uzyskanych z zadań punk-towanych oraz kolokwium i jest wyznaczana zgodnie z poniższymi regułami: 0-50 pkt. - 2.0, 51-60 pkt. - 3.0, 61-70 pkt. - 3.5, 71-80 pkt. - 4.0, 81-90 pkt. - 4.5, 91-100 pkt. - 5.0.
- Egzamin:
- nie
- Literatura:
- 1. B. Ellis, Real-Time Analytics. Techniques to Analyse and Visualise Streaming Data, Wiley, 2014
2. A. Holmes, Hadoop in practice, Manning Publications, 2013
3. N. Marz, J. Warren, Big Data. Principles and best practices of scalable realtime data systems, Manning, 2015
4. F. Provost, T. Facett, Data Science for Business. What you need to know about data mining and data-analytic thinking, O’Reilly, 20
- Witryna www przedmiotu:
- e.mini.pw.edu.pl
- Uwagi:
- .
Efekty uczenia się
Profil ogólnoakademicki - wiedza
- Efekt W2_01
- Zna sposób programowania przetwarzania danych Big Data z wykorzystaniem uznanych środowisk klastrowych zapewniających równoległe i rozproszone wykonywanie kodu
Weryfikacja: ocena kolokwium
Powiązane efekty kierunkowe:
PD_W04, PD_W05, PD_W11, PD_W15
Powiązane efekty obszarowe:
, , ,
- Efekt W2_02
- Zna wzorce architektoniczne i zasady użycia metod uczenia maszynowego w ramach środowisk Big Data
Weryfikacja: ocena kolokwium
Powiązane efekty kierunkowe:
PD_W04, PD_W10
Powiązane efekty obszarowe:
,
Profil ogólnoakademicki - umiejętności
- Efekt U2_01
- Umie korzystać z dokumentacji projektów Big Data dostępnej w języku angielskim
Weryfikacja: zadania punktowane
Powiązane efekty kierunkowe:
PD_U03
Powiązane efekty obszarowe:
- Efekt U2_02
- Potrafi stworzyć kod prostej analizy danych z wykorzystaniem środowisk Big Data i metod statystycznych oraz uczenia maszynowego
Weryfikacja: zadania punktowane
Powiązane efekty kierunkowe:
PD_U06
Powiązane efekty obszarowe:
- Efekt U2_03
- Potrafi zaprojektować architekturę systemu Big Data dla zadanego zagadnienia z uwzględnieniem składowania i analizy danych oraz sposobów zapewnienia koniecznej wydajności i eliminacji opóźnień w przetwarzaniu danych
Weryfikacja: zadania punktowane
Powiązane efekty kierunkowe:
PD_U07, PD_U09, PD_U12, PD_U17
Powiązane efekty obszarowe:
, , ,
- Efekt U2_04
- Potrafi zaimplementować kod równoległej agregacji, filtrowania i analizy danych z wykorzystaniem środowisk Big Data
Weryfikacja: zadania punktowane
Powiązane efekty kierunkowe:
PD_U11
Powiązane efekty obszarowe:
Profil ogólnoakademicki - kompetencje społeczne
- Efekt K2_01
- Potrafi posługiwać się językiem angielskim w stopniu umożliwiającym wykorzystanie dokumentacji systemów Big Data i rozumie rolę komunikacji w zespole projektowym w projektach Big Data
Weryfikacja: zadania punktowane
Powiązane efekty kierunkowe:
PD_K08
Powiązane efekty obszarowe: