Nazwa przedmiotu:
Składowanie danych w systemach Big Data
Koordynator przedmiotu:
Dr hab. inż. Maciej Grzenda, prof. PW
Status przedmiotu:
Obowiązkowy
Poziom kształcenia:
Studia I stopnia
Program:
Inżynieria i Analiza Danych
Grupa przedmiotów:
Wspólne
Kod przedmiotu:
.
Semestr nominalny:
7 / rok ak. 2021/2022
Liczba punktów ECTS:
5
Liczba godzin pracy studenta związanych z osiągnięciem efektów uczenia się:
Liczba punktów ECTS na zajęciach wymagających bezpośredniego udziału nauczycieli akademickich:
1. obecność na wykładach – 30 h 2. obecność na laboratoriach – 30 h 3. obecność na projektach – 15 h 4. konsultacje – 5 h Razem 80 h, co odpowiada 3 pkt. ECTS
Język prowadzenia zajęć:
polski
Liczba punktów ECTS, którą student uzyskuje w ramach zajęć o charakterze praktycznym:
1. obecność na laboratoriach – 30 h 2. obecność na projektach – 15 h 3. przygotowanie do laboratoriów – 40 h 4. przygotowanie wyników realizacji zadań – 45 h Razem 130 h, co odpowiada 5 pkt. ECTS
Formy zajęć i ich wymiar w semestrze:
  • Wykład30h
  • Ćwiczenia0h
  • Laboratorium30h
  • Projekt15h
  • Lekcje komputerowe0h
Wymagania wstępne:
Bazy danych, Hurtownie danych i systemy Business Intelligence, Zaawansowane programowanie obiektowe i funkcyjne, Systemy operacyjne w inżynierii danych
Limit liczby studentów:
.
Cel przedmiotu:
Celem przedmiotu jest przekazanie wiedzy na temat architektury i przykłado-wych środowisk Big Data umożliwiających pozyskiwanie i składowanie danych oraz umiejętności pozyskiwania, transformacji i składowania danych w tych środowiskach.
Treści kształcenia:
Wykład: 1. Przegląd zagadnień oraz oprogramowania nurtu Big Data, w tym projektów takich jak Apache Hadoop 2. Architektura systemów Big Data: pozyskiwanie danych, składowanie danych, przekazywanie danych w rozproszonej architekturze systemu, analiza danych, w tym analiza z wykorzystaniem metod uczenia maszynowego. 3. Pozyskiwanie danych z różnorodnych źródeł danych z wykorzystaniem platform Big Data. 4. Przetwarzanie wsadowe a przetwarzanie strumieni danych. 5. Programowanie rozwiązań wykorzystujących platformy Big Data z uwzględnieniem m.in. użycia równoległego i rozproszonego przetwarzania danych oraz środowisk ułatwiających tworzenie kodu przetwarzania danych w trybie wsadowym i strumieniowym. 6. Wzorce projektowe i architektoniczne np. architektura Lambda i Kappa. 7. Programowanie filtrowania i agregacji danych 8. Dobór formatów i struktur danych dla składowanych danych Laboratorium: 1. Konfiguracja pozyskiwania danych z różnorodnych źródeł. 2. Programowanie zadań pozyskiwania danych. 3. Programowanie przetwarzania wsadowego. 4. Projektowanie architektury złożonego systemu.
Metody oceny:
Zaliczenie przedmiotu oparte jest o wyniki realizacji zadań punktowanych w trakcie laboratorium (60%) oraz egzamin (40%). Maksymalna liczba dostępnych punktów wynosi 100. Wyniki zadań punktowanych są ogłaszane na stronie internetowej prowadzącego zajęcia w danej grupie laboratoryjnej lub rozsyłane do uczestników drogą mailową. W końcowej części semestru student może skorzystać z terminu poprawkowego, w trakcie którego może poprawić jedno z zadań punktowanych: - termin poprawkowy jest ogłaszany studentom z wyprzedzeniem co najmniej jednego tygodnia, - każdy ze studentów ma zagwarantowaną możliwość udziału w jednym terminie poprawkowym, przy założeniu, iż był obecny w oryginalnym terminie zadania lub przedstawił w terminie dokument uzasadniający nieobecność w tym terminie, - najpóźniej tydzień przed terminem poprawkowym, studenci zainteresowani poprawianiem zadania, zobligowani są zadeklarować, które z zadań chcieliby poprawiać w terminie poprawkowym, - ocena zadania uzyskana w terminie poprawkowym zastępuje oryginalną ocenę z tego zadania. Ocena końcowa zależy od łącznej liczby punktów uzyskanych z zadań punktowanych oraz egzaminu i jest wyznaczana zgodnie z poniższymi regułami: 0-50 pkt – 2.0, 51-60 pkt – 3.0, 61-70 pkt – 3.5, 71-80 pkt – 4.0, 81-90 pkt – 4.5, 91-100 pkt – 5.0.
Egzamin:
tak
Literatura:
1. Ellis B., Real-Time Analytics. Techniques to Analyse and Visualise Streaming Data, Wiley, 2014 2. Holmes A., Hadoop in practice, Manning Publications,2013 3. Marz N., Warren James, Big Data. Principles and best practices of scalable realtime data systems, Manning, 2015 4. Provost F., Facett T., Data Science for Business. What you need to know about data mining and data-analytic thinking, O’Reilly, 2013
Witryna www przedmiotu:
.
Uwagi:
.

Efekty uczenia się

Profil ogólnoakademicki - wiedza

Charakterystyka W01
Dysponuje wiedzą na temat danych częściowo ustrukturyzowanych i kategorii danych umieszczanych w platformach Big Data oraz relacyjnych bazach danych
Weryfikacja: Egzamin, zadania punktowane
Powiązane charakterystyki kierunkowe: DS_W12
Powiązane charakterystyki obszarowe: I.P6S_WG

Profil ogólnoakademicki - umiejętności

Charakterystyka U01
Umie budować rozproszone systemy pozyskiwania i składowania danych integrujące samodzielnie stworzone komponenty oraz komponenty platform Big Data
Weryfikacja: Zadania punktowane
Powiązane charakterystyki kierunkowe: DS_U18
Powiązane charakterystyki obszarowe: I.P6S_UW
Charakterystyka U02
Umie pozyskiwać dane z platform Big Data i innych źródeł, jak również po opcjonalnym filtrowaniu i transformacji umieszczać je w platformach Big Data
Weryfikacja: Zadania punktowane
Powiązane charakterystyki kierunkowe: DS_U22
Powiązane charakterystyki obszarowe: I.P6S_UW

Profil ogólnoakademicki - kompetencje społeczne

Charakterystyka K01
Rozumie potrzebę uczenia się przez całe życie i podnoszenia kompetencji zawodowych na przykładzie rozwoju platform Big Data i ewolucji systemów składowania danych.
Weryfikacja: egzamin
Powiązane charakterystyki kierunkowe: DS_K01
Powiązane charakterystyki obszarowe: I.P6S_KK