- Nazwa przedmiotu:
- Metody bioinformatyki
- Koordynator przedmiotu:
- Rajmund Kożuszek
- Status przedmiotu:
- Fakultatywny dowolnego wyboru
- Poziom kształcenia:
- Studia II stopnia
- Program:
- Informatyka
- Grupa przedmiotów:
- Przedmioty techniczne - zaawansowane
- Kod przedmiotu:
- MBI
- Semestr nominalny:
- 3 / rok ak. 2021/2022
- Liczba punktów ECTS:
- 4
- Liczba godzin pracy studenta związanych z osiągnięciem efektów uczenia się:
- 1. liczba godzin kontaktowych – 47 godz.,w tym:
a. obecność na wykładach: 30 godz.,
b. udział w zajęciach komputerowych: 15 godz.,
c. udział w konsultacjach wykładowych oraz konsultacjach związanych z realizacją zajęć komputerowych: 2 godz.;
2. praca własna studenta – 72 godz., w tym:
a. przygotowanie do wykładów (przejrzenie materiałów z wykładu i dodatkowej literatury, próba rozwiązania ćwiczeń domowych sformułowanych na wykładzie, wykorzystywanie programów demonstracyjnych): 16 godz.,
b. przygotowanie do wykonania analiz, interpretacja wyników: 30 godz. (zapoznanie się z instrukcjami do ćwiczeń, instalacja oprogramowania, zapoznanie się z dokumentacją użytkownika, pobranie danych, analiza i interpretacja wyników, przygotowanie sprawozdania, omówienie wyników).
c. przygotowanie do egzaminu: 16 godz.
Łączny nakład pracy studenta wynosi: 120 godz., co odpowiada 4 pkt. ECTS.
- Liczba punktów ECTS na zajęciach wymagających bezpośredniego udziału nauczycieli akademickich:
- 1,5 pkt. ECTS, co odpowiada 47 godz. kontaktowym
- Język prowadzenia zajęć:
- polski
- Liczba punktów ECTS, którą student uzyskuje w ramach zajęć o charakterze praktycznym:
- 1,5 pkt. ECTS, co odpowiada 45 godz. realizacji zajęć komputerowych
- Formy zajęć i ich wymiar w semestrze:
-
- Wykład30h
- Ćwiczenia0h
- Laboratorium0h
- Projekt0h
- Lekcje komputerowe15h
- Wymagania wstępne:
- l umiejętność obsługi systemu Linux, w tym instalacji nowych pakietów;
l znajomość algorytmów i struktur danych, w tym algorytmów grafowych i algorytmów wyszukiwania napisów;
l umiejętność programowania w języku Python;
l znajomość podstaw probabilistyki i statystyki.
- Limit liczby studentów:
- 60
- Cel przedmiotu:
- Celem przedmiotu jest zapoznanie słuchaczy z algorytmami stosowanych do analizy napisów reprezentujących sekwencje DNA, RNA i białka. Analizy takie są bardzo istotne w biologii i medycynie spersonalizowanej.
- Treści kształcenia:
- Wykład:
1. Wprowadzenie (2 godz.)
Bioinformatyka jako dziedzina informatyki. Rola analiz sekwencji we współczesnej biologii i medycynie. Budowa cząsteczek DNA, RNA i białek, reprezentacja tych cząsteczek jako napisów nad skończonym alfabetem, budowa genomu. Podstawowe reakcje inżynierii genetycznej.
2. Badanie podobieństw sekwencji biologicznych (4 godz.)
Programowanie dynamiczne, uliniowienie dwóch sekwencji, podobieństwo globalne i lokalne, algorytmy przybliżone, algorytmy o liniowym koszcie pamięciowym, algorytmy BLOSUM i PAM do obliczania macierzy podobieństwa symboli, algorytmy z afiniczną funkcją kary. Algorytmy do badania podobieństw wielu sekwencji. Profile. Wyszukiwanie motywów. Mediana napisów.
3. Bazy sekwencji biologicznych (2 godz.)
Wyszukiwanie sekwencji w bazie. Algorytmy heurystyczne FASTA, BLAST i pochodne. Formaty rekordów: FASTA, FASTQ. Istotność wyników. Podstawowe bazy sekwencji.
4. Asembling de-novo, re-sekwencjonowanie (6 godz.)
Sekwencjonowanie, sekwenatory 1, 2, i 3-ciej generacji. Kontig sekwencyjny i kontig fizyczny. Algorytmy oparte o graf pokrycia. Algorytmy oparte o pod-grafy grafów de Brujna. Algorytmy dla sprawowanych końców. Błędy odczytu. Sekwencje powtarzające się. Algorytmy stosowane do łączenia odczytów o różnej charakterystyce błędów. Algorytmy do tworzenia kontigów fizycznych. Miary jakości asemblerów DNA. Genom referencyjny. Mapa fizyczna i genetyczna. Sekwencje kodujące i niekodujące. Resekwencjonowanie.
5. Analiza genomu człowieka, analiza wariantów, choroby genetyczne (6 godz.)
Transformata Burrowsa-Wheelera, pliki SAM i BAM. Analiza wariantów genetycznych. Rodzaje chorób genetycznych. Rzadkie choroby genetyczne. Analiza wariantów. Plik VCF. Znajdowanie wariantów istotnych. Potoki w bioinformatyce. Analizy oparte o głębokość pokrycia. Wykrywanie zmian strukturalnych. Analizy oparte o markery genetyczne. Zmienność ludzkiego genomu. Markery STR i SNP. Badanie pokrewieństw. Badanie mieszanin DNA. Analiza haplotypów.
6. Drzewa filogenetyczne (2 godz.)
Tworzenie drzew w oparciu o odległość sekwencji: metoda średnich połączeń, metoda przyłączania sąsiadów; tworzenie drzew w metodach bazujących na analizie symboli: metoda parsymonii, metoda największej wiarygodności.
7. Analizy oparte o ukryty model Markowa (2 godz.)
Łańcuchy Markowa. Ukryty model Markowa. Problem dekodowania. Algorytm Viterbiego. Algorytm prefiksowy i sufiksowy. Estymacja parametrów modelu Markowa. Algorytm Bauma-Welcha.
8. Analizy danych wielowymiarowych (2 godz.)
Grupowanie, Metody redukcji wymiarów, algorytm analizy składowych głównych.
9. Biologia syntetyczna i obliczenia realizowane na cząsteczkach DNA (4 godz.)
Struktura drugorzędowa biopolimeru, reprezentacja cząsteczki jako graf. Algorytmy obliczania struktury drugorzędowej na podstawie sekwencji: algorytm Nussinov, algorytm Zuckera. Optymalizacja sekwencji sztucznej cząsteczki DNA. Biologia syntetyczna. Obliczenia realizowane przez cząsteczki DNA. DNA komputer.
Projekt polega na wykonaniu szeregu analiz sekwencji biologicznych używając otwartego oprogramowania w zespołach 2 osobowych. Każde zadanie zajmuje kilka godzin pracy przy komputerze typu PC z systemem Linux, zakładając wcześniejsze pobranie danych i instalację odpowiednich narzędzi. Zadanie można wykonać samodzielnie albo z pomocą i asystą prowadzącego, na maszynie wirtualnej odpowiednio skonfigurowanej.
l Asembling de-novo DNA. Pobranie sekwencji z ogólnodostępnej bazy danych, generowanie odczytów zawierających błędy, uruchomienia assemblera de-novo, generowanie statystyk opisujących wyniki, analiza wyników.
l Adnotacja DNA. Pobranie zbioru kontigów (wyjście assemblera de-novo), adnotacja strukturalna - znajdowanie części kodujących i niekodujących, adnotacja funkcjonalna wykorzystując podobieństwo do opisanych elementów w bazach danych, analiza wyników.
l Resekwencjonowanie. Pobranie sekwencji chromosomu ludzkiego z ogólnie-dostępnej bazy danych, pobranie genomu referencyjnego, generowanie odczytów, mapowanie odczytów na genom referencyjny, znajdowanie wariantów.
l Analiza wariantów. Pobranie listy wariantów genetycznych oraz zbioru odczytów, analizy związane z głębokością pokrycia, wykrywanie zmian strukturalnych, szeregowanie znalezionych zmian uwzględniając ich istotność.
- Metody oceny:
- Realizacja przedmiotu obejmuje następujące formy zajęć:
l wykład prowadzony w wymiarze 2 godz. tygodniowo,
l zajęcia komputerowe realizowane samodzielnie w zespołach lub z asystą prowadzącego,
l konsultacje.
Aktywizacji studentów służą:
l interaktywna formuła wykładu,
l dostępność kilkudziesięciu algorytmów na stronie przedmiotu, które pozwalają wykonywać obliczenia krok po kroku wykorzystując przeglądarkę z językiem JavaScript dla własnych danych,
l dostępność terminu dla każdego z ćwiczeń, gdzie studenci mogą przyjść z własnym komputerem przenośnym i skonsultować wyniki z prowadzącym lub wykonać analizy pod opieką prowadzącego zajęcia komputerowe,
l wymóg przedstawienia sprawozdań z wykonanych ćwiczeń,
l omawiane narzędzia i dane są dostępne i bezpłatne.
Sprawdzanie założonych efektów kształcenia realizowane jest przez:
l ocenę wiedzy i umiejętności wykazanych na sprawdzianie pisemnym podczas sesji egzaminacyjnej,
l ocenę wiedzy i umiejętności związanych z realizacją analiz na zajęciach komputerowych.
- Egzamin:
- tak
- Literatura:
- 1. Jin Xiong, Podstawy bioinformatyki, PWN, 2011.
2. R.Durbin, S.Eddy, A.Krogh, G.Mithison, Biological sequence analysis. Cambridge 2007.
3. P.Higgs, T.Attwood, Bioinformatyka i ewolucja molekularna, PWN, 2008.
4. Wing-Kin Sung, Algorithms for next-generation sequencing, CRC Press 2017.
5. V. Makinen, D. Belazzougui, F. Cunial, A. Tomescu, Genome-Scale Algorithm design, Cambridge 2015.
6. Pakiety języka Python.
- Witryna www przedmiotu:
- https://usosweb.usos.pw.edu.pl/kontroler.php?_action=katalog2/przedmioty/pokazPrzedmiot&prz_kod=103A-INxxx-MSP-MBI
- Uwagi:
- (-)
Efekty uczenia się