Genomika Flashcards

(77 cards)

1
Q

genomika (definicja)

A

to nauka interdyscyplinarna łącząca w sobie biologię molekularną, robotykę i nauki obliczeniowe [informatykę].
Zajmuje się globalną wielkoskalową analizą wszystkich genów, transkryptów i białek w organizmie stosując automatyczne technologie biologii molekularnej o dużej przepustowości [high-throughput]

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

bioinformatyka (definicja)

A

to nauka interdyscyplinarna wykorzystująca narzędzia matematyczne i informatyczne do rozwiązywania problemów z dziedziny nauk biologicznych - biologii molekularnej.

  • biologia molekularna dostarcza danych biologicznych takich jak dane dotyczące kwasów nukleinowych, białek, lipidów, węglowodanów i innych makrocząsteczek
  • informatyka dostarcza narzędzi, metod i obliczeń komputerowych [nauki i techniki komputerowe, teoria informacji, matematyka stosowana, statystyka, teoria prawdopodobieństwa]
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

cele bioinformatyki (2)

A
  1. organizowanie i zarządzanie informacjami o makrocząsteczkach i innych danych biologicznych w formie cyfrowych zapisów - baz danych
  2. analiza tych danych przy pomocy różnych programów i narzędzi oraz metod i algorytmów
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

genomika, bioinformatyka - poziomy analiz (6)

A
  1. genom
  2. transkryptom
  3. proteom
  4. lokalizom
  5. interaktom
  6. metabolom
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

genom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)

A
  1. przedmiot badań - wszystkie sekwencje DNA lub RNA zawarte w organizmie, geny, sekwencje regulatorowe
  2. dziedzina badań - genomika
  3. temat badań - poszukiwanie sekwencji kodujących, regulatorowych i powtórzonych, rozpoznawanie eksonów i intronów, ogólna organizacja genomów (skład, rozmieszczenie genów), porównanie sekwencji
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

transkryptom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)

A
  1. przedmiot badań - wszystkie transkrybowane sekwencje RNA w organizmie
  2. dziedzina badań - transkryptomika, RNomika
  3. temat badań - analiza ekspresji genów w różnych tkankach i warunkach przy pomocy mikromacierzy oligonukleotydowych i cDNA
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

proteom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)

A
  1. przedmiot badań - wszystkie białka zawarte w organizmie
  2. dziedzina badań - proteomika
  3. temat badań - porównanie sekwencji, identyfikacja konserwowanych regionów (motywów i domen), przewidywanie struktury drugorzędowej i trzeciorzędowych, interakcje, obróbka, identyfikacja białek w komórce i tkankach
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

lokalizom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)

A
  1. przedmiot badań - subkomórkowe położenie białek w komórce
  2. dziedzina badań - lokalizomika
  3. temat badań - poszukiwanie specyficznych motywów w sekwencjach aminokwasowych oraz peptydów sygnałowych i tranzytowych kierujących sekwencje do odpowiednich przedziałów komórki
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

interaktom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)

A
  1. przedmiot badań - zależności i interakcje między białkami i innymi cząsteczkami w komórce
  2. dziedzina badań - interaktomika i biologia systemów
  3. temat badań - interakcje między białkami, które przedstawiane są za pomocą sieci zależności
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

metabolom - poziom analiz bioinformatyki (przedmiot badań, dziedzina badań, temat badań)

A
  1. przedmiot badań - wszystkie procesy, szlaki, substraty i produkty metaboliczne zachodzące w organizmie
  2. dziedzina badań - metabolomika i biologia systemów
  3. temat badań - określanie sieci i szlaków metabolomicznych, symulacje komputerowe
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

G

komputerowy zapis sekwencji nukleotydowej

A

G - guanina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

A

komputerowy zapis sekwencji nukleotydowej

A

A - adenina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

T

komputerowy zapis sekwencji nukleotydowej

A

T - tymina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

C

komputerowy zapis sekwencji nukleotydowej

A

C - cytozyna

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

R

komputerowy zapis sekwencji nukleotydowej

A

puryna, czyli A - adenina lub G-guanina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Y

komputerowy zapis sekwencji nukleotydowej

A

pirymidyna, czyli C - cytozyna lub T - tymina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

M

komputerowy zapis sekwencji nukleotydowej

A

A - adenina lub C - cytozyna

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

K

komputerowy zapis sekwencji nukleotydowej

A

G - guanina lub T - tymina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

S

komputerowy zapis sekwencji nukleotydowej

A

silna interakcja - potrójne wiązanie, czyli C - cytozyna lub G - guanina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

W

komputerowy zapis sekwencji nukleotydowej

A

słaba interakcja - podwójne wiązanie, czyli A - adenina lub T - tymina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

H

komputerowy zapis sekwencji nukleotydowej

A

A - adenina, C - cytozyna lub T - tymina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

B

komputerowy zapis sekwencji nukleotydowej

A

C - cytozyna, G - guanina lub T - tymina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

V

komputerowy zapis sekwencji nukleotydowej

A

A - adenina, C - cytozyna lub G - guanina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

D

komputerowy zapis sekwencji nukleotydowej

A

A - adenina, G - guanina lub T - tymina

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
N | komputerowy zapis sekwencji nukleotydowej
dowolna zasada | A - adenina, C - cytozyna, G - guanina lub T - tymina
26
format Staden / SEQ / "Normal" / "Sequence Only"
dozwolone małe, duże litery i spacje | tylko sama sekwencja
27
format FASTA / Pearson
linia definicji: " >nazwa sekwencji | komentarz " | sekwencja: z małych liter, 60-80 znaków w linijce, gubienie sporej informacji o danej sekwencji
28
format GCG
linia opisu: identyfikator sekwencji, długość sekwencji, data wprowadzenia, suma kontrolna ".." - początek sekwencji sekwencja: na początku każdej linijki numer początkowy nukleotydu w sekwencji, co 10ty nukleotyd spacja, maksymalnie 50 nukleotydów w linijce, duże litery
29
format NEWAT
linia opisu: " TORIC nazwa sekwencji" sekwencja: "PORIC numer pierwszego nukleotydu w linijce sekwencja", co linijkę taki sam wzór, spacja co nukleotyd, maksymalnie 30 nukleotydów w linijce, z dużych liter " * " po ostatnim nukleotydzie oznacza koniec sekwencji
30
format NBRF
linia opisu: " >identyfikator nazwa sekwencji" sekwencja: z dużych liter, " * " po ostatnim nukleotydzie oznacza koniec sekwencji
31
format FASTQ
zapis sekwencji po sekwencjonowaniu @identyfikator sekwencji nieprzetworzone litery sekwencji + wartości jakości sekwencji (tyle samo znaków co liter sekwencji, "!" oznacza najniższą jakość odczytu, "~" oznacza najwyższą jakość odczytu)
32
Operatory boolowskie (3)
AND - wynik ma zawierać oba terminy OR - wynik ma zawierać co najmniej jeden termin NOT - dany termin nie może się znaleźć w wyniku
33
ORF
Open Reading Frame - otwarta ramka odczytu Start: AUG Stop: UAG, UAA, AGA kierunek 5' -> 3'
34
Poszukiwanie genów u Prokaryota (5)
1. ciągłe ORFy, nieposiadające intronów, łatwiejsze w identyfikacji, stosowana dyskryminacja na podstawie długości >300 pz 2. geny gęsto upakowane, mało przestrzeni międzygenowych 3. prostsze i bardziej stałe regiony regulatorowe 4. sekwencje lepiej poznane 5. błędy w rozpoznaniu 10%
35
Poszukiwanie genów - problemy (4)
1. problem w analizie krótkich ORF, krótkich eksonów i pseudogenów 2. problem w określaniu startu ORF i pierwszego eksonu 3. problem z zachodzeniem sekwencji kodujących na siebie 4. odchylenia od standardowego kodu genetycznego
36
Poszukiwanie genów u Eukaryota
1. geny podzielone na eksony i introny o różnej liczbie i wielkości, duże rozproszenie eksonów, obecność eksonów niekodujących w regionie 5'UTR 2. geny rozproszone, niska gęstość kodowania 3. większe zróżnicowanie i niestałość miejsc regulatorowych oraz granic ekson/intron 4. sekwencje gorzej poznane 5. błędy w rozpoznaniu 30% 6. liczne sekwencje powtórzone 7. alternatywny splicing, transsplicing, redagowanie RNA, alternatywna transkrypcja i translacja
37
kodon miejsca inicjacji translacji
ATG
38
miejsca łączenia eksonów
AG lub GT
39
konsensus
zawiera najczęściej pojawiające się nukleotydy w danej pozycji
40
wyrażenie regularne
reprezentują logiczne kombinacje znaków
41
przyrównanie (definicja)
procedura porównania, przyrównania (ang. alignment) sekwencji nukleotydowych lub aminokwasowych Polega na poszukiwaniu ciągów znaków (zasad nukleotydowych lub reszt aminokwasowych), które posiadają te samo ułożenie w porównywanych sekwencjach: - dwie sekwencje - pair-wise alignment - wiele sekwencji - multiple sequence alignment gap, indel - przerwa match - przyrównanie mismatch - brak przyrównania
42
podobieństwo porównywanych sekwencji (similarity) może świadczyć o... (3)
1. podobnej funkcji sekwencji 2. podobnej strukturze białek 3. wspólnej i raczej niedawnej, historii ewolucyjnej sekwencji
43
podobieństwo porównywanych sekwencji (similarity) może wynikać z ... (2)
1. homologii - pochodzeniu sekwencji od wspólnego przodka | 2. homoplazji (konwergencji) - podobnych zmianach, które pojawiły się w obu sekwencjach niezależnie
44
stwierdzone różnice między sekwencjami świadczą o...
mutacjach, które zaszły po rozdzieleniu się sekwencji od wspólnego przodka np. delecja, insercja, substutucje (G->A, C->T)
45
metoda macierzy kropkowanej to ...
graficzny sposób przyrównania dwóch sekwencji w dwuwymiarowej macierzy
46
metoda macierzy kropkowanej - problem
występowanie szumu przy zbyt długich sekwencjach
47
metoda macierzy kropkowanej umożliwia [4]
1. przyrównanie jednej sekwencji - samej ze sobą, w celu znalezienia powtarzających się fragmentów 2. bezpośrednie określenie podobieństw 3. ułatwia znalezienie najbardziej podobnych fragmentów 4. uwidocznienie wszystkich możliwych skojarzeń
48
macierz BLOSUM to...
macierze dla różnych odległości ewolucyjnych, które zostały wyliczone z porównania sekwencji odpowiednio odległych - redukuje to wpływ blisko spokrewnionych sekwencji BLOSUM30 - bloki sekwencji o identyczności co najmniej 30% połączone w jedną sekwencję BLOSUM62 - bloki sekwencji o identyczności co najmniej 62% połączone w jedną sekwencję BLOSUM80 - bloki sekwencji o identyczności co najmniej 80% połączone w jedną sekwencję wyliczane częstości substytucji zależą w większym stopniu od sekwencji bardziej od siebie odległych niż przyjęta wartość graniczna
49
system score-ów dla przerw - affine gap penalty
gap penalty = gap opening + [gap extension * gap lenght] gap extension - mniejsze lub równe 5% wartości gap opening na końcach przyrównania gap penalties są często uwzględniane dla sekwencji odległych - high gap-opening penalty, very low gap-extension penalty dla sekwencji bliskich - high gap-opening penalty, high gap-extenstion penalty
50
delecja i insercja to zjawiska pojawiające się bardzo ...
rzadko, ale jak już powstaną to dotyczą długiego odcinka
51
score przyrównania to
suma score'ów matches i mismatches + suma score'ów gap penalty
52
e-value - the expectation value to
liczba fałszywych homologów [sekwencji niespokrewnionych] obecnych w bazie danych, które posiadają przypadkowe przyrównania z większym score, lepsze niż score przyrównania między sekwencją wysłaną a znalezioną ``` E = 10, czyli w bazie danych możemy znaleźć 10 sekwencji o większym score E = 0,01, czyli w bazie danych możemy znaleźć 1 przypadek o większym score na 100 przeszukiwań ```
53
e-value - istotność podobieństwa
E ≤ 0,02 lub 0,05 - podobieństwo najprawdopodobniej istotne statystycznie 0,02-1 - nie można wykluczyć homologii E > 1 - podobieństwo nieistotne statystycznie
54
homologia [homology] to ...
pochodzenie [sekwencji] od wspólnego przodka; sekwencje homologiczne = pochodzące od wspólnego przodka
55
identyczność [identity] to ...
stopień, poziom niezmienności sekwencji; mierzony procentem takich samych zasad nukleotydowych lub reszt aminokwasowych wspólnych dla porównywanych sekwencji
56
podobieństwo [similarity] to ...
stopień, poziom niezmienności sekwencji uwzględniający właściwości fizykochemiczne reszt, mierzony procentem identycznych i podobnych zasad nukleotydowych lub reszt aminokwasowych wspólnych dla porównywanych sekwencji
57
progresywne przyrównanie globalne - przebieg
1. wykonanie przyrównań dla wszystkich par sekwencji (każda z każdą) i obliczenie dla nich procentu różnic (lub score-ów). Stworzenie macierzy odległości 2. stworzenie w oparciu o macierz odległości przewodniego (pomocniczego) drzewa - guide tree, dendogramu (metodą NJ) 3. sekwencje przyrównywane są kolejno ze względu na podobieństwo opisane na drzewie. Przyrównane zostają najpierw sekwencje najbardziej podobne do siebie 4. następnie przyrównywane są kolejne, najbardziej podobne sekwencje wg przewodniego drzewa filogenetycznego. Sekwencje już przyrównane są traktowane jako całość w kolejnym przyrównaniu
58
algorytm programowania dynamicznego wykorzystywany jest do poszukiwania sekwencji...
odległych, o <20% identyczności
59
metody heurystyczne - poszukiwania sekwencji i tworzenia przyrównań, analizują..
tylko niektóre z możliwych przyrównań, nie gwarantują znalezienia optymalnego przyrównania, są zoptymalizowane by być szybkie, nie do dokładności przyrównania
60
wykorzystanie PSSM i profili do przeszukiwania baz
- wykonuje wielokrotne przeszukiwania bazy danych - sekwencje znalezione w danym przeszukiwaniu są wykorzystywane do tworzenia macierzy score'ów (PSSM, profile) stosowanej w następnym etapie poszukiwań - odpowiedni dla poszukiwania odległych homologów sekwencja pojedyncza -> bazy danych zawierająca sekwencje aminokwasowe -> macierz score'ów PSSM profile -> bazy danych zawierająca sekwencje aminokwasowe
61
etapy analiz filogenetycznych
1. przyrównanie sekwencji - uzyskanie zbioru danych 2. określenie modelu substytucji - podstawień 3. skonstruowanie drzewa filogenetycznego - określenie odległości między sekwencjami 4. analiza i ocena drzewa filogenetycznego
62
homologi to...
sekwencje, które posiadają arbitralny, przyjęty poziom podobieństwa określony na podstawie przyrównania pasujących zasad lub aminokwasów
63
ortologi to...
homologi powstałe w wyniku specjacji. Reprezentują one geny z różnych organizmów odziedziczone po wspólnym przodku. Mają tendencję do posiadania podobnej funkcji
64
paralogi to...
homologi powstałe w wyniku duplikacji. Reprezentują geny z jednego organizmu pochodzące od wspólnego genu - przodka, który został zduplikowany w danym organizmie, a następnie uległ dywergnecji. Mają one tendencję do posiadania różnych funkcji
65
ksenologi to...
homologi nabyte w wyniku poziomego przenoszenia informacji genetycznej między organizmami transferu horyzontalnego, bocznego - HGT. Mają zwykle podobne funkcje
66
skutki mutacji
- zmiana synonimiczna - brak zmiany aminokwasu najczęściej szkodliwe, nieakceptowane: - zmiana niesynonimiczna - missense -> zmiana aminokwasu - zmiana nonsensowna - nonsense -> kodon stop - pominięcie stopu
67
tranzycje są generalnie częstsze niż transwersje ze względu na.. [2]
1. większą częstość mutacji zasad podobnych do siebie 2. tranzycje rzadziej zmieniają kodowane aminokwasy lub ich właściwości tranzycje CT, AG transwersje CA, CG, TG, TA
68
rodzaje konwergencji - homoplazja brak różnić między organizmami
takie same substytucje w obu sekwencjach np. 1) A->C i 2) A->C zbieżne substytucje np. 1) A->T i 2) A->C->T rewersje np. 1) nic i 2) A->C->A
69
w sekwencjach mogą istnieć regiony, które mogą się swobodnie zmieniać i takie, które..
w ogóle są niezmienne, np. ze względu na pełnioną funkcję
70
różne regiony w sekwencjach ewoluują...
w różnym tempie (mają różne prawdopodobieństwa zmian) ze względu na działającą na nie różną presję selekcyjną i mutacyjną
71
w sekwencjach kodujących białko największą zmienność wykazują ...
trzecie pozycje kodonów, dlatego w wielu analizach filogenetycznych genów wyklucza się trzecie pozycje
72
metoda maksymalnej parsymonii [MP, największej oszczędności]
- metoda konstruowania drzewa filogenetycznego - wybranie drzewa o najmniejszej liczbie zmian ewolucyjnych lub najkrótszej łącznej długości gałęzi - drzewo z najmniejszą liczbą substytucji najlepiej tłumaczy różnice między taksonami etapy: 1. wyszukanie wszystkich możliwych topologii drzew 2. odtworzania sekwencji przodków z jak najmniejszą liczbą zmian w sekwencji 3. zliczanie sumy zmian dla drzew - drzewo o jak najmniejszej liczbie zmian uznawane za najlepsze
73
hipoteza zegara molekularnego
- metoda tworzenia drzewa filogenetycznego - sekwencje molekularne ewoulują w stałym tempie, a zatem liczba zgromadzonych mutacji jest proporcjonalna do czasu ewolucji. Zgodnie z tą hipotezą można oszacować czas dywergencji. Założenie o stałości tempa ewolucji rzadko znajduje odzwierciedlenie w rzeczywistości
74
metody tworzące drzewa wykorzystujące algorytm klastrujący (sposób konstrukcji drzewa) i dane odległości to.. [2]
UPGMA | NJ - przyłączania sąsiada
75
metody tworzące drzewa wykorzystujące algorytm optymalności (sposób konstrukcji drzewa) i dane odległości to.. [2]
LS/FM | ME - metoda minimalnych odległości
76
metody tworzące drzewa wykorzystujące algorytm optymalności (sposób konstrukcji drzewa) i dane o miejscach w sekwencjach to.. [3]
MP - parsymonii ML - największej wiarygodności metody Bayesowskie
77
mikromacierze i chipy DNA służą do [4]
1. znajdowania genów reagujących zmianą ekspresji na zmiany środowiskowe lub genotypowe 2. znajdowanie genów, których ekspresja różni się między tkankami, podczas rozwoju, w tkance chorej i zdrowej, między gatunkami 3. wykrywanie predyspozycji lub diagnostyka chorób 4. określenie wpływu leków