HC 3 - NGS: Bioinformatics Algorithms Flashcards

Hoorcollege 3

1
Q

de novo sequencing

A

DNA in kaart brengen wanneer het nog niet bekend is

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Re-sequencing

A

vergelijking DNA met het referentie genoom

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hoe worden primers gemaakt voor re-sequencing?

A

Specifieke ontwikkeling van probes op basis van referentie/controle

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Waarvoor wordt re-sequencing gebruikt?

A

Variant detectie en strcuturele variatie detectie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Structurele variatie bepaling indels

A

Er worden uiteinden van een fragment gepakt en deze worden met paired end sequencing gesequenced. De afstand tussen de reads is bekend. Wordt deze na alignment kleiner: dan insertie, of groter: dan deletie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Epigenetica sequencing detectie

A

Behandeling met sodium bisulfiet
> ongemethyleerde cytosines veranderen in uracil
> gemethyleerde cytosines veranderen niet
> alignment met de referentie

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Paleogenomics

A

Sequencing van ancient DNA -> leidt tot kortere fragmenten want DNA breekt af over zo een lange tijd

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Sequence analyses: alignment en assembly

A

Alignment: mappen reads naast de referentie
Assembly: reconstrueren genoom vanaf de reads mbv overlaps

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Nadelen van Whole genome projects?

A

-Onvolledig referentie genoom
-Compilatie met laag aantal individuen en dus weinig variatie
-incompleet door technische moeilijkheden en veel indels en varianten die niet worden geïncludeerd

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Voordelen sequencing projecten

A

-Vergelijken varianten uit wereldwijde databases met lokale varianten
-meer patiënten/individuen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Transcriptomics voordelen

A

-Accuraat genexpressie bepalen door alignment van de reads
-nieuwe transcripten vinden

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Transcriptomics nadelen

A

-je kunt onbekende transcripten missen
-lastige alignment door introns

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Biologische relevantie van sequence alignment

A

het verkrijgen van inzicht in de structuur en functie van een sequentie: hoge gelijkheid betekent vaak functionele of structurele gelijkheid en dus geconserveerde functies.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Database searching: BLAST

A

hierbij wordt een sequentie ingevoerd tegen een referentie en kan de query (interest) tegen de best mogelijke subject (referentie) worden gemapped.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Dotplot van sequenties: wat zijn de dots

A

De dots laten gelijkenissen van de sequentie zien op de gelijke delen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Automatische genannotatie bij RNA-seq

A

De cDNA van de transcripten mappen alleen tegen de exonen en niet tegen de intronen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Noem een goed geconserveerde DNA-element

A

Promotorelementen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Pairwise sequence comparison

A

Het vergelijken van twee sequenties met elkaar (zonder een referentiegenoom)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Hoe ziet de dotplot bij pairwise sequence comparison eruit?

A

Overeenkomsten staan op de diagonaal en de assen zijn de sequenties.
- ruis weghalen door het instellen van filter –> window kiezen van bv 3 en alleen als 2/3 gelijk is dan voor de middelste een dot plaatsen
-gaten tussen de diagonaal in horizontale richting: intronen, niet in het RNA aanwezig

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Nadeel van te kleine en te grote filterwindow bij dotplot bij pairwise sequence comparison

A

-Te klein: segmentparen hebben een te lage score
-Te groot: scores voor ongerelateerde aminozuren degraderen het signaal.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

editing transcript bij pairwise sequence alignment

A

Gaat via een soort lingo tabel met de twee sequenties onder elkaar en je moet uitkomen bij een opimaal transcript waarbij zo min mogelijk operaties mogelijk zijn om naar de andere regel te komen > in kaart brengen mutatie events met geminimaliseerde afstand
- operaties/signalen: I (insertion), D (deletion), R (replacement), M (match)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

verschil edit transcript en alignment

A

-Edit transcript: laat mutatie evenementen zien met minimale afstand
-Alignment: laat relatie tussen twee sequenties zien met maximale score

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

String alignment

A

-Twee regels sequenties
-Scores voor de alignment
-bv
>match: 2
> mismatch: -1
> indel: -1
> totaalscore door optellen

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Substitutiescores

A

Vaak bij eiwitalignments en voor nucleotiden
> de A wordt sneller vervangen door G dan voor T
> meestal worden identiteiten gescoord in plaats van gewicht geven aan substituties.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Q

Global alignment

A

Algemene alignment vinden, niet vaak gebruikt

26
Q

Ends-free alignment

A

overlap vinden in de uiteinden van sequenties

27
Q

Local alignment

A

: vinden van sub-sequenties, dit wordt vaak gebruikt (bv een read over een referentiegenoom).

28
Q

Tubular computation

A

formules vanuit de global alignment > van een subtitutie matrix

29
Q

Hoe bereken je een punt V(i,j) vanuit V(i-1, j-1), V(i-1, j) en V(i, j-1)?

A

S1 is sequentie verticaal en S2 horizontaal
V(i,j) = max[
V(i-1, j-1) + score(S1(i), S2(j)),
V(i-1,j) + score(S1(i), -) > altijd extra -1
V(i, j-1) + score(-, S2(j)) > altijd extra -1]
Kies de maximumscore van deze drie en vul in vanaf de basis.
Onder de eerste sequenties staat linksboven 0 en daaropvolgend richting -5 bv met stappen van -1.

30
Q

Trace back met tubular computation

A

begin rechtsonder (rechterdeel sequentie) en volg de pijlen om een bepaalde route te vinden met de meest gunstige score. Wanneer je recht omhoog of naar de zijkant gaat, heb je te maken met een space (streepje). dit streepje verschijnt bij de sequentie waar de twee naast elkaar gelegen gekozen nummers liggen (alsof het een pijl is). Je noteert dan de laatste nucleotide van de andere sequentie en een streepje ertegenover.
> na het tracen bereken je van de mogelijke alignments de scores en je kiest degene met de maximale score

31
Q

verandering formule bij ends-free alignment (pairwise) en bij local

A

ends-free: De base is 0,0
local: base is 0,0 en tussen de opties van de max zit ook 0

32
Q

Algoritmes voor global, local en ends-free alignments pairwise

A

Global: Needleman-Wunsch
Local: Smith Waterman
Ends-free: Assembly

33
Q

Applicaties global, local en ends-free pairwise alignment

A

-Local: biologische applicaties
-Global: exposen van belangrijke biologische gelijkenissen (soms)
-Ends-free: reconstructie van genomen van shotgun sequencing (assembly)

34
Q

Mulitple sequence alignment

A

Inexacte matching van meer dan 2 sequenties

35
Q

Waarom gebruiken we BLAST als algoritme liever dan de pairwise algoritmes?

A

Het is sneller om tegen een referentie te vergelijken.

36
Q

Nadelen blast

A

-Minder accuraat dat pairwise
> maar snel en goed genoeg

37
Q

BLAST query

A

ingevoerde sequentie

38
Q

Target databanks van BLAST

A

Genbank en Swissprot

39
Q

Sequence list van referenties

A

hits/ subjects

40
Q

BLAST applicatie

A

Homologie onderzoeken op basis van gelijkenis in de sequentie (niet per se biologisch gelijke sequenties)

41
Q

BLAST varianten

A

Nucleotiden query en database: Blastn
Eiwit query en databse: Blastp

42
Q

Blast stappenplan

A
  1. een word hit met lengths
  2. scores alignment
  3. extensie HSP (high scoring segment pair) tot de score een klein stukje daalt en dan stopt de alignment
43
Q

Wat doet blast met de sequentie?

A

Het hakt de sequentie in fragmenten en gaat dan vergelijken

44
Q

Problemen met blast en NGS aligners

A

-te traag door te veel reads uit NGS
-sequence reads te kort
-verschillende protocollen (SE/PE-sequencing)
-andere typen sequencers

45
Q

Doel van een sequence aligner

A

De reads moeten aligned worden met een referentie dataset en de juiste locaties moeten worden gevonden op het genoom. Je wilt fouten toestaan (inexact matching) voor variantdetectie

46
Q

wat is bwa?

A

Een data compressie methode en aligner
> sorteren database en index maken voor snel zoeken en vergelijken. De hele database zit in het geheugen van de computer voor snelle verglijking
> voor WGS (humane genoom) en NGS data

47
Q

Informatie sequenties van de sequencer

A

-ID - Sequence length - coordinate on slide
-name sequences
-sequences
-quality scores (phred)
-optional: intensity

48
Q

Opslaan van sequentie in FASTA

A

Regels
- S-ID-sequentie
Geen kwaliteitsscores

49
Q

FASTQ regels

A

1: @S-ID
2: nucleotide sequentie
3: een ‘+’ en evt beschrijving
4: kwaliteits Phred scores

50
Q

Phred score van 40 –> wat is de accuratie?

A

40
1;10000 een fout
99.99% base call accuracy

51
Q

Hogere Phred score betekent…

A

hogere kwaliteit

52
Q

Ascii encoding

A

een codetaal voor het aangeven van de Phredscores dmv een coderij met karakters die staan voor aparte Phred scores > compressie bestand in de vierde regel van de fastq.

53
Q

Wat is FASTQC?

A

Een programma voor het analyseren van fastq file met kwaliteitsscores in boxplots diagram met de desbetreffende posities

54
Q

Waar in de read is de Phred score het laagste?

A

Aan het einde (rechts, 3’-end)

55
Q

Wat wordt er gedaan met lage kwaliteitsbases

A

Weghalen > quality trimming > nodig voor het vinden van SNPs

56
Q

QC correctie na alignment

A

-Sequentie errors oplossen
-Misaligned indels
-Duplicaten door PCR
-gedeeltelijke match aan repetitieve regio’s

57
Q

Hoe loopt IGV genome viewer van links naar rechts?

A

Van korte arm chromosoom naar lange arm

58
Q

Onderste balk IGV

A

RefSeq genen met bekende genen > dikke delen zijn de exonen, iets dunner de UTRs en dunste de intronen

59
Q

IGV: balken in middenpaneel

A

Grijs: aligned reads
Kleur: potentiële variant
> houd rekening met errors, moet nog filtering, let op read depth

60
Q

programmas voor alignement errors

A

BWA> align sequenties 1 voor 1
Has voor indel problem
Lokale realignement

61
Q

duplicatiefouten in PCR

A

-Leidt tot 2 sequenties met 1 origin
-kunnen geïdentificeerd worden omdat ze op dezelfde positie alignen
-twee reads in 1 druppel voor de PCR

62
Q

Matching aan repetitieve regio’s

A

Op meerdere posities alignment > daarom wil je alleen reads die op een unieke positie met hoge confidence alignen