HC 3 - NGS: Bioinformatics Algorithms Flashcards

Question 1

Q

de novo sequencing

Answer

A

DNA in kaart brengen wanneer het nog niet bekend is

Question 2

Q

Re-sequencing

Answer

A

vergelijking DNA met het referentie genoom

Question 3

Q

Hoe worden primers gemaakt voor re-sequencing?

Answer

A

Specifieke ontwikkeling van probes op basis van referentie/controle

Question 4

Q

Waarvoor wordt re-sequencing gebruikt?

Answer

A

Variant detectie en strcuturele variatie detectie

Question 5

Q

Structurele variatie bepaling indels

Answer

A

Er worden uiteinden van een fragment gepakt en deze worden met paired end sequencing gesequenced. De afstand tussen de reads is bekend. Wordt deze na alignment kleiner: dan insertie, of groter: dan deletie

Question 6

Q

Epigenetica sequencing detectie

Answer

A

Behandeling met sodium bisulfiet
> ongemethyleerde cytosines veranderen in uracil
> gemethyleerde cytosines veranderen niet
> alignment met de referentie

Question 7

Q

Paleogenomics

Answer

A

Sequencing van ancient DNA -> leidt tot kortere fragmenten want DNA breekt af over zo een lange tijd

Question 8

Q

Sequence analyses: alignment en assembly

Answer

A

Alignment: mappen reads naast de referentie
Assembly: reconstrueren genoom vanaf de reads mbv overlaps

Question 9

Q

Nadelen van Whole genome projects?

Answer

A

-Onvolledig referentie genoom
-Compilatie met laag aantal individuen en dus weinig variatie
-incompleet door technische moeilijkheden en veel indels en varianten die niet worden geïncludeerd

Question 10

Q

Voordelen sequencing projecten

Answer

A

-Vergelijken varianten uit wereldwijde databases met lokale varianten
-meer patiënten/individuen

Question 11

Q

Transcriptomics voordelen

Answer

A

-Accuraat genexpressie bepalen door alignment van de reads
-nieuwe transcripten vinden

Question 12

Q

Transcriptomics nadelen

Answer

A

-je kunt onbekende transcripten missen
-lastige alignment door introns

Question 13

Q

Biologische relevantie van sequence alignment

Answer

A

het verkrijgen van inzicht in de structuur en functie van een sequentie: hoge gelijkheid betekent vaak functionele of structurele gelijkheid en dus geconserveerde functies.

Question 14

Q

Database searching: BLAST

Answer

A

hierbij wordt een sequentie ingevoerd tegen een referentie en kan de query (interest) tegen de best mogelijke subject (referentie) worden gemapped.

Question 15

Q

Dotplot van sequenties: wat zijn de dots

Answer

A

De dots laten gelijkenissen van de sequentie zien op de gelijke delen

Question 16

Q

Automatische genannotatie bij RNA-seq

Answer

A

De cDNA van de transcripten mappen alleen tegen de exonen en niet tegen de intronen.

Question 17

Q

Noem een goed geconserveerde DNA-element

Answer

A

Promotorelementen

Question 18

Q

Pairwise sequence comparison

Answer

A

Het vergelijken van twee sequenties met elkaar (zonder een referentiegenoom)

Question 19

Q

Hoe ziet de dotplot bij pairwise sequence comparison eruit?

Answer

A

Overeenkomsten staan op de diagonaal en de assen zijn de sequenties.
- ruis weghalen door het instellen van filter –> window kiezen van bv 3 en alleen als 2/3 gelijk is dan voor de middelste een dot plaatsen
-gaten tussen de diagonaal in horizontale richting: intronen, niet in het RNA aanwezig

Question 20

Q

Nadeel van te kleine en te grote filterwindow bij dotplot bij pairwise sequence comparison

Answer

A

-Te klein: segmentparen hebben een te lage score
-Te groot: scores voor ongerelateerde aminozuren degraderen het signaal.

Question 21

Q

editing transcript bij pairwise sequence alignment

Answer

A

Gaat via een soort lingo tabel met de twee sequenties onder elkaar en je moet uitkomen bij een opimaal transcript waarbij zo min mogelijk operaties mogelijk zijn om naar de andere regel te komen > in kaart brengen mutatie events met geminimaliseerde afstand
- operaties/signalen: I (insertion), D (deletion), R (replacement), M (match)

Question 22

Q

verschil edit transcript en alignment

Answer

A

-Edit transcript: laat mutatie evenementen zien met minimale afstand
-Alignment: laat relatie tussen twee sequenties zien met maximale score

Question 23

Q

String alignment

Answer

A

-Twee regels sequenties
-Scores voor de alignment
-bv
>match: 2
> mismatch: -1
> indel: -1
> totaalscore door optellen

Question 24

Q

Substitutiescores

Answer

A

Vaak bij eiwitalignments en voor nucleotiden
> de A wordt sneller vervangen door G dan voor T
> meestal worden identiteiten gescoord in plaats van gewicht geven aan substituties.

Question 25

Q

Global alignment

Answer

A

Algemene alignment vinden, niet vaak gebruikt

Question 26

Q

Ends-free alignment

Answer

A

overlap vinden in de uiteinden van sequenties

Question 27

Q

Local alignment

Answer

A

: vinden van sub-sequenties, dit wordt vaak gebruikt (bv een read over een referentiegenoom).

Question 28

Q

Tubular computation

Answer

A

formules vanuit de global alignment > van een subtitutie matrix

Question 29

Q

Hoe bereken je een punt V(i,j) vanuit V(i-1, j-1), V(i-1, j) en V(i, j-1)?

Answer

A

S1 is sequentie verticaal en S2 horizontaal
V(i,j) = max[
V(i-1, j-1) + score(S1(i), S2(j)),
V(i-1,j) + score(S1(i), -) > altijd extra -1
V(i, j-1) + score(-, S2(j)) > altijd extra -1]
Kies de maximumscore van deze drie en vul in vanaf de basis.
Onder de eerste sequenties staat linksboven 0 en daaropvolgend richting -5 bv met stappen van -1.

Question 30

Q

Trace back met tubular computation

Answer

A

begin rechtsonder (rechterdeel sequentie) en volg de pijlen om een bepaalde route te vinden met de meest gunstige score. Wanneer je recht omhoog of naar de zijkant gaat, heb je te maken met een space (streepje). dit streepje verschijnt bij de sequentie waar de twee naast elkaar gelegen gekozen nummers liggen (alsof het een pijl is). Je noteert dan de laatste nucleotide van de andere sequentie en een streepje ertegenover.
> na het tracen bereken je van de mogelijke alignments de scores en je kiest degene met de maximale score

Question 31

Q

verandering formule bij ends-free alignment (pairwise) en bij local

Answer

A

ends-free: De base is 0,0
local: base is 0,0 en tussen de opties van de max zit ook 0

Question 32

Q

Algoritmes voor global, local en ends-free alignments pairwise

Answer

A

Global: Needleman-Wunsch
Local: Smith Waterman
Ends-free: Assembly

Question 33

Q

Applicaties global, local en ends-free pairwise alignment

Answer

A

-Local: biologische applicaties
-Global: exposen van belangrijke biologische gelijkenissen (soms)
-Ends-free: reconstructie van genomen van shotgun sequencing (assembly)

Question 34

Q

Mulitple sequence alignment

Answer

A

Inexacte matching van meer dan 2 sequenties

Question 35

Q

Waarom gebruiken we BLAST als algoritme liever dan de pairwise algoritmes?

Answer

A

Het is sneller om tegen een referentie te vergelijken.

Question 36

Q

Nadelen blast

Answer

A

-Minder accuraat dat pairwise
> maar snel en goed genoeg

Question 37

Q

BLAST query

Answer

A

ingevoerde sequentie

Question 38

Q

Target databanks van BLAST

Answer

A

Genbank en Swissprot

Question 39

Q

Sequence list van referenties

Answer

A

hits/ subjects

Question 40

Q

BLAST applicatie

Answer

A

Homologie onderzoeken op basis van gelijkenis in de sequentie (niet per se biologisch gelijke sequenties)

Question 41

Q

BLAST varianten

Answer

A

Nucleotiden query en database: Blastn
Eiwit query en databse: Blastp

Question 42

Q

Blast stappenplan

Answer

A

een word hit met lengths
scores alignment
extensie HSP (high scoring segment pair) tot de score een klein stukje daalt en dan stopt de alignment

Question 43

Q

Wat doet blast met de sequentie?

Answer

A

Het hakt de sequentie in fragmenten en gaat dan vergelijken

Question 44

Q

Problemen met blast en NGS aligners

Answer

A

-te traag door te veel reads uit NGS
-sequence reads te kort
-verschillende protocollen (SE/PE-sequencing)
-andere typen sequencers

Question 45

Q

Doel van een sequence aligner

Answer

A

De reads moeten aligned worden met een referentie dataset en de juiste locaties moeten worden gevonden op het genoom. Je wilt fouten toestaan (inexact matching) voor variantdetectie

Question 46

Q

wat is bwa?

Answer

A

Een data compressie methode en aligner
> sorteren database en index maken voor snel zoeken en vergelijken. De hele database zit in het geheugen van de computer voor snelle verglijking
> voor WGS (humane genoom) en NGS data

Question 47

Q

Informatie sequenties van de sequencer

Answer

A

-ID - Sequence length - coordinate on slide
-name sequences
-sequences
-quality scores (phred)
-optional: intensity

Question 48

Q

Opslaan van sequentie in FASTA

Answer

A

Regels
- S-ID-sequentie
Geen kwaliteitsscores

Question 49

Q

FASTQ regels

Answer

A

1: @S-ID
2: nucleotide sequentie
3: een ‘+’ en evt beschrijving
4: kwaliteits Phred scores

Question 50

Q

Phred score van 40 –> wat is de accuratie?

Answer

A

40
1;10000 een fout
99.99% base call accuracy

Question 51

Q

Hogere Phred score betekent…

Answer

A

hogere kwaliteit

Question 52

Q

Ascii encoding

Answer

A

een codetaal voor het aangeven van de Phredscores dmv een coderij met karakters die staan voor aparte Phred scores > compressie bestand in de vierde regel van de fastq.

Question 53

Q

Wat is FASTQC?

Answer

A

Een programma voor het analyseren van fastq file met kwaliteitsscores in boxplots diagram met de desbetreffende posities

Question 54

Q

Waar in de read is de Phred score het laagste?

Answer

A

Aan het einde (rechts, 3’-end)

Question 55

Q

Wat wordt er gedaan met lage kwaliteitsbases

Answer

A

Weghalen > quality trimming > nodig voor het vinden van SNPs

Question 56

Q

QC correctie na alignment

Answer

A

-Sequentie errors oplossen
-Misaligned indels
-Duplicaten door PCR
-gedeeltelijke match aan repetitieve regio’s

Question 57

Q

Hoe loopt IGV genome viewer van links naar rechts?

Answer

A

Van korte arm chromosoom naar lange arm

Question 58

Q

Onderste balk IGV

Answer

A

RefSeq genen met bekende genen > dikke delen zijn de exonen, iets dunner de UTRs en dunste de intronen

Question 59

Q

IGV: balken in middenpaneel

Answer

A

Grijs: aligned reads
Kleur: potentiële variant
> houd rekening met errors, moet nog filtering, let op read depth

Question 60

Q

programmas voor alignement errors

Answer

A

BWA> align sequenties 1 voor 1
Has voor indel problem
Lokale realignement

Question 61

Q

duplicatiefouten in PCR

Answer

A

-Leidt tot 2 sequenties met 1 origin
-kunnen geïdentificeerd worden omdat ze op dezelfde positie alignen
-twee reads in 1 druppel voor de PCR

Question 62

Q

Matching aan repetitieve regio’s

Answer

A

Op meerdere posities alignment > daarom wil je alleen reads die op een unieke positie met hoge confidence alignen

Brainscape's Knowledge GenomeTM

HC 3 - NGS: Bioinformatics Algorithms Flashcards

Hoorcollege 3

Brainscape's Knowledge Genome^TM