HC 3 - NGS: Bioinformatics Algorithms Flashcards
Hoorcollege 3
de novo sequencing
DNA in kaart brengen wanneer het nog niet bekend is
Re-sequencing
vergelijking DNA met het referentie genoom
Hoe worden primers gemaakt voor re-sequencing?
Specifieke ontwikkeling van probes op basis van referentie/controle
Waarvoor wordt re-sequencing gebruikt?
Variant detectie en strcuturele variatie detectie
Structurele variatie bepaling indels
Er worden uiteinden van een fragment gepakt en deze worden met paired end sequencing gesequenced. De afstand tussen de reads is bekend. Wordt deze na alignment kleiner: dan insertie, of groter: dan deletie
Epigenetica sequencing detectie
Behandeling met sodium bisulfiet
> ongemethyleerde cytosines veranderen in uracil
> gemethyleerde cytosines veranderen niet
> alignment met de referentie
Paleogenomics
Sequencing van ancient DNA -> leidt tot kortere fragmenten want DNA breekt af over zo een lange tijd
Sequence analyses: alignment en assembly
Alignment: mappen reads naast de referentie
Assembly: reconstrueren genoom vanaf de reads mbv overlaps
Nadelen van Whole genome projects?
-Onvolledig referentie genoom
-Compilatie met laag aantal individuen en dus weinig variatie
-incompleet door technische moeilijkheden en veel indels en varianten die niet worden geïncludeerd
Voordelen sequencing projecten
-Vergelijken varianten uit wereldwijde databases met lokale varianten
-meer patiënten/individuen
Transcriptomics voordelen
-Accuraat genexpressie bepalen door alignment van de reads
-nieuwe transcripten vinden
Transcriptomics nadelen
-je kunt onbekende transcripten missen
-lastige alignment door introns
Biologische relevantie van sequence alignment
het verkrijgen van inzicht in de structuur en functie van een sequentie: hoge gelijkheid betekent vaak functionele of structurele gelijkheid en dus geconserveerde functies.
Database searching: BLAST
hierbij wordt een sequentie ingevoerd tegen een referentie en kan de query (interest) tegen de best mogelijke subject (referentie) worden gemapped.
Dotplot van sequenties: wat zijn de dots
De dots laten gelijkenissen van de sequentie zien op de gelijke delen
Automatische genannotatie bij RNA-seq
De cDNA van de transcripten mappen alleen tegen de exonen en niet tegen de intronen.
Noem een goed geconserveerde DNA-element
Promotorelementen
Pairwise sequence comparison
Het vergelijken van twee sequenties met elkaar (zonder een referentiegenoom)
Hoe ziet de dotplot bij pairwise sequence comparison eruit?
Overeenkomsten staan op de diagonaal en de assen zijn de sequenties.
- ruis weghalen door het instellen van filter –> window kiezen van bv 3 en alleen als 2/3 gelijk is dan voor de middelste een dot plaatsen
-gaten tussen de diagonaal in horizontale richting: intronen, niet in het RNA aanwezig
Nadeel van te kleine en te grote filterwindow bij dotplot bij pairwise sequence comparison
-Te klein: segmentparen hebben een te lage score
-Te groot: scores voor ongerelateerde aminozuren degraderen het signaal.
editing transcript bij pairwise sequence alignment
Gaat via een soort lingo tabel met de twee sequenties onder elkaar en je moet uitkomen bij een opimaal transcript waarbij zo min mogelijk operaties mogelijk zijn om naar de andere regel te komen > in kaart brengen mutatie events met geminimaliseerde afstand
- operaties/signalen: I (insertion), D (deletion), R (replacement), M (match)
verschil edit transcript en alignment
-Edit transcript: laat mutatie evenementen zien met minimale afstand
-Alignment: laat relatie tussen twee sequenties zien met maximale score
String alignment
-Twee regels sequenties
-Scores voor de alignment
-bv
>match: 2
> mismatch: -1
> indel: -1
> totaalscore door optellen
Substitutiescores
Vaak bij eiwitalignments en voor nucleotiden
> de A wordt sneller vervangen door G dan voor T
> meestal worden identiteiten gescoord in plaats van gewicht geven aan substituties.