Reader, Alberts and Werkcolleges Flashcards

(77 cards)

1
Q

Wat is transcriptomics?

A

De aanpak voor het meten van de relatieve expressie van alle expressed genome elements

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Longer transcripts lead to … reads than shorter transcripts

A

more

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

P-values in differential expression analysis

A

differential gene expression analysis should be performed with FDR corrected p-values and choosing a significance cut-off of 5% us optional

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

low p-value in differential expression analysis

A

You cannot say the difference is significant
> a low p-value, not very logical if the expression level is the same, but you can not say that the difference is significant

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

How does Hi-C help you understand transcriptomics

A

identifies long range chromatin interactions, the data can be used to identify enhancers

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

How are cell types detected with scRNA-seq

A

cells are clustered and these clusters are characterized with marker genes that are known to be specific for certain cell types
> Highly Variable Genes are used for the initial clustering

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

ATAC-seq

A

tagmentation
> Tagmentation method cuts and inserts adapters to DNA fragments in the same reaction using an enzyme called transposase.
> detect open chromatine

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Analysing mRNA-seq data with thousands of t-tests to identify differentialy expressed genes: is it good practice?

A

This is not good practice, because you have to use specialized statistical tests that are designed for transcriptomics.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

ChIP-seq for transcription understanding

A

It identifies the locations in the genome that are bound by proteins or histone modification

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Difference Hierarchal clustering and K-means clustering

A

HC calculates a dendrogram based on distances, whereas K-means searches iteratively for groups of similar features

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

De-novo assembly in transcriptomics

A

An assembly analysis aims to reconstruct mRNA transcript sequences from the (much shorter) sequencing reads which are divided in k-mers

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

What is the false discovery rate (FDR)

A

the expected proportion of false discoveries among the rejected hypotheses. (the differently expressed genes)
> of 100 differentially expressed genes and FDR is 5% than 5 genes are expected to be false discoveries.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Determine gene of origin for a read from RNA-seq

A

Map the reads to an annotated genome or transcriptome.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

If a gene shows a (significant) increased average log2FC after an experimental treatment, you may conclude that:

A

The treatment has an effect on the expression of this gene, and it is upregulated

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

A gene set analysis is useful when you are willing to assume that

A

Cellular processes, or pathways, with many differentially expressed genes are important (or “changed”) in your experiment

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

what is a kmer, what is a contig?

A

In de novo assembly, Reads are sliced into short sequences called kmers, which are analyzed for overlap. A contig is a long sequence, and represents the result of an assembly procedure

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

You perform an mRNA sequencing experiment, but you have forgotten to normalize your data before analysis. What may be the consequence?

A

Technical variation is maintained

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

How does ATAC-seq help you understand transcription?

A

chromatin availability

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Are gene expression estimates from an mRNA-seq experiment normally distributed?

A

No, it’s a random draw like marbles in a sack.
> Poisson distribution
> they are counts from a random draw

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Highly variable genes

A

Highly variable genes are genes that show a high degree of biological variability.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Results from single cell RNA sequencing experiments are often plotted with tSNE or UMAP, instead of PCA. Why?

A

With PCA it is difficult to visualize all the clusters in a two dimensional plot.
Het doel van PCA is om een dataset met veel dimensies te reduceren tot enkele dimensies, waarin de hoogste mate van variatie weergegeven kan worden
- Uit PCA plots zie je verschillende clusters met meerdere plots bv PC1/PC2 en PC3/PC4 > niet op twee dimensies.
- Laat wel de grootste effecten zien in de data in de PC1 en PC2 (zoals batch effecten ontdekken omdat je daar iets mee moet)
- Je weet hoe belangrijk de effecten zijn.
Doel tSNE en UMAP is om een dataset met veel dimensies te reduceren tot enkele dimensies en daarbij zoveel originele structuur behouden
> Andere doelen van de analyses en om de structuur van scRNA-seq weer te geven in 2 dimensies kun je beter tSNE of UMAP gebruiken

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

[A]= 10-9 M, [pX]=10-10 M, kon= 1 M-1s-1 and koff= 10-8 s-1. c) Calculate [A:pX].

A

a. Equation 8-1: [A:pX] = kon/ koff [A] [pX] = 1/10-8 10-9 10-10= 10-11 M

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

[A]= 10-9 M, [pX]=10-10 M, kon= 1 M-1s-1 and koff= 10-8 s-1. Calculate [A:pX] if A is added until [A] is doubled?

A

use equation 8-2: [A:pX] = (K[A]/(1+K[A])) [pXT]= (108 * 210-9/(1+108 * 210-9)) * 1.110-10= (0.2/1.2)1.1*10-10=1.8 *10-11 M. so also nearly doubled (this only holds for relative small concentrations of [A]).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

g) If we would have had a higher starting concentration of A, say [A] = 10-3 M and then have added A until the concentration of A had doubled, what would have happened to [A:pX]. Answer the question without calculating

A

a. Nothing, the promoter is already almost fully occupied

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
a) How long would it take to reach 50% of the steady state value if both kon and koff are doubled? Please give your answer in seconds. Orginal time till 50% steady state: 10 s
a. 5 s The back conversion does not matter, the time is shorter because the rate of formation and dissociation go faster.
26
b) How long would it take to reach 50% of the steady state value if both kon and koff are halved? Please give your answer in seconds. Org 10 s
a. 20 s
27
c) How long would it take to reach 50% of the steady state value if only kon is doubled and koff does not change? org 10 s
a. Between 5 s and 10 s, to determine the exact value you have to do the calculation. It is slower than 5 s because the koff does not change
28
In panel (A) (inhibition system) you see a circuit of three components and in panel (B) one of five components producing oscillations. a) Is it a coincidence that both these numbers are odd? Please explain your answer.
Even numbers will not give oscillations, because there is no positive feedback and half of the genes will be expressed and the other half won’t be. > odd: Gene X will be expressd more and more and gene Y less and less > even: With gene W, X, Y, Z than with W being upregulated than W and Y will both be upregulated and X and Z will be downregulated, no oscillation because of this. > If in the two gene system X would promote Y, then an oscillation will be started because X promotes Y which leads to less X and less promotion of Y so more X and so on.
29
Ruimte voor opslaag in edge list en adjacency matrix van netwerken
- Edge list: size = number of edges x 2 - Adjacency matrix > size = number of nodes 2 diagonal shows circular network
30
Log FC histogram is not centered around 0
-Niet precies normalized -meer genen minder in tumor beschreven of fout in normalisatie
31
Wat doe je met informatie netwerk?
- Replicatie - In-depth literatuuronderzoek - Modelling - Targeted > knockout, chemische inhibitie, labelling experiment en check isotopen
32
Voor validatie wil je de ..
meest extreme moleculen nemen voor best verschillen meten en detecteren
33
integratie uitdagingen in metingen en data attributen
- Welke technische uitdagingen. - Aantal analyten - Isoformen > niet altijd te onderscheiden - Verschillende meetapparaten > sequencer, massaspectrometer o Bij sequencer weet je alleen diepte tov totale reads o Bij massaspectrometer kan kwantificatie wat absoluter met standaarden. - Verschil in de fold change die kan worden gemeten per omics. De dynamic range van de massaspectrometer is te laag om zulke grote verschillen als bij sequencing te meten > grotere -log(p waarde) voor RNA dan eiwitten
34
Welke knopen wil je verwijderen om het netwerk het meeste aan te tasten
de mest centrale knopen
35
Normalisatie bij verdunningsverschillen urine: wanneer (on)wenselijk
- Wanneer wenselijk > als er veel verduningsverschillen zijn in de urine, terwijl dit geen rol speelt in de studie - Niet wenselijk > bij studies waarin hoeveelheid urine die geproduceerd wordt een rol speelt bv de ziekte leidt tot meer urine verdunning en lagere concentraties etc.
36
Verschil PCA scores en Discriminant PLS scores?
o PCA: X = t * pT + e > houdt niet rekening met de groepen o PLS: maxti(sumi=1I(ti * yi)) > houdt rekening met groepen - Wat willen ze maximaliseren? o PCA scores maximaliseren de hoeveelheid variatie van X die kan worden beschreven o DPLS scores proberen X zo goed mogelijk te beschrijven maar ook Y (klassen per individu). De covariantie tussen T en Y is maximaal
37
wanneer verschillen PCA en DPLS scores?
Als de richting van de grootste variatie niet overeenkomt met de verschillende groepen in de dataset dan zullen de scores van PCA erg anders zijn dan die van Discriminant PLS
38
Wat is de interpreatie van K[A]/(1+K[A])?
Probability that promotor is occupied, averaged over time or average occupancy across a large population of cells at any instant in time. K is de associatieconstante > concentratie [A] waarbij de helft van de promotor is gebonden > affiniteit Affiniteit = 1/K.
39
When a promoter p is not saturated with bound activator protein A, doubling the total concentration of A would ... A. increase steady-state [A:p] exactly twofold. B. increase steady-state [A:p] over twofold. C. increase steady-state [A:p] less than twofold. D. decrease steady-state [A:p] approximately twofold. E. decrease steady-state [A:p] over twofold
C, increase steady-state [A:p] less than twofold.
40
Everything else being equal, if the mean lifetime of a protein is doubled, its concentration at steady state would: A. increase approximately twofold. B. increase less than twofold. C. increase over twofold. D. decrease approximately twofold. E. decrease less than twofold
A
41
You have set up a system of differential equations to describe the concentration of a protein as a function of time based on transcription, translation, and degradation rates. You simulate two conditions (1 and 2) that are identical except that the transcription rate for the protein is set tenfold higher for the first condition. Starting from a concentration of zero, the time required to reach 50% of the final steady-state concentration is ... A. the same for conditions 1 and 2. B. tenfold longer for 1 compared to 2. C. tenfold longer for 2 compared to 1. D. less than tenfold longer for 1 compared to 2. E. less than tenfold longer for 2 compared to 1.
A, Response time only dependent on protein life time not on production of RNA or protein! calculate response time for 50% steady state in X(t) formula
42
Bistability in a biological system can be accompanied by hysteresis. Consider switchlike cellular responses to a signal molecule, as shown in the following graphs. In each graph, the solid curve corresponds to the change in cellular response when the signal concentration is being increased over time, whereas the dashed curve corresponds to the change when the signal concentration is being decreased. Which graph do you think corresponds to a system with a greater degree of hysteresis? (the curves are increasing sigmoids) What mechanism is responsible for this behavior?
positive feedback, greater degree in hysteresis in smaller sigmoid but later onset
43
De begin concentratie van het enzym is 10 mmol/l. De begin concentraties van ES is 0. Hoe groot is de som van ES en E op een willekeurig tijdstip. (enzymkinetiek)
E + ES = 10 mmol/l
44
Onder welke condities enzymreactie in Michaelis Menten kinetiek
MM reaction: S→P This can only be true if ES (the complex) does not change The complex concentration does not change much if its concentration remains relatively low This is the case if total enzyme concentration is much lower than substrate concentration
45
Wanneer mogen we Michaelis Menten kinitiek gebruiken?
Als de veranderingen in ES klein zijn en dit is het geval als de concentratie enzym klein is ten opzichte van de concentratie substraat. kunnen we nu een uitdrukking voor ES vinden Verandering in ES klein dus d(ES)/dt ≈0
46
De begin concentratie van het enzym is E0, en de begin concentratie van het substraat is S0 alle andere begin concentraties zijn nul. Geef de formule voor de concentratie van het enzym E als het concentratie verloop van ES berekend is.
E = E0 - ES
47
Geef een drietal voorbeelden wat je met modellen uit de systeem biologie kunt doen.
Voorspellen: hoeveel product wordt er gemaakt? * Scenario's: * > wat gebeurt er als de affiniteit van het enzym verandert? * > Hoeveel moet ik k1 veranderen om nog maar 10% van het product te maken? * Hypothese testen: Bij welke situaties mag ik Michaelis-Menten kinetiek veronderstellen?
48
Count data wordt vaak log-getransformeerd. Geef twee redenen waarom. Leg uw antwoord duidelijk uit
(1) Het transformeert de asymmetrische fold-change waarden in symmetrische log-fold-change waarden. (2) Het stabiliseert de variantie. (3) Het zorgt ervoor dat analyses minder gedomineerd worden door (enkele) genen die hoog tot expressie komen.
49
Een belangrijke fase van de RNA-seq data analyse is de “exploratory data analysis”. Wat is het belangrijkste doel van deze fase, en waarom is deze zo belangrijk?
Het belangrijkste doel van deze fase in de data analyse is om in te schatten of samples vergelijkbaar zijn, of er veel (of weinig) ruis is, en of er uitbijters zijn. Er wordt ook vaak een inschatting gemaakt of de experimentele condities veel of weinig van elkaar verschillen. Dit is belangrijk omdat hiermee ingeschat wordt hoe betrouwbaar resultaten zijn
50
U wilt bepalen welke genen significant verschillend tot expressie komen. Voor de statistische analyse voor differentiële expressie worden vaak speciale software pakketten op basis van “modified test statistics” gebruikt. Geef twee redenen waarom het goed is speciale software te gebruiken
Deze software houdt rekening met de volgende aspecten. (1) Dat de parameterschattingen (gemiddelden, varianties enz.) die nodig zijn voor het berekenen van teststatistieken, niet stabiel zijn (veel metingen, kleine n). (2) Dat de gegevens bestaan uit discrete tellingen die een negatieve binominale verdeling volgen. (3) Dat er een FDR correctie moet worden toegepast
51
U wilt nu ook weten of er een verschil in isoform expressie is tussen de behandelde en niet behandelde cellen. Kunt u een reden bedenken waarom inzicht in isoform expressie uw inzicht in de differentiële expressie kan verbeteren?
Differentiële genexpressie wordt bepaald op basis van het aantal reads per gen. Als dit erg verschilt tussen samples, of (statistisch consistent) verschilt tussen experimentele condities, dan gaat men ervan uit dat er een verschil is in het aantal mRNA transcripten, en dan spreekt met van differentiële genexpressie. Een verschil in het aantal reads kan echter ook veroorzaakt worden doordat er een verschil is in typen mRNA transcripten. Langere transcripten zorgen voor meer reads. Inzicht in isoform expressie maakt het mogelijk deze twee effecten te ontwarren.
52
Een van deze technieken heet ChIP-seq. Welk aspect van transcriptie kan met deze techniek geanalyseerd worden? Leg beknopt hoe de techniek werkt, en hoe de data U helpt om de transcriptie beter te begrijpen
Met Chip-seq kan geanalyseerd worden op welke locaties in het genoom eiwitten kunnen binden, en op welke locaties histonen gemodificeerd kunnen zijn. De techniek bestaat uit de volgende stappen. (1) Eiwitten worden gebonden aan het DNA (crosslinking). (2) Het DNA wordt gefragmenteerd. (3) Voeg een antibody toe met magnetic bead, die gericht is tegen het eiwit. (4) Isoleer het eiwit. (5) Extraheer en isoleer het gebonden DNA en sequence deze fragmenten. Voor het analyseren van histonmodificaties kan een passende antibody worden gebruikt. Eiwitten zoals transcriptiefactoren, en histonmodificaties zoals actelylering, spelen een rol bij de transcriptie
53
Er bestaat ook een techniek die ATAC-seq heet. Welk aspect van transcriptie kan met deze techniek geanalyseerd worden?
Met ATAC-seq kan geanalyseerd worden op welke locaties in het genoom het chromatine meer open is
54
U voert op hetzelfde sample een ATAC-seq en een ChIP-seq analyse uit. Geef een korte beschrijving van uw verwachting over hoe de resultaten eruit zullen zien. Verwacht U een relatie tussen deze twee analyses. En zo ja, hoe ziet deze verwachting eruit?
De sequencing reactie levert reads op, en als deze reads gemapped worden op het genoom zijn er locaties te zien met pieken van reads. Dit zijn de locaties met open chromatine (ATAC-seq) of eiwitbindingen (ChIP-seq) of histonmodificaties (ChIP-seq). Als er een ATAC-seq en een ChIP-seq analyse uitgevoerd wordt dan wordt er gekeken of er genomische locaties zijn waarbij beide analyses een signaal (piek van reads) geven. Dit geeft aan dat op bepaalde locaties het chromatine open is, en dat er een eiwit bind, of histonmodificatie heeft plaatsgevonden, en dat is extra sterk bewijs voor transcriptie
55
Beschrijf beknopt hoe u middels “de-novo assembly” de basevolgorde van transcripten kunt bepale
Reads vertegenwoordigen korte stukjes van mRNA transcripten, en om de basevolgorde van mRNA transcripten te verkrijgen moeten reads met overeenkomstige sequenties geassembleerd worden. Daartoe worden de reads opgeknipt in korte stukjes (kmers) en worden kmers die overlappen aan elkaar gekoppeld tot lange sequenties, die contigs genoemd worden
56
Een assembly analyse leidt doorgaans tot een groot aantal sequenties, die het transcriptoom representeren. Om het expressie niveau van de transcripten te bepalen kunt u de reads mappen op het transcriptoom. (in plaats van het genoom), en per transcript tellen. Geef aan hoe u deze data zou normaliseren
Er zijn twee antwoorden mogelijk. 1) RPKM: Tel het totaal aantal reads in de steekproef op en deel dat aantal door 1.000.000 – dit is de "per million" scaling factor. Deel de read counts per gen door de per million scaling factor. Dit geeft reads per million (RPM). Deel de RPM-waarden door de lengte van het gen, in kilobasen. 2) TPM: Deel de read-counts door de lengte van elk gen in kilobasen. Dit geeft reads per kilobase (RPK). Tel alle RPK-waarden in een sample bij elkaar op en deel dit getal door 1.000.000. Dit is de "per million" scaling-factor. Deel de RPK- waarden door de scaling-facto
57
Het sequensen levert een count-table op met genexpressie waarden, en met read counts voor de ERCC spike-ins. U voert een normalisatie uit. U ziet dat de variatie van de ERCC spike-ins over de samples vermindert. Baart dit u zorgen?
Nee, in principe niet. De ERCC spike-ins kwantificeren de technische variabiliteit. U verwacht dat normalisatie procedure de technische variabiliteit vermindert. Tijdens college is uitgelegd dat dit een doel van de normalisatie is.
58
Om cell clusters te herkennen voert U een Hierarchical clustering uit. Dit levert een dendrogram op. Wat zegt deze dendrogram?
Deze dendrogram wordt uitgerekend op basis van de distance matrix, die aangeeft hoeveel iedere cel verschilt van iedere andere cel op basis van gen-expressie waarden. Een dendrogram is een vertakkingsdiagram die gelijkenis tussen (groepen van) cellen weergeeft. Op basis van deze diagram kunnen clusters van cellen herkend en gedefinieerd worden.
59
Een Principal Component Analyse (PCA) maakt het mogelijk om de grootste variatie in een “high dimensional” data set te plotten in twee dimensies. PCA is ook toe te passen op Single Cell RNA-seq data. Toch gebruik je dan ook vaak tSNE of UMAP om de data te plotten. Waarom?
Het doel van PCA is om een dataset met veel dimensies te reduceren tot enkele dimensies, waarin de hoogste mate van variatie weergegeven kan worden. Het doel van tSNE en UMAP is om een dataset met veel dimensies te reduceren tot enkele dimensies, en daarbij zoveel mogelijk de originele structuur van de data te behouden. Het doel van de analyses is dus verschillend, en om de structuur van een single-cell RNA-seq dataset weer te geven in twee dimensies kan een tSNE of UMAP beter werken dan een PCA.
60
which of the two sets of highlighted points differ significantly between the two compared conditions – the ones in the red square (high -log(p)) or the ones in the red oval? (low -log(p)) how can you tell?
the square – they have a small P-value (high negative log, 2 pt) and at least some fold change (1 pt); or, alternatively: the oval has a high P-value and some of the points represent pretty low fold-changes
61
which of the molecular groups (metabolites, phospho-proteins, or RNA) has the largest dynamic range in this experiment/measurement? how can you tell?
probably RNA (1 pt) – there are some RNAs, with a log FC of -8 (1 pt), but it’s possible that the range of one of the other omes is larger and there are just less differences
62
do you think that the metabolites, phospho-proteins and transcripts represented by the points in the dashed box have similar functions? explain why or why not (approx same log FC)
pro-argument: they are both lower in tumor tissues, so they might be related (1 pt); con-argument: many different functions can differ in the two conditions (1 pt); some may be causal, some may be consequences, some may strengthen the phenotype, some may be the attempt of the cell to reach a ‘normal’ state (any one of these would yield 1 pt).
63
what is indicated by the colour of the nodes representing the transcripts in the network? how can you tell?
the direction of regulation/change in gene expression (1 pt); the one blue point sits at the opposite end of the x-axis in the volcano plot – the x-axis represents the log fold change
64
what is represented by the direction of the edges in the network?
who regulates who / the direction of regulation
65
is the network uni- or bi-partite? why or why not (
I can’t say for sure (1 pt) – the network might be bi-partite, because we don’t see targets of STAT2 interacting with each other (1 pt), or it might be uni-partite and there are just no interactions between these specific genes
66
name three different experimental techniques which link transcription factors to transcripts
ChIPseq, ChIP-chip, knock-down/silencing/mutation of TF-gene + RNAseq, eQTL analysis, promoter assays, e.g. luciferase... etc
67
what does a yeast-2-hybrid screen detect?
protein-protein-interaction / that two proteins bind to each other / that two proteins are part of a protein complex
68
a group of researchers want to perform an experiment to find proteins that they can target with a drug to influence the behaviour of some cells. They debate whether they should take the approach from figure 1 or figure 2. Which arguments can you find for and against the two approaches, given their aim?
pro-correlative analysis: this can be done with any omics-level that we find interesting, including proteomics and the behaviour of the cells (1 pt), we don’t need prior knowledge (1 pt); anti-correlative analysis: the correlation does not imply causation, so we would not know if a protein correlated to some behaviour of interest is actually a cause (2 pt), the observed correlation may be indirect and we don’t see the link (1 pt); pro-protein-protein-interaction: the experiment is targeted Figure 1: Figure 2: to the omics level we are interested in (proteins; 1 pt); anti-protein-protein- interaction: we need prior knowledge to link at least some proteins to the behaviour of interest
69
A group of researchers wants to study changes in the transcriptome, proteome, and metabolome of cultured cells after adding a substance that is suspected to be toxic for human cells to the culture medium. Would you expect to see effects in all omics datasets at the same time? Why, or why not? Give examples.
The time scales will be different for the different omics (2 pt). Metabolism can change very fast, if the enzymes are present (0.1 μs-10s for a metabolite to appear), transcripts take longer (10 min per gene), proteins can be made in a minute, if the transcript is there.
70
The researchers were able to measure 200 metabolites, 2000 proteins, and 12000 transcripts. If the substance had no effects on the cells, which omics dataset will return the most differentially abundant/expressed analytes? Why?
The transcriptome is most likely to yield false positive differential expression, just because it has the most analytes
71
The researchers repeat the experiment, this time on a set of 10 different cell types in culture (e.g., a cell line from the lung epithelium, one from immune cells, one from liver etc...) as replicates. If the substance has an effect in all these cell types, do you expect the effect size to be similar in all omics datasets? Why, or why not?
The biological variation between the cell lines can differ for the omics levels. For example, some cells may have very different proteins, because they have different morphologies and enzymes. Metabolites might be more stable, because many central metabolites are shared by the cells. This would cause the effect size to be smaller for the proteins than the metabolites, even if the effect of the substance is similar on both (different levels of noise, same signal). On the other hand, the effect may also be stronger at one of the levels, for example, the cell might respond with changes in many transcripts, while only few metabolites are affected, so the effect size would be larger in the transcriptome than the metabolome (same level of noise, more signal)
72
An omics-wide model indicates that signaling through the MAP kinase ERK1 is important for the response to the substance tested in 2). If the researchers want to test this by knocking ERK1 out, what could happen that would leave them with no answer to their question?
There might be side effects on other processes. In the worst case, the cells are just not able to live long enough to be tested
73
Name and describe an omics experiment that would allow the researchers to assess whether the substance is further metabolized by the cells.
The researchers could first try to see if the amount of the substance decreases faster in the cells than without living cells under similar conditions. They could perform a stable isotope experiment, where they label the substance with heavy isotopes and see if the isotopes end up in other molecules in the cell
74
The researchers found that the substance is metabolized by the liver cell line and suspect that this detoxifies the substance. They suspect that a certain enzyme is involved. Suggest an experiment to validate this hypothesis
They could overexpress this enzyme. The substance should be degraded faster and the toxic effect should be weaker. They could also knock the enzyme out/down or inhibit it with another substance (if they know one) and see if the toxic effect is stronger
75
Geef voor elk van de variatie bronnen een voorbeeld waarbij door replicatie de variatie kan worden verkleind.
Biologische variatie: neem meer mensen in de studie * Analytische variatie: meet de samples vaker.
76
Naast replicatie zijn ook randomisatie en blocking middelen om het effect van een treatment zo goed mogelijk te kunnen schatten. Geef van beide een voorbeeld wanneer en hoe ze gebruikt worden
Randomisatie: Door mensen op een random manier toe te wijzen aan twee treatments, kun je systematische verschillen vermijden. * Blocking: Als er meer samples zijn dan in 1 batch / dag gemeten kunnen worden kun je de samples over de twee dagen verdelen. Het batch / dag effect wordt dan voor gecorrigeerd
77
Beschrijf waarom je beter experimenten kunt blocken dan randomizeren.
Bij blocken verwijder je variatie tussen experimenten waarvan je weet dat die niet relevant is. Hierdoor kun je een kleiner treatment effect vinden. * Bij randomisatie verwijder je geen variatie, maar probeer je geen bias te veroorzaken