Miks1 Flashcards

(46 cards)

1
Q

Hva er Apache Spark?

A

En distribuert databehandlingsmotor for storskala databehandling.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Hva er PySpark?

A

Python-API for Apache Spark.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Hva er en cluster i Spark?

A

Et sett med noder/maskiner som samarbeider om databehandling.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Hva er en driver i Spark?

A

Koordinerer kjøringen av applikasjonen og kommuniserer med eksekutører.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Hva er en executor i Spark?

A

Prosess som kjører på en node og utfører oppgaver sendt av driveren.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Hva er SparkSession?

A

Inngangspunktet til å bruke DataFrame API i PySpark.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Hvordan lager du en SparkSession?

A

spark = SparkSession.builder.appName(‘app’).getOrCreate()

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Hva er en DataFrame i PySpark?

A

En distribuert samling av data organisert i kolonner.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Hvordan ser du schemaet til en DataFrame?

A

df.printSchema()

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Hvordan viser du de første radene i en DataFrame?

A

df.show()

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Hva er en transformation i PySpark?

A

En lazy operasjon som returnerer et nytt DataFrame.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Hva er en action i PySpark?

A

En operasjon som trigger beregning og returnerer et resultat.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Eksempel på en transformation?

A

select(), filter(), withColumn(), etc.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Eksempel på en action?

A

show(), count(), collect(), etc.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Hva gjør df.select(‘navn’)?

A

Returnerer en ny DataFrame med kun kolonnen ‘navn’.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Hva betyr lazy evaluation i PySpark?

A

Operasjoner kjøres ikke før en action trigges.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Hvorfor bruker Spark lazy evaluation?

A

For å optimalisere og redusere unødvendig arbeid.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Hva skjer når du kjører df.filter(…).select(…)?

A

Ingenting før du kjører en action som show() eller collect().

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Hva er fordelen med lazy evaluation?

A

Bedre ytelse via optimalisering og redusert IO.

20
Q

Hvordan kan du se hva Spark planlegger å gjøre?

A

Bruk df.explain()

21
Q

Hvordan filtrerer du rader i en DataFrame?

A

Bruk df.filter(df.kolonne > verdi)

22
Q

Hvordan legger du til en ny kolonne?

A

df.withColumn(‘ny_kolonne’, uttrykk)

23
Q

Hvordan gir du nytt navn til en kolonne?

A

df.withColumnRenamed(‘gammel’, ‘ny’)

24
Q

Hvordan grupperer du data i en DataFrame?

A

df.groupBy(‘kolonne’).agg(…)

25
Hvordan sorterer du en DataFrame?
df.orderBy('kolonne')
26
Hvordan leser du en CSV-fil til en DataFrame?
spark.read.csv('fil.csv', header=True, inferSchema=True)
27
Hvordan skriver du en DataFrame til en CSV-fil?
df.write.csv('sti', header=True)
28
Hvordan leser du en Parquet-fil?
spark.read.parquet('fil.parquet')
29
Hvordan skriver du til Parquet?
df.write.parquet('sti')
30
Hvordan spesifiserer du delimiter i csv-lesing?
spark.read.option('delimiter', ';').csv(...)
31
Hva gjør df.describe().show()?
Viser statistikk som count, mean, stddev for numeriske kolonner.
32
Hva er collect()?
Returnerer alle rader i DataFrame som en liste til driveren.
33
Hva er show()?
Viser de første radene som tabell i konsollen.
34
Hva er forskjellen på show() og collect()?
show() skriver til skjerm, collect() returnerer data.
35
Hva gjør df.cache()?
Holder DataFrame i minnet for raskere tilgang.
36
Hva er forskjellen på cache() og persist()?
persist() lar deg velge lagringsnivå, cache() bruker MEMORY_AND_DISK.
37
Hva er en UDF?
User Defined Function – funksjon du selv definerer og bruker på kolonner.
38
Hvordan registrerer du en UDF?
udf_obj = udf(func, returnType); spark.udf.register('navn', udf_obj)
39
Hva er en jobb i Spark?
En kjede av stages og tasks utløst av en action.
40
Hva er et stage i Spark?
En gruppe tasks som kan kjøres parallelt basert på dataavhengighet.
41
Hva gjør df.limit(5).show()?
Viser de første 5 radene.
42
Hvordan gjør du en inner join?
df1.join(df2, 'kolonne', 'inner')
43
Hvordan spesifiserer du flere join-betingelser?
df1.join(df2, (df1.id == df2.id) & (df1.name == df2.name))
44
Hvordan bruker du SQL i Spark?
spark.sql('SELECT * FROM tabell')
45
Hvordan registrerer du en midlertidig tabell?
df.createOrTempView('navn')
46
Hvordan konverterer du RDD til DataFrame?
spark.createDataFrame(rdd)