Miks1 Flashcards by Øyvind Rogne

Hva er Apache Spark?

En distribuert databehandlingsmotor for storskala databehandling.

How well did you know this?

Not at all

Perfectly

Hva er PySpark?

Python-API for Apache Spark.

How well did you know this?

Not at all

Perfectly

Hva er en cluster i Spark?

Et sett med noder/maskiner som samarbeider om databehandling.

How well did you know this?

Not at all

Perfectly

Hva er en driver i Spark?

Koordinerer kjøringen av applikasjonen og kommuniserer med eksekutører.

How well did you know this?

Not at all

Perfectly

Hva er en executor i Spark?

Prosess som kjører på en node og utfører oppgaver sendt av driveren.

How well did you know this?

Not at all

Perfectly

Hva er SparkSession?

Inngangspunktet til å bruke DataFrame API i PySpark.

How well did you know this?

Not at all

Perfectly

Hvordan lager du en SparkSession?

spark = SparkSession.builder.appName(‘app’).getOrCreate()

How well did you know this?

Not at all

Perfectly

Hva er en DataFrame i PySpark?

En distribuert samling av data organisert i kolonner.

How well did you know this?

Not at all

Perfectly

Hvordan ser du schemaet til en DataFrame?

df.printSchema()

How well did you know this?

Not at all

Perfectly

Hvordan viser du de første radene i en DataFrame?

df.show()

How well did you know this?

Not at all

Perfectly

Hva er en transformation i PySpark?

En lazy operasjon som returnerer et nytt DataFrame.

How well did you know this?

Not at all

Perfectly

Hva er en action i PySpark?

En operasjon som trigger beregning og returnerer et resultat.

How well did you know this?

Not at all

Perfectly

Eksempel på en transformation?

select(), filter(), withColumn(), etc.

How well did you know this?

Not at all

Perfectly

Eksempel på en action?

show(), count(), collect(), etc.

How well did you know this?

Not at all

Perfectly

Hva gjør df.select(‘navn’)?

Returnerer en ny DataFrame med kun kolonnen ‘navn’.

How well did you know this?

Not at all

Perfectly

Hva betyr lazy evaluation i PySpark?

Operasjoner kjøres ikke før en action trigges.

How well did you know this?

Not at all

Perfectly

Hvorfor bruker Spark lazy evaluation?

For å optimalisere og redusere unødvendig arbeid.

How well did you know this?

Not at all

Perfectly

Hva skjer når du kjører df.filter(…).select(…)?

Ingenting før du kjører en action som show() eller collect().

How well did you know this?

Not at all

Perfectly

Hva er fordelen med lazy evaluation?

Study These Flashcards

Bedre ytelse via optimalisering og redusert IO.

Hvordan kan du se hva Spark planlegger å gjøre?

Study These Flashcards

Bruk df.explain()

Hvordan filtrerer du rader i en DataFrame?

Study These Flashcards

Bruk df.filter(df.kolonne > verdi)

Hvordan legger du til en ny kolonne?

Study These Flashcards

df.withColumn(‘ny_kolonne’, uttrykk)

Hvordan gir du nytt navn til en kolonne?

Study These Flashcards

df.withColumnRenamed(‘gammel’, ‘ny’)

Hvordan grupperer du data i en DataFrame?

Study These Flashcards

df.groupBy(‘kolonne’).agg(…)

Hvordan sorterer du en DataFrame?

df.orderBy('kolonne')

Hvordan leser du en CSV-fil til en DataFrame?

spark.read.csv('fil.csv', header=True, inferSchema=True)

Hvordan skriver du en DataFrame til en CSV-fil?

df.write.csv('sti', header=True)

Hvordan leser du en Parquet-fil?

spark.read.parquet('fil.parquet')

Hvordan skriver du til Parquet?

df.write.parquet('sti')

Hvordan spesifiserer du delimiter i csv-lesing?

spark.read.option('delimiter', ';').csv(...)

Hva gjør df.describe().show()?

Viser statistikk som count, mean, stddev for numeriske kolonner.

Hva er collect()?

Returnerer alle rader i DataFrame som en liste til driveren.

Hva er show()?

Viser de første radene som tabell i konsollen.

Hva er forskjellen på show() og collect()?

show() skriver til skjerm, collect() returnerer data.

Hva gjør df.cache()?

Holder DataFrame i minnet for raskere tilgang.

Hva er forskjellen på cache() og persist()?

persist() lar deg velge lagringsnivå, cache() bruker MEMORY_AND_DISK.

Hva er en UDF?

User Defined Function – funksjon du selv definerer og bruker på kolonner.

Hvordan registrerer du en UDF?

udf_obj = udf(func, returnType); spark.udf.register('navn', udf_obj)

Hva er en jobb i Spark?

En kjede av stages og tasks utløst av en action.

Hva er et stage i Spark?

En gruppe tasks som kan kjøres parallelt basert på dataavhengighet.

Hva gjør df.limit(5).show()?

Viser de første 5 radene.

Hvordan gjør du en inner join?

df1.join(df2, 'kolonne', 'inner')

Hvordan spesifiserer du flere join-betingelser?

df1.join(df2, (df1.id == df2.id) & (df1.name == df2.name))

Hvordan bruker du SQL i Spark?

spark.sql('SELECT * FROM tabell')

Hvordan registrerer du en midlertidig tabell?

df.createOrTempView('navn')

Hvordan konverterer du RDD til DataFrame?

spark.createDataFrame(rdd)

Miks1 Flashcards

(46 cards)