Miks1 Flashcards
(46 cards)
Hva er Apache Spark?
En distribuert databehandlingsmotor for storskala databehandling.
Hva er PySpark?
Python-API for Apache Spark.
Hva er en cluster i Spark?
Et sett med noder/maskiner som samarbeider om databehandling.
Hva er en driver i Spark?
Koordinerer kjøringen av applikasjonen og kommuniserer med eksekutører.
Hva er en executor i Spark?
Prosess som kjører på en node og utfører oppgaver sendt av driveren.
Hva er SparkSession?
Inngangspunktet til å bruke DataFrame API i PySpark.
Hvordan lager du en SparkSession?
spark = SparkSession.builder.appName(‘app’).getOrCreate()
Hva er en DataFrame i PySpark?
En distribuert samling av data organisert i kolonner.
Hvordan ser du schemaet til en DataFrame?
df.printSchema()
Hvordan viser du de første radene i en DataFrame?
df.show()
Hva er en transformation i PySpark?
En lazy operasjon som returnerer et nytt DataFrame.
Hva er en action i PySpark?
En operasjon som trigger beregning og returnerer et resultat.
Eksempel på en transformation?
select(), filter(), withColumn(), etc.
Eksempel på en action?
show(), count(), collect(), etc.
Hva gjør df.select(‘navn’)?
Returnerer en ny DataFrame med kun kolonnen ‘navn’.
Hva betyr lazy evaluation i PySpark?
Operasjoner kjøres ikke før en action trigges.
Hvorfor bruker Spark lazy evaluation?
For å optimalisere og redusere unødvendig arbeid.
Hva skjer når du kjører df.filter(…).select(…)?
Ingenting før du kjører en action som show() eller collect().
Hva er fordelen med lazy evaluation?
Bedre ytelse via optimalisering og redusert IO.
Hvordan kan du se hva Spark planlegger å gjøre?
Bruk df.explain()
Hvordan filtrerer du rader i en DataFrame?
Bruk df.filter(df.kolonne > verdi)
Hvordan legger du til en ny kolonne?
df.withColumn(‘ny_kolonne’, uttrykk)
Hvordan gir du nytt navn til en kolonne?
df.withColumnRenamed(‘gammel’, ‘ny’)
Hvordan grupperer du data i en DataFrame?
df.groupBy(‘kolonne’).agg(…)