Pyspark vs pandas Flashcards
(20 cards)
Hvordan lager du en DataFrame i Pandas?
pd.DataFrame(data)
Hvordan lager du en DataFrame i PySpark?
spark.createDataFrame(data)
Hvordan leser du en CSV-fil i Pandas?
pd.read_csv(‘fil.csv’)
Hvordan leser du en CSV-fil i PySpark?
spark.read.csv(‘fil.csv’, header=True, inferSchema=True)
Hvordan filtrerer du rader i Pandas?
df[df[‘kol’] > 5]
Hvordan filtrerer du rader i PySpark?
df.filter(df.kol > 5)
Hvordan legger du til en ny kolonne i Pandas?
df[‘ny’] = df[‘kol’] + 1
Hvordan legger du til en ny kolonne i PySpark?
df.withColumn(‘ny’, df.kol + 1)
Hvordan grupperer du i Pandas?
df.groupby(‘kol’).mean()
Hvordan grupperer du i PySpark?
df.groupBy(‘kol’).agg({‘kol2’: ‘mean’})
Hvordan sorterer du data i Pandas?
df.sort_values(‘kol’)
Hvordan sorterer du data i PySpark?
df.orderBy(‘kol’)
Hvordan skriver du til CSV i Pandas?
df.to_csv(‘fil.csv’, index=False)
Hvordan skriver du til CSV i PySpark?
df.write.csv(‘sti’, header=True)
Hvordan sjekker du data-types i Pandas?
df.dtypes
Hvordan sjekker du data-types i PySpark?
df.printSchema()
Hvordan viser du de første radene i Pandas?
df.head()
Hvordan viser du de første radene i PySpark?
df.show()
Er operasjoner eager eller lazy i Pandas?
Eager (kjøres med én gang)
Er operasjoner eager eller lazy i PySpark?
Lazy (kjøres først ved action)