Spark Dataframe commands Flashcards

Question

case expression general syntax

Answer 1

case when col1 = 'Y' then 'True' when col1 = 'N' then 'False' else 'NA' end

Answer 2

df.drop("col1","col2")

Answer 3

dropDuplicates(["col1", "col2"])

Answer 4

df.withColumn("flag", func.expr("case when col1 >= 100 then True else False end"))

Answer 5

df.withColumn("flag", func.lit(True))

Answer 6

df.withColumnRenamed("old_col_name", "new_col_name")

Answer 7

withColumnRenamed, selectExpr

Answer 8

1. Reading hive tables 2. Reading CSV or JSON files 3. Create dataframe from list 4. Create dataframe from rdd

Answer 9

1. df = spark.read.csv("file.csv") | 2. df = spark.read.format("csv").load("file.csv")

Answer 10

_c0, _c1, _c2...

Answer 11

``` df2 = spark.read.option("header",True).csv("file.csv") df2 = spark.read.options(header = 'True').csv("file.csv") ```

Answer 12

df = spark.read.csv("path1,path2,path3")

Answer 13

df = spark.read.csv("Folder path")

Answer 14

``` df3 = spark.read.option("delimiter",",") .csv("test.csv") df3 = spark.read.options(delimiter=',') .csv("test.csv") ```

Answer 15

``` df3 = spark.read.option("inferschema", True) .csv("test.csv") df3 = spark.read.options(inferschema='True') .csv("test.csv") ```

Answer 16

df3 = spark.read.option("delimiter",",").option("inferschema",True) .csv("test.csv") df3 = spark.read.options(inferschema='True', delimiter = '|') .csv("test.csv")

Answer 17

from pyspark.sql.types import *

Answer 18

from pyspark.sql.types import * from pyspark.sql.types import StructType,StructField, StringType, IntegerType schema = StructType([ StructField('firstname', StringType(), True), StructField('middlename', StringType(), True), StructField('id', IntegerType(), True) ]) df = spark.read.format("csv").option("Header", True).schema(schema).load("file.csv") df = spark.read.option("Header", True).schema(schema).csv("file.csv")

Answer 19

df. write.format("csv").option("header", True).save("demo.csv") df. write.option("header", True).csv("demo.csv")

Answer 20

1. overwrite – mode is used to overwrite the existing file. 2. append – To add the data to the existing file. 3. ignore – Ignores write operation when the file already exists. 4. error – This is a default option when the file already exists, it returns an error.

Answer 21

df.write.mode("append").option("header", True).csv("demo.csv")

Answer 22

spark = SparkSession \ .builder \ .appName("App1") \ .getOrCreate()

Answer 23

1. df = spark.read.json("file.json") | 2. df = spark.read.format("json").load("file.json")

Answer 24

from pyspark.sql import SparkSession

Answer 25

df = spark.read.options(mutliline="True").json("file.json")

Answer 26

df = spark.read.json(["json path1","json path2","json path3"])

Answer 27

df = spark.read.json("files/*.json")

Answer 28

from pyspark.sql.types import * from pyspark.sql.types import StructType,StructField, StringType schema = StructType([ StructField('firstname', StringType(), True), StructField('middlename', StringType(), True), StructField('lastname', StringType(), True) ]) df = spark.read.options(header = 'True').schema(schema).json("file.json")

Answer 29

df.write.json("file.json")

Answer 30

df.write.mode("append").json("file.json")

Answer 31

from pyspark.sql import Row dept = [Row("A",10), Row("B",20), Row("C",30)] ``` rdd = spark.sparkContext.parallelize(dept) df = rdd.toDF(col1, col2) ```

Answer 32

``` dept = [("A",10), ("B",20), ("C",30)] col_names= ("col_1_name", "col_2_name") df = spark.createDataFrame(data = dept, schema = col_names) ```

Answer 33

from pyspark.sql import functions as func ``` def split_str("s"): return s.split("_")[1] ``` split_str_udf = func.udf(split_str) #udf registration df1 = df.withColumn("last_name", split_str("full_name"))

Answer 34

df = spark.read.format("avro").load("avro_file_path")

Answer 35

df.write.format("avro").save("avro_file_path")

Answer 36

df1.alias("a").join(df2.alias("b"), df1.id == df2.id, "left_outer").select("a.col1","b.col2")

Answer 37

df1.alias("a").join(df2.alias("b"), df1.id == df2.id, "inner").select("a.col1","b.col2")

Answer 38

df2.alias("a").join(df1.alias("b"), df2.id == df1.id, "right_outer").select("df1.col1","df2.col2")

Spark Dataframe commands Flashcards

(67 cards)