AWS Data Processing Flashcards

Question 1

Q

Processing Services

Answer

A

AWS Lambda
Amazon ML
AWS Glue
Sagemaker
EMR
Data Pipeline

Question 2

Q

O que é o AWS Lambda?

Answer

A

Serviço que permite executar código sem provisionar ou gerenciar servidor.

Question 3

Q

Exemplos de uso do AWS Lambda

Answer

A

Executa código em resposta a eventos como alterações de dados no S3, atualizações em bancos de dados NoSQL, atividades de streaming de dados, etc.

Question 4

Q

Why not just run a server?

Answer

A

Server management (patches, monitoring, hardware failures,
etc.)
Servers can be cheap, but scaling gets expensive really fast
You don’t pay for processing time you don’t use
Easier to split up development between front-end and back-end

Question 5

Q

Por que não apenas executar um servidor?

Answer

A

Gerenciamento de servidores (patches, monitoramento, falhas de hardware,
etc)
Os servidores podem ser baratos, mas o escalonamento fica caro muito rápido
Você não paga pelo tempo de processamento que não usa
Mais fácil de dividir o desenvolvimento entre front-end e back-end

Question 6

Q

Main uses of Lambda

Answer

A

Real-time file processing
Real-time stream processing
ETL
Cron replacement
Process AWS events

Question 7

Q

Principais usos do Lambda

Answer

A

Processamento de arquivos em tempo real
Processamento de fluxo em tempo real
ETL
Substituição do cron
Processar eventos da AWS

Question 8

Q

Supported languages

Answer

A

Node.js * Python * Java * C# * Go * Powershell * Ruby

Question 9

Q

No Lambda com Kinesis como configurar o acionador?

Answer

A

Você especifica um tamanho de lote ao configurar o acionador (até 10.000 registros)

Question 10

Q

Como o Lambda atua com o Kinesis através de código?

Answer

A

Código Lambda recebe um evento com um lote de registros de stream

Question 11

Q

Qual o limite de carga útil entre Lambda e Kinesis

Question 12

Q

O que acontece se o lote for muito grande ao acionar o Kinesis com o Lambda?

Answer

A

Pode causar timeouts

Question 13

Q

Cost Model Lambda

Answer

A

“Pay for what you use”
Generous free tier (1M requests/month, 400K GB-seconds compute time)
$0.20 / million requests
$.00001667 per GB/second

Question 14

Q

Modelo de custo do Lambda

Answer

A

“Pague pelo que usar”
Generoso nível gratuito (1M
solicitações/mês, computação de 400K GB por segundo)
US$ 0,20/milhão de solicitações
$.00001667 por GB/segundo

Question 15

Q

Other promises Lambda

Answer

A

High availability
No scheduled downtime
Retries failed code 3 times
Unlimited scalability*
Safety throttle of 1,000 concurrent executions per region
High performance
New functions callable in seconds
Events processed in milliseconds
Code is cached automatically
But you do specify a timeout! This can cause problems. Max is 900 seconds (15 min)

Question 16

Q

Lambda - Outras promessas

Answer

A

Alta disponibilidade
Sem tempo de inatividade programado
Novas tentativas de código com falha 3 vezes
Escalabilidade ilimitada
Limite de segurança de 1.000
execuções simultâneas por região
Alto desempenho
Novas funções que podem ser chamadas em segundos
Eventos processados em milissegundos
O código é armazenado em cache automaticamente
Mas você especifica um tempo limite!
Isso pode causar problemas. máximo é
900 segundos (15 minutos)

Question 17

Q

Anti-Patterns

Answer

A

Long-running applications
Use EC2 instead, or chain functions
Dynamic websites
Although Lambda can be used to develop “serverless” apps that rely on client-side AJAX
Stateful applications
But you can work in DynamoDB or S3 to keep track of state

Question 18

Q

O que é serviço Elasticsearch

Answer

A

Serviço de busca e análise de dados em tempo real, baseado em código aberto e distribuído sob a licença Apache.

Question 19

Q

What is Glue?

Answer

A

Serverless discovery and definition
of table definitions and schema * S3 “data lakes” * RDS * Redshift * DynamoDB * Most other SQL databases
Custom ETL jobs * Trigger-driven, on a schedule, or on demand
Fully managed

Question 20

Q

O que é o Glue?

Answer

A

Serviço de integração de dados sem servidor que facilita a descoberta, preparação, movimentação e integração de dados de várias fontes de análise, ML e aplicações.

Question 21

Q

Glue + Hive

Answer

A

Hive lets you run SQL like queries from EMR
The Glue Data Catalog can serve as a Hive metastore
You can also import a Hive metastore into Glue

Question 22

Q

Como o catálogo de dados do Glue pode servir em relação ao Hive?

Answer

A

O catálogo de dados do Glue pode servir como um “metastore” do Hive

Question 23

Q

Qual o comando no AWS Lambda para carregar dados no Redshift?

Answer

A

Para carregar dados no Redshift a partir do AWS Lambda, você pode usar a biblioteca do AWS SDK para JavaScript para executar o comando COPY do Redshift.

Question 24

Q

Glue ETL

Answer

A

Automatic code generation
Scala or Python
Encryption
Server-side (at rest)
SSL (in transit)
Can be event-driven
Can provision additional “DPU’s” (data processing units) to increase
performance of underlying Spark jobs
Enabling job metrics can help you understand the maximum capacity in
DPU’s you need
Errors reported to CloudWatch
Could tie into SNS for notification

Question 25

Q

Glue ETL Funções

Answer

A

Geração automática de código
Scala ou Python
Criptografia
Lado do servidor (em repouso)
SSL (em trânsito)
Pode ser orientado a eventos
Pode provisionar “DPUs” adicionais (unidades de processamento de dados) para aumentar desempenho de trabalhos Spark subjacentes
A ativação de métricas de trabalho pode ajudá-lo a entender a capacidade máxima em
DPUs que você precisa
Erros relatados ao CloudWatch
Pode vincular ao SNS para notificação

Question 26

Q

Glue ETL functions

Answer

A

Transform data, Clean Data, Enrich Data (before doing analysis)
Generate ETL code in Python or Scala, you can modify the code
Can provide your own Spark or PySpark scripts
Target can be S3, JDBC (RDS, Redshift), or in Glue Data Catalog
Fully managed, cost effective, pay only for the resources consumed
Jobs are run on a serverless Spark platform
Glue Scheduler to schedule the jobs
Glue Triggers to automate job runs based on “events”

Question 27

Q

Glue ETL: The DynamicFrame

Answer

A

A DynamicFrame is a collection of DynamicRecords
DynamicRecords are self-describing, have a schema
Very much like a Spark DataFrame, but with more ETL stuff
Scala and Python APIs

Question 28

Q

O que é o DynamicFrame no Glue?

Answer

A

O DynamicFrame é uma estrutura de dados semelhante a um DataFrame do Pandas ou Spark, mas que é projetada para trabalhar com dados sem esquema definido, ou seja, com dados semi-estruturados ou não estruturados

Question 29

Q

O que são DynamicRecords no Glue?

Answer

A

DynamicRecords é um recurso do AWS Glue que permite que dados sem esquema definido sejam processados e transformados em um formato tabular para facilitar a análise.

Question 30

Q

Glue ETL: The DynamicFrame (Frame Dinâmico)

Answer

A

Um DynamicFrame é uma coleção de DynamicRecords
DynamicRecords são autodescritivos, têm um esquema
Muito parecido com um Spark DataFrame, mas com mais coisas ETL
APIs Scala e Python

Question 31

Q

Glue ETL - Transformations

Answer

A

Bundled Transformations:
DropFields, DropNullFields – remove (null) fields
Filter – specify a function to filter records
Join – to enrich data
Map - add fields, delete fields, perform external lookups
Machine Learning Transformations:
FindMatches ML: identify duplicate or matching records in your dataset,
even when the records do not have a common unique identifier and no fields
match exactly.
Format conversions: CSV, JSON, Avro, Parquet, ORC, XML
Apache Spark transformations (example: K-Means)
Can convert between Spark DataFrame and Glue DynamicFrame

Question 32

Q

Glue ETL: ResolveChoice

Answer

A

Deals with ambiguities in a DynamicFrame and returns a new one
For example, two fields with the same name.
make_cols: creates a new column for each type
price_double, price_string
cast: casts all values to specified type
make_struct: Creates a structure that contains each data type
project: Projects every type to a given type, for example project:string

Question 33

Q

Glue ETL: Resolução de Problemas

Answer

A

Lida com ambiguidades em um DynamicFrame e retorna um novo
Por exemplo, dois campos com o mesmo nome.
make_cols: cria uma nova coluna para cada tipo
preço_duplo, preço_string
cast: converte todos os valores para o tipo especificado
make_struct: Cria uma estrutura que contém cada tipo de dados
projeto: projeta cada tipo para um determinado tipo, por exemplo projeto: string

Question 34

Q

O que o Glue pode fazer em relação a DPU’s?

Answer

A

Pode provisionar DPU’s adicionais para aumentar desempenho de trabalho Spark subjacente.

Question 35

Q

Qual a especialidade do AWS Lambda?

Answer

A

Executar trechos de código na nuvem sem servidor.

Question 36

Q

Qual o tipo de escalabilidade do AWS Lambda?

Answer

A

Contínua

Question 37

Q

Como é frequentemente utilizado o AWS Lambda?

Answer

A

Frequentemente utilizado para processar dados conforme eles são movidos.

Question 38

Q

Quais os serviços de processamento?

Answer

A

Lambda, ML, Glue, Sagemaker, EMR, Data Pipeline

Question 39

Q

Como o Lambda processa dados de fragmentos no Kinesis?

Answer

A

De forma síncrona

Question 40

Q

Qual o limite de segurança de execuções por região?

Answer

A

1000 execuções simultâneas

Question 41

Q

Glue ETL - Transformations
Bundled Transformations:

Answer

A

DropFields, DropNullFields – remove (null) fields
Filter – specify a function to filter records
Join – to enrich data
Map - add fields, delete fields, perform external lookups

Question 42

Q

Glue ETL - Transformações
Transformações agrupadas:

Answer

A

DropFields, DropNullFields – remover campos (nulos)
Filter – especifique uma função para filtrar registros
Join – para enriquecer os dados
Map - adicionar campos, excluir campos, realizar pesquisas externas

Question 43

Q

Glue - Machine Learning Transformations:

Answer

A

FindMatches ML: identify duplicate or matching records in your dataset,
even when the records do not have a common unique identifier and no fields
match exactly.

Question 44

Q

Glue Format conversions

Answer

A

CSV, JSON, Avro, Parquet, ORC, XML

Question 45

Q

Glue - Apache Spark transformations (example: K-Means)

Answer

A

Can convert between Spark DataFrame and Glue DynamicFrame

Question 46

Q

Glue ETL: ResolveChoice

Answer

A

Deals with ambiguities in a DynamicFrame and returns a new one
For example, two fields with the same name.
make_cols: creates a new column for each type
price_double, price_string
cast: casts all values to specified type
make_struct: Creates a structure that contains each data type
project: Projects every type to a given type, for example project:string

Question 47

Q

Glue ETL: Modifying the Data Catalog
Adding new partitions

Answer

A

Re-run the crawler, or
Have the script use enableUpdateCatalog and partitionKeys options

Question 48

Q

Glue Updating table schema

Answer

A

Re-run the crawler, or
Use enableUpdateCatalog / updateBehavior from script

Question 49

Q

Glue - Creating new tables

Answer

A

enableUpdateCatalog / updateBehavior with setCatalogInfo

Question 50

Q

Glue Restrictions

Answer

A

S3 only
Json, csv, avro, parquet only
Parquet requires special code
Nested schemas are not supported

Question 51

Q

Develop ETL scripts using a notebook

Answer

A

Then create an ETL job that runs your
script (using Spark and Glue)

Question 52

Q

Glue - Endpoint is in a VPC controlled by
security groups, connect via:

Answer

A

Apache Zeppelin on your local machine
Zeppelin notebook server on EC2 (via
Glue console)
SageMaker notebook
Terminal window
PyCharm professional edition
Use Elastic IP’s to access a private
endpoint address

Question 53

Q

Running Glue jobs

Answer

A

Time-based schedules (cron style)

Question 54

Q

Glue - Job bookmarks

Answer

A

Persists state from the job run
Prevents reprocessing of old data * Allows you to process new data only when re-running on a schedule
Works with S3 sources in a variety of formats
Works with relational databases via JDBC (if PK’s are in sequential order)
Only handles new rows, not updated rows

Question 55

Q

Glue - CloudWatch Events

Answer

A

Fire off a Lambda function or SNS notification when ETL succeeds or fails
Invoke EC2 run, send event to Kinesis, activate a Step
Function

Question 56

Q

Glue cost model

Answer

A

Billed by the second for crawler
and ETL jobs
First million objects stored and
accesses are free for the Glue
Data Catalog
Development endpoints for
developing ETL code charged by
the minute

Question 57

Q

Glue Anti-patterns

Answer

A

Multiple ETL engines :
* Glue ETL is based on Spark * If you want to use other engines (Hive, Pig, etc) Data Pipeline EMR would be a better fit.

Question 58

Q

No longer an anti-pattern: streaming
As of April 2020, Glue ETL supports serverless streaming ETL

Answer

A

Consumes from Kinesis or Kafka
Clean & transform in-flight
Store results into S3 or other data stores

Question 59

Q

AWS Glue Studio

Answer

A

Visual interface for ETL workflows

Question 60

Q

Glue - Visual job editor

Answer

A

Create DAG’s for complex
workflows
Sources include S3, Kinesis,
Kafka, JDBC
Transform / sample / join data * Target to S3 or Glue Data
Catalog
Support partitioning

Question 61

Q

Visual job dashboard

Answer

A

Overviews, status, run times

Question 62

Q

AWS Glue DataBrew

Answer

A

A visual data preparation tool

Question 63

Q

Glue data preparation tool (DataBrew)

Answer

A

UI for pre-processing large data sets
Input from S3, data warehouse, or database * Output to S3

Question 64

Q

Glue - Security DataBrew

Answer

A

Can integrate with KMS (with customer master keys only)
SSL in transit
IAM can restrict who can do what
CloudWatch & CloudTrail

Answer 64

A

Faturado por segundo para rastreador
e trabalhos de ETL
Primeiro milhão de objetos armazenados e
os acessos são gratuitos para o Catálogo de Dados do Glue
Pontos finais de desenvolvimento para
desenvolvimento de código ETL cobrado por
minuto

Answer 65

A

Visual interface for ETL
workflows

Answer 66

A

Criação de DAGs para complexos
fluxos de trabalho
As fontes incluem S3, Kinesis, Kafka, JDBC
Transform / sample / join data
Direcionar para S3 ou Glue Data Catalog
Catálogo
Suporta particionamento

Answer 67

A

Visões gerais, status, tempos de execução

Answer 68

A

Serviço de preparação de dados totalmente gerenciado fornecido pela Amazon Web Services (AWS). Ele permite que os usuários limpem e normalizem dados brutos, realizem transformações e apliquem outras operações de preparação de dados sem a necessidade de escrever código manualmente

Answer 69

A

Can integrate with KMS (with customer master keys only) * SSL in transit * IAM can restrict who can do what * CloudWatch & CloudTrail

Answer 70

A

Pode criar conjuntos de dados com SQL personalizado do Redshift
e Snowflake

Answer 71

A

Serviço da Amazon Web Services (AWS) que permite criar visualizações em tempo real e acessar dados de várias fontes de maneira unificada. Ele permite que os usuários criem visualizações de dados em tempo real a partir de diversas fontes de dados, incluindo bancos de dados relacionais, data lakes e outras fontes de dados em nuvem.

Answer 72

A

“Facilita a configuração de um data lake seguro em dias”

Answer 73

A

Carregar dados e monitorando fluxos de dados
Configurar partições
Criptografia e gerenciamento de chaves
Definir trabalhos de transformação e monitorá-los
Controle de acesso
Auditoria
Construído em cima do Glue

Answer 74

A

Sem custo para a formação do lago em si * Mas os serviços subjacentes incorrem
cargas * Glue* S3 * EMR * Athena * Redshift

Answer 75

A

Recipient must be set up as a data lake
administrator
Can use AWS Resource Access Manager
for accounts external to your organization
IAM permissions for cross-account access

Answer 76

A

O Lake Formation não suporta manifestos em Consultas Athena ou Redshift

Answer 77

A

Permissões IAM na chave de criptografia KMS são necessárias.

Answer 78

A

Pode vincular-se a usuários/funções do IAM,
SAML ou contas externas da AWS
* Pode usar tags de política em bancos de dados, tabelas ou colunas
* Pode selecionar permissões específicas
para tabelas ou colunas

Answer 79

A

Can tie to IAM users/roles,
SAML, or external AWS accounts
Can use policy tags on
databases, tables, or columns
Can select specific permissions
for tables or columns

Answer 80

A

Elastic MapReduce
Managed Hadoop framework on EC2 instances
Includes Spark, HBase, Presto, Flink,
Hive & more
EMR Notebooks
Several integration points with AWS

Answer 81

A

EMR significa “Elastic MapReduce” e é um serviço AWS que fornece um cluster de computação em nuvem para processamento de big data distribuído

Answer 82

A

O Master Node é um nó principal que gerencia o cluster EMR e coordena as atividades dos demais nós.

Answer 83

A

Responsável por várias tarefas essenciais, incluindo a inicialização e configuração dos nós do cluster, o gerenciamento do fluxo de trabalho de processamento de dados e a execução de serviços internos do EMR, como o NameNode do Hadoop e ResourceManager do YARN

Answer 84

A

manages the cluster
Tracks status of tasks, monitors cluster
health
Single EC2 instance (it can be a single
node cluster even)
AKA “leader node

Answer 85

A

Hosts HDFS data and runs tasks
* Can be scaled up & down, but with some risk
* Multi-node clusters have at least one

Answer 86

A

Runs tasks, does not host data
* Optional
* No risk of data loss when removing
* Good use of spot instance

Answer 87

A

Ganglia (monitoring)
Mahout (machine learning)
Accumulo (another NoSQL database)
Sqoop (relational database connector)
HCatalog (table and storage management for Hive metastore)
Kinesis Connector (directly access Kinesis streams in your scripts)
Tachyon (accelerator for Spark)
Derby (open-source relational DB in Java)
Ranger (data security manager for Hadoop)
Install whatever you want

Answer 88

A

O Core Node é um dos tipos de instância de nó no EMR. Ele é responsável por executar tarefas de processamento de dados no cluster do EMR. O Core Node contém o DataNode e o NodeManager, que são componentes do Hadoop.

Answer 89

A

O Task Node é um tipo de nó no EMR que é usado para executar tarefas específicas no cluster de processamento de dados distribuído. Os Task Nodes são responsáveis por executar tarefas que são designadas pelo nó mestre (Master Node) do cluster.

Answer 90

A

Não armazenam dados persistentes do Hadoop HDFS.

Answer 91

A

Loading data, processing, storing – then shut down
Saves money

Answer 92

A

Quando as etapas são concluídas

Answer 93

A

Devem ser encerrados manualmente.

Answer 94

A

Para economizar $

Answer 95

A

Amazon EC2 for the instances that comprise the nodes in the cluster

Answer 96

A

Amazon VPC to configure the virtual network in which you launch your instances

Answer 97

A

To store input and output data

Answer 98

A

Amazon CloudWatch to monitor cluster performance and configure alarms

Answer 99

A

To configure permissions

Answer 100

A

AWS CloudTrail to audit requests made to the service

Answer 101

A

To schedule and start your clusters

Answer 102

A

Para as instâncias que compõem os nós no
cluster

Answer 103

A

Para configurar a rede virtual na qual você
lança suas instâncias

Answer 104

A

Amazon S3 para armazenar dados de entrada e saída

Answer 105

A

Amazon CloudWatch para monitorar o desempenho do cluster e configurar alarmes

Answer 106

A

AWS IAM para configurar permissões

Answer 107

A

AWS CloudTrail para auditar solicitações feitas ao serviço

Answer 108

A

AWS Data Pipeline para agendar e iniciar seus clusters

Answer 109

A

Local file system
Suitable only for temporary data (buffers, caches, etc)
EBS for HDFS
Allows use of EMR on EBS-only types (M4, C4)
Deleted when cluster is terminated
EBS volumes can only be attached when launching a cluster
If you manually detach an EBS volume, EMR treats that as a failure and replaces it

Answer 110

A

EMR cobra por hora
Mais cobranças de EC2
Provisiona novos nós se um nó principal falhar
Pode adicionar e remover nós de tarefas em tempo real
Aumente a capacidade de processamento, mas não a capacidade HDFS
Pode redimensionar os nós principais de um cluster em execução
Aumenta a capacidade de processamento e HDFS
Nós principais também podem ser adicionados ou removidos
Mas a remoção corre o risco de perda de dados.

Answer 111

A

The old way of doing it
Custom scaling rules based on CloudWatch metrics
Supports instance groups only

Answer 112

A

Introduced in 2020
Support instance groups and instance fleets * Scales spot, on-demand, and instances in a Savings Plan within the same cluster
Available for Spark, Hive, YARN workloads

Answer 113

A

First adds core nodes, then task nodes, up to max units specified

Answer 114

A

First removes task nodes, then core nodes, no further than minimum constraints
Spot nodes always removed before on
-demand instances

Answer 115

A

Escala automática EMR
A maneira antiga de fazer
Regras de dimensionamento personalizadas com base nas métricas do CloudWatch
Suporta apenas grupos de instâncias

Answer 116

A

Introduzido em 2020
- Suporte a grupos de instâncias e frotas de instâncias
Dimensiona localmente, sob demanda e instâncias em um Savings Plan dentro do mesmo cluster
Disponível para cargas de trabalho Spark, Hive e YARN

Answer 117

A

Primeiro adiciona nós principais, depois nós de tarefas, até o máximo de unidades
especificadas

Answer 118

A

Primeiro remove os nós de tarefa, depois os nós principais, não mais do que restrições mínimas
Nós spot sempre removidos antes das instâncias sob demanda

Answer 119

A

O EMR Serverless é uma extensão do Amazon EMR (Elastic MapReduce), que é um serviço de processamento de big data da AWS baseado no framework Apache Hadoop.

Answer 120

A

Conjunto de práticas recomendadas para desenvolver, implantar e gerenciar aplicativos de big data no serviço EMR Serverless da Amazon Web Services (AWS).

Answer 121

A

O ciclo de vida do aplicativo consiste em quatro fases principais: desenvolvimento, teste, implantação e operações.

Answer 122

A

O Spark adiciona 10% de sobrecarga
à memória solicitada para drivers e executores
Certifique-se de que a capacidade inicial seja pelo menos 10% a mais do que solicitado pelo trabalho

Answer 123

A

S3 encryption (SSE or CSE) at rest
TLS in transit between EMR nodes and S3

Answer 124

A

SSE-S3, SSE-KMS

Answer 125

A

Estrutura para processamento de dados distribuídos
Mapeia dados para pares chave/valor
Reduz os resultados intermediários para a saída final
Amplamente suplantado pelo Spark atualmente

Answer 126

A

Yet Another Recourse Negotiator
Gerencia recursos de cluster para vários dados e estruturas de processamento

Answer 127

A

Sistema de Arquivos Distribuídos Hadoop
Distribui blocos de dados pelo cluster de
maneira redundante
Efêmero em EMR; dados são perdidos na rescisão

Answer 128

A

Distributed processing framework for big data
In-memory caching, optimized query execution
Supports Java, Scala, Python, and R
Supports code reuse across

Answer 129

A

-Estrutura de processamento distribuído para big data
* Cache na memória, execução de consulta otimizada
* Compatível com Java, Scala, Python e R
* Suporta reutilização de código

Answer 130

A

Os aplicativos Spark são executados como processos independentes em um cluster
O SparkContext (programa de driver) os coordena
O SparkContext funciona por meio de um Cluster Manager
Os executores executam cálculos e armazenam dados
O SparkContext envia o código do aplicativo e as tarefas aos executores

Answer 131

A

Spark Streaming, Spark SQL, MLLib, Graphx, Spark Core

Answer 132

A

Análise de streaming em tempo real
Streaming estruturado
Twitter, Kafka, Flume, HDFS,
ZeroMQ

Answer 133

A

Até 100x mais rápido que
MapReduce
JDBC, ODBC, JSON, HDFS, ORC,
Parquet, HiveQL

Answer 134

A

Classificação, regressão,
agrupamento, colaboração
filtragem, mineração de padrão
Leia de HDFS, HBase…

Answer 135

A

Processamento gráfico
ETL, análise, gráfico iterativo
computação
Não é mais amplamente utilizado

Answer 136

A

Gerenciamento de memória, recuperação de falhas, agendamento, distribuição e monitoramento de tarefas, interação com armazenamento
Scala, Python, Java, R

Answer 137

A

spark-redshift package allows Spark datasets from Redshift
It’s a Spark SQL data source
Useful for ETL using Spark

Answer 138

A

pacote spark-redshift permite conjuntos de dados Spark do Redshift
É uma fonte de dados Spark SQL
Útil para ETL usando Spark

Answer 139

A

Spark Structured Streaming é um módulo do Apache Spark que permite o processamento de dados em tempo real com a linguagem SQL e a API DataFrame do Spark

Answer 140

A

Uses familiar SQL syntax (HiveQL)
Interactive
Scalable – works with “big data” on a
cluster
Really most appropriate for data warehouse
applications
Easy OLAP queries
– WAY easier than
writing MapReduce in Java
Highly optimized
Highly extensible
User defined functions
Thrift server
JDBC / ODBC driver

Brainscape's Knowledge GenomeTM

AWS Data Processing Flashcards

Brainscape's Knowledge Genome^TM