AWS Data Processing Flashcards

Question

Glue ETL Funções

Answer 1

* Geração automática de código * Scala ou Python * Criptografia * Lado do servidor (em repouso) * SSL (em trânsito) * Pode ser orientado a eventos * Pode provisionar “DPUs” adicionais (unidades de processamento de dados) para aumentar desempenho de trabalhos Spark subjacentes * A ativação de métricas de trabalho pode ajudá-lo a entender a capacidade máxima em DPUs que você precisa * Erros relatados ao CloudWatch * Pode vincular ao SNS para notificação

Answer 2

* Transform data, Clean Data, Enrich Data (before doing analysis) * Generate ETL code in Python or Scala, you can modify the code * Can provide your own Spark or PySpark scripts * Target can be S3, JDBC (RDS, Redshift), or in Glue Data Catalog * Fully managed, cost effective, pay only for the resources consumed * Jobs are run on a serverless Spark platform * Glue Scheduler to schedule the jobs * Glue Triggers to automate job runs based on “events”

Answer 3

* A DynamicFrame is a collection of DynamicRecords * DynamicRecords are self-describing, have a schema * Very much like a Spark DataFrame, but with more ETL stuff * Scala and Python APIs

Answer 4

O DynamicFrame é uma estrutura de dados semelhante a um DataFrame do Pandas ou Spark, mas que é projetada para trabalhar com dados sem esquema definido, ou seja, com dados semi-estruturados ou não estruturados

Answer 5

DynamicRecords é um recurso do AWS Glue que permite que dados sem esquema definido sejam processados e transformados em um formato tabular para facilitar a análise.

Answer 6

* Um DynamicFrame é uma coleção de DynamicRecords * DynamicRecords são autodescritivos, têm um esquema * Muito parecido com um Spark DataFrame, mas com mais coisas ETL * APIs Scala e Python

Answer 7

* Bundled Transformations: * DropFields, DropNullFields – remove (null) fields * Filter – specify a function to filter records * Join – to enrich data * Map - add fields, delete fields, perform external lookups * Machine Learning Transformations: * FindMatches ML: identify duplicate or matching records in your dataset, even when the records do not have a common unique identifier and no fields match exactly. * Format conversions: CSV, JSON, Avro, Parquet, ORC, XML * Apache Spark transformations (example: K-Means) * Can convert between Spark DataFrame and Glue DynamicFrame

Answer 8

* Deals with ambiguities in a DynamicFrame and returns a new one * For example, two fields with the same name. * make_cols: creates a new column for each type * price_double, price_string * cast: casts all values to specified type * make_struct: Creates a structure that contains each data type * project: Projects every type to a given type, for example project:string

Answer 9

* Lida com ambiguidades em um DynamicFrame e retorna um novo * Por exemplo, dois campos com o mesmo nome. * make_cols: cria uma nova coluna para cada tipo * preço_duplo, preço_string * cast: converte todos os valores para o tipo especificado * make_struct: Cria uma estrutura que contém cada tipo de dados * projeto: projeta cada tipo para um determinado tipo, por exemplo projeto: string

Answer 10

Pode provisionar DPU's adicionais para aumentar desempenho de trabalho Spark subjacente.

Answer 11

Executar trechos de código na nuvem sem servidor.

Answer 12

Frequentemente utilizado para processar dados conforme eles são movidos.

Answer 13

Lambda, ML, Glue, Sagemaker, EMR, Data Pipeline

Answer 14

De forma síncrona

Answer 15

1000 execuções simultâneas

Answer 16

* DropFields, DropNullFields – remove (null) fields * Filter – specify a function to filter records * Join – to enrich data * Map - add fields, delete fields, perform external lookups

Answer 17

* DropFields, DropNullFields – remover campos (nulos) * Filter – especifique uma função para filtrar registros * Join – para enriquecer os dados * Map - adicionar campos, excluir campos, realizar pesquisas externas

Answer 18

* FindMatches ML: identify duplicate or matching records in your dataset, even when the records do not have a common unique identifier and no fields match exactly.

Answer 19

CSV, JSON, Avro, Parquet, ORC, XML

Answer 20

Can convert between Spark DataFrame and Glue DynamicFrame

Answer 21

* Deals with ambiguities in a DynamicFrame and returns a new one * For example, two fields with the same name. * make_cols: creates a new column for each type * price_double, price_string * cast: casts all values to specified type * make_struct: Creates a structure that contains each data type * project: Projects every type to a given type, for example project:string

Answer 22

* Re-run the crawler, or * Have the script use enableUpdateCatalog and partitionKeys options

Answer 23

* Re-run the crawler, or * Use enableUpdateCatalog / updateBehavior from script

Answer 24

enableUpdateCatalog / updateBehavior with setCatalogInfo

Answer 25

* S3 only * Json, csv, avro, parquet only * Parquet requires special code * Nested schemas are not supported

Answer 26

* Then create an ETL job that runs your script (using Spark and Glue)

Answer 27

* Apache Zeppelin on your local machine * Zeppelin notebook server on EC2 (via Glue console) * SageMaker notebook * Terminal window * PyCharm professional edition * Use Elastic IP’s to access a private endpoint address

Answer 28

* Time-based schedules (cron style)

Answer 29

* Persists state from the job run * Prevents reprocessing of old data * Allows you to process new data only when re-running on a schedule * Works with S3 sources in a variety of formats * Works with relational databases via JDBC (if PK’s are in sequential order) * Only handles new rows, not updated rows

Answer 30

* Fire off a Lambda function or SNS notification when ETL succeeds or fails * Invoke EC2 run, send event to Kinesis, activate a Step Function

Answer 31

* Billed by the second for crawler and ETL jobs * First million objects stored and accesses are free for the Glue Data Catalog * Development endpoints for developing ETL code charged by the minute

Answer 32

Multiple ETL engines : * Glue ETL is based on Spark * If you want to use other engines (Hive, Pig, etc) Data Pipeline EMR would be a better fit.

Answer 33

* Consumes from Kinesis or Kafka * Clean & transform in-flight * Store results into S3 or other data stores

Answer 34

Visual interface for ETL workflows

Answer 35

* Create DAG’s for complex workflows * Sources include S3, Kinesis, Kafka, JDBC * Transform / sample / join data * Target to S3 or Glue Data Catalog * Support partitioning

Answer 36

* Overviews, status, run times

Answer 37

A visual data preparation tool

Answer 38

* UI for pre-processing large data sets * Input from S3, data warehouse, or database * Output to S3

Answer 39

* Can integrate with KMS (with customer master keys only) * SSL in transit * IAM can restrict who can do what * CloudWatch & CloudTrail

Answer 40

* Faturado por segundo para rastreador e trabalhos de ETL * Primeiro milhão de objetos armazenados e os acessos são gratuitos para o Catálogo de Dados do Glue * Pontos finais de desenvolvimento para desenvolvimento de código ETL cobrado por minuto

Answer 41

Visual interface for ETL workflows

Answer 42

- Criação de DAGs para complexos fluxos de trabalho - As fontes incluem S3, Kinesis, Kafka, JDBC - Transform / sample / join data - Direcionar para S3 ou Glue Data Catalog Catálogo * Suporta particionamento

Answer 43

Visões gerais, status, tempos de execução

Answer 44

Serviço de preparação de dados totalmente gerenciado fornecido pela Amazon Web Services (AWS). Ele permite que os usuários limpem e normalizem dados brutos, realizem transformações e apliquem outras operações de preparação de dados sem a necessidade de escrever código manualmente

Answer 45

Can integrate with KMS (with customer master keys only) * SSL in transit * IAM can restrict who can do what * CloudWatch & CloudTrail

Answer 46

Pode criar conjuntos de dados com SQL personalizado do Redshift e Snowflake

Answer 47

Serviço da Amazon Web Services (AWS) que permite criar visualizações em tempo real e acessar dados de várias fontes de maneira unificada. Ele permite que os usuários criem visualizações de dados em tempo real a partir de diversas fontes de dados, incluindo bancos de dados relacionais, data lakes e outras fontes de dados em nuvem.

Answer 48

“Facilita a configuração de um data lake seguro em dias"

Answer 49

* Carregar dados e monitorando fluxos de dados * Configurar partições * Criptografia e gerenciamento de chaves * Definir trabalhos de transformação e monitorá-los * Controle de acesso * Auditoria * Construído em cima do Glue

Answer 50

Sem custo para a formação do lago em si * Mas os serviços subjacentes incorrem cargas * Glue* S3 * EMR * Athena * Redshift

Answer 51

* Recipient must be set up as a data lake administrator * Can use AWS Resource Access Manager for accounts external to your organization * IAM permissions for cross-account access

Answer 52

O Lake Formation não suporta manifestos em Consultas Athena ou Redshift

Answer 53

Permissões IAM na chave de criptografia KMS são necessárias.

Answer 54

Pode vincular-se a usuários/funções do IAM, SAML ou contas externas da AWS * Pode usar tags de política em bancos de dados, tabelas ou colunas * Pode selecionar permissões específicas para tabelas ou colunas

Answer 55

* Can tie to IAM users/roles, SAML, or external AWS accounts * Can use policy tags on databases, tables, or columns * Can select specific permissions for tables or columns

Answer 56

- Elastic MapReduce - Managed Hadoop framework on EC2 instances - Includes Spark, HBase, Presto, Flink, Hive & more - EMR Notebooks - Several integration points with AWS

Answer 57

EMR significa "Elastic MapReduce" e é um serviço AWS que fornece um cluster de computação em nuvem para processamento de big data distribuído

Answer 58

O Master Node é um nó principal que gerencia o cluster EMR e coordena as atividades dos demais nós.

Answer 59

Responsável por várias tarefas essenciais, incluindo a inicialização e configuração dos nós do cluster, o gerenciamento do fluxo de trabalho de processamento de dados e a execução de serviços internos do EMR, como o NameNode do Hadoop e ResourceManager do YARN

Answer 60

- manages the cluster - Tracks status of tasks, monitors cluster health - Single EC2 instance (it can be a single node cluster even) - AKA “leader node

Answer 61

Hosts HDFS data and runs tasks * Can be scaled up & down, but with some risk * Multi-node clusters have at least one

Answer 62

Runs tasks, does not host data * Optional * No risk of data loss when removing * Good use of spot instance

Answer 63

* Ganglia (monitoring) * Mahout (machine learning) * Accumulo (another NoSQL database) * Sqoop (relational database connector) * HCatalog (table and storage management for Hive metastore) * Kinesis Connector (directly access Kinesis streams in your scripts) * Tachyon (accelerator for Spark) * Derby (open-source relational DB in Java) * Ranger (data security manager for Hadoop) * Install whatever you want

Answer 64

O Core Node é um dos tipos de instância de nó no EMR. Ele é responsável por executar tarefas de processamento de dados no cluster do EMR. O Core Node contém o DataNode e o NodeManager, que são componentes do Hadoop.

Answer 65

O Task Node é um tipo de nó no EMR que é usado para executar tarefas específicas no cluster de processamento de dados distribuído. Os Task Nodes são responsáveis por executar tarefas que são designadas pelo nó mestre (Master Node) do cluster.

Answer 66

Não armazenam dados persistentes do Hadoop HDFS.

Answer 67

* Loading data, processing, storing – then shut down * Saves money

Answer 68

Quando as etapas são concluídas

Answer 69

Devem ser encerrados manualmente.

Answer 70

Para economizar $

Answer 71

Amazon EC2 for the instances that comprise the nodes in the cluster

Answer 72

Amazon VPC to configure the virtual network in which you launch your instances

Answer 73

To store input and output data

Answer 74

Amazon CloudWatch to monitor cluster performance and configure alarms

Answer 75

To configure permissions

Answer 76

AWS CloudTrail to audit requests made to the service

Answer 77

To schedule and start your clusters

Answer 78

Para as instâncias que compõem os nós no cluster

Answer 79

Para configurar a rede virtual na qual você lança suas instâncias

Answer 80

Amazon S3 para armazenar dados de entrada e saída

Answer 81

Amazon CloudWatch para monitorar o desempenho do cluster e configurar alarmes

Answer 82

AWS IAM para configurar permissões

Answer 83

AWS CloudTrail para auditar solicitações feitas ao serviço

Answer 84

AWS Data Pipeline para agendar e iniciar seus clusters

Answer 85

* Local file system * Suitable only for temporary data (buffers, caches, etc) * EBS for HDFS * Allows use of EMR on EBS-only types (M4, C4) * Deleted when cluster is terminated * EBS volumes can only be attached when launching a cluster * If you manually detach an EBS volume, EMR treats that as a failure and replaces it

Answer 86

* EMR cobra por hora * Mais cobranças de EC2 * Provisiona novos nós se um nó principal falhar * Pode adicionar e remover nós de tarefas em tempo real * Aumente a capacidade de processamento, mas não a capacidade HDFS * Pode redimensionar os nós principais de um cluster em execução * Aumenta a capacidade de processamento e HDFS * Nós principais também podem ser adicionados ou removidos * Mas a remoção corre o risco de perda de dados.

Answer 87

* The old way of doing it * Custom scaling rules based on CloudWatch metrics * Supports instance groups only

Answer 88

* Introduced in 2020 * Support instance groups and instance fleets * Scales spot, on-demand, and instances in a Savings Plan within the same cluster * Available for Spark, Hive, YARN workloads

Answer 89

First adds core nodes, then task nodes, up to max units specified

Answer 90

* First removes task nodes, then core nodes, no further than minimum constraints * Spot nodes always removed before on -demand instances

Answer 91

* Escala automática EMR * A maneira antiga de fazer * Regras de dimensionamento personalizadas com base nas métricas do CloudWatch * Suporta apenas grupos de instâncias

Answer 92

* Introduzido em 2020 * Suporte a grupos de instâncias e frotas de instâncias * Dimensiona localmente, sob demanda e instâncias em um Savings Plan dentro do mesmo cluster * Disponível para cargas de trabalho Spark, Hive e YARN

Answer 93

* Primeiro adiciona nós principais, depois nós de tarefas, até o máximo de unidades especificadas

Answer 94

* Primeiro remove os nós de tarefa, depois os nós principais, não mais do que restrições mínimas * Nós spot sempre removidos antes das instâncias sob demanda

Answer 95

O EMR Serverless é uma extensão do Amazon EMR (Elastic MapReduce), que é um serviço de processamento de big data da AWS baseado no framework Apache Hadoop.

Answer 96

Conjunto de práticas recomendadas para desenvolver, implantar e gerenciar aplicativos de big data no serviço EMR Serverless da Amazon Web Services (AWS).

Answer 97

O ciclo de vida do aplicativo consiste em quatro fases principais: desenvolvimento, teste, implantação e operações.

Answer 98

* O Spark adiciona 10% de sobrecarga à memória solicitada para drivers e executores * Certifique-se de que a capacidade inicial seja pelo menos 10% a mais do que solicitado pelo trabalho

Answer 99

* S3 encryption (SSE or CSE) at rest * TLS in transit between EMR nodes and S3

Answer 100

SSE-S3, SSE-KMS

Answer 101

Estrutura para processamento de dados distribuídos Mapeia dados para pares chave/valor Reduz os resultados intermediários para a saída final Amplamente suplantado pelo Spark atualmente

Answer 102

Yet Another Recourse Negotiator Gerencia recursos de cluster para vários dados e estruturas de processamento

Answer 103

Sistema de Arquivos Distribuídos Hadoop Distribui blocos de dados pelo cluster de maneira redundante Efêmero em EMR; dados são perdidos na rescisão

Answer 104

- Distributed processing framework for big data * In-memory caching, optimized query execution * Supports Java, Scala, Python, and R * Supports code reuse across

Answer 105

-Estrutura de processamento distribuído para big data * Cache na memória, execução de consulta otimizada * Compatível com Java, Scala, Python e R * Suporta reutilização de código

Answer 106

* Os aplicativos Spark são executados como processos independentes em um cluster * O SparkContext (programa de driver) os coordena * O SparkContext funciona por meio de um Cluster Manager * Os executores executam cálculos e armazenam dados * O SparkContext envia o código do aplicativo e as tarefas aos executores

Answer 107

Spark Streaming, Spark SQL, MLLib, Graphx, Spark Core

Answer 108

Análise de streaming em tempo real Streaming estruturado Twitter, Kafka, Flume, HDFS, ZeroMQ

Answer 109

Até 100x mais rápido que MapReduce JDBC, ODBC, JSON, HDFS, ORC, Parquet, HiveQL

Answer 110

Classificação, regressão, agrupamento, colaboração filtragem, mineração de padrão Leia de HDFS, HBase…

Answer 111

Processamento gráfico ETL, análise, gráfico iterativo computação Não é mais amplamente utilizado

Answer 112

Gerenciamento de memória, recuperação de falhas, agendamento, distribuição e monitoramento de tarefas, interação com armazenamento Scala, Python, Java, R

Answer 113

* spark-redshift package allows Spark datasets from Redshift * It’s a Spark SQL data source * Useful for ETL using Spark

Answer 114

* pacote spark-redshift permite conjuntos de dados Spark do Redshift * É uma fonte de dados Spark SQL * Útil para ETL usando Spark

Answer 115

Spark Structured Streaming é um módulo do Apache Spark que permite o processamento de dados em tempo real com a linguagem SQL e a API DataFrame do Spark

Answer 116

* Uses familiar SQL syntax (HiveQL) * Interactive * Scalable – works with “big data” on a cluster * Really most appropriate for data warehouse applications * Easy OLAP queries – WAY easier than writing MapReduce in Java * Highly optimized * Highly extensible * User defined functions * Thrift server * JDBC / ODBC driver

AWS Data Processing Flashcards

(141 cards)