Processing Flashcards
(43 cards)
Qual o tempo máximo de execução de uma função Lambda até que ele gere um erro de TIMEOUT?
900s (15min)
Qual a capacidade máxima de registros que uma função Lambda consegue processar vindo do Kinesis?
10000 registros
Qual o limite máximo de tamanho de um Batch para processamento no Lambda vindo do Kinesis?
O que acontecerá se esse limite for excedido?
O que fazer para evitar isso?
6Mb
Pode dar Timeout na função ou STALL no SHARD
Dar Split no Payload e/ou aumentar o numero de SHARDS pra evitar stall
Existe um default para o numero de Lambdas rodando simultaneamente?
Sim, 1000 execuções concorrentes, mas pode ser solicitado a AWS para levantar esse limite
Para manipular Lambda, é possivel usar AWS CLI, AWS SDK, ambos ou nenhum dos 2?
AWS CLI e AWS SDK
Sobre Lambda, quais os 3 Anti-Pattern mencionados no WP da AWS?
1) Long- Running Applications : Limite de 900s
2) Dynamic Website: Sites pesados podem ter problemas graves de performance rodando am Lambda, mas Static Web é bom
3) Stateful Applications: Lamda não roda em um OS com subprocessos e não estoca informação nele.
Quais as são as 7 implementações de interface Hadoop mais comuns para o cluster Amazon EMR?
Spark, Hive, HBase, Pig, Hudi, Presto e Kinesis Connector.
Diga 4 usos recomendadas para cluster AWS EMR?
1) Peta-byte Analytics
2) Large ETL Movement
3) Predictive Analytics
4) Ad-hoc data mining and analytics
Quais os tipos de node no AWS EMR e para que servem?
1) Primary Node: Gerencia as tasks e todo e qualquer aspecto do cluster, incluindo monitorando saude. O Cluster pode ser composto somenta de um PRIMARY NODE
2) Core Node: Roda Tasks e grava dados no systema Hadoop (HDFS). Clusters multi-node tem ao menos 1 Core Node
3) Task Node: Apenas roda Tasks, não guarda dados.
O que é a interface Hive para o Amazon EMR e quais suas particularidades?
Hive é um Open source DataWarehouse. Capaz de rodar dados não estruturados como JSON e textos. Usa linguagem Hive QL que tem como base o SQL. É possivel salvar tabelas e scripts diretamente no S3 com a nova implementação do Hive
O que é a interface Spark no Amazon EMR e quais suas particularidades?
É um open-source data-analytics engine que roda em cima do Hadoop com os fundamentais para in-memory map reduce.
O que é a interface Hbase no Amazon EMR e quais suas particularidades?
É um open-source non-relational, distributed database. Fault tolerant efficient way of storing large quantities of sparse data. Can backup to S3. Muito eficiente para Batch Insert, Updates and deletes,
O que é a interface Presto no Amazon EMR e quais suas particularidades?
É um Open-source distributed SQL query engine otimizado para analise de dados ad-hoc de baixa latência. Presto pode processar diferentes fontes de dados incluindo HDFS e S3
Se o cluster Amazon EMR for desligado, todo o dado contido no HDFS é perdido. V ou F?
VERDADEIRO. Dado em HDFS é efêmero. Ele se perde se o cluster for desligado. Usar EMRFS ou S3 são a solução para isso.
Pra que serve o Hive Metastore?
Faz a função do Glue Data Catalog e fica no Primary Node. É possivel guarda-lo externamento por questões de resiliencia.
Se no exame surgir uma pergunta falando sobre “Interactive Queries across Petabyte-scale consuming from a variaty of sources” qual é a resposta mais provável?
Presto
No tocante a Amazon EMR cluster, o que fazem cada um das aplicações abaixo:
1) Ganglia
2) Mahout
3) Accumulo
4) Sqoop
5) Hcatalog
6) Kinesis Connector
7) Tachyon
8) Derby
9) Ranger
1) Ganglia: Monitoring
2) Mahout: Machine Learning
3) Accumulo: NoSQL DB
4) Sqoop: Relational DB Connector
5) Hcatalog: table and storage mngmnt for Hive Metastore
6) Kinesis Connector: direct access kinesis stream
7) Tachyon: accelerator for Spark
8) Derby: open source relational DB in Java
9) Ranger: Data security mngr for Hadoop
Pra que serve o S3DistCp?
Um software implementado em cima do Amazon EMR para aumentar a velocidade de quantidades grandes de daod se movendo do HDFS para o S3, do S3 para o HDFS e dentro do S3 ou do HDFS.
Que feature do Glue podemos usar para reforçar schema em streaming de dados?
AWS Glue Schema Registry
Em quais sistemas KD Firehose pode entregar dados?
S3, Elasticsearch, Redshift e Splunk
Quais são os 4 formas de resolver ambiguidade no Glue ETL?
1) make_col: cria uma coluna para o novo valor
2) cast: coloca todos os valores para o tipo de dado especificado
3) make_struct:cria uma estrutura que contem cada tipo de dado.
4) project: projeta cada tipo para um tipo de dado
O que é o Apache Zeppelin e para que ele serve?
Uma interface que pode acessar Endpoint de desenvolvimento Glue ETL dentro da VPC da AWS. Estilo notebook igual ao jupyter
No Glue, quais são as formas de rodar os Jobs automaticamente?
1) Time-Based Cron job
2) Job Bookmark
3) CloudWatch Event Trigger
O que é o Job Bookmark no Glue e quais suas caracteristicas?
1) usado para não processar o mesmo dado 2 vezes
2) Funciona com S3 e várias bases em JDBC (Se as PK estiverem em ordem sequencial). E SOMENTE lida com NOVAS Linhas, não linhas que tiveram UPDATE