Analytics Flashcards

(43 cards)

1
Q

O que é AQUA e o que ele faz?

A

É um Cache que permite que Redshift rode até 10x mais rápido que seus concorrentes de Cloud Data Warehouse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Que feature do Redshift podemos usar para compartilhar tabelas em qualquer cluster do Redshift sem ter que copiar os dados?

A

Data Sharing

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Que 3 features o Redshift se vale para fornecer o maior I/O possível?

A

Columnar storage, Data Compression e Zone Mapping

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Por Default Redshift Clusters são configurado como Multi-AZ: V ou F?

A

FALSO. Para fazer multi AZ, é preciso criar um espelho do cluster e entao ativer auto replicação e failover

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Qual o mínimo de Storage que pode ser provisionado em um Cluster Redshift de 1 nó?

A

160GB

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Caso uma aplicação esteja exigindo o Redshift a mudar de tamalho (numero de nós e tipo de instancia), ele faz isso automáticamente? Como é esse processo?

A

Não. É necessário alguns cliques ou uma call de API. Caso seja feito, ele coloca o Cluster antigo em READ-ONLY e levanta e copia dos dados para o novo cluster. Quando acabar ele desliga o cluster antigo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quais são os 4 exemplos de Anti-Patterns de Redshift do WP?

A

1) Small Dataset - Dataset menor que 100GB, um RDS provavelmente será o mais indicado
2) OLTP:
3) Unstructured
4) BLOB Data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

OpenSearch geralmente se conecta com o que da AWS?

A

KD Firehose, Lambda e CloudWatch

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quais os 2 anti-Paterns no WP da AWS?

A

1) Higly formated Reports: QS is for ad-hoc query and analises
2) ETL: QS tem capacidade de ETL, mas se for para fazer alguns pesados, melhor fazer em outro lugar antes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

O que são os serviços EKS, ECS e Fargates?

A

São gerenciadores de container. Elastic Kubernet Services, Elastic Container Services, e AWS Fargates

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quais os formatos de dados em que o Athena opera?

A

CSV, ORC, Parquet, Avro e JSON

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Qual o modelo de precificação do Athen? Quanto ele cobra por quantos TB?

A

$5 por TB de dado escaneado

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

No Athena você é cobrado mesmo quando a Quey da Fail. V ou F?

A

FALSO. Você é cobrado quando a Query é cancelada, mas não quando ela da Fail.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Quais métodos de segurança são usados no Athena?

A

ACLs, AWS IAM policies,S3 Bucket policy. Pode fazer query (Desde que tenha autorização) em dados criptografados por SSE-KMS, SSE-S3, SSE-C.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Queries usando o Athena fora da interface gráfica dele são suportados por CLI, API via SDK e JDBC. V ou F?

A

Verdadeiro

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Para conectar o Athena em dados fora do S3 como RDS, DynamoDB, CloudWatch Logs, qual serviço podemos usar?

A

Athena Federated Query - usa Lambda para criar conectores com outras fontes de dados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

O Que é Redshift WLM e para que ele serve?

A

Amazon Work Load Management possibilita priorizar queries para garantir que queries RÁPIDAS, não ficarão presas atrás de queries LONGAS.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

O que é o modulo dblink no PostgreSQL e para que ele serve?

A

Serve para acessar um outro banco de dados em um localização remota

19
Q

Existem 4 componentes no Kinesis Data Analytics, quais são?

A

Input Data, Output Data, Reference Tables e Error Stream

20
Q

Se um dado chegar atrasado no KD Analytics, o que acontece com ele?

A

É transferido para o Error Stream Bucket

21
Q

Quando o exame se referir a encontrar “outliers e anomalias no dado”, no contexto KD Analytics, ao que ele possivelmente está se referindo?

A

RANDOM_CUT_FOREST

22
Q

Para que serve o Opensearch Elasticsearch?

A

É um search engine para análise e reporting de Petabyte scale data com front-end em Kibana.
1) Full-text search
2) log Analises
3) App Monitoring
4) Security Analytics
5) Clickstream Analytics

23
Q

Qual os componentes das estrutura do Opensearch/Elasticsearch?

A

documents, types(sumindo) e indices

24
Q

Quais são os tipos de STORAGE para o cluster de Opensearch guardar os indeces?? Quais caracteristicas de cada um?

A

1) Hot: EBS
2) Ultra Warm: S3
3) Cold: Precisa ter Ultra Warm ativado, S3 , mais barato, usado para dados antigos que não são buscados com frequencia

25
O que faz Index State management?
do Opensearch, automatiza politicas de indice como por exempo: deletar indices velhos mover para "read-only" reduzir numero de réplicas etc... as politicas do ISM rodam a cada 30-48min para evitar não rodar muita coisa de uma só vez
26
Sobre Index Management, o que é Index Rollup?
Periodicamente resume os indices para poupar espaço
27
Em Cross-Cluster replication como index management, o que é um Follower index?
Um indice que pega o dado do Leader index
28
Como melhor prática do Opensearch, quantos Master Nodes devemos ter?
3 master nodes. 1, se cair fica fora. 2 Se eles entrarem em conflito um com o outro (Split Brain), para. 3 é o ideal
29
Em Opensearch, caso um erro JVMMemoryPressure ocorra, o que provavelmente está acontecendo?
Temos muitos Shards provisionados e o gerenciamento deles está gargalando o sistema. Também é possivel deletar indices velhos para melhorar isso
30
O que a função Time Travel no Athena ACID Transactions faz?
Permite fazer SELECT em um dado deletado
31
O que fazer se suas ACID Transactions no Athena estão ficando lentas com o tempo?
Compactar periodicamente usando BIN_PACK
32
Que compressões são suportadas pelo Redshift Spectrum?
GZIP e SNAPY
33
Qual o periodo máximo de retenção de um Snapshot do Redshift?
35 dias
34
Redshift realiza Backup para o S3 continuamente. V ou F?
VERDADEIRO
35
Quando dados são inputados no Redshift, eles são distribuidos nas tabelas de acordo com um dos 4 Distribution Style possiveis. Quais são eles? Quais são suas particularidades?
1) AUTO: Redshift decide baseado no tamanho do dado 2) EVEN: Distribui entre slices um seguido do outro. Melhor se não houver um motivo pra dados ficarem juntos 3) KEY: Distribuido baseado em uma coluna. Melhor se as queries forem feitas por key 4) ALL: Tabela inteira é copiada para todos os nós
36
Quais são os tipos de Sort Key no Redshift?
1) Single Sort Key: Apenas 1 coluna é usada como Sort Key. Ex: Date 2) Compound Sort Key(Default): É composta de multiplas colunas na ordem em que são dispostas. Util com condições de filtro. 3) Interleaved Sort Key:
37
Que comandos são usados para Importar e Exportar dados para dentro/fora do Redshift?
COPY: S3 requires Manifest File and IAM Role UNLOAD: Unload a table to S3 Enhanced VPC rounting: Manda os dados de dentro da sua VPC sem passar pela internet
38
Querendo copiar dados de uma tabela dentro do Redshift para outra tabela também dentro do Redshift, qual comando uso?
INSERT INTO ou CREATE TABLE AS (criar uma view) O COPY command é apenas para dados externos
39
Dados enviados para o Redshift via COPY não usam compressão. V ou F?
FALSO. O Redshift avalia a melhor compressão e a usa
40
Para que serve DBLINK?
Connecta Redshift a um PostgreSQL. Pode ser usado para copiar e sincronizar dados entre Redshift e PostgreSQL
41
Quais os modes de Redshift WLM? Quais as diferenças entre eles?
Automatic: Cria até 8 filas. Filas podem ser ordenadas para receber atividades baseadas em Prioridade, User Groups, Query Groups e Query monitoring rules Manual: Por default, 1 Queue com concurrency level 5. Superuser queue lv1. Configura até 8 filas com 50 Levels de concurrency
42
O que é Short Query Acceleration (SQA) e quando usa-lo?
Uma forma de acelerar queries pequenas provisionando uma fila excllusive para rodar queries pequenas. Ideal quando o interesse é apenas em evitar atraso nas queries pequenas
43
O que é o comando VACUUM e para que serve? E quais tipos dele?
Limpa tabela e recupera espaço de itens deletados. VACUUM FULL, VACUUM DELETE ONLY, VACUUM SORT ONLY, VACUUM REINDEX