Analytics Flashcards

1
Q

O que é AQUA e o que ele faz?

A

É um Cache que permite que Redshift rode até 10x mais rápido que seus concorrentes de Cloud Data Warehouse.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Que feature do Redshift podemos usar para compartilhar tabelas em qualquer cluster do Redshift sem ter que copiar os dados?

A

Data Sharing

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Que 3 features o Redshift se vale para fornecer o maior I/O possível?

A

Columnar storage, Data Compression e Zone Mapping

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Por Default Redshift Clusters são configurado como Multi-AZ: V ou F?

A

FALSO. Para fazer multi AZ, é preciso criar um espelho do cluster e entao ativer auto replicação e failover

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Qual o mínimo de Storage que pode ser provisionado em um Cluster Redshift de 1 nó?

A

160GB

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Caso uma aplicação esteja exigindo o Redshift a mudar de tamalho (numero de nós e tipo de instancia), ele faz isso automáticamente? Como é esse processo?

A

Não. É necessário alguns cliques ou uma call de API. Caso seja feito, ele coloca o Cluster antigo em READ-ONLY e levanta e copia dos dados para o novo cluster. Quando acabar ele desliga o cluster antigo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Quais são os 4 exemplos de Anti-Patterns de Redshift do WP?

A

1) Small Dataset - Dataset menor que 100GB, um RDS provavelmente será o mais indicado
2) OLTP:
3) Unstructured
4) BLOB Data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

OpenSearch geralmente se conecta com o que da AWS?

A

KD Firehose, Lambda e CloudWatch

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Quais os 2 anti-Paterns no WP da AWS?

A

1) Higly formated Reports: QS is for ad-hoc query and analises
2) ETL: QS tem capacidade de ETL, mas se for para fazer alguns pesados, melhor fazer em outro lugar antes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

O que são os serviços EKS, ECS e Fargates?

A

São gerenciadores de container. Elastic Kubernet Services, Elastic Container Services, e AWS Fargates

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Quais os formatos de dados em que o Athena opera?

A

CSV, ORC, Parquet, Avro e JSON

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Qual o modelo de precificação do Athen? Quanto ele cobra por quantos TB?

A

$5 por TB de dado escaneado

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

No Athena você é cobrado mesmo quando a Quey da Fail. V ou F?

A

FALSO. Você é cobrado quando a Query é cancelada, mas não quando ela da Fail.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Quais métodos de segurança são usados no Athena?

A

ACLs, AWS IAM policies,S3 Bucket policy. Pode fazer query (Desde que tenha autorização) em dados criptografados por SSE-KMS, SSE-S3, SSE-C.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Queries usando o Athena fora da interface gráfica dele são suportados por CLI, API via SDK e JDBC. V ou F?

A

Verdadeiro

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Para conectar o Athena em dados fora do S3 como RDS, DynamoDB, CloudWatch Logs, qual serviço podemos usar?

A

Athena Federated Query - usa Lambda para criar conectores com outras fontes de dados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

O Que é Redshift WLM e para que ele serve?

A

Amazon Work Load Management possibilita priorizar queries para garantir que queries RÁPIDAS, não ficarão presas atrás de queries LONGAS.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

O que é o modulo dblink no PostgreSQL e para que ele serve?

A

Serve para acessar um outro banco de dados em um localização remota

19
Q

Existem 4 componentes no Kinesis Data Analytics, quais são?

A

Input Data, Output Data, Reference Tables e Error Stream

20
Q

Se um dado chegar atrasado no KD Analytics, o que acontece com ele?

A

É transferido para o Error Stream Bucket

21
Q

Quando o exame se referir a encontrar “outliers e anomalias no dado”, no contexto KD Analytics, ao que ele possivelmente está se referindo?

A

RANDOM_CUT_FOREST

22
Q

Para que serve o Opensearch Elasticsearch?

A

É um search engine para análise e reporting de Petabyte scale data com front-end em Kibana.
1) Full-text search
2) log Analises
3) App Monitoring
4) Security Analytics
5) Clickstream Analytics

23
Q

Qual os componentes das estrutura do Opensearch/Elasticsearch?

A

documents, types(sumindo) e indices

24
Q

Quais são os tipos de STORAGE para o cluster de Opensearch guardar os indeces?? Quais caracteristicas de cada um?

A

1) Hot: EBS
2) Ultra Warm: S3
3) Cold: Precisa ter Ultra Warm ativado, S3 , mais barato, usado para dados antigos que não são buscados com frequencia

25
Q

O que faz Index State management?

A

do Opensearch, automatiza politicas de indice como por exempo:
deletar indices velhos
mover para “read-only”
reduzir numero de réplicas etc…
as politicas do ISM rodam a cada 30-48min para evitar não rodar muita coisa de uma só vez

26
Q

Sobre Index Management, o que é Index Rollup?

A

Periodicamente resume os indices para poupar espaço

27
Q

Em Cross-Cluster replication como index management, o que é um Follower index?

A

Um indice que pega o dado do Leader index

28
Q

Como melhor prática do Opensearch, quantos Master Nodes devemos ter?

A

3 master nodes. 1, se cair fica fora. 2 Se eles entrarem em conflito um com o outro (Split Brain), para. 3 é o ideal

29
Q

Em Opensearch, caso um erro JVMMemoryPressure ocorra, o que provavelmente está acontecendo?

A

Temos muitos Shards provisionados e o gerenciamento deles está gargalando o sistema. Também é possivel deletar indices velhos para melhorar isso

30
Q

O que a função Time Travel no Athena ACID Transactions faz?

A

Permite fazer SELECT em um dado deletado

31
Q

O que fazer se suas ACID Transactions no Athena estão ficando lentas com o tempo?

A

Compactar periodicamente usando BIN_PACK

32
Q

Que compressões são suportadas pelo Redshift Spectrum?

A

GZIP e SNAPY

33
Q

Qual o periodo máximo de retenção de um Snapshot do Redshift?

A

35 dias

34
Q

Redshift realiza Backup para o S3 continuamente. V ou F?

A

VERDADEIRO

35
Q

Quando dados são inputados no Redshift, eles são distribuidos nas tabelas de acordo com um dos 4 Distribution Style possiveis. Quais são eles? Quais são suas particularidades?

A

1) AUTO: Redshift decide baseado no tamanho do dado
2) EVEN: Distribui entre slices um seguido do outro. Melhor se não houver um motivo pra dados ficarem juntos
3) KEY: Distribuido baseado em uma coluna. Melhor se as queries forem feitas por key
4) ALL: Tabela inteira é copiada para todos os nós

36
Q

Quais são os tipos de Sort Key no Redshift?

A

1) Single Sort Key: Apenas 1 coluna é usada como Sort Key. Ex: Date
2) Compound Sort Key(Default): É composta de multiplas colunas na ordem em que são dispostas. Util com condições de filtro.
3) Interleaved Sort Key:

37
Q

Que comandos são usados para Importar e Exportar dados para dentro/fora do Redshift?

A

COPY: S3 requires Manifest File and IAM Role
UNLOAD: Unload a table to S3
Enhanced VPC rounting: Manda os dados de dentro da sua VPC sem passar pela internet

38
Q

Querendo copiar dados de uma tabela dentro do Redshift para outra tabela também dentro do Redshift, qual comando uso?

A

INSERT INTO ou CREATE TABLE AS (criar uma view)
O COPY command é apenas para dados externos

39
Q

Dados enviados para o Redshift via COPY não usam compressão. V ou F?

A

FALSO. O Redshift avalia a melhor compressão e a usa

40
Q

Para que serve DBLINK?

A

Connecta Redshift a um PostgreSQL. Pode ser usado para copiar e sincronizar dados entre Redshift e PostgreSQL

41
Q

Quais os modes de Redshift WLM? Quais as diferenças entre eles?

A

Automatic: Cria até 8 filas. Filas podem ser ordenadas para receber atividades baseadas em Prioridade, User Groups, Query Groups e Query monitoring rules

Manual: Por default, 1 Queue com concurrency level 5. Superuser queue lv1. Configura até 8 filas com 50 Levels de concurrency

42
Q

O que é Short Query Acceleration (SQA) e quando usa-lo?

A

Uma forma de acelerar queries pequenas provisionando uma fila excllusive para rodar queries pequenas. Ideal quando o interesse é apenas em evitar atraso nas queries pequenas

43
Q

O que é o comando VACUUM e para que serve? E quais tipos dele?

A

Limpa tabela e recupera espaço de itens deletados.
VACUUM FULL, VACUUM DELETE ONLY, VACUUM SORT ONLY, VACUUM REINDEX