Analytics Flashcards by Guilherme D.

O que é AQUA e o que ele faz?

É um Cache que permite que Redshift rode até 10x mais rápido que seus concorrentes de Cloud Data Warehouse.

How well did you know this?

Not at all

Perfectly

Que feature do Redshift podemos usar para compartilhar tabelas em qualquer cluster do Redshift sem ter que copiar os dados?

Data Sharing

How well did you know this?

Not at all

Perfectly

Que 3 features o Redshift se vale para fornecer o maior I/O possível?

Columnar storage, Data Compression e Zone Mapping

How well did you know this?

Not at all

Perfectly

Por Default Redshift Clusters são configurado como Multi-AZ: V ou F?

FALSO. Para fazer multi AZ, é preciso criar um espelho do cluster e entao ativer auto replicação e failover

How well did you know this?

Not at all

Perfectly

Qual o mínimo de Storage que pode ser provisionado em um Cluster Redshift de 1 nó?

160GB

How well did you know this?

Not at all

Perfectly

Caso uma aplicação esteja exigindo o Redshift a mudar de tamalho (numero de nós e tipo de instancia), ele faz isso automáticamente? Como é esse processo?

Não. É necessário alguns cliques ou uma call de API. Caso seja feito, ele coloca o Cluster antigo em READ-ONLY e levanta e copia dos dados para o novo cluster. Quando acabar ele desliga o cluster antigo.

How well did you know this?

Not at all

Perfectly

Quais são os 4 exemplos de Anti-Patterns de Redshift do WP?

1) Small Dataset - Dataset menor que 100GB, um RDS provavelmente será o mais indicado
2) OLTP:
3) Unstructured
4) BLOB Data

How well did you know this?

Not at all

Perfectly

OpenSearch geralmente se conecta com o que da AWS?

KD Firehose, Lambda e CloudWatch

How well did you know this?

Not at all

Perfectly

Quais os 2 anti-Paterns no WP da AWS?

1) Higly formated Reports: QS is for ad-hoc query and analises
2) ETL: QS tem capacidade de ETL, mas se for para fazer alguns pesados, melhor fazer em outro lugar antes.

How well did you know this?

Not at all

Perfectly

O que são os serviços EKS, ECS e Fargates?

São gerenciadores de container. Elastic Kubernet Services, Elastic Container Services, e AWS Fargates

How well did you know this?

Not at all

Perfectly

Quais os formatos de dados em que o Athena opera?

CSV, ORC, Parquet, Avro e JSON

How well did you know this?

Not at all

Perfectly

Qual o modelo de precificação do Athen? Quanto ele cobra por quantos TB?

$5 por TB de dado escaneado

How well did you know this?

Not at all

Perfectly

No Athena você é cobrado mesmo quando a Quey da Fail. V ou F?

FALSO. Você é cobrado quando a Query é cancelada, mas não quando ela da Fail.

How well did you know this?

Not at all

Perfectly

Quais métodos de segurança são usados no Athena?

ACLs, AWS IAM policies,S3 Bucket policy. Pode fazer query (Desde que tenha autorização) em dados criptografados por SSE-KMS, SSE-S3, SSE-C.

How well did you know this?

Not at all

Perfectly

Queries usando o Athena fora da interface gráfica dele são suportados por CLI, API via SDK e JDBC. V ou F?

Verdadeiro

How well did you know this?

Not at all

Perfectly

Para conectar o Athena em dados fora do S3 como RDS, DynamoDB, CloudWatch Logs, qual serviço podemos usar?

Athena Federated Query - usa Lambda para criar conectores com outras fontes de dados

How well did you know this?

Not at all

Perfectly

O Que é Redshift WLM e para que ele serve?

Amazon Work Load Management possibilita priorizar queries para garantir que queries RÁPIDAS, não ficarão presas atrás de queries LONGAS.

How well did you know this?

Not at all

Perfectly

O que é o modulo dblink no PostgreSQL e para que ele serve?

Study These Flashcards

Serve para acessar um outro banco de dados em um localização remota

Existem 4 componentes no Kinesis Data Analytics, quais são?

Study These Flashcards

Input Data, Output Data, Reference Tables e Error Stream

Se um dado chegar atrasado no KD Analytics, o que acontece com ele?

Study These Flashcards

É transferido para o Error Stream Bucket

Quando o exame se referir a encontrar “outliers e anomalias no dado”, no contexto KD Analytics, ao que ele possivelmente está se referindo?

Study These Flashcards

RANDOM_CUT_FOREST

Para que serve o Opensearch Elasticsearch?

Study These Flashcards

É um search engine para análise e reporting de Petabyte scale data com front-end em Kibana.
1) Full-text search
2) log Analises
3) App Monitoring
4) Security Analytics
5) Clickstream Analytics

Qual os componentes das estrutura do Opensearch/Elasticsearch?

Study These Flashcards

documents, types(sumindo) e indices

Quais são os tipos de STORAGE para o cluster de Opensearch guardar os indeces?? Quais caracteristicas de cada um?

Study These Flashcards

1) Hot: EBS
2) Ultra Warm: S3
3) Cold: Precisa ter Ultra Warm ativado, S3 , mais barato, usado para dados antigos que não são buscados com frequencia

O que faz Index State management?

do Opensearch, automatiza politicas de indice como por exempo: deletar indices velhos mover para "read-only" reduzir numero de réplicas etc... as politicas do ISM rodam a cada 30-48min para evitar não rodar muita coisa de uma só vez

Sobre Index Management, o que é Index Rollup?

Periodicamente resume os indices para poupar espaço

Em Cross-Cluster replication como index management, o que é um Follower index?

Um indice que pega o dado do Leader index

Como melhor prática do Opensearch, quantos Master Nodes devemos ter?

3 master nodes. 1, se cair fica fora. 2 Se eles entrarem em conflito um com o outro (Split Brain), para. 3 é o ideal

Em Opensearch, caso um erro JVMMemoryPressure ocorra, o que provavelmente está acontecendo?

Temos muitos Shards provisionados e o gerenciamento deles está gargalando o sistema. Também é possivel deletar indices velhos para melhorar isso

O que a função Time Travel no Athena ACID Transactions faz?

Permite fazer SELECT em um dado deletado

O que fazer se suas ACID Transactions no Athena estão ficando lentas com o tempo?

Compactar periodicamente usando BIN_PACK

Que compressões são suportadas pelo Redshift Spectrum?

GZIP e SNAPY

Qual o periodo máximo de retenção de um Snapshot do Redshift?

35 dias

Redshift realiza Backup para o S3 continuamente. V ou F?

VERDADEIRO

Quando dados são inputados no Redshift, eles são distribuidos nas tabelas de acordo com um dos 4 Distribution Style possiveis. Quais são eles? Quais são suas particularidades?

1) AUTO: Redshift decide baseado no tamanho do dado 2) EVEN: Distribui entre slices um seguido do outro. Melhor se não houver um motivo pra dados ficarem juntos 3) KEY: Distribuido baseado em uma coluna. Melhor se as queries forem feitas por key 4) ALL: Tabela inteira é copiada para todos os nós

Quais são os tipos de Sort Key no Redshift?

1) Single Sort Key: Apenas 1 coluna é usada como Sort Key. Ex: Date 2) Compound Sort Key(Default): É composta de multiplas colunas na ordem em que são dispostas. Util com condições de filtro. 3) Interleaved Sort Key:

Que comandos são usados para Importar e Exportar dados para dentro/fora do Redshift?

COPY: S3 requires Manifest File and IAM Role UNLOAD: Unload a table to S3 Enhanced VPC rounting: Manda os dados de dentro da sua VPC sem passar pela internet

Querendo copiar dados de uma tabela dentro do Redshift para outra tabela também dentro do Redshift, qual comando uso?

INSERT INTO ou CREATE TABLE AS (criar uma view) O COPY command é apenas para dados externos

Dados enviados para o Redshift via COPY não usam compressão. V ou F?

FALSO. O Redshift avalia a melhor compressão e a usa

Para que serve DBLINK?

Connecta Redshift a um PostgreSQL. Pode ser usado para copiar e sincronizar dados entre Redshift e PostgreSQL

Quais os modes de Redshift WLM? Quais as diferenças entre eles?

Automatic: Cria até 8 filas. Filas podem ser ordenadas para receber atividades baseadas em Prioridade, User Groups, Query Groups e Query monitoring rules Manual: Por default, 1 Queue com concurrency level 5. Superuser queue lv1. Configura até 8 filas com 50 Levels de concurrency

O que é Short Query Acceleration (SQA) e quando usa-lo?

Uma forma de acelerar queries pequenas provisionando uma fila excllusive para rodar queries pequenas. Ideal quando o interesse é apenas em evitar atraso nas queries pequenas

O que é o comando VACUUM e para que serve? E quais tipos dele?

Limpa tabela e recupera espaço de itens deletados. VACUUM FULL, VACUUM DELETE ONLY, VACUUM SORT ONLY, VACUUM REINDEX

Analytics Flashcards

(43 cards)