Analysis Flashcards
O que é o Kinesis Data Analytics?
Serviço que permite processar e analisar dados de streaming em tempo real com SQL padrão, podendo realizar consultas para agregar, filtrar e juntar dados em fluxo de tempo real.
Como funciona o Kinesis Data Analytics com Lambda?
Permite execução de código personalizado, flexibilidade de pós-processamento para agregações de linhas, conversão de diferentes formatos, transformação e enriquecimento de dados, encriptação.
Integração com outros serviços e destinos: S3, DynamoDB, Aurora, Redshift, SNS, SQS, CloudWatch.
Quais os casos de uso do Kinesis Data Analytics?
Streaming de ETL, criação de métricas contínuas, análise responsiva.
Exemplos de aplicações do Kinesis Data Analytics
Monitoramento e análise de logs, detecção de fraudes, análise de IoT, análise de dados de mídia social.
Resources Kinesis Analytics (ENGLISH)
- Pay only for resources consumed (but it’s not cheap)
- Charged by Kinesis Processing Units (KPU’s) consumed per hour
- 1 KPU = 1 vCPU + 4GB
- Serverless; scales automatically
- Use IAM permissions to access streaming source and
destination(s) - Schema discovery
O que é o RANDOM_CUT_FOREST no Kinesis Data Analytics
Algoritmo em SQL para detecção de anomalias nos dados em tempo real, como dados de sensores, logs de aplicativos, entre outros
What is Opensearch?
- A fork of Elasticsearch and
Kibana - A search engine * An analysis tool * A visualization tool (Dashboards = Kibana)
- A data pipeline * Kinesis replaces Beats & LogStash
- Horizontally scalable
O que é o OpenSearch
Mecanismo de busca rápido e escalável, versão do Lucene e distribuído horizontamente através de muitos nós em um cluster.
Aplicações do OpenSearch
- Pesquisa de texto completo
- Análise de log
- Monitoramento de aplicativos
- Análise de segurança
- Análise de fluxo de cliques
Opensearch applications
- Full-text search
- Log analytics
- Application monitoring
- Security analytics
- Clickstream analytic
OpenSearch conceitos de documentos
Documentos são as coisas que você procura, eles podem ser mais do que texto
– qualquer JSON de dados estruturados funcionam. Todo documento tem um
ID exclusivo e um tipo.
OpenSearch concepts of documents
Documents are the things you’re searching for. They can be more than text
– any structured JSON
data works. Every document has a unique ID, and a type.
OpenSearch conceito de índices.
Um índice permite pesquisar em todos documentos dentro de uma coleção de tipos. Eles contêm índices invertidos que permitem pesquisar tudo dentro deles ao mesmo tempo.
OpenSearch Index concepts
An index powers search into all documents within a collection of types. They contain inverted índices that let you search across everything within them at once.
An index is split into shards
Each shard may be on a different node in a cluster.Every shard is a self-contained Lucene index of its own.
Os documentos são hash para um fragmento específico
Cada shard pode estar em um nó diferente em um cluster.
Cada fragmento é um eu
-contido índice Lucene próprio.
Redundancy
This index has two primary shards and two replicas.
Your application should round-robin requests amongst nodes.
Amazon Opensearch Service
- Fully-managed (but not serverless) * Scale up or down without downtime * But this isn’t automatic * Pay for what you use * Instance-hours, storage, data transfer * Network isolation * AWS integration * S3 buckets (via Lambda to Kinesis) * Kinesis Data Streams * DynamoDB Streams * CloudWatch / CloudTrail * Zone awareness
Amazon Opensearch Service (Port)
- Totalmente gerenciado (mas não sem servidor)
- Ampliar ou reduzir sem tempo de inatividade
- Mas isso não é automático
- Pague pelo que usar
- Instância-hora, armazenamento, transferência de dados
- Isolamento de rede
- Integração AWS
- S3 buckets (via Lambda para Kinesis)
- Kinesis Data Streams
- DynamoDB Streams
- CloudWatch / CloudTrail
- Zone awareness
Amazon Opensearch options
- Dedicated master node(s)
- Choice of count and instance types
- “Domains”
- Snapshots to S3 * Zone Awarenes
Opções do Amazon Opensearch
- Nó(s) principal(is) dedicado(s)
- Escolha de contagem e tipos de instância
- “Domínios”
- Snapshots para S3
- Zone Awarenes
Cold / warm / ultrawarm / hot storage
- Standard data nodes use “hot” storage
- Instance stores or EBS volumes / fastest performance
UltraWarm (warm) storage uses S3 + caching
- Best for indices with few writes (like log data /
immutable data) - Slower performance but much lower cost
- Must have a dedicated master node
Cold storage
- Also uses S3
- Even cheaper
- For “periodic research or forensic analysis on older
data” - Must have dedicated master and have UltraWarm
enabled too. - Not compatible with T2 or T3 instance types on data
nodes - If using fine-grained access control, must map users to
cold_manager role in OpenSearch Dashboards