Principios da Analise De Dados Flashcards
(46 cards)
Dados
Estruturados e semi estruturados
Dados semi estruturados
Xml
Json
Csv
Tipos de dados
Dados qualitativos (categoricos) - nominal e ordinal
Dados quantitativos (numericos)
Intervalar e razão
Discretizacao de dados
Atributos numericos - dividindo o domínio do atributo em intervalos para que que haja um número limitado de estados possíveis.
Naive Bayes não pode usar colunas contínuas como entrada e não pode
prever valores contínuos.
Transformar um problema contínuo infinito em discreto finito
Melhor relação sinal ruído
A organização de dados estruturados é totalmente aberta
Errado , dados estruturados mais rígidos, tabulares.
Dados não estruturados são aqueles que, desde a elaboração da estrutura, são pensados estritamente com uma finalidade
Errado
Dados estruturados e semiestruturados são tipo de big data, enquanto os dados não estruturados não se enquadram nos requisitos para Big data.
Errado.
Dados estruturados, semiestruturados e não estruturados podem todos fazer parte do conceito de Big Data. O Big Data se refere ao grande volume, variedade e velocidade de geração de dados, independentemente de estarem organizados (estruturados) ou não (não estruturados). Os dados semiestruturados, como arquivos JSON ou XML, e os não estruturados, como imagens, vídeos e textos, também fazem parte do Big Data, uma vez que o conceito engloba qualquer tipo de dado que seja volumoso e complexo, demandando tecnologias avançadas para processamento e análise.
dados de redes sociais são exemplos de dados não estruturados. certo ou errado
Certo.
Dados de redes sociais, como postagens de texto, imagens, vídeos, comentários e interações, são exemplos de dados não estruturados. Eles não seguem um formato rígido ou uma estrutura organizacional pré-definida, o que os caracteriza como não estruturados. Esses dados exigem técnicas avançadas de análise, como processamento de linguagem natural (NLP) e reconhecimento de imagem, para serem processados e extraídos insights.
bussines inteligence o que é?
Business Intelligence (BI) é o conjunto de processos, tecnologias, ferramentas e práticas voltadas para a coleta, análise, interpretação e apresentação de dados empresariais com o objetivo de auxiliar na tomada de decisões estratégicas. O BI transforma dados brutos em informações úteis, oferecendo insights sobre o desempenho da empresa, tendências de mercado, comportamento de clientes, eficiência operacional e outras áreas críticas.
As principais funções do BI incluem:
Coleta de dados: Agrega informações de várias fontes, como bancos de dados, planilhas, sistemas de ERP e dados externos.
Processamento e análise: Utiliza ferramentas e técnicas para organizar e analisar os dados, muitas vezes aplicando análises estatísticas e previsões.
Visualização: Cria relatórios, dashboards (painéis de controle) e gráficos interativos para facilitar a interpretação dos dados pelos tomadores de decisão.
Tomada de decisão: Com base nos insights gerados, a empresa pode otimizar operações, identificar novas oportunidades e ajustar estratégias.
Ferramentas populares de BI incluem Power BI, Tableau, QlikView e outras plataformas que permitem a criação de relatórios visuais e interativos.
ETL o que significa
Extract, transform, load
ETL significa Extract, Transform, Load (Extração, Transformação, Carga). É um processo usado em sistemas de Business Intelligence e Data Warehousing para mover dados de diversas fontes para um repositório central, como um banco de dados ou data warehouse, onde podem ser analisados e processados.
Extract (Extração): Consiste em coletar dados de diferentes fontes, que podem ser bancos de dados, sistemas legados, arquivos CSV, APIs ou outras fontes de dados. O objetivo é reunir todas as informações relevantes de maneira eficiente.
Transform (Transformação): Após a extração, os dados são convertidos para um formato adequado para análise. Isso pode incluir limpeza de dados, padronização, remoção de duplicatas, conversão de tipos de dados e até mesmo agregação e cálculos para tornar os dados mais consistentes e úteis.
Load (Carga): Após a transformação, os dados são carregados em um sistema de armazenamento, como um data warehouse ou data lake, onde ficam disponíveis para consultas, relatórios e análises.
O processo ETL é fundamental para a criação de pipelines de dados que alimentam sistemas de Business Intelligence e ajudam a transformar dados brutos em insights acionáveis.
Data warehouse?
Um Data Warehouse (Armazém de Dados) é um sistema de armazenamento de dados projetado para centralizar, organizar e consolidar grandes volumes de informações provenientes de diversas fontes. Ele é utilizado para análise, relatórios e suporte à tomada de decisões estratégicas dentro de uma organização.
Principais características de um Data Warehouse:
Integração de dados: Reúne dados de várias fontes, como sistemas transacionais, bancos de dados, planilhas e dados externos, permitindo que sejam analisados de forma unificada.
Orientado por assunto: Organiza os dados em torno de temas ou áreas específicas de interesse da empresa, como vendas, finanças ou marketing.
Histórico: Armazena grandes volumes de dados históricos, permitindo análises ao longo do tempo, detecção de tendências e previsões.
Imutabilidade: Os dados no Data Warehouse geralmente não são alterados após serem carregados, permitindo uma visão precisa e consistente do histórico de transações e operações.
Desempenho otimizado para consultas: Projetado para fornecer respostas rápidas a consultas complexas e relatórios analíticos, diferentemente dos sistemas transacionais, que são otimizados para lidar com muitas transações simultâneas.
Um Data Warehouse é geralmente usado em conjunto com ferramentas de Business Intelligence (BI) para facilitar a análise de dados e gerar relatórios estratégicos, fornecendo insights valiosos para a gestão e otimização dos negócios.
Quais são as operações principais do data warehouse?
As principais operações do Data Warehouse estão relacionadas ao processamento, organização e análise de grandes volumes de dados. Essas operações ajudam os usuários a extrair insights e realizar consultas analíticas de forma eficiente. Aqui estão as principais operações:
- Roll-up (Subir nível de agregação)
Descrição: A operação de roll-up agrega os dados a um nível mais alto de abstração, reduzindo o detalhamento. Por exemplo, ao invés de visualizar as vendas por dia, um roll-up pode agrupar as vendas por mês ou por ano.
Exemplo: Agregar as vendas diárias em totais mensais. - Drill-down (Descer nível de agregação)
Descrição: É o oposto de roll-up. Com drill-down, você detalha os dados, aumentando o nível de granularidade. Isso permite que o analista explore informações mais detalhadas, como passar de vendas anuais para vendas mensais ou diárias.
Exemplo: Desagregar as vendas mensais em vendas diárias ou até por hora. - Slice (Fatiar)
Descrição: A operação de slice envolve selecionar uma fatia específica dos dados com base em uma dimensão. Isso é útil para visualizar uma “fatia” específica do conjunto de dados multidimensional.
Exemplo: Analisar apenas as vendas de um único mês ou de uma região específica. - Dice (Cubo de dados)
Descrição: O dice é uma operação mais avançada que seleciona múltiplas fatias em várias dimensões. Ela permite criar subconjuntos de dados com base em múltiplos critérios.
Exemplo: Visualizar as vendas durante os meses de janeiro e fevereiro em todas as lojas de uma determinada região. - Pivot (Rotação de eixos)
Descrição: Também conhecida como rotate, a operação de pivot reorienta os dados para fornecer diferentes perspectivas. Basicamente, ela troca as dimensões que estão sendo analisadas, permitindo visualizar os dados de diferentes ângulos.
Exemplo: Trocar a visualização de vendas por produto para vendas por região. - Drill-across (Consulta cruzada)
Descrição: Envolve a consulta de dados em dois ou mais cubos de dados diferentes, permitindo análises entre diferentes áreas ou contextos.
Exemplo: Comparar as vendas com os custos operacionais de diferentes períodos. - Drill-through
Descrição: Permite aos usuários acessar dados de nível mais detalhado que estão armazenados em um banco de dados transacional ou operacional. É uma maneira de “perfurar” o Data Warehouse para obter mais detalhes.
Exemplo: Do nível de agregação de vendas mensais, detalhar até o nível de transações individuais de vendas.
Essas operações fornecem flexibilidade e profundidade na análise dos dados, permitindo que os usuários manipulem e extraiam insights valiosos do Data Warehouse em diferentes níveis de agregação e detalhamento.
Big data 5 V
Os 5 Vs do Big Data são os principais pilares que caracterizam os desafios e as oportunidades do uso de grandes volumes de dados. Eles ajudam a definir o que torna os dados do Big Data únicos em relação a outros tipos de dados. São eles:
Volume: Refere-se à quantidade massiva de dados gerados e armazenados, que pode vir de diversas fontes, como redes sociais, dispositivos IoT, sensores, transações comerciais, etc. O volume dos dados no Big Data é tão grande que as soluções tradicionais de armazenamento e processamento não são suficientes para lidar com eles de maneira eficiente.
Variedade: Refere-se à diversidade de tipos de dados que são gerados. Isso inclui dados estruturados (bancos de dados relacionais), semiestruturados (arquivos JSON ou XML) e não estruturados (imagens, vídeos, textos de redes sociais). Lidar com essa variedade exige ferramentas e técnicas capazes de integrar e processar diferentes formatos de dados.
Velocidade: Trata-se da rapidez com que os dados são gerados, transmitidos e processados. No Big Data, a velocidade com que os dados precisam ser capturados e analisados é crucial, especialmente para informações em tempo real, como dados de sensores, transações financeiras ou interações online.
Veracidade: Refere-se à confiabilidade e à qualidade dos dados. Como o Big Data envolve grandes volumes de dados de diversas fontes, pode haver inconsistências, dados incompletos ou incorretos. A veracidade está relacionada ao desafio de garantir a precisão e a relevância dos dados analisados.
Valor: O valor é o mais importante dos “Vs”. Ele trata da capacidade de extrair insights e informações úteis a partir dos dados. De nada adianta coletar grandes volumes de dados se eles não proporcionarem valor para a empresa ou não ajudarem na tomada de decisões estratégicas.
Esses cinco Vs são os fundamentos para trabalhar com Big Data, representando os principais desafios e benefícios do uso de grandes volumes de dados em diversos setores.
Data warehouse
Pivot
Rotação -
Visão produto
Visão vendas
Visão período
Deferentes visualizações dos dados
Mudança de hierarquia
Troca de dimensões
Linha e colunas invertidas
Data warehouse
Slice
RJ (local fixado)
Vendas produtos
Qualquer período
Uma dimensão selecionada / fixada
Recupera valores das outras dimensões
Geralmente bidimensional
Fatia
Data warehouse
Dice - d de “duas”
RJ (local fixado)
Água de Coco (fixado)
Carnaval ( fixado)
Duas ou mais dimensões fixadas
Recupera valores das outras dimensões
Geralmente tridimensional subcubo
Do cubo
Redução do escopo dos dados em análise
Data warehouse
Drill Down
Ano
Mês
Dia
Aumenta o nível de detalhe
Diminui o nível de granularidade
Menos agregado
Data warehouse
Roll up
Drill up
Dia
Mês
Ano
Diminui o nível de detalhe
Aumenta o nível de granularidade
Mais agregado/ sumarizado
Data warehouse
Drill Across
Ano
Dia
Pula nível dentro de uma dimensão
Relaciona mais de uma tabela fato usando dimensões compartilhadas
Data warehouse
Drill through
Água de cocô
Carnaval
Dados de outra estrutura
Inexistente hierarquia entre dimensões
Além da granularidade existente
T de two - migração entre duas dimensões ou mais dimensões
diferença do data lake pro data warehouse?
A principal diferença entre Data Lake e Data Warehouse está na maneira como os dados são armazenados, processados e utilizados. Ambos são usados para armazenar grandes volumes de dados, mas têm propósitos, estruturas e características distintas:
- Estrutura dos Dados:
Data Warehouse: Armazena dados estruturados e pré-processados. Antes de os dados serem carregados no Data Warehouse, eles passam por um processo de ETL (Extração, Transformação e Carga) para serem organizados de acordo com esquemas ou tabelas bem definidos. É ideal para análises de dados estruturados e relatórios empresariais.
Data Lake: Armazena dados em seu formato bruto, ou seja, não estruturados, semiestruturados e estruturados. Não há necessidade de transformar os dados antes de armazená-los. Eles são armazenados como estão e podem ser processados e analisados posteriormente. Exemplos incluem vídeos, imagens, logs de eventos e dados de sensores. - Finalidade:
Data Warehouse: Destina-se a fornecer insights de negócios e relatórios. É otimizado para análise e consulta de dados pré-processados, sendo amplamente utilizado em ambientes de Business Intelligence (BI).
Data Lake: É mais flexível, podendo armazenar dados para diversas finalidades, desde análises de dados até machine learning, passando por processamento de grandes volumes de dados em diferentes formatos.
diferença entre banco de dados relacional e nosql
A principal diferença entre um banco de dados relacional e um banco de dados NoSQL está no modo como os dados são estruturados, armazenados e acessados. Eles são usados para diferentes tipos de aplicações e necessidades de armazenamento de dados. Aqui estão as diferenças mais importantes:
- Modelo de Dados:
Banco de Dados Relacional: Utiliza um modelo tabular baseado em tabelas com linhas e colunas. Os dados são organizados em tabelas relacionadas entre si por meio de chaves primárias e chaves estrangeiras. O formato é altamente estruturado, e os dados seguem um esquema rígido, com regras de integridade.
Banco de Dados NoSQL: Não usa tabelas, e os dados podem ser armazenados de várias maneiras, dependendo do tipo de NoSQL. Os formatos comuns incluem:
Documentos (JSON, BSON)
Chave-valor
Colunas largas
Grafos O NoSQL é mais flexível, permitindo dados sem um esquema fixo. - Esquema (Schema):
Banco de Dados Relacional: Tem um esquema rígido, o que significa que a estrutura dos dados deve ser definida antecipadamente. Cada tabela tem um conjunto fixo de colunas, e o tipo de dados de cada coluna é definido previamente.
Banco de Dados NoSQL: Geralmente segue o princípio de esquema flexível ou esquema dinâmico. Isso permite que os dados sejam armazenados sem uma estrutura predefinida, ou seja, você pode adicionar ou remover atributos facilmente sem precisar alterar toda a estrutura do banco. - Consultas e Linguagem de Consulta:
Banco de Dados Relacional: Utiliza SQL (Structured Query Language) para realizar consultas e manipulações de dados. SQL é uma linguagem padrão para bancos de dados relacionais, com uma sintaxe clara e poderosa para realizar consultas complexas.
Banco de Dados NoSQL: Não utiliza SQL como padrão (apesar de algumas soluções NoSQL possuírem implementações SQL-like). Cada tipo de banco NoSQL tem sua própria forma de realizar consultas, que geralmente são específicas para seu modelo de dados. Exemplo: No MongoDB, as consultas são feitas usando comandos em JSON. - Escalabilidade:
Banco de Dados Relacional: Geralmente oferece escalabilidade vertical, o que significa que, para melhorar o desempenho, é necessário aumentar a capacidade do servidor (mais CPU, mais memória, etc.). Bancos de dados relacionais podem ser mais desafiadores para escalar horizontalmente (distribuir entre vários servidores).
Banco de Dados NoSQL: Oferece escalabilidade horizontal nativa, permitindo que os dados sejam facilmente distribuídos entre vários servidores ou nós. Isso é útil para lidar com grandes volumes de dados e altas taxas de acesso em sistemas distribuídos. - Transações e Consistência:
Banco de Dados Relacional: Segue o modelo ACID (Atomicidade, Consistência, Isolamento e Durabilidade), que garante transações seguras, consistentes e com integridade. É ideal para aplicações que exigem operações transacionais seguras (como bancos ou sistemas financeiros).
Banco de Dados NoSQL: Geralmente segue o modelo BASE (Basicamente Disponível, Estado Flexível e Eventual Consistência), o que significa que os dados podem não estar imediatamente consistentes em todos os nós, mas eventualmente ficarão. Isso permite maior flexibilidade e desempenho, especialmente em sistemas distribuídos. - Casos de Uso:
Banco de Dados Relacional: Adequado para aplicações que exigem estrutura e integridade de dados rígidas, como sistemas financeiros, ERP, CRM, ou qualquer aplicação que dependa fortemente de relações entre dados e transações complexas.
Banco de Dados NoSQL: Ideal para aplicações que precisam lidar com grandes volumes de dados não estruturados ou semiestruturados, como redes sociais, big data, sistemas de recomendação, e aplicações que precisam de alta escalabilidade e flexibilidade de armazenamento. - Exemplos:
Bancos de Dados Relacionais: MySQL, PostgreSQL, Oracle, Microsoft SQL Server.
Bancos de Dados NoSQL: MongoDB (baseado em documentos), Cassandra (baseado em colunas), Redis (chave-valor), Neo4j (baseado em grafos).
Nosql teorema CAP, explique?
O teorema CAP é um princípio fundamental na computação distribuída, proposto por Eric Brewer no início dos anos 2000. Ele descreve as limitações e trocas necessárias para sistemas distribuídos, especialmente no contexto de bancos de dados NoSQL. O teorema CAP afirma que, em um sistema distribuído, é impossível garantir simultaneamente as três seguintes propriedades:
Consistência (Consistency): Todos os nós de um sistema distribuído veem os mesmos dados ao mesmo tempo. Se um dado é atualizado em um nó, essa atualização deve ser imediatamente visível em todos os outros nós.
Disponibilidade (Availability): O sistema garante que toda solicitação de leitura ou gravação receberá uma resposta, mesmo que seja a mais recente ou não. Ou seja, o sistema sempre está disponível para processar uma solicitação.
Tolerância a Partições (Partition Tolerance): O sistema continua funcionando, mesmo que ocorram falhas de rede ou que alguns nós não possam se comunicar com outros. Em outras palavras, o sistema pode lidar com “partições” na rede que o separam temporariamente.
O Dilema do CAP
De acordo com o teorema CAP, um sistema distribuído só pode fornecer dois dos três aspectos ao mesmo tempo. Isso significa que, quando ocorre uma falha de rede (partição), o sistema deve fazer uma escolha entre:
Consistência e Disponibilidade:
Se o sistema priorizar consistência, ele pode rejeitar algumas solicitações para garantir que todos os nós tenham os mesmos dados.
Se o sistema priorizar disponibilidade, ele pode permitir respostas, mas com dados que podem não ser os mais recentes.
NoSQL e CAP
Muitos bancos de dados NoSQL fazem diferentes escolhas baseadas no teorema CAP:
Cassandra: privilegia Disponibilidade e Tolerância a Partições (AP), relaxando a consistência.
MongoDB: tende a ser configurável, permitindo diferentes combinações de Consistência e Disponibilidade, dependendo do cenário.
HBase: prioriza Consistência e Tolerância a Partições (CP), potencialmente sacrificando a disponibilidade em caso de falha de rede.
Em resumo, o teorema CAP ajuda a entender as limitações e compensações em sistemas distribuídos e por que é necessário priorizar certos aspectos em detrimento de outros, especialmente quando se trata de bancos de dados NoSQL.
Bancos relacionais
ACID
● Consistência / integridade referencial
● SQL
● Normalização
● Ferramentas
● Know How
● Atende à maioria dos problemas
● escalabilidade vertical
● fácil de gerencial
● backups facilitados