Principios da Analise De Dados Flashcards

Question

NoSQL

Answer 1

BigData ● dados distribuídos ● escalabilidade horizontal ● sharding por default ● diferentes formatos ● schema free ● ausência de SQL ● ACID vs escalabilidade ● iOT ● velocidade de acesso ● full text search ● cluster de dados ● integridade nem sempre será possível ● baixo know how

Answer 2

Key value Graph DB Column family Document

Answer 3

uso de esquemas flexíveis

Answer 4

A análise descritiva tem o objetivo de entender o que aconteceu no passado ou está acontecendo no presente. Ela se concentra em sumarizar os dados históricos ou atuais para obter uma visão clara dos padrões e tendências. Normalmente, as técnicas usadas incluem estatísticas básicas, visualizações de dados (gráficos, tabelas) e indicadores de desempenho. Pergunta chave: O que aconteceu? Ferramentas e técnicas: Tabelas e gráficos (barras, linhas, pizza) Indicadores de performance (KPIs) Média, mediana, moda, variância Sumário de dados Exemplo: Um relatório de vendas mensais que mostra o volume de vendas em diferentes regiões ou segmentos de clientes.

Answer 5

A análise preditiva utiliza técnicas estatísticas, machine learning e modelagem para prever eventos ou comportamentos futuros com base em dados históricos. Essa análise tenta identificar padrões que possam indicar como o futuro pode se comportar. Ela é amplamente usada para prever tendências, comportamentos de clientes ou resultados em mercados específicos. Pergunta chave: O que provavelmente vai acontecer? Ferramentas e técnicas: Regressão linear e logística Algoritmos de machine learning (árvores de decisão, redes neurais) Séries temporais Modelos de classificação e predição Exemplo: Um modelo que prevê as vendas futuras com base em dados de vendas anteriores, sazonalidade e outras variáveis, ou prever a probabilidade de um cliente deixar um serviço (churn).

Answer 6

A análise preditiva utiliza técnicas estatísticas, machine learning e modelagem para prever eventos ou comportamentos futuros com base em dados históricos. Essa análise tenta identificar padrões que possam indicar como o futuro pode se comportar. Ela é amplamente usada para prever tendências, comportamentos de clientes ou resultados em mercados específicos. Pergunta chave: O que provavelmente vai acontecer? Ferramentas e técnicas: Regressão linear e logística Algoritmos de machine learning (árvores de decisão, redes neurais) Séries temporais Modelos de classificação e predição Exemplo: Um modelo que prevê as vendas futuras com base em dados de vendas anteriores, sazonalidade e outras variáveis, ou prever a probabilidade de um cliente deixar um serviço (churn).

Answer 7

A análise prescritiva vai além da previsão e sugere ações ou decisões ótimas com base nos dados. Ela não apenas prevê o que vai acontecer, mas também fornece recomendações sobre o que deve ser feito para alcançar o melhor resultado possível. Essa análise geralmente requer a combinação de simulações, otimização e técnicas de machine learning. Pergunta chave: O que deve ser feito? Ferramentas e técnicas: Simulações (Monte Carlo, análise de cenários) Otimização matemática Modelagem de decisão Algoritmos de aprendizado de reforço Exemplo: Um sistema de recomendação que sugere o melhor conjunto de ações para maximizar os lucros, como definir preços dinâmicos ou otimizar a alocação de recursos em uma cadeia de suprimentos.

Answer 8

Análise Descritiva: Foca no passado e presente, responde "O que aconteceu?". Análise Preditiva: Tenta prever o futuro, responde "O que provavelmente vai acontecer?". Análise Prescritiva: Sugere ações futuras, responde "O que deve ser feito?".

Answer 9

Análise Descritiva: Foca no passado e presente, responde "O que aconteceu?". Análise Preditiva: Tenta prever o futuro, responde "O que provavelmente vai acontecer?". Análise Prescritiva: Sugere ações futuras, responde "O que deve ser feito?".

Answer 10

resumir as características de um dataset usando meios visuais ● responsabilidade do profissional que faz a análise / intransferível ● Técnicas: histograma, pareto, PCA, dispersão

Answer 11

transformar os dados em informações que possam ser consumidas por um público

Answer 12

Determinar os objetivos Conhecer a situação Produzir um plano de Projeto

Answer 13

Coletar os dados iniciais Descrever os dados Explorar os dados Verificar a qualidade dos dados

Answer 14

Selecionar os dados Limpar os dados Construir os dados Integrar os dados Formatar os dados Descrição da base

Answer 15

Seleção de técnicas Projeto de testes Construção do modelo Ajuste do modelo

Answer 16

Avaliação dos resultados Revisao do processo Determinar os próximos passos

Answer 17

Planejar a entrega Planejar o monitoramento e a manutenção Produzir um relatório final Lições aprendidas

Answer 18

Avaliação

Answer 19

Data Cleansing (ou limpeza de dados) é o processo de identificar e corrigir dados incorretos, incompletos, duplicados ou inconsistentes em um conjunto de dados. O objetivo principal da limpeza de dados é melhorar a qualidade e confiabilidade dos dados, assegurando que as análises e decisões baseadas neles sejam precisas e válidas. Principais etapas do Data Cleansing: Identificação de dados ausentes: Verificar se há valores faltantes (missing values) nos dados e tomar decisões para preenchê-los, removê-los ou imputá-los (usando a média, mediana ou algoritmos específicos). Remoção de duplicatas: Identificar e remover registros duplicados, que podem distorcer os resultados da análise ou criar redundância. Correção de erros: Encontrar e corrigir erros de digitação, formatação inadequada ou entradas incorretas, como dados numéricos fora de um intervalo esperado ou texto mal formatado. Tratar inconsistências: Corrigir inconsistências nos dados, como variações no formato de campos (datas em diferentes formatos, abreviações de categorias, etc.). Normalização: Padronizar os dados, garantindo que todas as entradas estejam em um formato consistente, como unidades de medida, valores numéricos ou categóricos. Remoção de outliers (valores extremos): Identificar valores que estejam muito fora do padrão esperado e decidir se devem ser removidos ou tratados, dependendo do contexto da análise. Validação dos dados: Verificar a integridade e consistência dos dados após a limpeza, certificando-se de que os ajustes realizados não comprometeram a veracidade ou a estrutura original. Importância do Data Cleansing: Melhora a precisão das análises e previsões, evitando distorções causadas por dados incorretos. Reduz o custo e o tempo de processamento, já que dados limpos resultam em processos mais eficientes. Aumenta a confiabilidade das decisões baseadas em dados. Evita problemas em fases posteriores de um projeto de análise de dados, como a modelagem e a implementação de soluções baseadas em dados.

Answer 20

Data Quality (ou Qualidade dos Dados) refere-se à medida em que os dados são precisos, completos, confiáveis, e consistentes em seu uso para suportar processos de negócios e análises. Dados de alta qualidade são essenciais para garantir que as decisões e os insights derivados deles sejam corretos e confiáveis. Principais Dimensões da Qualidade dos Dados: Precisão (Accuracy): Os dados representam corretamente a realidade que pretendem descrever. Erros de digitação ou discrepâncias podem prejudicar a precisão. Exemplo: Um número de telefone de um cliente registrado de forma incorreta seria um dado impreciso. Completude (Completeness): Refere-se à presença de todos os dados esperados ou necessários. Dados incompletos podem levar a análises imprecisas ou decisões inadequadas. Exemplo: Um registro de cliente sem o campo de endereço preenchido. Consistência (Consistency): Os dados devem ser uniformes em diferentes sistemas ou bases de dados. Informações contraditórias sobre o mesmo objeto em sistemas diferentes indicam falta de consistência. Exemplo: Se um banco de dados mostra uma data de nascimento diferente para o mesmo cliente em dois sistemas distintos, há inconsistência. Atualidade (Timeliness): Refere-se à atualização dos dados de acordo com a frequência necessária. Dados desatualizados podem gerar decisões erradas, especialmente em cenários dinâmicos. Exemplo: Dados de estoque que não foram atualizados recentemente podem levar a problemas de reabastecimento. Relevância (Relevance): Os dados devem ser pertinentes para o propósito específico. Dados irrelevantes ou fora do contexto podem poluir as análises ou relatórios. Exemplo: Coletar dados demográficos detalhados para uma análise que não exige essas informações. Validade (Validity): Refere-se à conformidade dos dados com as regras e formatos predefinidos. Os valores devem estar dentro de intervalos permitidos ou obedecer a padrões estabelecidos. Exemplo: Um campo de e-mail que aceita entradas inválidas, como "abcd.com", viola a validade. Acessibilidade (Accessibility): Os dados de qualidade precisam estar prontamente disponíveis para quem precisa utilizá-los. Dificuldades de acesso ou dados armazenados de maneira que não possam ser facilmente consultados podem impactar negativamente a análise. Exemplo: Informações de clientes não estarem disponíveis para a equipe de suporte devido a restrições desnecessárias.

Answer 21

Decisões informadas: Dados de alta qualidade fornecem uma base sólida para tomadas de decisão estratégicas e operacionais. Eficiência operacional: Reduz retrabalho, correção de erros e atrasos, já que os dados estão corretos desde o início. Confiabilidade: Garante que os insights derivados dos dados sejam confiáveis, aumentando a confiança de stakeholders e clientes. Redução de custos: Minimiza os custos associados à má qualidade dos dados, como falhas em projetos, perda de clientes e problemas legais.

Answer 22

Data Cleansing: Regularmente limpar e corrigir os dados, identificando e corrigindo erros. Governança de Dados: Estabelecer políticas, processos e responsáveis pela gestão de dados para garantir a consistência e a conformidade. Monitoramento Contínuo: Implementar ferramentas de monitoramento para rastrear a qualidade dos dados e identificar problemas em tempo real. Treinamento e Educação: Capacitar os funcionários para inserir e manipular dados corretamente, evitando erros e inconsistências. Dados de alta qualidade são fundamentais para garantir que análises, previsões e decisões estratégicas sejam eficazes, confiáveis e úteis.

Principios da Analise De Dados Flashcards

(46 cards)