DADOS Flashcards
Etapas da fluência em dados
- Ler: entender o que são os dados e quais aspectos do mundo eles representam;
- Trabalhar: criar, adquirir, limpar e gerenciar (o ciclo de vida dos) dados;
- Analisar: filtrar, classificar, agregar, comparar, fazer previsões e desempenhar outras
atividades analíticas com dados; - Argumentar: utilizar dados para apoiar uma narrativa com intuito de comunicar alguma mensagem a um público específico.
O processo de implantação da Data Literacy
- Identificar o nível de Data Literacy dos colaboradores.
- Deixar os dados disponíveis aos profissionais.
- Estimular e capacitar as pessoas
A governança de dados
controlar os dados, composta de:
* Armazenamento;
* Armazenamento analítico;
* Análise de dados;
* Visualização.
O armazenamento analítico de dados
é feito para dados que já passaram por alguma análise. São exemplos de sistemas para armazenamento analítico o Data Warehouse, o Data Mart e o HDFS.
A análise de dados Explícita:
- feita em dados de existência já conhecida;
A análise de dados Implícita:
- feita de dados que surgem no processo;
A análise de dados Exploratória:
- para conhecer dados;
A análise de dados Preditiva:
- para fazer previsões;
A análise de dados Prescritiva:
- para prescrever o melhor caminho
Pirâmide de Conhecimento
explica o caminho da produção de conhecimento a partir dos
dados.
Ciclo de Vida dos dados
Produção: Armazenamento:
Transformação: Análise de dados: Descarte:
A gestão de dados, por sua vez, é composta das seguintes etapas:
planejar; coletar; assegurar ; descrever ; preservar.
Tendências: da gestão de dados.
- Automação via software; Blackchain;
- Data lake; Machine Learning; Ética;
- Democratização; Dashboards;
- Nuvens distribuídas
Dashboards:
são painéis que permitem a visualização dos dados de modo a melhorar a experiência do usuário.
Uma organização que
lida com um grande volume de dados estruturados e não estruturados objetiva organizar esses dados para encontrar insights necessários para o negócio usando técnica, investindo na área de
Data Science;
O conhecimento é obtido a partir de um conjunto de informações inseridas em um mesmo e específico contexto.
F. Para obter conhecimento a partir de informações, é necessário que elas se refiram a contextos variados
O conhecimento serve para dar suporte ao processamento decisório; ele representa a informação
tratada, confiável e íntegra.
Normalização linear, também conhecida como normalização max- min, consiste em estabelecer uma nova base numérica de referência, obtida a partir do valor de máximo e mínimo global do conjunto utilizado, para cada dado de um conjunto de dados.
V
Os dados caracterizados como categorias sem ordem, como, por exemplo,
cachorro, cenoura, cebola, casa, também chamados de fatores, são categorias discretas e únicas sem ordem inerente.
Os boxplots podem ser usados para realizar análise de um estudo da
associação entre uma variável quantitativa e uma qualitativa.
As variáveis quantitativas discretas
são aquelas que assumem valores no conjunto dos números naturais, como o número de municípios brasileiros que recebem atualmente a programação de TV em sinal analógico, por exemplo. são representadas por números inteiros não negativos.
Dados estruturados são aqueles representados em um formato
estrito como, por exemplo, a informação armazenada nos bancos de dados.
A finalidade de um banco de dados é
armazenar os dados de forma segura, como, por exemplo, sobre determinados itens de interesse de uma organização.
Os dados armazenados em banco de dados podem ser:
ESTRUTURADOS, NÃO ESTRUTURADOS E SEMIESTRUTURADOS.