2. Big Data E Data Warehouse Flashcards

(39 cards)

1
Q

Big data não se refere apenas aos dados, mas também às soluções tecnológicas criadas para lidar com dados em volume, variedade e velocidade significativos.

Certo ou errado?

A

Certo.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Entre dados estruturados, semi-estruturados e não estruturados, quais normalmente ocupam menos espaço de armazenamento?

A

Estruturados - pois dado estruturado em padrão, em tabela, é a menor parte da big data

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Arquivos de áudio, fotos e PDFs são que tipos de dados?

A

Não estruturados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

É possível converter dados não estruturados para estruturados?

A

Sim, embora alguns dados possam não aceitar a conversão.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Data warehouse é considerado um banco de dados convencional?
Armazena dados estruturados, semiestruturados e até não estruturados? Tem preferência por algum tipo de dado?

A

Sim, é considerado um banco de dados convencional

E sim, armazena dados estruturados, semiestruturados e não estruturados.
Mas preferencialmente armazena dados estruturados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Num data warehouse, os esquemas de armazenamento de dados são definidos antes, durante ou depois da coleta e armazenamento de dados?

A

Antes.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Num data warehouse, o que vem antes: o armazenamento de dados ou o tratamento de dados?

A

O tratamento.
Os dados são antes tratados para então serem armazenados.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Qual é mais barato, um data warehouse ou um data lake?

A

Data lake, pois o data warehouse trata os dados antes de armazená-los, e isso é mais caro.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

O que faz o processo de data cleansing num data warehouse?

A

É o processo que detecta, valida e corrige erros dos dados. É aplicado normalmente a dados corrompidos ou desnecessários.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

O que é o data mart? Quais as vantagens?

A

São subdivisões da data warehouse. Armazenam dados específicos de cada setor (da empresa, por exemplo)

Dentre as vantagens: os dados ficam mais direcionados, auxiliando em tomadas de decisão (melhores e mais rápidas)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

O que é OLAP?

A

OnLine Analytical Processing

É o processo analítico em tempo real.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Quem normalmente é o usuário final do data warehouse? E do data lake?

A

Data warehouse = usuário operacional

Data lake = cientista de dados

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Quais são os 5 V da big data?

A
  • volume
  • velocidade
  • veracidade
  • valor
  • variabilidade (ou complexidade)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Big data não se refere somente aos dados tecnologias atuais, mas os dados que ainda virão?

A

Sim.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Qual premissa da big data se relaciona com o combate à fake news?
A única preocupação é fake news?

A

Veracidade.
Não, a veracidade também atua no combate a dados desatualizados ou incompletos.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Business intelligence preferencialmente trabalha com data warehouse ou data lakes?

A

Data warehouse.

17
Q

Flashcard para visualizar o print do esquema de business intelligence no álbum de fotos

A

Colocar 3 no feedback

18
Q

Em qual etapa do ciclo de business intelligence se dá o ETL?

A

O extract, transform and load se dá na etapa (2) de PROCESSAMENTO dos dados, antes de ir para o data warehouse.

19
Q

A análise OLAP e o uso de ferramentas de data mining ocorrem em que etapa do ciclo de business intelligence?

A

Na última (de análise!)

20
Q

Ferramentas de análise de dados busca novos dados? Aceita novos dados?

A

Não busca dados, ela simplesmente trabalha com os dados já existentes. Mas ela aceita novos dados, ela só não vai atrás deles, focando-se em trabalhar com o que elas já têm e com o que é entregue a elas.

21
Q

Qual a diferença entre análise:
-descritiva,
-diagnóstica,
-preditiva e
-prescritiva?

A

Descritiva = o que aconteceu
Diagnóstica = por que aconteceu
Preditiva = o que pode acontecer
Prescritiva = o que fazer

22
Q

Entre as análises descritiva, prescritiva, preditiva e diagnóstica, qual tem o maior valor e a maior complexidade?

A

A prescritiva.

23
Q

Entre as análises descritiva, diagnóstica, prescritiva e preditiva, qual delas possui mais e qual possui menos interferência humana?

A

Descritiva = maior interferência humana

Prescritiva = menos interferência humana

24
Q

Para que servem as arquiteturas kappa e lambda?

A

Para realizar processamento de grandes volumes de dados

25
A arquitetura lambda vem para solucionar qual problema? Como faz isso?
O problema da latência de processos com dados em tempo real e que exigem MapReduce Faz isso dividindo os dados em duas camadas: Camada quente = dados em tempo real Camada fria = dados que já estão lá.
26
O que a arquitetura kappa faz de diferente da lambda? Ela é mais simples ou mais complexa?
A kappa unifica o processamento em tempo real e em lotes em uma única camada. Portanto, é mais simples.
27
Quais são os três componentes essenciais de uma arquitetura em batch (Hadoop)?
Armazenamento (HDFS), agendador (YARN) e processamento (MapReduce)
28
O HDFS opera no conceito de WORM. O que isso significa?
WO - white once, RM - read many Arquivo é gravado uma vez, mas pode ser lido várias vezes.
29
Arquivos armazenados no HDFS podem ser alterados ou excluídos depois que são gravados?
Não. Pelo WORM, é write once = gravou, não altera mais.
30
Qual projeto de Hadoop é uma camada de data warehouse? Que linguagem utiliza?
Hive. Usa a HQL (Hive SQL ou Hive Query language), similar a SQL.
31
Quais são as quatro habilidades de um BI?
Mnemônico: MICA 1. Memória organizacional 2. Integração de informações 3. Criação de conhecimento (insight) 4. Apresentação
32
Data warehouse é orientado por assunto, a produto ou a departamento?
Por assunto
33
Data warehouse é focado em aspectos operacionais?
Não. Ele tem dados extraídos de sites de natureza operacional Mas é focado em aspectos estratégicos e táticos
34
No âmbito dos data warehouses, que estrutura representa um armazenamento intermediário que facilita a integração de dados de ambiente operativo antes de sua atualização no data warehouse?
ODS (Operational data store)
35
Quais são as cinco etapas do processo ETL?
Mnemônico: ETL na verdade é um SETIL 1. Seleção 2. Extração 3. Transformação 4. Integração (uniformização) 5. Load (carga)
36
Quais são os componentes principais de um processo de data warehousing?
1. Fontes de dados 2. Extração de dados (ETL) 3. Metadados 4. Ferramentas de middleware
37
Qual a diferença entre a abordagem de Inmon e Kimball sobre a construção de um data warehouse?
Inmon = construir o DW e depois dividi-lo em data marts (top-down, mãos caro, orientado a dados pois garante metadados padronizados) Kimball = construir vários data marts e depois imtegra-los ao data warehouse (bottom-up, orientado a negócios, mais barato mas nãogarante padronização de metadados)
38
Qual a diferença entre a utilidade de bancos de dados relacionais para banco de dados multidimensionais? Quais deles respondem a consultas em um Data Warehouse?
Relacionais = mais úteis para representar transações Multidimensionais = mais úteis para extrair dos dados as informações de BI = SÃO ESTES QUE RESPONDEM ÀS CONSULTAS EM UM DATA WAREHOUSE
39
Quais são as quatro características de um data warehouse?
Um data warehouse é uma NIVOA 1. Não-volátil 2. Integrado 3. Variante no tempo 4. Orientado por assuntos