Big Data - Apol 1 Flashcards

(16 cards)

1
Q

Uma das tecnologias amplamente utilizadas em soluções Big Data são os bancos de dados NoSQL. Tais bancos foram projetados para serem escaláveis e flexíveis. Além disso os bancos NoSQL podem ser classificados de acordo com a sua estrutura de dados.

A respeito de bancos NoSQL avalie as seguintes afirmações:

I – O conceito de documento aplicado nos bancos de dados orientados a documentos permite utilizar objetos de programação para armazenar dados.

II – Nos bancos de dados orientados a chave-valor cada item armazenado possui uma chave e um valor que pode ser de qualquer tipo.

III – Os bancos de dados orientados a grafos utilizam dois conceitos centrais da teoria dos grafos: os vértices e as arestas, onde os vértices representam registros que armazenam os dados e as arestas representam a relação entre tais dados.

IV – Os bancos de dados orientados a documentos são uma extensão dos bancos de dados orientados a chave-valor

V – Famílias de colunas são um tipo específico de coluna utilizado em bancos de dados orientados a colunas

Dentre essas afirmações estão INCORRETAS:

A

A- I e V

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

O Oozie é o componente do Hadoop que realiza a orquestração de trabalhos. Avalie as seguintes afirmações sobre o Oozie:

I – O Ozzie utiliza de grafos cíclicos direcionados para implementar o encadeamento de tarefas de modo que tarefas que não possuem relação de dependência podem executar paralelamente.

II – Os fluxos de trabalho são especificados em notação YAML.

III – O Oozie permite a que sejam definidos coordenadores onde se pode configurar controles de execução, horário de início e frequência.

IV – O Oozie pode ser executado apenas através de gerenciadores de específicos em algumas interfaces.

V – Os fluxos de trabalho representam grafos acíclicos direcionados de tarefas capazes de executar de forma encadeada e automática.

Dentre essas afirmações estão INCORRETAS

A

A- I, II e IV

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Avalie as seguintes afirmações sobre as operações de leitura e escrita no HDFS:

I – Durante a operação de leitura no HDFS, o Name Node informa ao cliente quais são os Data Nodes mais eficientes que possuem os blocos de dados desejados.

II – O cliente deve requisitar a operação de escrita ao Name Node que informa ao cliente quais são os Name Nodes mais eficientes. Em seguida o cliente deve comunicar com esses Name Nodes para armazenar os dados do arquivo dividido em blocos de 128MB.

III – A operação de escrita de dados deve ser realizada pelo servidor cliente que distribui o arquivo em blocos aos Name Nodes mais eficientes do cluster.

IV – A operação de escrita de dados deve ser realizada pelo servidor cliente que requisita a criação de um arquivo ao Name Node. Em seguida o cliente comunica com um único Data Node que irá distribuir os dados entre os outros Data Nodes. Por fim o Data Node retorna a localização dos blocos de dados ao cliente. E o cliente repassa a informação para ser armazenada no Name Node

Dentre essas afirmações estão INCORRETAS:

A

D- II e III

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

O Hadoop é um framework amplamente utilizado no desenvolvimento de sistemas de processamento de Big Data. A sua grande contribuição foi aliar um sistema de arquivos distribuído a um modelo de programação distribuída. Com isso, avalie as seguintes afirmações:

I – O Hadoop Distributed File System é o sistema do Hadoop responsável por gerenciar os arquivos armazenados. Para garantir que não ocorra perda de dados no caso de falhas, tal sistema realiza o backup dos arquivos de cada um dos servidores do cluster em um servidor dedicado para backup.

II – A natureza distribuída do Hadoop se relaciona diretamente com a escalabilidade de sua capacidade de processamento e com a capacidade de garantir seu funcionamento mesmo que alguns dos componentes de sua infraestrutura falhem.

III – O Hadoop Map Reduce é o sistema responsável por gerenciar o processamento de forma distribuída. Tal sistema é capaz de dividir a execução da aplicação em pequenas tarefas que são processadas pelos servidores do cluster.

IV – As etapas de processamento do Map Reduce são: Map, Shuffle e Reduce.

V – Devido às suas características distribuídas o Haddop é capaz de realizar o balanceamento de carga entre os servidores do cluster, o que permite que todos os recursos operem de forma balanceada.

Dentre essas afirmações estão CORRETAS:

A

D- Todas, exceto 1

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

“Apenas recentemente a capacidade de armazenamento e processamento se tornaram suficientes para permitir que dados antes ignorados fossem analisados. Entretanto, além dos componentes tecnológicos, o analista de dados deve ser capaz de identificar quais dados se deve utilizar, como integrá-los, quais as perguntas que serão úteis para a tomada de decisão, e qual a melhor maneira de apresentar os resultados obtidos da análise. ”

Sobre a fase de análise de dados avalie as seguintes afirmações:

I – Durante a fase de análise de dados, o cientista de dados deve preparar os dados brutos para que possam ser utilizados na produção de informações úteis e padrões ocultos em conjuntos massivos de dados.

II – A partir do conjunto de dados inicial podemos aplicar análises estatísticas utilizando modelos estatísticos ou ainda aplicar modelos de predições baseados em aprendizado de máquina de forma que os dados sejam refinados.

III – Realizar análise exploratória e verificar a qualidade dos dados são atividades da análise de dados que fazem parte da fase de preparação dos dados

IV – A fase de modelagem dos dados é composta pelas seguintes tarefas: Selecionar técnicas de modelagem, projetar testes, definir e construir o modelo de dados, seus parâmetros e sua descrição, validar o modelo e definir os parâmetros a serem revisados, avaliar os resultados do modelo; revisar processos; e determinar os passos seguintes.

V – O aprendizado de máquina é uma das atividades necessárias na automatização da construção de modelos analíticos que é uma das tarefas da fase de compreensão dos dados.

Dentre essas afirmações estão CORRETAS:

A

A-I e II

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

A respeito do ecossistema Hadoop avalie as seguintes afirmações:

I – Pig é uma API de alto nível para realizar consultas SQL. Dessa forma é possível processar diretamente os dados contidos no HDFS.

II – Spark é um componente capaz de substituir o MapReduce para realizar o processamento distribuído no ecossistema Hadoop.

III – Grafos Acíclicos Dirigidos são uma estratégia de otimização de processamento utilizada por alguns componentes como o Tez

IV – Sqoop, Flume e Kafka são aplicações capazes de obter dados de fontes externas ao Hadoop para o HDFS

V – Zookeeper é um componente capaz de coordenar as aplicações do cluster. Dessa forma, ele é amplamente utilizado por diversos outros componentes para melhorar a sua confiabilidade e desempenho.

Dentre essas afirmações estão INCORRETAS:

A

C- I

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Uma vez finalizadas as etapas de captura de dados, armazenamento em uma estrutura escalável e flexível de dados, podemos dar início à etapa de visualização dos dados. Nós seres humanos somos criaturas dotadas de grande percepção visual, dessa forma a representação dos dados de forma gráfica se torna muito eficiente para expressar as informações que obtivemos dos dados. Dessa forma pode-se definir a etapa de visualização de dados como “a comunicação da informação utilizando representações gráficas.”

Com isso, avalie as seguintes afirmações:

I – A visualização exploratória é muito utilizada durante a fase de análise de dados como forma de melhorar o detalhamento e a compreensão dos dados.

II – A visualização explanatória deve ser utilizada a fins de melhorar a compreensão dos dados, uma vez que está auxilia na identificação de estruturas, variáveis, tendências e das relações permitindo a detecção de anomalias nos dados

III – O objetivo durante a visualização explanatória é destacar os detalhes importantes para comunicar os resultados obtidos em informações mais concisas e de fácil compreensão no formato de uma interface visual.

IV – A mineração de dados é uma das etapas da visualização de dados que tem por objetivo a extração de informações.

V – O refinamento é a etapa da análise exploratória em que é gerado um modelo visual básico de dados.

Dentre essas afirmações estão INCORRETAS:

A

E- II e V

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

“Bancos de Dados relacionais originalmente foram projetados baseados em uma técnica para o armazenamento de dados conhecida por schema on write. Essa estratégia define que as partes dos dados precisam se ajustar a um padrão ou um plano no momento da escrita (…) o Hive inverte a lógica e faz uso do conceito contrário: scheme on read. Ou seja, a estrutura dos dados, também conhecida por esquema, só é definida durante a leitura dos dados”. Sobre a arquitetura do Hive avalie as seguintes afirmações:

I – Driver é o componente do Hive que recebe os comandos e consultas, compila a entrada, otimiza a computação necessária e executa os passos com tarefas MapReduce ou Tez.

II – O Hive utiliza Mappers e Reducers genéricos que são sequenciados por planos de trabalho escritos em XML.

III – A estratégia Scheme on Read é considerada muito restritiva, uma vez que uma quantidade considerável de esforços é investida ajustando os dados à estrutura definida.

IV – Os metadados que definem os esquemas e particionamentos do Hive são armazenados em um banco de dados relacional. Normalmente Derby ou MySQL.

V – É possível realizar consultas utilizando o Hive através de uma interface de linha de comando (CLI) ou através da Hive Web Interface (HWI).

Dentre essas afirmações estão CORRETAS:

A

C- Todas, exceto III

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

HBase é um banco de dados NoSQL baseado no BigTable do Google e projetado para utilizar o HDFS.

Sobre o HBase avalie as seguintes afirmações:

I – Em relação ao teorema CAP, o HBase é um banco de dados que garante a disponibilidade e a tolerância a falhas.

II – Servidores de Regiões são os componentes responsáveis pela disponibilidade e distribuição das tabelas.

III – O HBase é um banco de dados baseado em documentos.

IV – HMaster é o servidor responsável por monitorar todos os Servidores de Região e gerenciar as alterações de metadados (esquemas e particionamentos)

V – A API para manipulação dos dados do HBase se baseia nas operações de Get, Put, Update e Delete.

Dentre essas afirmações estão INCORRETAS:

A

A- I, III e V

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Muitas aplicações necessitam que os dados sejam processados à medida que são recebidos pela aplicação e que o resultado de tal processamento esteja disponível tão rapidamente quanto. A esse tipo de operação damos o nome de processamento de fluxo em tempo real.

A cerca de tais aplicações, avalie as seguintes afirmações:

I – O conceito de baixa latência define que os dados devem ser processados em um tempo igual ou menor que o tempo em que novos dados chegam ao fluxo.

II – Para ser considerado consistente a solução não pode tolerar imperfeições e inconsistências

III – Dados significativos podem ser perdidos caso a aplicação tenha problemas na coleta, transmissão ou processamento dos dados.

IV – Spark é uma aplicação que utiliza o Map Reduce para processar dados em tempo real.

V – Spark possui seu próprio sistema de arquivos, o SparkSQL que implementa um banco de dados otimizado para realizar consultas em tempo real.

Dentre essas afirmações estão INCORRETAS:

A

E- II, IV e V

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Em relação aos aspectos que devemos levar em consideração ao definir o conceito de Big Data podemos afirmar que:

I – Tecnologias tradicionais não foram projetadas para suportar um grande volume de dados.

II – As tecnologias baseadas em Big Data são muito eficientes pois se utilizam exclusivamente de bancos de dados relacionais, que são projetados para armazenar dados previamente estruturados.

III – Serviços devem ser capazes de processar um volume imenso de dados no tempo necessário para que a informação seja útil e não perca o seu valor.

IV – A priorização e escolha dos dados corretos que devem ser processados permite entregar um valor mais adequado.

V – Avaliar a veracidade dos dados é importante, uma vez que pode afetar os resultados obtidos.

Dentre essas afirmações estão INCORRETAS:

A

B- Apenas a II

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Os bancos de dados NoSQL podem ser definidos em alguns modelos de acordo com a forma que armazenam seus dados. A respeito dos modelos de bancos de dados NoSQL existentes avalie as seguintes afirmações:

I – Os bancos de dados de esquema chave-valor possuem chaves com um modelo discretamente ordenado, dessa forma os dados são mantidos em ordenação lexicográfica

II – Os documentos dos bancos de dados baseados em documentos são estruturas de dados que devem possuir a característica de encapsular e codificar os dados

III – Os bancos de dados baseados em documentos permitem a buscar documentos baseado em seus conteúdos

IV – Os bancos de dados baseados em colunas são muito utilizados para a representação de dados esparsos

V – Os bancos de dados baseados em grafos utilizam um tipo de armazenamento de dados específico chamado de adjacência livre de índices

Dentre essas afirmações estão CORRETAS:

A

C- Todas, exceto V

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Podemos afirmar a respeito do conceito de Big Data:

I – É uma tecnologia que pode ser adquirida de um fornecedor

II – Envolve o processamento de um volume de dados confiáveis com a velocidade necessária à geração de valor

III – É um conjunto de práticas e técnicas.

IV – Pode ser colocado em prática adquirindo uma solução empacotada

Estão corretas as afirmações:

A

D- Apenas II e III

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

“Apenas recentemente a capacidade de armazenamento e processamento se tornaram suficientes para permitir que dados antes ignorados fossem analisados. Entretanto, além dos componentes tecnológicos, o analista de dados deve ser capaz de identificar quais dados se deve utilizar, como integrá-los, quais as perguntas que serão úteis para a tomada de decisão, e qual a melhor maneira de apresentar os resultados obtidos da análise. ”

Sobre a fase de análise de dados avalie as seguintes afirmações:

I – Durante a fase de análise de dados, o cientista de dados deve preparar os dados brutos para que possam ser utilizados na produção de informações úteis e padrões ocultos em conjuntos massivos de dados.

II – A partir do conjunto de dados inicial podemos aplicar análises estatísticas utilizando modelos estatísticos ou ainda aplicar modelos de predições baseados em aprendizado de máquina de forma que os dados sejam refinados.

III – Realizar análise exploratória e verificar a qualidade dos dados são atividades da análise de dados que fazem parte da fase de preparação dos dados

IV – A fase de modelagem dos dados é composta pelas seguintes tarefas: Selecionar técnicas de modelagem, projetar testes, definir e construir o modelo de dados, seus parâmetros e sua descrição, validar o modelo e definir os parâmetros a serem revisados, avaliar os resultados do modelo; revisar processos; e determinar os passos seguintes.

V – O aprendizado de máquina é uma das atividades necessárias na automatização da construção de modelos analíticos que é uma das tarefas da fase de compreensão dos dados.

Dentre essas afirmações estão CORRETAS:

A

A- I e II

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Cassandra é um banco de dados NoSQL open source criado inicialmente pelo Facebook em 2008 e mantido atualmente pelo projeto Apache. Avalie as seguintes afirmações a respeito do Cassandra:

I – O Cassandra introduziu a Cassandra Query Language (CQL) como uma interface para manipular dados semelhante ao SQL.

II – É considerado um banco de dados de Consistência eventual, ou seja, que prioriza a disponibilidade e a tolerância a falhas no teorema CAP.

III – Por se tratar de um projeto externo ao Hadoop, não possui integração nativa com nenhum dos componentes do Hadoop

IV – Suporta totalmente as propriedades de transação ACID.

V – O protocolo Gossip implementa a comunicação entre os nós, descoberta de pares, e propagação de metadados.

Dentre essas afirmações estão CORRETAS:

A

D- I, II e V

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Ao criar uma aplicação capaz de processar e analisar seus dados de forma a extrair informações precisas que possam gerar o valor esperado o analista de dados deve estar atento aos seguintes fatores:

I – Quão variados eles precisam ser

II – Qual o seu nível de atualização

III – Qual o seu nível de popularidade

IV – A relevância dos dados

V – A velocidade necessária para processá-los

Estão corretas as afirmações:

A

E- Todas exceto III