Apache Hadoop Flashcards

Question 1

Q

O que faz o Apache Hadoop?

Answer

A

É um framework open source utilizado para armazenar, processar e analisar grande conjunto
de dados. O ecossistema Hadoop provê um ambiente de computação distribuída, escalável e tolerante
a falhas. Ele é composto por diversos componentes que trabalham juntos para permitir o
armazenamento, processamento e análise de dados em larga escala.

Question 2

Q

Explique cada forma de execução hadoop:

Modo Local (Standalone)
Modo Pseudo-Distribuído
Modo Distribuído Totalmente

Answer

A

As formas mais comuns incluem:

Modo Local (Standalone), onde o
Hadoop é executado em uma única máquina Java sem usar o HDFS, ideal para depuração;

Modo Pseudo-Distribuído, no qual cada componente do Hadoop é executado em uma única máquina,
simulando um cluster distribuído; e o

Modo Distribuído Totalmente, a forma mais robusta, onde o
Hadoop é executado em um cluster real de máquinas, aproveitando a distribuição de dados e
processamento para operações em larga escala.

A escolha do modo de execução depende das
necessidades específicas do projeto, do volume de dados a serem processados e da infraestrutura
disponível.

Question 3

Q

O que é HDFS?

Answer

A

O HDFS é um componente central do ecossistema Hadoop, projetado para armazenar grandes
volumes de dados de forma distribuída e confiável.

Question 4

Q

Como funciona o processamento do componente MapReduce?

( Map, Shuffle e Reduce)

Answer

A

Map:
Nesta fase inicial, o grande conjunto de dados de entrada é dividido em fragmentos menores.
Funções de mapeamento são aplicadas a cada fragmento, processando os dados e produzindo
pares chave-valor como saída.
Exemplo de Saída: (Olá, 1), (Mundo, 1), (Olá, 1)

Shuffle:
Depois do mapeamento, ocorre a fase de Shuffle. Aqui, os pares chave-valor são redistribuídos
pelos Reducers de forma que todos os valores associados a uma mesma chave estejam juntos,
preparando-os para a fase de redução.
Exemplo de Agrupamento: (Olá, [1, 1]), (Mundo, [1])
Reduce:
Na fase final, os Reducers processam cada grupo de pares chave-valor. As funções de redução
são aplicadas para realizar operações como somas, médias, etc., e produzir o resultado final.
Exemplo de Saída: (Olá, 2), (Mundo, 1)

Question 5

Q

Aspectos técnicos do HDFS:

Arquitetura Master/Slave NameNode(Master), o que faz?

Answer

A

NameNode (Master): Gerencia o namespace do sistema de arquivos, controlando o acesso
aos arquivos e diretórios. O NameNode armazena metadados, como a localização dos blocos
de dados nos DataNodes, mas não armazena dados reais.

Question 6

Q

Aspectos técnicos do HDFS:

Arquitetura Master/Slave DataNodes (Slaves), o que faz?

Answer

A

DataNodes (Slaves): Responsáveis por armazenar os dados reais em blocos. Os DataNodes
gerenciam o armazenamento e a recuperação dos blocos de dados conforme as instruções do
NameNode.

Apache Hadoop Flashcards

(6 cards)