Apache Hadoop Flashcards

1
Q

O que faz o Apache Hadoop?

A

É um framework open source utilizado para armazenar, processar e analisar grande conjunto
de dados. O ecossistema Hadoop provê um ambiente de computação distribuída, escalável e tolerante
a falhas. Ele é composto por diversos componentes que trabalham juntos para permitir o
armazenamento, processamento e análise de dados em larga escala.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Explique cada forma de execução hadoop:

Modo Local (Standalone)
Modo Pseudo-Distribuído
Modo Distribuído Totalmente

A

As formas mais comuns incluem:

Modo Local (Standalone), onde o
Hadoop é executado em uma única máquina Java sem usar o HDFS, ideal para depuração;

Modo Pseudo-Distribuído, no qual cada componente do Hadoop é executado em uma única máquina,
simulando um cluster distribuído; e o

Modo Distribuído Totalmente, a forma mais robusta, onde o
Hadoop é executado em um cluster real de máquinas, aproveitando a distribuição de dados e
processamento para operações em larga escala.

A escolha do modo de execução depende das
necessidades específicas do projeto, do volume de dados a serem processados e da infraestrutura
disponível.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

O que é HDFS?

A

O HDFS é um componente central do ecossistema Hadoop, projetado para armazenar grandes
volumes de dados de forma distribuída e confiável.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Como funciona o processamento do componente MapReduce?

( Map, Shuffle e Reduce)

A

Map:
Nesta fase inicial, o grande conjunto de dados de entrada é dividido em fragmentos menores.
Funções de mapeamento são aplicadas a cada fragmento, processando os dados e produzindo
pares chave-valor como saída.
Exemplo de Saída: (Olá, 1), (Mundo, 1), (Olá, 1)

  1. Shuffle:
    Depois do mapeamento, ocorre a fase de Shuffle. Aqui, os pares chave-valor são redistribuídos
    pelos Reducers de forma que todos os valores associados a uma mesma chave estejam juntos,
    preparando-os para a fase de redução.
    Exemplo de Agrupamento: (Olá, [1, 1]), (Mundo, [1])
  2. Reduce:
    Na fase final, os Reducers processam cada grupo de pares chave-valor. As funções de redução
    são aplicadas para realizar operações como somas, médias, etc., e produzir o resultado final.
    Exemplo de Saída: (Olá, 2), (Mundo, 1)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Aspectos técnicos do HDFS:

Arquitetura Master/Slave NameNode(Master), o que faz?

A

NameNode (Master): Gerencia o namespace do sistema de arquivos, controlando o acesso
aos arquivos e diretórios. O NameNode armazena metadados, como a localização dos blocos
de dados nos DataNodes, mas não armazena dados reais.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Aspectos técnicos do HDFS:

Arquitetura Master/Slave DataNodes (Slaves), o que faz?

A

DataNodes (Slaves): Responsáveis por armazenar os dados reais em blocos. Os DataNodes
gerenciam o armazenamento e a recuperação dos blocos de dados conforme as instruções do
NameNode.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly