nov teor Flashcards
(15 cards)
virtualização
A virtualização é uma tecnologia que permite que um único hardware físico (como um servidor ou seu computador pessoal) seja dividido e se comporte como múltiplas máquinas independentes. Pense em cada uma dessas “máquinas independentes” como um computador completo, chamado de Máquina Virtual (VM).
Containers
são uma forma mais leve e eficiente de isolar aplicativos e suas dependências. Em vez de criar um sistema operacional completo para cada aplicação, os containers compartilham o mesmo kernel do sistema operacional do host (o computador físico onde rodam).
container e docker
Softwares como o Docker são os motores por trás da tecnologia de containers. Eles empacotam um aplicativo junto com tudo o que ele precisa para rodar (bibliotecas, arquivos de configuração, etc.) em um pacote isolado e portátil, a “imagem de container”.
qual é mais pesada virtualização ou container
VMs: São mais pesadas e levam mais tempo para iniciar.
Containers: São muito mais leves e iniciam em segundos (ou milissegundos). os Containers são mais rápidos e mais baratos que as Máquinas Virtuais (VMs)
qual é a base que constrói a nuvem e qual é forma mas inteligente e ágil de rodar seus apps nessa nuvem
Virtualização é a base que constrói a nuvem, os containers são a forma mais inteligente e ágil de rodar seus apps dentro dessa nuvem.
Map reduce
Modelo de programação para processar e gerar grande volumes de dados de forma distribuída, ou seja, usando vários computadores ou nós ao mesmo tempo.
Softwares baseados em MapReduce
1-Apache Hadoop
2-Apache Spark
3-Apache Flink
Hadoop ou Apache Hadoop
Apache Hadoop é um framework de código aberto para o processamento distribuído e armazenamento de grandes volumes de dados (Big Data) em clusters de hardware comum. Ele foi projetado para ser escalável, tolerante a falhas e econômico.
Componente pricipais do hadoop
1-HDFS (Hadoop Distributed File System)
2-YARN (Yet Another Resource Negotiator):
3-MapReduce
limitações mapreduce
- Lento para Iterações: A escrita e leitura frequente do disco o tornava ineficiente para algoritmos iterativos (comuns em Machine Learning) ou para processamento interativo.
- Complexidade de Programação: Desenvolver aplicações MapReduce diretamente em Java pode ser complexo e verboso.
É por essas razões que frameworks como o Apache Spark surgiram e ganharam popularidade. O Spark é projetado para ser muito mais rápido (processa dados na memória sempre que possível) e oferece APIs de alto nível em várias linguagens, simplificando o desenvolvimento.
etapas do mapreduce
- Map: Divida o trabalho em muitas partes menores, onde cada parte é processada individualmente para gerar resultados intermediários.
- Shuffle/Sort: Agrupe todos os resultados intermediários, garantindo que tudo que é igual fique junto.
- Reduce: Combine esses resultados agrupados para chegar ao resultado final desejado.
o que apache spark e spark
Apache Spark é o framework de processamento de dados distribuído.
Spark é o nome comum e abreviado para Apache Spark.
o que é pyspark
é a interface em Python que permite que os desenvolvedores usem o Apache Spark com a linguagem Python.
O que tem a ver entre apache spark e pyspark
Todos são baseados no conceito de computação distribuída, mas o Spark (e PySpark) se integram com o Hadoop (especialmente HDFS e YARN) para alavancar sua infraestrutura de armazenamento e gerenciamento de cluster, ao mesmo tempo em que oferecem um mecanismo de processamento mais rápido e versátil que o MapReduce do Hadoop.
cluster
Em computação, um cluster é um grupo de computadores interconectados que trabalham juntos como um único sistema para alcançar um objetivo comum. Em vez de ter uma única máquina poderosa executando todas as tarefas, um cluster distribui a carga de trabalho entre várias máquinas, chamadas de “nós” (nodes).