fbpx

Amazon Elastic MapReduce (Amazon EMR)

Compartilhar no facebook
Compartilhar no linkedin
Compartilhar no twitter
Compartilhar no whatsapp
Compartilhar no telegram
O Amazon Elastic MapReduce (Amazon EMR) fornece uma estrutura Hadoop sob demanda totalmente gerenciada. O Amazon EMR reduz a complexidade e os custos iniciais da configuração do Hadoop e, combinado com a escala da AWS, oferece a capacidade de ativar o Hadoop e uma grande quantidade de clusters instantaneamente e inicie o processamento em minutos.

Ao iniciar um cluster do Amazon EMR, você especifica várias opções, sendo a mais importante:

  • O tipo de instância dos nós no seu cluster
  • O número de nós no seu cluster

A versão do Hadoop que você deseja executar (o Amazon EMR suporta várias versões recentes do Apache Hadoop e também várias versões do MapR Hadoop.)

Existem dois tipos de armazenamento que podem ser usados ​​com o Amazon EMR:

 

Sistema de arquivos distribuídos do Hadoop (HDFS)

HDFS é o sistema de arquivos padrão que acompanha o Hadoop. Todos os dados são replicados em várias instâncias para garantir durabilidade. Amazonas

O EMR pode usar o armazenamento de instância do Amazon EC2 ou o Amazon EBS para HDFS. Quando um cluster é desligado, o armazenamento da instância é perdido e os dados não persistem. O HDFS também pode fazer uso do armazenamento do Amazon EBS, negociando a relação custo-benefício do armazenamento de instância pela capacidade de desligar um cluster sem perder dados.

 

Sistema de arquivos EMR (EMRFS)

O EMRFS é uma implementação do HDFS que permite que os clusters armazenem dados no Amazon S3. O EMRFS permite obter a durabilidade e o baixo custo do Amazon S3, preservando seus dados, mesmo que o cluster esteja desligado.

Um fator chave que impulsiona o tipo de armazenamento que um cluster usa é se o cluster é persistente ou transitório. Um cluster persistente continua em execução 24 × 7 após o lançamento. Clusters persistentes são apropriados quando a análise contínua será executada nos dados.

Para clusters persistentes, o HDFS é uma escolha comum. Clusters persistentes aproveitam a baixa latência do HDFS, especialmente no armazenamento de instância, quando operação constante significa que não há perda de dados ao desligar um cluster. Em outras situações, as cargas de trabalho de big data são frequentemente executadas inconsistentemente, e pode ser rentável desativar o cluster quando não estiver em uso.

Os clusters iniciados quando necessário e, em seguida, interrompidos imediatamente quando concluídos são chamados de clusters transitórios.

O EMRFS é adequado para clusters transitórios, pois os dados persistem independentemente da vida útil do cluster. Você também pode optar por usar uma combinação de HDFS e EMRFS local para atender às suas necessidades de carga de trabalho.

Como o Amazon EMR é uma instância do Apache Hadoop, você pode usar o extenso ecossistema de ferramentas que funcionam sobre o Hadoop, como Hive, Pig e Spark. Muitas dessas ferramentas são suportadas nativamente e podem ser incluídas automaticamente quando você inicia o cluster, enquanto outros podem ser instalados através de ações de inicialização.

 

Casos de Uso

O Amazon EMR é adequado para um grande número de casos de uso, incluindo, entre outros:

 

Processamento de Log

O Amazon EMR pode ser usado para processar logs gerados por aplicativos da web e móveis. O Amazon EMR ajuda os clientes a transformar petabytes de dados não estruturados ou semiestruturados em informações úteis sobre seus aplicativos ou usuários.

 

Análise de fluxo de cliques

O Amazon EMR pode ser usado para analisar dados de fluxo de cliques para segmentar usuários e entender suas preferências. Os anunciantes também podem analisar fluxos de cliques e logs de impressões de publicidade para exibir anúncios mais eficazes.

 

Genômica e Ciências da Vida

O Amazon EMR pode ser usado para processar grandes quantidades de dados genômicos e outros grandes conjuntos de dados científicos de maneira rápida e eficiente. Processos que exigem anos de computação podem ser concluídos em um dia quando escalados em grandes clusters.