M2i Formation

Hadoop - Développement (HDFS et MapReduce)

Par M2i Formation

Objectifs

  • Connaître les principes du framework Hadoop
  • Utiliser la technologie MapReduce pour paralléliser des calculs sur des volumes importants de données
  • Apprendre les commandes shell courantes pour HDFS.

Programme

Introduction

  • Big Data, introduction
  • Les métiers du Big Data
  • Big Data, architecture
  • Les fonctionnalités du framework Hadoop
  • Hadoop, l'écosystème
    • Hadoop Common
    • HDFS
    • YARN
    • Spark
    • MapReduce
    • L'ingestion de données : Kafka, Nifi

MapReduce

  • Principe et objectifs du modèle de programmation MapReduce
  • Fonctions "map" et "reduce"
  • Couples (clés et valeurs)
  • Implémentation par le framework Hadoop
  • Etude de la collection d'exemples
  • Rédaction d'un premier programme et exécution avec Hadoop

Programmation MapReduce

  • Configuration des jobs
  • Notion de configuration
  • Les interfaces principales
    • Mapper
    • Reducer
  • La chaîne de production
    • Entrées
    • Input splits
    • Mapper
    • Combiner
    • Shuffle / sort
    • Reducer
    • Sortie
    • Partitioner
    • OutputCollector
    • Codecs
    • Compresseurs
  • Format des entrées et sorties d'un job MapReduce
    • InputFormat
    • OutputFormat
  • Type personnalisé : création d'un Writable spécifique
  • Utilisation
  • Contraintes
  • Répartition du job sur la ferme au travers de YARN

Streaming

  • Définition du streaming MapReduce
  • Création d'un job MapReduce dans Python
  • Répartition sur la ferme
  • Avantages et inconvénients
  • Liaisons avec des systèmes externes
  • Introduction au pont Hadoop
  • Suivi d'un job en streaming

HDFS

  • Concept de HDFS
  • Architecture
  • NameNode et DataNode
  • Communications
  • Gestionnaire et équilibreur de blocs
  • Vérification de l'état / sécurité
  • Interaction de ligne de commande avec HDFS
  • Import/Export de données externes (fichiers, BDDR, CSV) vers HDFS
  • Manipulation des fichiers HDFS
  • Données hors HDFS (Hbase)

Hadoop, analyse de données

  • Apache
    • Hive
    • Pig
    • Impala
  • Différence entre Hive, Pig et Impala

Pédagogie

L'évaluation des acquis se fait :

  • En cours de formation, par des études de cas ou des travaux pratiques
  • Et, en fin de formation, par un questionnaire d'auto-évaluation ou une certification (M2i ou éditeur)

Partager cette formationTélécharger au format pdf Ajouter à mes favoris

Formations de la même catégories (5)

Orsys
Hadoop, développer des applications pour le Big DataPar Orsys

Ce stage vous apprendra à développer des applications vous permettant de traiter des données distribuées en mode batch. Vous collecterez, stockerez et traiterez des données de formats hétérogènes avec Apache Hadoop afin de mettre en place des chaînes de traitement intégrées à votre Système d'Information.

Global Knowledge
Data Analyse Pig, Hive et SparkPar Global Knowledge

Cette formation permet aux participants d'acquérir les compétences et connaissances nécessaires pour utiliser les outils permettant de traiter et d’analyser des données sur Hadoop.

Elle leur permettra de développer des compétences en analyse de données en se focalisant sur Pig, Hive et Spark.

Global Knowledge
Hadoop : architecture et administrationPar Global Knowledge

Hadoop est la principale plateforme de Big Data. Elle permet d’assurer le stockage et le traitement d’immenses volumes de données. Cette formation vous permettra de comprendre son architecture et d’acquérir les compétences nécessaires pour installer, configurer et administrer un cluster Hadoop.

Feel Europe
HADOOPPar Feel Europe

• Appréhender l’architecture d’un système Hadoop.

• Détailler les services principaux, leur configuration, la sécurité au sein d’un cluster mais aussi son exploitation.

• Passer en revue les différentes composantes logicielles pour manipuler les données big data (MapReduce, Pig, Hive Sqoop).

Dawan
Programmer Hadoop en JavaPar Dawan
  • Développer des algorithmes parallèles efficaces - Analyser des fichiers non structurés et développer des tâches Java MapReduce - Charger et récupérer des données de HBase et du système de fichiers distribué Hadoop (HDFS) - User Defined Functions de Hive et Pig