M2i Formation

Data analyst - Analyse de données en environnement Hadoop

Par M2i Formation

Objectifs

  • Savoir comment Hadoop Distributed File System (HDFS) et YARN / MapReduce fonctionnent
  • Explorer HDFS
  • Suivre l'exécution d'une application YARN
  • Utiliser les différents outils de manipulation de la donnée tels que : Hue, Hive, Pig, Tez, Sqoop et Oozie.

Programme

Introduction

  • Présentation générale d'Hadoop
  • Exemples d'utilisation dans différents secteurs
  • Historique et chiffres clés
    • Quand parle-t-on de Big Data ?

L'écosystème d'Hadoop

  • Le système de fichier HDFS
  • Le paradigme MapReduce et l'utilisation à travers YARN

Manipulation des données dans un Cluster Hadoop

  • Hue : comment fonctionne cette interface Web ?
  • Hive : pourquoi ce n'est pas une base de données ?
    • Requête sur Hive
    • Utilisation de HCatalog
    • Utilisation avancée sur Hive
    • Utilisation de fonctions utilisateurs
    • Paramétrage de requête
  • Pig : fonctionnement
    • Programmation avec Pig Latin
    • Utilisation du mode Local
    • Utilisation de fonctions utilisateurs
  • Tez : qu'est-ce que c'est ?
    • Comment et quand l'utiliser ?
  • Oozie : fonctionnement
    • Création de workflows avec Oozie
    • Manipulation des workflows
    • Ajout d'éléments d'exploitation dans les workflows
    • Ajout de conditions d'exécution
    • Paramétrage des workflows
  • Sqoop : à quoi ça sert ?
    • Chargement des données depuis une base de données relationnelle
    • Chargement des données depuis Hadoop
    • Utilisation et paramétrage avancée

Les particularités des distributions

  • Impala et HAWQ

Quelles sont les bonnes pratiques d'utilisation des différents outils ?

Formations de la même catégories (5)

Orsys
Hadoop, développer des applications pour le Big DataPar Orsys

Ce stage vous apprendra à développer des applications vous permettant de traiter des données distribuées en mode batch. Vous collecterez, stockerez et traiterez des données de formats hétérogènes avec Apache Hadoop afin de mettre en place des chaînes de traitement intégrées à votre Système d'Information.

SQLI Institut
Spark : traitement de donnéesPar SQLI Institut
  • Comprendre le fonctionnement de Spark et son utilisation dans un environnement Hadoop. Savoir intégrer Spark dans un environnement Hadoop, traiter des données Cassandra, HBase, Kafka, Flume, Sqoop, S3. Ce stage permet de se présenter à l'examen "Certification Hadoop avec Spark pour développeur de Cloudera"
Global Knowledge
Data Analyse Pig, Hive et SparkPar Global Knowledge

Cette formation permet aux participants d'acquérir les compétences et connaissances nécessaires pour utiliser les outils permettant de traiter et d’analyser des données sur Hadoop.

Elle leur permettra de développer des compétences en analyse de données en se focalisant sur Pig, Hive et Spark.

Global Knowledge
Hadoop : architecture et administrationPar Global Knowledge

Hadoop est la principale plateforme de Big Data. Elle permet d’assurer le stockage et le traitement d’immenses volumes de données. Cette formation vous permettra de comprendre son architecture et d’acquérir les compétences nécessaires pour installer, configurer et administrer un cluster Hadoop.

Orsys
HDFS, utiliser le système de fichiers distribué d'HadoopPar Orsys

Cette vidéo présente l'HDFS (Hadoop Distributed File System) et ses particularités afin d'en obtenir une connaissance approfondie. Elle va vous permettre également de développer une application se basant sur l'HDFS - en lien ou non avec Hadoop - et de profiter ainsi de ses possibilités de réplication et de très haute disponibilité. Après une introduction rapide des systèmes de fichiers en général puis d'Hadoop, nous nous pencherons sur les spécificités de l'HDFS : parallélisation et réplication des fichiers par blocs. Ensuite, nous détaillerons HadoopFS, une couche d'abstraction permettant d'interagir avec des systèmes de fichiers, qu'ils soient locaux ou distribués comme l'HDFS, Amazon S3, Cassandra, CephFS. Nous étudierons les interfaces qu'offre HadoopFS pour contrôler les systèmes de fichiers compatibles et notamment l'HDFS, que ce soit en ligne de commande, en programmation Java ou via des appels HTTP. Nous illustrerons chacune de ces possibilités par des exemples simples et concrets. Enfin, nous nous pencherons plus spécifiquement sur le fonctionnement profond de l'HDFS et de ses services afin de comprendre au mieux ses particularités : la notion de NameNode, de DataNode et les points essentiels du stockage dans l'HDFS.

Nous utilisons les cookies afin de fournir les services et fonctionnalités proposés sur notre site et afin d’améliorer l’expérience de nos utilisateurs. En cliquant sur ”J’ai compris”, vous acceptez l’utilisation de ces cookies.