Global Knowledge

IBM Open Platform with Apache Hadoop (v4)

Par Global Knowledge

Objectifs

Ce cours traite des sujets suivants :

IBM Open Platform with Apache Hadoop

  • Lister les composants principaux d'IBM ODP
  • Lister les composants d'Apache Hadoop
  • Décrire la fonctionnalité des composants open source

Apache Ambari

  • Comprendre le but d'Apache Ambari dans ODP
  • Comprendre l'architecture d'Ambari
  • Lister les fonctions des composants Ambari

Hadoop Distributed File System (HDFS)

  • Décrire Hadoop Distributed File System (HDFS)
  • Expliquer les fonctions de NameNode et DataNodes
  • Expliquer le stockage des fichiers et la réplication des blocs

MapReduce et Yarn

  • Décrire le modèle MapReduce v1
  • Lister les limitations de Hadoop 1 et MapReduce 1
  • Décrire le modèle YARN et comparer Hadoop 2 / YARN avec Hadoop 1

Apache Spark

  • Comprendre le but d'Apache Spark dans l'écosystème de Hadoop
  • Décrire le role de Resilient Distributed Dataset (RDD)
  • Démarrer et utiliser Spark Scala et des shells Python

Coordination Management and Governance (CMG)

  • Comprendre les challenges des applications distribuées
  • Utiliser la ligne de commande de ZooKeeper pour intéragir avec les services
  • Comprendre l'utilisation d'Apache Slider avec YARN pour déployer et surveiller des applications distribuées

Déplacement des données

  • Lister les scénarios de chargement applicables à Hadoop
  • Comprendre comment charger des données au repos et en mouvement
  • Comprendre comment charger des données à partir de sources communes
  • Présenter Sqoop et Flume

Stocker et accéder aux données

  • Lister les caractéristiques des formats de données de fichiers (fichiers plat/texte, CSV, XML, JSON, YAML)
  • Lister les caractéristiques les types de datastores NoSQL
  • Décrire le stockage utilisé par HBase
  • Comparer les langages de programmation open source Pig et Hive
  • Lister les caractéristiques de R et Python

Sujets avancés

  • Expliquer les flux de travail de Oozie
  • Expliquer un flux de traitement dans un environnement Big Data
  • Comprendre l'utilisation de moteurs de recherche de texte dans l'exploration des Big Data
  • Comprendre la procédure de recherche Solr et ses composants

Programme

A l'issue de ce cours, vous aurez abordé les points suivants :

  • IBM Open Platform avec Apache Hadoop
  • Apache Ambari
  • Hadoop Distributed File System (HDFS)
  • MapReduce et Yarn
  • Apache Spark
  • Coordination Management and Governance (CMG)
  • Déplacement des données
  • Stockage et accès aux données
  • Sujets avancés

Formations de la même catégories (5)

Orsys
Hadoop, développer des applications pour le Big DataPar Orsys

Ce stage vous apprendra à développer des applications vous permettant de traiter des données distribuées en mode batch. Vous collecterez, stockerez et traiterez des données de formats hétérogènes avec Apache Hadoop afin de mettre en place des chaînes de traitement intégrées à votre Système d'Information.

Global Knowledge
Data Analyse Pig, Hive et SparkPar Global Knowledge

Cette formation permet aux participants d'acquérir les compétences et connaissances nécessaires pour utiliser les outils permettant de traiter et d’analyser des données sur Hadoop.

Elle leur permettra de développer des compétences en analyse de données en se focalisant sur Pig, Hive et Spark.

Global Knowledge
Hadoop : architecture et administrationPar Global Knowledge

Hadoop est la principale plateforme de Big Data. Elle permet d’assurer le stockage et le traitement d’immenses volumes de données. Cette formation vous permettra de comprendre son architecture et d’acquérir les compétences nécessaires pour installer, configurer et administrer un cluster Hadoop.

Feel Europe
HADOOPPar Feel Europe

• Appréhender l’architecture d’un système Hadoop.

• Détailler les services principaux, leur configuration, la sécurité au sein d’un cluster mais aussi son exploitation.

• Passer en revue les différentes composantes logicielles pour manipuler les données big data (MapReduce, Pig, Hive Sqoop).

Dawan
Programmer Hadoop en JavaPar Dawan
  • Développer des algorithmes parallèles efficaces - Analyser des fichiers non structurés et développer des tâches Java MapReduce - Charger et récupérer des données de HBase et du système de fichiers distribué Hadoop (HDFS) - User Defined Functions de Hive et Pig