M2i Formation

Talend pour le Big Data

Par M2i Formation

Objectifs

  • Maîtriser Talend dans un environnement Big Data.

Programme

Concepts de bases

  • Ouvrir un projet
  • Monitorer un cluster Hadoop
  • Créer un cluster de métadonnées

Lire et écrire des données en HDFS

  • Stocker un fichier sur HDFS
  • Stocker plusieurs fichiers de HDFS
  • Lire les données de HDFS
  • Utiliser HBase pour sauvegarder les données charger dans HDFS

Travailler avec les tables

  • Importation de tables avec Sqoop
  • Création de tables dans HDFS avec Hive

Traitement des données et des tables en HDFS

  • Traitement des tables Hive avec des jobs
  • Traitement des données avec Pig
  • Traitement des données par lots

Guide de dépannage

  • Dépannage de votre cluster

Cas d'utilisation de clickstream (flux de clics)

  • Surveillance du cluster Hadoop
  • Créer un environnement de développement
  • Chargement des données dans HDFS
  • Enrichissement des logs
  • Calculer les statistiques
  • Conversion d'un job standard en un lot Big Data
  • Comprendre les jobs MapReduce
  • Utilisation du studio pour configurer les resource requests vers YARN

Cas d'utilisation : l'analyse comportementale

  • Chargement du dictionnaire et des données du fuseau horaire dans HDFS
  • Chargement des tweets dans HDFS
  • Traitement des tweets avec MapReduce
  • Planification de l'exécution du job

Introduction à Kafka

  • Surveillance du cluster Hadoop
  • Comprendre les bases de Kafka
  • Publication de messages sur un sujet Kafka
  • Consommer des messages

Introduction à Spark

  • Comprendre les bases de Spark
  • Analyser les données des clients
  • Produire et consommer des messages en temps réel

Cas d'utilisation de traitement des logs : génération des logs enrichis

  • Introduction au cas d'utilisation du traitement des lois
  • Génération de logs bruts
  • Génération de logs enrichis

Traitement des logs cas d'utilisation : surveillance

  • Surveillance des logs enrichis

Cas d'utilisation de traitement des logs : rapports

  • Génération de rapports basés sur les fenêtres de données

Cas d'utilisation de traitement des logs : analyse des batchs

  • Ingestion de flux de données
  • Analyser les logs avec un batch job

Certification (en option)

  • Prévoir l'achat de la certification en supplément
  • L'examen (en français) sera passé le dernier jour, à l'issue de la formation et s'effectuera en ligne
  • Il s'agit d'un QCM dont la durée moyenne est d'1h30 et dont le score obtenu attestera d'un niveau de compétence

Pédagogie

L'évaluation des acquis se fait :

  • En cours de formation, par des études de cas ou des travaux pratiques
  • Et, en fin de formation, par un questionnaire d'auto-évaluation ou une certification (M2i ou éditeur)

Formations de la même catégories (5)

M2i Formation
MapR - Architecture et administrationPar M2i Formation
  • Maîtriser l'administration des clusters MapR.
Dawan
Informix Database Initiation + ApprofondissementPar Dawan

Réaliser des schémas et requêtes quelconques sur Informix - Décrire l'architecture multi-tâches IBM Informix Dynamic Server - Installer, maintenir, administrer et optimiser un serveur IDS

Global Knowledge
Big Data : Architecture et technologiesPar Global Knowledge

Ce cours de synthèse vous présentera les enjeux et les apports du Big Data ainsi que les technologies pour sa mise en œuvre. Vous apprendrez à gérer un projet de gestion de données massives depuis l'installation d'une plateforme Big Data, tout en passant par la gestion, l'analyse et la visualisation des données.

Dawan
Apache Kafka : Echange de donnéesPar Dawan

Comprendre l’architecture de Kafka et ses cas d’utilisation - Utiliser les APIs Kafka - Administrer un cluster - Construire une architecture haute-disponibilité - Sécuriser un cluster

Orsys
Flink, développer des applications pour le Big DataPar Orsys

Apache Flink est un nouvel outil de traitement de Big Data de quatrième génération qui change le paysage des technologies de traitement des données. Ce cours vous permettra d’utiliser Apache Flink pour développer des applications en Java en vue de traiter des flux massifs de données issues du Big Data en temps réel.