M2i Formation

Talend pour le Big Data

Par M2i Formation

Objectifs

  • Utiliser Talend dans un environnement Big Data.

Programme

Concepts de bases

  • Ouvrir un projet
  • Monitorer un cluster Hadoop
  • Créer un cluster de métadonnées

Lire et écrire des données en HDFS

  • Stocker un fichier sur HDFS
  • Stocker plusieurs fichiers de HDFS
  • Lire les données de HDFS
  • Utiliser HBase pour sauvegarder les données charger dans HDFS

Travailler avec les tables

  • Importation de tables avec Sqoop
  • Création de tables dans HDFS avec Hive

Traitement des données et des tables en HDFS

  • Traitement des tables Hive avec des jobs
  • Traitement des données avec Pig
  • Traitement des données par lots

Guide de dépannage

  • Dépannage de votre cluster

Cas d'utilisation de clickstream (flux de clics)

  • Surveillance du cluster Hadoop
  • Créer un environnement de développement
  • Chargement des données dans HDFS
  • Enrichissement des logs
  • Calculer les statistiques
  • Conversion d'un job standard en un lot Big Data
  • Comprendre les jobs MapReduce
  • Utilisation du studio pour configurer les resource requests vers YARN

Cas d'utilisation : l'analyse comportementale

  • Chargement du dictionnaire et des données du fuseau horaire dans HDFS
  • Chargement des tweets dans HDFS
  • Traitement des tweets avec MapReduce
  • Planification de l'exécution du job

Introduction à Kafka

  • Surveillance du cluster Hadoop
  • Comprendre les bases de Kafka
  • Publication de messages sur un sujet Kafka
  • Consommer des messages

Introduction à Spark

  • Comprendre les bases de Spark
  • Analyser les données des clients
  • Produire et consommer des messages en temps réel

Cas d'utilisation de traitement des logs : génération des logs enrichis

  • Introduction au cas d'utilisation du traitement des lois
  • Génération de logs bruts
  • Génération de logs enrichis

Traitement des logs cas d'utilisation : surveillance

  • Surveillance des logs enrichis

Cas d'utilisation de traitement des logs : rapports

  • Génération de rapports basés sur les fenêtres de données

Cas d'utilisation de traitement des logs : analyse des batchs

  • Ingestion de flux de données
  • Analyser les logs avec un batch job

Certification (en option)

  • Prévoir l'achat de la certification en supplément
  • L'examen (en français) sera passé le dernier jour, à l'issue de la formation et s'effectuera en ligne
  • Il s'agit d'un QCM dont la durée moyenne est d'1h30 et dont le score obtenu attestera d'un niveau de compétence
  • NB : Certification M2i "Expertises Big Data" valide jusqu'au 31/12/2021. N'hésitez pas à contacter votre Conseiller Formation pour toute information complémentaire

Pédagogie

  • En cours de formation, par des études de cas ou des travaux pratiques
  • Et, en fin de formation, par un questionnaire d'auto-évaluation ou une certification (M2i ou éditeur)

Formations de la même catégories (5)

Dawan
Informix Database Initiation + ApprofondissementPar Dawan

Réaliser des schémas et requêtes quelconques sur Informix - Décrire l'architecture multi-tà¢ches IBM Informix Dynamic Server - Installer, maintenir, administrer et optimiser un serveur IDS

Global Knowledge
Big Data : Architecture et technologiesPar Global Knowledge

Ce cours de synthèse vous présentera les enjeux et les apports du Big Data ainsi que les technologies pour sa mise en œuvre. Vous apprendrez à gérer un projet de gestion de données massives depuis l'installation d'une plateforme Big Data, tout en passant par la gestion, l'analyse et la visualisation des données.

Dawan
Apache Kafka : Echange de donnéesPar Dawan

Comprendre l'architecture de Kafka et ses cas d'utilisation - Utiliser les APIs Kafka - Administrer un cluster - Construire une architecture haute-disponibilité - Sécuriser un cluster

Orsys
Flink, développer des applications pour le Big DataPar Orsys

Apache Flink est un Framework BigData récent. Il simplifie les traitements de flux gros débit temps réels comme les traitements batch sur d'énormes quantités de données (sur Hadoop HDFS, sur Amazon S3, sur MongoDB...). Ce cours vous permet d'installer Flink et de réaliser, en Java, des traitements variés de Big Data.

Orsys
Introduction à la datavisualisation, collecter, traiter et représenter les donnéesPar Orsys

Cette vidéo de formation, qui débute par un rapide historique sur la datavisualisation, a pour but de vous aider à comprendre quelles sont les règles à respecter pour créer des graphiques efficaces. Nous verrons qu'une mauvaise représentation graphique peut induire en erreur le lecteur et mener à de mauvaises décisions. Ainsi, au cours de cette vidéo, nous verrons quels processus mettre en oeuvre pour récolter les données puis les traiter avant de les afficher. Nous évoquerons aussi les règles à respecter pour appliquer le bon type de graphique, comment le réaliser et le mettre en forme de façon efficiente en choisissant les bonnes couleurs et les bons axes de lecture. Quelques séquences de mise en pratique vous montrent concrètement comment récolter, traiter les données et concevoir des graphiques pertinents (Excel, Tableau, Sanddance, CartoDB...).