IB Formation

L'apprentissage Machine avec Spark (Spark ML)

Par IB Formation

Objectifs

  • Être capable de mettre en oeuvre Spark ML pour de l'apprentissage machine et l'analyse de données
  • Comprendre comment récupérer les données et les préparer pour un traitement efficient
  • Savoir modéliser les données et optimiser les modèles
  • Être en mesure d’industrialiser et de déployer une application de prédiction

Programme

L’écosystème SPARK et l’apprentissage Big Data

  • Enjeux machine learning et Big Data
  • L’écosystème Apache Spark
  • Les différentes briques de base
  • Focus SPARK SQL
  • Dataframes et Datasets
  • Lab : Mise en oeuvre de l’écosystème SPARK pour l’apprentissage machine Big Data

Le chargement de données d’entraînement massives

  • Chargement générique de données
  • Chargement de fichiers de formats spécifiques
  • Interrogation de bases HIVE
  • Interrogation de bases externes
  • Lab : Chargement de données de sources diverses sur un cluster SPARK

L’exploration de données d’entraînement massives

  • Réalisation de statistiques de base avec SPARK
  • Exploitation des librairies graphiques statistiques dans un cadre Big Data
  • Lab : Exploration de données d’entraînement sur un cas concret

Le “Pipelining”

  • Le concept de Pipeline Spark
  • Les composants d’un Pipeline
  • Le fonctionnement d’un Pipeline
  • La gestion des paramètres
  • Persistance et chargement de Pipelines
  • Lab : Création d’un premier pipeline d’apprentissage machine avec SPARK

Le prétraitement et l’ingénierie des variables prédictives

  • Extraction de variables prédictives
  • Transformation de variables
  • Sélection de variables prédictives
  • Hachage de variables
  • Lab : Prétraitement et ingénierie des variables prédictives sur un cas concret

La création de modèles d’apprentissage Big Data

  • Classification de données massives
  • Régression de données massives
  • Clustering de données massives
  • Systèmes de recommandation Big Data
  • Règles d’association de données massives
  • Lab : Réalisation de modèles d’apprentissage sur des cas concrets Big Data

L’optimisation du réglage des modèles d’apprentissage

  • Réglage des hyper-paramètres des modèles
  • Validation croisée
  • Séparation des données (entraînement, validation)
  • Lab : Optimisation du réglage de modèles d’apprentissage sur cas concrets

Déploiement de modèles d’apprentissage Big Data

  • Création d’application prédictive en batch
  • Création d’application prédictive en streaming
  • Mise en oeuvre concrète sur un cluster Big Data
  • Bonnes pratiques de déploiement
  • Lab : Création d’applications en batch et en streaming sur cas concrets

Pédagogie

  • Un tour d'horizon de l’écosystème Spark ML.
  • Un focus sur la mise en oeuvre d’algorithmes à l’aide de la brique Machine Learning de Spark qui permet de réaliser de l’apprentissage sur un socle Big Data.
  • Des ateliers pour expérimenter le framework sur des cas concrets.

Formations de la même catégories (5)

M2i Formation
MapR - Architecture et administrationPar M2i Formation
  • Maîtriser l'administration des clusters MapR.
Dawan
Informix Database Initiation + ApprofondissementPar Dawan

Réaliser des schémas et requêtes quelconques sur Informix - Décrire l'architecture multi-tâches IBM Informix Dynamic Server - Installer, maintenir, administrer et optimiser un serveur IDS

Global Knowledge
Big Data : Architecture et technologiesPar Global Knowledge

Ce cours de synthèse vous présentera les enjeux et les apports du Big Data ainsi que les technologies pour sa mise en œuvre. Vous apprendrez à gérer un projet de gestion de données massives depuis l'installation d'une plateforme Big Data, tout en passant par la gestion, l'analyse et la visualisation des données.

Dawan
Apache Kafka : Echange de donnéesPar Dawan

Comprendre l’architecture de Kafka et ses cas d’utilisation - Utiliser les APIs Kafka - Administrer un cluster - Construire une architecture haute-disponibilité - Sécuriser un cluster

Orsys
Flink, développer des applications pour le Big DataPar Orsys

Apache Flink est un nouvel outil de traitement de Big Data de quatrième génération qui change le paysage des technologies de traitement des données. Ce cours vous permettra d’utiliser Apache Flink pour développer des applications en Java en vue de traiter des flux massifs de données issues du Big Data en temps réel.

Nous utilisons les cookies afin de fournir les services et fonctionnalités proposés sur notre site et afin d’améliorer l’expérience de nos utilisateurs. En cliquant sur ”J’ai compris”, vous acceptez l’utilisation de ces cookies.