Micropole Institut

Spark - Traitement de données

Par Micropole Institut

Objectifs

Cette formation permet de :

  • Se former à Spark, l'utiliser en ligne de commande et en développement
  • L'interfacer avec d'autres composants Big Data comme Kafka et Cassandra
  • Comprendre les notions de base des RDD (Resilient Distributed Datasets) et le partitionnement, le pipelining et les calculs de données
  • Comprendre les implications et les optimisations de performance lors de l'utilisation de Spark.

Programme

Introduction au Big Data

  • Apache Spark
  • Spark version MapReduce
  • Architecture de Spark
  • Interagir avec Spark
  • Resilient Distributed Datasets (RDD)

Poste de travail

  • Différents composants ( Kafka, Spark, Cassandra)
  • Outils de développement
  • Travaux Pratiques

Introduction à Scala

  • Les types de données
  • La manipulation des données (Map, FlatMap,For)
  • La programmation fonctionnelle
  • L'approche immutable
  • Exercices

Kafka, fonctionnement

  • TP Kafka
  • Spark Streaming
  • Développement Spark Streaming
  • Générer une source de données
  • Faire un traitement

Présentation SQL

  • Concevoir un modèle de données
  • Ecrire des requêtes
  • Spark SQL
  • TP simples

Support Cassandra

  • Description rapide de l'architecture Cassandra
  • Mise en œuvre depuis Spark.
  • Exécution de travaux Spark s'appuyant sur une grappe Cassandra.

Pédagogie

1 poste et 1 support par stagiaire
8 à 10 stagiaires par salle
Remise d'une documentation pédagogique papier ou numérique pendant le stage
La formation est constituée d'apports théoriques, d'exercices pratiques, de réflexions et de retours d'expérience

Formations de la même catégories (5)

Micropole Institut
Spark - Traitement de donnéesPar Micropole Institut

Cette formation permet de :

  • Se former à Spark, l'utiliser en ligne de commande et en développement
  • L'interfacer avec d'autres composants Big Data comme Kafka et Cassandra
  • Comprendre les notions de base des RDD (Resilient Distributed Datasets) et le partitionnement, le pipelining et les calculs de données
  • Comprendre les implications et les optimisations de performance lors de l'utilisation de Spark.
Openska
SparkPar Openska

Cette formation permet aux développeurs et architectes d’écrire simplement des applications distribuées complexes qui permettent de prendre des meilleurs décisions plus rapidement et des actions en temps réels, appliquées à une grande variété de cas d’utilisations, d’architectures et de secteurs d’activités.

Demos
Cloudera Spark avec Hadoop pour Développeurs (Certifiant CCA)Par Demos
  • intégrer et enregistrer des données dans un cluster Hadoop avec les techniques et les outils les plus récents
  • identifier et à utiliser les outils appropriés à chaque situation (utilisation de Spark, Hive, Flume, Sqoop et Impala afin de bénéficier de la meilleure préparation possible pour faire face aux défis quotidiens auxquels sont confrontés les développeurs Hadoop)
Global Knowledge
Développement MapReduce & Spark sur HadoopPar Global Knowledge

Hadoop est un framework libre et Open Source destiné à faciliter la création d’applications distribuées pour le stockage et le traitement d’immenses volumes de données. Cette formation vous permettra d’acquérir les compétences nécessaires pour développer des solutions compatibles avec la plateforme Hadoop. Vous apprenez à développer des applications MapReduce et Spark sur cette plateforme.

Global Knowledge
Introduction à SparkPar Global Knowledge

Apache Spark est un framework open source de calcul distribué en mémoire permettant le traitement de grands volumes. Le but de cette formation est de présenter le framework Spark et d’apprendre à l’utiliser avec le langage Python pour traiter des problèmes de Big Data.