IB Formation

Big Data - Architectures

Par IB Formation

Objectifs

  • Comprendre les concepts essentiels du Big Data
  • Connaître les technologies associées au Big Data sur le plan du stockage, des traitements et de la restitution de données
  • Savoir analyser les difficultés propres à un projet Big Data, les freins et les apports, tant sur les aspects techniques que sur ceux liés à la gestion du projet

Programme

Introduction

  • L'essentiel du Big Data : calcul distribué, données non structurées
  • Besoins fonctionnels et caractéristiques techniques des projets
  • La valorisation des données
  • Le positionnement respectif des technologies de Cloud, Big Data et noSQL et les liens, implications
  • Concepts clés : ETL, Extract Transform Load, CAP, 3V, 4V, données non structurées, prédictif, Machine Learning
  • Exemple d'application : Amazon Rekognition, Polly, EMR
  • L'écosystème du Big Data : les acteurs, les produits, état de l'art
  • Cycle de vie des projets Big Data
  • Emergence de nouveaux métiers : Data scientists, Data labs, Hadoop scientists, CDO, ...
  • Rôle de la DSI dans la démarche Big Data
  • Gouvernance des données : importance de la qualité des données, fiabilité, durée de validité, sécurité des données
  • Aspects législatifs : sur le stockage, la conservation de données, etc ...sur les traitements, la commercialisation des données, des résultats

Stockage distribué

  • Caractéristiques NoSQL
  • Les différents modes et formats de stockage
  • Les types de bases de données : clé/valeur, document, colonne, graphe
  • Besoin de distribution
  • Définition de la notion d'élasticité
  • Principe du stockage réparti
  • Définitions : réplication, sharding, gossip protocol, hachage
  • Systèmes de fichiers distribués : GFS, HDFS, Ceph
  • Les bases de données : Redis, Cassandra, DynamoDB, Accumulo, HBase, MongoDB, BigTable, Neo4j, ...
  • Données structurées et non structurées, documents, images, fichiers XML, JSON, CSV, ...
  • Moteurs de recherche
  • Principe de fonctionnement
  • Méthodes d'indexation
  • Recherche dans les bases de volumes importants
  • Présentation de d’Elasticsearch et SolR
  • Principe du schemaless, schéma de stockage, clé de distribution, clé de hachage

Calcul et restitution, intégration

  • Différentes solutions : calculs en mode batch, ou en temps réel, sur des flux de données ou des données statiques
  • Les produits : langage de calculs statistiques, R Statistics Language, sas, RStudio
  • Outils de visualisation : Tableau, QlikView
  • Ponts entre les outils statistiques et les bases Big Data
  • Outils de calcul sur des volumes importants : Kafka/Spark Streaming/Storm en temps réel, Hadoop/Spark en mode batch
  • Zoom sur Hadoop : complémentarité de HDFS et YARN
  • Restitution et analyse : logstash, kibana, elk, zeppelin
  • Principe de map/reduce et exemples d'implémentations, langages et sur-couches
  • Présentation de Pig pour la conception de tâches map/reduce sur une grappe Hadoop

Pédagogie

  • Une approche exhaustive des concepts et technologies mises en oeuvre dans les architectures Big Data : des outils aux solutions d'hébergement dans le Cloud, tous les aspects sont couverts par le programme.
  • Les retours d’expérience et conseils de consultants experts.

Formations de la même catégories (5)

M2i Formation
MapR - Architecture et administrationPar M2i Formation
  • Maîtriser l'administration des clusters MapR.
Dawan
Informix Database Initiation + ApprofondissementPar Dawan

Réaliser des schémas et requêtes quelconques sur Informix - Décrire l'architecture multi-tâches IBM Informix Dynamic Server - Installer, maintenir, administrer et optimiser un serveur IDS

Global Knowledge
Big Data : Architecture et technologiesPar Global Knowledge

Ce cours de synthèse vous présentera les enjeux et les apports du Big Data ainsi que les technologies pour sa mise en œuvre. Vous apprendrez à gérer un projet de gestion de données massives depuis l'installation d'une plateforme Big Data, tout en passant par la gestion, l'analyse et la visualisation des données.

Dawan
Apache Kafka : Echange de donnéesPar Dawan

Comprendre l’architecture de Kafka et ses cas d’utilisation - Utiliser les APIs Kafka - Administrer un cluster - Construire une architecture haute-disponibilité - Sécuriser un cluster

Orsys
Flink, développer des applications pour le Big DataPar Orsys

Apache Flink est un nouvel outil de traitement de Big Data de quatrième génération qui change le paysage des technologies de traitement des données. Ce cours vous permettra d’utiliser Apache Flink pour développer des applications en Java en vue de traiter des flux massifs de données issues du Big Data en temps réel.