IB Formation

Big Data - Le SQL distribué

Par IB Formation

Objectifs

  • Comprendre les caractéristiques techniques des bases de données NoSQL
  • Connaître les différentes solutions disponibles pour réaliser des requêtes sur des bases de données distribuées (HDFS)
  • Être en mesure de choisir la solution la plus adaptée à son contexte

Programme

Présentation

  • Besoin
  • Comment concilier le quoi et le comment ?
  • Faciliter la manipulation de gros volumes de données en conservant une approche utilisateurs
  • Rappels sur le stockage : HDFS, Cassandra, HBase et les formats de données (parquet, orc, raw, clés/valeurs)
  • Les outils : Hive, Impala, Tez, Presto, Drill, Pig, Spark/QL

Hive et Pig

  • Présentation
  • Mode de fonctionnement
  • Rappel sur map/reduce
  • Hive : le langage HiveQL - Exemples
  • Pig : le langage pig/latin - Exemples

Impala

  • Présentation
  • Cadre d'utilisation
  • Contraintes
  • Liaison avec le métastore Hive
  • Travaux pratiques : mise en évidence des performances

Presto

  • Cadre d'utilisation
  • Sources de données utilisables
  • Travaux pratiques : mise en oeuvre d'une requête s'appuyant sur Cassandra, HDFS et PostgreSQL

Spark DataFrame

  • Les différentes approches
  • Syntaxe Spark/SQl
  • APIs QL
  • Compilation catalyst
  • Syntaxe, opérateurs
  • Comparaison avec Presto
  • Travaux pratiques : mise en oeuvre d'une requête s'appuyant sur HBase et HDFS

Drill/sqoop

  • Utilisation d'APIs JDBC, ODBC
  • Indépendance Hadoop
  • Contraintes d'utilisation
  • Performances

Comparatifs

  • Compatibilité ANSI/SQL
  • Approches des différents produits
  • Critères de choix

Pédagogie

  • Le passage en revue des principales solutions disponibles pour interroger des bases de données HDFS.
  • Des travaux pratiques sur différents environnements permettent aux participants d’évaluer concrètement les outils du marché.
  • Les retours d’expérience et conseils de consultants experts.

Formations de la même catégories (5)

M2i Formation
MapR - Architecture et administrationPar M2i Formation
  • Décrire l'administration des clusters MapR.
Dawan
Informix Database Initiation + ApprofondissementPar Dawan

Réaliser des schémas et requêtes quelconques sur Informix - Décrire l'architecture multi-tâches IBM Informix Dynamic Server - Installer, maintenir, administrer et optimiser un serveur IDS

Global Knowledge
Big Data : Architecture et technologiesPar Global Knowledge

Ce cours de synthèse vous présentera les enjeux et les apports du Big Data ainsi que les technologies pour sa mise en œuvre. Vous apprendrez à gérer un projet de gestion de données massives depuis l'installation d'une plateforme Big Data, tout en passant par la gestion, l'analyse et la visualisation des données.

Dawan
Apache Kafka : Echange de donnéesPar Dawan

Comprendre l’architecture de Kafka et ses cas d’utilisation - Utiliser les APIs Kafka - Administrer un cluster - Construire une architecture haute-disponibilité - Sécuriser un cluster

Orsys
Flink, développer des applications pour le Big DataPar Orsys

Apache Flink est Framework BigData récent. Il simplifie les traitements de flux gros débit temps réels comme les traitements batch sur d'énormes quantités de données (sur Hadoop HDFS, sur Amazon S3, sur MongoDB...). Ce cours vous permettra d'installer Flink et de réaliser, en Java, des traitements variés de Big Data.