Demos

Cloudera Spark avec Hadoop pour Développeurs (Certifiant CCA)

Par Demos

Objectifs

  • intégrer et enregistrer des données dans un cluster Hadoop avec les techniques et les outils les plus récents
  • identifier et à utiliser les outils appropriés à chaque situation (utilisation de Spark, Hive, Flume, Sqoop et Impala afin de bénéficier de la meilleure préparation possible pour faire face aux défis quotidiens auxquels sont confrontés les développeurs Hadoop)

Programme

Introduction
Présentation de Hadoop et de son écosystème
L’architecture Hadoop et HDFS

Exercice : Distribuer, stocker et enregistrer les données dans un cluster Hadoop

Importer des données relationnelles avec Apache Sqoop

Exercice : Modéliser des données structurées en tant que tableau dans Impala et Hive

Introduction à Impala et Hive
Les formats de données
La partition des données
Les données Apache Flume

Exercice : Intégrer des données avec Sqoop et Flume

Les bases de Spark

Exercice : Enregistrer des données distribuées
Rédiger et déployer des applications Spark

La programmation parallèle avec Spark
Spark : mise en cache et persistence
Le traitement de données avec Spark et « Common patterns »

Exercice : Choisir le meilleur format de stockage de données pour différents patterns d’utilisation de donnée
Les meilleures pratiques pour le stockage de données

Spark SQL et DataFrames
Conclusion

Pédagogie

Cette formation big data comprend 50% de travaux pratiques sur les 4 jours de formation.
A la suite de la formation, les stagiaires auront la possibilité de passer l’examen « Cloudera Certified Associate Spark and Hadoop Developer (CCA175) ». Cet examen se déroule en dehors du temps de la formation. Ils deviendront alors des experts certifiés Cloudera dans leur entreprise. Inscription sur www.examslocal.com
Pour les formations "A distance", elles sont réalisées avec un outil de visioconférence de type Teams ou Zoom selon les cas, permettant au formateur d'adapter sa pédagogie.
Retrouvez sur notre site internet toutes les précisions sur les sessions à distance ou les classes virtuelles.

Formations de la même catégories (5)

Micropole Institut
Spark - Traitement de donnéesPar Micropole Institut

Cette formation permet de :

  • Se former à Spark, l'utiliser en ligne de commande et en développement
  • L'interfacer avec d'autres composants Big Data comme Kafka et Cassandra
  • Comprendre les notions de base des RDD (Resilient Distributed Datasets) et le partitionnement, le pipelining et les calculs de données
  • Comprendre les implications et les optimisations de performance lors de l'utilisation de Spark.
Openska
SparkPar Openska

Cette formation permet aux développeurs et architectes d’écrire simplement des applications distribuées complexes qui permettent de prendre des meilleurs décisions plus rapidement et des actions en temps réels, appliquées à une grande variété de cas d’utilisations, d’architectures et de secteurs d’activités.

Demos
Cloudera Spark avec Hadoop pour Développeurs (Certifiant CCA)Par Demos
  • intégrer et enregistrer des données dans un cluster Hadoop avec les techniques et les outils les plus récents
  • identifier et à utiliser les outils appropriés à chaque situation (utilisation de Spark, Hive, Flume, Sqoop et Impala afin de bénéficier de la meilleure préparation possible pour faire face aux défis quotidiens auxquels sont confrontés les développeurs Hadoop)
Global Knowledge
Développement MapReduce & Spark sur HadoopPar Global Knowledge

Hadoop est un framework libre et Open Source destiné à faciliter la création d’applications distribuées pour le stockage et le traitement d’immenses volumes de données. Cette formation vous permettra d’acquérir les compétences nécessaires pour développer des solutions compatibles avec la plateforme Hadoop. Vous apprenez à développer des applications MapReduce et Spark sur cette plateforme.

Global Knowledge
Introduction à SparkPar Global Knowledge

Apache Spark est un framework open source de calcul distribué en mémoire permettant le traitement de grands volumes. Le but de cette formation est de présenter le framework Spark et d’apprendre à l’utiliser avec le langage Python pour traiter des problèmes de Big Data.