M2i Formation

IBM InfoSphere Advanced DataStage - Parallel Framework 11.5

Par M2i Formation

Objectifs

  • Décrire l'architecture parallèle et les rôles et éléments des fichiers de configuration de DataStage
  • Décrire le processus d'exécution du runtime job
  • Comprendre comment fonctionne le partitionnement et la collecte de données dans la structure parallèle
  • Lister et sélectionner les algorithmes de partionnement et de collecte
  • Décrire les techniques d'optimisation de tri et la fonction tampon dans la structure parallèle
  • Décrire les techniques d'optimisation de tampon
  • Connaître et travailler les types de données et éléments de la structure parallèle
  • Décrire le fonctionnement et l'utilisation de la propagation de la colonne Runtime (RCP)
  • Créer des composants réutilisables d'emploi à l'aide de conteneurs partagés
  • Décrire le fonctionnement et l'utilisation de l'optimisation équilibré
  • Optimiser les travaux parallèles DataStage.

Programme

Introduction à l'architecture de cadres parallèles

  • Décrire l'architecture de traitement en parallèle
  • Décrire le parallélisme des pipelines et des partitions
  • Décrire le rôle du fichier de configuration
  • Concevoir un travail qui crée des données de test robustes

Compilation et exécution de travaux

  • Décrire les principales parties du fichier de configuration
  • Décrire le processus de compilation et la SST que le processus de compilation génère
  • Décrire le rôle et les principales parties du SCORE (Solution for Compliance in a Regulated Environment)
  • Décrire le processus d'exécution du travail 3
  • Partitionnement et collecte de données
  • Comprendre comment fonctionne le partitionnement dans le cadre
  • Affichage des partitions dans le SCORE
  • Sélection d'algorithmes de partitionnement
  • Générer des séquences de nombres (clés de substitution) dans un environnement partitionné et parallèle

Tri des données

  • Trier les données dans le cadre parallèle
  • Trouver des tris insérés dans le SCORE
  • Réduire le nombre de tris insérés
  • Optimiser les travaux de Fork-Join
  • Utilisez les étapes de tri pour déterminer la dernière ligne d'un groupe
  • Décrire la clé de tri et la logique de la clé de partition dans le cadre parallèle

Buffering dans les jobs parallèles

  • Décrire le fonctionnement du tamponnage en parallèle
  • Accorder des tampons dans des tâches parallèles
  • Evitez les conflits de mémoire tampon

Types de données de cadre parallèle

  • Décrire les ensembles de données virtuelles
  • Décrire les schémas
  • Décrire les mappages et les conversions de type de données
  • Décrire la façon dont les données externes sont traitées
  • Manipuler des "nulls"
  • Travailler avec des données complexes

Composants réutilisables

  • Créer un fichier de schéma
  • Lire un fichier séquentiel à l'aide d'un schéma
  • Décrire la propagation de colonne d'exécution (RCP)
  • Activer et désactiver RCP
  • Créer et utiliser des conteneurs partagés

Optimisation équilibrée

  • Activer la fonctionnalité d'optimisation équilibrée dans Designer
  • Décrire le flux de travail de Balanced Optimization
  • Enumérer les différentes options de Balanced Optimization
  • Traitement en mode push à une source de données
  • Traitement en mode push vers une cible de données
  • Optimiser un accès au système Hadoop HDFS
  • Comprendre les limites des Balanced Optimizations

Pédagogie

L'évaluation des acquis se fait :

  • En cours de formation, par des études de cas ou des travaux pratiques
  • Et, en fin de formation, par un questionnaire d'auto-évaluation ou une certification (M2i ou éditeur)

Partager cette formationTélécharger au format pdf Ajouter à mes favoris

Formations de la même catégories (5)

Global Knowledge
IBM InfoSphere DataStage v11.5 - Traitements Avancés des DonnéesPar Global Knowledge

Ce cours de 2 jours est conçu pour présenter les traitements de données liés à des travaux parallèles avancés avec DataStage v11.5.

Dans ce cours, vous découvrirez les techniques pour gérer différents types de données complexes y compris les données relationnelles, les données non structurées (feuilles de calcul Excel) et des données XML.

De plus, vous apprendrez les techniques avancées pour traiter les données, y compris les techniques pour masquer des données et les techniques pour valider des données en utilisant des règles de gestion des données. Enfin, vous apprendrez les techniques pour mettre à jour les données dans un schéma en étoile d'un entrepôt de données en utilisant les étapes du SCD (Slowly Changing Dimensions) de DataStage. Même si vous ne travaillez pas avec tous les types de données spécifiées, vous pourrez bénéficier de ce cours en apprendant les techniques avancées de conception de DataStage, des techniques qui vont au-delà de celles qui sont utilisées dans le cadre de la formation KM204G : IBM InfoSphere DataStage Essentials V11.5.

Ce contenu est lié à l'ERC 1.0.

Global Knowledge
InfoSphere MDM Virtual Foundation v11.4Par Global Knowledge

This course is designed as the starting point for any technical specialist working with the InfoSphere MDM Virtual module. This course walks you through the major components of the InfoSphere MDM Virtual module, the data model, the matching engine and how customization can be implementated. You will learn how to invoke the InfoSphere MDM interactions and the various configuration and extension points of a service. The course is also used as an intro to various compoments that make up the MDM Architecture and prepares you to identify how the MDM will fit into their organization and what pieces may be customize to fit their business requirements.

Global Knowledge
IBM InfoSphere Advanced DataStage - Parallel Framework v11.5Par Global Knowledge

IBM InfoSphere DataStage intègre des données sur de multiples systèmes en utilisant une structure parallèle à haute performance et prend en charge la gestion étendue des métadonnées et la connectivité d'entreprise.

Cette formation vise à introduire les techniques de développement de jobs parallèles avancés dans IBM DataStage. Les participants renforcent leur compréhension de l’architecture de DataStage, y compris du développement de DataStage et des environnements d’exécution. Ils sont ainsi en mesure de concevoir des travaux parallèles robustes, moins sujets à des erreurs, réutilisables, et optimisés pour de meilleures performances.

Global Knowledge
InfoSphere BigMatch for Hadoop (v11.4)Par Global Knowledge

Ce cours de 2 jours fait découvrir InfoSphere Big Match et sa technologie – Probabilistic Matching Engine (PME).

Les participants apprendront comment Big Match peut être utilisé pour résoudre et découvrir des entités à travers plusieurs jeux de données dans Apache Hadoop. Ils découvriront ausi les bases d'un algorythme PME, y compris la configuration du modèle de données, la standardisation, la comparaison et les fonctions de décompactage (bucketing), la génération de poids et les limites.

Pendant les démonstrations et les exercices, les participants travailleront sur un cas pratique, dans lequel ils appliqueront leur connaissance de Big Match pour découvrir les relations entre deux jeux de données.

Global Knowledge
InfoSphere MDM Domain v11.4Par Global Knowledge

This course is designed for anyone who wants to get an understanding of the Data Domains for the InfoSphere Master Data Management Physical Module. This course takes a comprehensive look at the three core data domains of InfoSphere MDM: Party, Account, and Product. For each of the domains spanned by InfoSphere MDM, participants will be exposed to the data model, services, and rules associated with the main entities of that domain. Heavy emphasis is put on exercises and activities so that the participants can apply the knowledge that they learn after course conclusion.