Orsys

Talend Open Studio for Data Quality, gérer la qualité des données

Par Orsys

Objectifs

  • Se connecter aux sources de données, produire des statistiques, identifier les données à profiler
  • Choisir les différents types d'indicateurs et d'analyses adaptés aux données à contrôler
  • Mettre en œuvre des analyses complexes permettant de vérifier des règles métiers
  • Définir des stratégies de correction des données erronées via des jobs de Talend Data Integration

Programme

La problématique de la qualité des données

  • L'évaluation de la qualité des données d'un système d'information.
  • Critères fondamentaux : exhaustivité, précision et intégrité des données.
  • Positionnement du produit Talend Open Studio for Data Quality dans la suite Talend.

Travaux pratiques
Installation du produit, configuration des préférences.

Les concepts fondamentaux de TOS for Data Quality

  • Les métadonnées : connexions aux bases, fichiers délimités et fichiers Excel.
  • Présentation des différents types d'analyses.
  • Les outils et indicateurs d'aide à la réalisation des analyses.
  • L'explorateur de données.

Travaux pratiques
Effectuer une première analyse de colonne sur des données issues d'un fichier csv, exploitation des résultats obtenus.

Les analyses simples

  • Recherche de doublons, respect de contraintes d'intervalle, format de date, d'email...
  • Métriques d'une table, dépendances fonctionnelles entre colonnes.
  • Identification des redondances de valeurs.
  • Contrôles de cohérence entre clefs étrangères et primaires.
  • Utiliser les indicateurs, les modèles, les règles et les fichiers sources.

Travaux pratiques
Réaliser une analyse de chaque type sur un jeu de données partiellement erronées.

Les analyses avancées

  • Analyse de schéma et de la structure des tables via l'explorateur de données.
  • Analyse multitable et multicolonne, respect de règles métiers.
  • Recherche et visualisation de corrélation entre colonnes.
  • Créer ses propres indicateurs et fichiers sources.
  • Gérer les analyses.

Travaux pratiques
Créer une règle métier complexe impliquant plusieurs tables et l'associer à une tâche. Publier la règle dans la forge Talend.

Eléments avancés

  • Utiliser des variables de contexte.
  • Créer des modèles basés sur des expressions régulières.
  • Exporter/importer les analyses et les données analysées.
  • Corriger les données erronées avec Talend Data Integration.

Travaux pratiques
Paramétrer les métadonnées et les analyses à l'aide de variables de contexte, exporter les données analysées pour les corriger dans Talend Data Integration.

Pédagogie

70 % du temps est consacré à la pratique de l'outil. Chaque participant possède son poste de travail.

La problématique de la qualité des données

  • L'évaluation de la qualité des données d'un système d'information.
  • Critères fondamentaux : exhaustivité, précision et intégrité des données.
  • Positionnement du produit Talend Open Studio for Data Quality dans la suite Talend.

Travaux pratiques
Installation du produit, configuration des préférences.

Les concepts fondamentaux de TOS for Data Quality

  • Les métadonnées : connexions aux bases, fichiers délimités et fichiers Excel.
  • Présentation des différents types d'analyses.
  • Les outils et indicateurs d'aide à la réalisation des analyses.
  • L'explorateur de données.

Travaux pratiques
Effectuer une première analyse de colonne sur des données issues d'un fichier csv, exploitation des résultats obtenus.

Les analyses simples

  • Recherche de doublons, respect de contraintes d'intervalle, format de date, d'email...
  • Métriques d'une table, dépendances fonctionnelles entre colonnes.
  • Identification des redondances de valeurs.
  • Contrôles de cohérence entre clefs étrangères et primaires.
  • Utiliser les indicateurs, les modèles, les règles et les fichiers sources.

Travaux pratiques
Réaliser une analyse de chaque type sur un jeu de données partiellement erronées.

Les analyses avancées

  • Analyse de schéma et de la structure des tables via l'explorateur de données.
  • Analyse multitable et multicolonne, respect de règles métiers.
  • Recherche et visualisation de corrélation entre colonnes.
  • Créer ses propres indicateurs et fichiers sources.
  • Gérer les analyses.

Travaux pratiques
Créer une règle métier complexe impliquant plusieurs tables et l'associer à une tâche. Publier la règle dans la forge Talend.

Eléments avancés

  • Utiliser des variables de contexte.
  • Créer des modèles basés sur des expressions régulières.
  • Exporter/importer les analyses et les données analysées.
  • Corriger les données erronées avec Talend Data Integration.

Travaux pratiques
Paramétrer les métadonnées et les analyses à l'aide de variables de contexte, exporter les données analysées pour les corriger dans Talend Data Integration.

PDF

Imprimer

Envoyer

Envoyer la page à :

Formations de la même catégories (5)

Orsys
Talend Open Studio for ESB, intégration de servicesPar Orsys

Cette formation vous permettra de prendre en main l'environnement de développement Talend Open Studio for ESB. Ses fonctionnalités vous permettront de concevoir des solutions d'intégration à faible couplage basées sur l'échange de messages, les services Web, le routage intelligent et la transformation de données.

Dawan
Talend Open Studio ESBPar Dawan

Utiliser Talend pour ESB - Générer un service REST depuis l'interface graphique

M2i Formation
Talend - ExpertisePar M2i Formation
  • Maîtriser les composants avancés de Talend
  • Fédérer votre code pour gagner du temps
  • Débugger et déployer vos jobs
  • Etendre Talend en créant vos propres composants.
Micropole Institut
Talend MDM (Master Data Management)Par Micropole Institut

À l'issue de cette formation, vous serez capable de :

  • Utiliser les outils MDM de Talend pour modéliser des données en utilisant les approches relationnelle et hiérarchique
  • Créer des règles de validation
  • Déployer un modèle sur le serveur MDM
  • Utiliser Talend MDM web user interface pour gérer vos utilisateurs et vos données
  • Optimiser la visualisation du modèle dans Talend MDM web user interface
Orsys
Talend Open Studio, optimiser ses flux de donnéesPar Orsys

L'ETL Talend permet d'ajouter simplement de nouvelles fonctions et composants afin de réaliser des processus complexes. Ce stage vous permettra de prendre en main les fonctionnalités avancées de Talend Open Studio, afin d'aboutir à une mise en place optimisée et fiable des flux de données.

Nous utilisons les cookies afin de fournir les services et fonctionnalités proposés sur notre site et afin d’améliorer l’expérience de nos utilisateurs. En cliquant sur ”J’ai compris”, vous acceptez l’utilisation de ces cookies.