Data Value

Détection d’anomalies – Outlier Detection

Par Data Value

Objectifs

Approfondir la connaissance de la détection d’anomalies dans un contexte de données numériques et/ou fonctionnelles à l’aide de méthodes principalement non-supervisées

Programme

- Introduction

  • Qu’est-ce qu’une anomalie ? une valeur influente ? une valeur extrême ?
  • Les différentes motivations à la détection d’anomalies
  • La notion de robustesse

- Les méthodes univariées

  • La règle du k-sigma et test de Grubbs
  • Règles du boxplot
  • Tests en fonction de la distribution

- Les méthodes multivariées - généralités

  • Les grandes approches dans la détection d’anomalies
  • Évaluation des méthodes
    • Caractéristiques souhaitées
    • Métriques
    • Contributeurs ou signature des défauts

- Les méthodes multivariées basées sur un modèle probabiliste

  • T2 de Hotelling, la distance de Mahalanobis et sa version robuste
  • Notion de profondeur et notion d’angles

- Les méthodes multivariées basées sur la détermination d’un sous-espace

  • L’ACP et sa version robuste
  • Les réseaux de neurones

- Les méthodes multivariées basées sur la notion de proximité

  • La classification non supervisée
  • Le LOF basé sur la densité

- Les méthodes pour des données fonctionnelles

  • Introduction au contexte de données fonctionnelles
  • L’analyse de données fonctionnelles
    • Méthode de lissage
    • Spline cubique
    • Polynômes locaux
    • Réduction de dimension
    • Grandeurs statistiques (moyenne…)
    • Décomposition en coefficients d’ondelettes
  • Méthodes de détection d’anomalies dans un contexte univarié
  • Méthodes de détection d’anomalies dans un contexte multivarié

- Les méthodes pour des données en HDLSS (grande dimension, faible taille d’échantillonnage)

  • Présentation des challenges induits par ce contexte
  • Les principales méthodes

Pédagogie

Pédagogie active mêlant exposés, exercices et applications pratiques.
Chaque participant pourra mettre en oeuvre les applications dans le logiciel de son choix parmi JMP ou R.

Formations de la même catégories (5)

Orsys
Splunk, analyse des données opérationnellesPar Orsys

Splunk est un outil qui ambitionne de nous aider dans la collecte et le tri de l'information pertinente : un outil que l'on pourrait désigner par "corrélateur d'événements". Cette formation vous permettra de configurer, analyser et générer des rapports sur les données en fonction de vos alertes personnalisées.

Data Value
Analyse des données : méthodes décisionnellesPar Data Value

Découvrir les principales méthodes décisionnelles d'analyse des données (arbres de décision, règles d'association, régression multiple, analyse discriminante, ...), choisir celle appropriée au problème et aux données. Interpréter les résultats numériques et graphiques, éviter les pièges, savoir résumer l'information obtenue et communiquer les résultats importants

Feel Europe
MyReport DataPar Feel Europe
  • Savoir implémenter un entrepôt de données avec MyReport
Orsys
Tableau Desktop, exploiter visuellement ses donnéesPar Orsys

Outil de visualisation de données, Tableau Desktop permet d'explorer les données, de les analyser et de les présenter dans un format graphique et visuel. A l'issue de ce stage pratique, vous serez à même de concevoir des visualisations de données évoluées et interactives.