Arkesys

Machine Learning & Méthodes statistiques appliquées aux processus de classification (variable qualitative)

Par Arkesys

Objectifs

  • Maîtriser le vocabulaire spécifique aux méthodes d’apprentissage à finalité de classement
  • Identifier le contexte et les conditions d’application des méthodes d’apprentissage supervisé et non supervisé
  • Connaître les objectifs et les différences entre les méthodes de classement
  • Décrire la méthodologie inhérente à ces méthodes
  • Mettre en œuvre et interpréter les résultats des méthodes d’apprentissage supervisé
  • Connaître les principaux indicateurs de cohérence liés aux méthodes d’apprentissage
  • Maitriser les paramètres permettant d’estimer la qualité de ces analyses

Programme

VOLET 1 : LES ALGORITHMES

Généralités sur les différentes méthodes d’apprentissage supervisé

  • Différences entre méthodes supervisées et non supervisées
  • Objectifs de l’apprentissage supervisé
    • Objectifs de description
    • Objectifs de prédiction
  • Structure des jeux de données
  • Présentation générale de l'éventail des méthodes

La méthode knn

  • Principe de la méthode des plus proches voisins
  • Algorithme de calcul
  • Distances entre individus
  • Choix des proximités
  • Définition du paramètre k

La régression logistique

  • Variable explicative et variable expliquée (continue / binaire)
  • Différences entre la régression linéaire classique et la régression logistique
  • Variables explicatives qualitatives, variables explicatives quantitatives
  • Objectifs de la régression logistique
  • Définition du modèle Logit (courbe sigmoïde)
  • Conditions d’utilisation à respecter
  • Estimation et interprétation des coefficients du modèle
  • Test de significativité du modèle (validation du modèle)
  • Tests d’apport d’une variable (test de Wald, tests sur les rapports de vraisemblance)
  • Interprétation du Khi² de Wald
  • Odds-ratios
  • Parallèle odds ratios et risques relatifs
  • Mise en œuvre et analyse des résultats d’un modèle de régression logistique multiple
  • Estimation et interprétation des coefficients du modèle multiple

L’analyse factorielle discriminante

  • Structure du jeu de données et contexte d’application
  • Objectifs détaillés de l'AFD
  • Notions de classement et de discrimination
  • Méthodologie de l’AFD
  • Comparaison avec l’ACP
  • Interprétation des sorties logiciel : cercle factoriels, corrélations variables x axes
  • Qualité de l'AFD (de la discrimination obtenue)
    • Tests univariés et multivariés (lambda de Wilks)
    • Graphique des individus
    • Matrice de confusion (et éventuellement courbe ROC)
  • Les confusions et erreurs à ne pas commettre

Les supports vecteurs machines (SVM)

  • Démarche des svm
  • Notions de marge
  • Séparation linéaire
  • Séparation non linéaire
  • Fonction noyau

Les arbres de décision

  • Structure du jeu de données
  • Principes, vocabulaire et objectifs
  • Notion d’échantillon d’apprentissage, de validation et de test
  • Comparaison de méthodes de type régression linéaire / logistique aux arbres de décision
  • Principe de la segmentation selon le type de variable : Arbre de régression ou arbre de classification
  • Définir les conditions d’arrêt de construction d’un arbre : Notion de pré-élagage
  • Définition des groupes après construction de l’arbre
  • Indicateurs de qualité
  • Comparaison d’arbre de décision selon un certain type d’algorithme : CHAID vs CART
  • Avantages et inconvénients : limites des arbres de décision
  • Mise en œuvre et interprétation des résultats obtenus après application d’une analyse par arbre de décision

De l’arbre à la foret - Random Forest

  • Pourquoi avoir recourt aux forêts aléatoires ?
  • Principes et objectifs
    • Instabilité de l’arbre
    • Notion de Bagging
    • Les erreurs liées à l’échantillonnage (Out-Of-Bag)
    • Prédiction avec un algorithme de Forêt aléatoire : Les paramètres
  • Evaluer l’importance des variables
    • Notion d’importance
    • Comportement de l’importance
    • Lien entre diversité des arbres et l’importance
    • Influence des paramètres
  • Sélection de variables
    • Généralités et principes de la sélection
    • Procédure de sélection
    • Les paramètres de sélection
    • Validation

VOLET 2 : VALIDATIONS DES METHODES, MESURE DES PERFORMANCES

  • Partitionnement des données disponibles

    • Jeu d’entrainement
    • Jeu de validation
    • Tests sur le jeu d’entrainement
    • Tests sur le jeu de validation
    • La validation croisée
    • Leave one out
    • K fold
    • Leave v out
    • Compromise biais / variance
    • Mesures des performances des classifications
    • Matrices de confusions
    • Courbe Roc
    • Aire sous la courbe (AUC)
    • Sensibilité & spécificité

Pédagogie

  • Explications théoriques suivies de pratiques guidées puis mises en autonomie
  • 1 vidéoprojecteur par salle
  • 1 ordinateur par stagiaire
  • Exercices de synthèse et d’évaluation
  • Evaluation de fin de stage
  • Support papier ou électronique (dématérialisé)
  • Les exercices d’accompagnement peuvent être récupérés sur clef USB