Ambient IT

Langage R

Par Ambient IT

Objectifs

  • Initiation au langage R
  • Comprendre l’apprentissage non supervisé et supervisé
  • Anticiper le Deep Learning

Programme

Jour 1 – Philosophie data science

  • Historique rapide
  • Fondements formel de l’apprentissage machine.
  • Distinction supervisé, non supervisé, par renforcement, trade off biais variance
  • « Big Data » : Ni plafond ni plancher
  • Théorie de la longue traîne appliquée aux données
  • 2 approches : connaître l’avenir ou le changer ?
  • Une stratégie de microdécision plus qu’un outil de décision

Initiation à R

  • Fondamentaux
  • Chargement des données avec data.table
  • Exploration des données : par synthèse, par visualisation. Exercices de sélection / filtrage
  • Traitement des données catégorielles, notion de dummy variable
  • Traitement des données manquantes
  • Gestion des formats (dont temps et lieux)
  • Génération de nouvelles features : exploitation approfondie du format datatable

Jour 2 – Apprentissage non supervisé

  • Approche synthèse
    • Synthese par colonne : Réduction de dimension : PCA / ICA
    • Synthèse par ligne : clustering
    • Kmeans
    • Hiérarchique (top down ou bottom up
    • Méthode d’évaluation de performance : variance / indicateur de silhouette
  • Approche valeurs manquantes
    • Décomposition SVD
    • SGD, ALS

Jour 3 – Apprentissage supervisé

  • Régression lin2aire
    • Formulation, condition d’usage
  • Analyse de performance, pvalue, détection de performance
    • Notion d’overfitting
    • R2 et R2 ajusté
  • Sélection de feature : approche forward, stepwise
  • Approche pénalisée
    • Ridge, Lasso, élastic net.
    • Interprétation géométrique
  • Arbres de décision
    • Principe de construction
    • Prunning
    • Interprétation, contexte d’exploitation
  • Random Forest
    • Comment dépasser les limites de l’arbre de décision
    • Feature importance, importance locale
  • Gradient boosting
    • Principes
    • Réglages
  • XGBosst (extreme gradient boosting)
    • Principes, réglages

Jour 4 – Réglage fin et dépouillement de modèle

  • Approfondissement des techniques de réglage de modeles
    • Fonctions de coût, RMSE, courbe roc et indicateur auc
    • Précautions de réglage, pièges à éviter
  • Dépouillement de modèle
    • Où était l’information ?
    • Simplifier le modèle, sélection de feature avancée

Initiation text mining et NLP

  • Lois de Heaps et de Zipf
  • Comment structurer une source non structurée
    • Approche bag of words
    • Stop word et normalisation TF IDF
  • Vers le NLP (natural language processing)
    • Analyse sémantique
    • Approche deep learning

Jour 5 – Initiation Deep Learning

  • Réseaux de neurone
  • Architecture de réseaux
    • Convolution
    • LSTM
  • Découverte de l’environnement Keras pour déployer

Gestion de projet

  • Les différentes phases d’un projet data
  • Adaptation de la gestion de projet Agile aux projets data
  • Structurer le dialogue data science / métier
  • Piloter le projet
  • Comment faire émerger les projets ? Quand s’arrêter ?

Formations de la même catégories (5)

Data Value
Rmarkdown – Rapports automatisés sous RPar Data Value

Produire, de façon automatisée, des documents de travail contenant du texte, du code R, et les sorties de ces codes R, tout en s’inscrivant dans une démarche de travail reproductible. Les documents pourront être générés en format HTML, Word ou PDF.

Micropole Institut
R - ShinyPar Micropole Institut

L'objectif de cette formation est de mettre en place une application complète avec R Shiny.

Orsys
Environnement R, traitement de données et analyse statistiquePar Orsys

R est un environnement logiciel Open Source spécialisé dans le calcul et l'analyse statistique. Ce stage vous présentera ses concepts et ses fonctionnalités. Il vous montrera comment manipuler les données et leur appliquer des modèles statistiques dans le cadre de cet environnement.

Arkesys
Logiciel R / R Studio - Graphiques - Commandes de bases et initiation au package ggplot2Par Arkesys

La formation en quelques mots

Cette formation s'adresse à des personnes souhaitant appréhender la construction et la modification des graphiques sous R. Au cours de la formation, nous utiliserons les fonctionnalités standards de R pour la création des graphiques mais également un package permettant de générer des graphiques plus évolués et esthétiques : ggplot2. Il ne s’agit donc pas d’une formation sur le fond statistique mais bien d’une formation orientée logiciel.

Thèmes principaux

Jeux de données

Afin de s'approcher au mieux des réalités quotidiennes des praticiens, nous suggérons de nous appuyer pour l'animation pratique de thématiques et surtout de jeux de données reflétant le quotidien des apprenants.
Cet élément est un facteur de réussite pour la formation. Elle permet aux apprenants de :

Il sera donc pertinent que les apprenants puissent réfléchir en amont de la formation à des problématiques, jeux de données ou documents susceptibles d’être utilisés en support lors de la formation.

Arkesys
Logiciel R / R Studio - Niveau 1 Outils de BasePar Arkesys

Cette formation s'adresse à des personnes souhaitant prendre en main le logiciel R. Précisons que l’animation s’appuiera sur l’usage de R Studio. Les compétences acquises concerneront :

Il ne s’agit pas d’une formation sur les méthodes statistiques mais bien d’une formation sur le logiciel R. En outre, il ne s’agit pas d’une formation sur les techniques de programmation avancée sous R.
A l'issue de la formation, le stagiaire sera capable de mettre en œuvre des scripts simples sur la manipulation et l'analyse de données peu complexes.

Thèmes principaux

Jeux de données

Afin de s'approcher au mieux des réalités quotidiennes des praticiens, nous suggérons de nous appuyer pour l'animation pratique de thématiques et surtout de jeux de données reflétant le quotidien des apprenants.
Cet élément est un facteur de réussite pour la formation. Elle permet aux apprenants de :

Il sera donc pertinent que les apprenants puissent réfléchir en amont de la formation à des problématiques, jeux de données ou documents susceptibles d’être utilisés en support lors de la formation.

Nous utilisons les cookies afin de fournir les services et fonctionnalités proposés sur notre site et afin d’améliorer l’expérience de nos utilisateurs. En cliquant sur ”J’ai compris”, vous acceptez l’utilisation de ces cookies.