Ambient IT

Introduction au Deep Reinforcement Learning

Par Ambient IT

Objectifs

  • Maîtrise des concepts du reinforcement learning et des approches « model-free » principales.
  • Compréhension des approches basées sur l’exploration et étude des approches d’optimisation
  • Étude de solutions « modelbased » : apprentissage du modèle ou utilisation directe
  • Illustration des points abordée via les exemples d’application AlphaGo et AlphaGoZero

Programme

[JOUR 1]

1. Introduction aux concepts du Reinforcement Learning

  • Présentation du reinforcement learning : contrôle d’un agent dans un environnement défini par un état et des actions possibles. Modélisations fondamentales
  • Modélisation en Markov Decision Processes, définition des Value Functions, équation de Bellman, dynamic programming. Distinction entre observation et état de l’environnement
  • Approche par Value prediction : Temporal Difference & Monte Carlo. Mise en exemple de ces algorithmes
  • Policy iteration & evaluation : algorithme fondamental de convergence d’une politique d’action.
  • Q Learning

2. Model Free Deep Reinforcement Learning (deux exemples d’implémentation Tensorflow ou PyTorch sont étudiés selon les directions des élèves)

  • Deep Q-Learning : Approche fondamentale, approximation de la fonction Q, Experience Replay, Double Q Learning. Étude des résultats en détail
  • Deep Recurrent Q-Learning : Problématique d’un état partiellement observable. Comparaison avec le Deep Q Learning
  • Rainbow : analyse des avancées et modifications d’architecture en Deep Q Learning: dueling networks, prioritized experience replay, approche distributionnelle, utilisation d’un bruit. Analyse des apports combinés et individuels de chaque approche

Références :
– Playing Atari with Deep Reinforcement Learning, Mnih et al, 2013.
– Deep Recurrent Q-Learning for Partially Observable MDPs, Hausknecht and
Stone, 2015
– Rainbow: Combining Improvements in Deep Reinforcement Learning,
Hessel et al, 2017.

  • Policy Gradients : Architecture Actor Critic
  • Approche Asynchrone A3C. Définition asynchrone du Deep Q Learning. Algorithme A3C, intérêt, performances et souplesse de l’approche asynchrone
  • Évolution d’une policy par policy gradient : Trusted Policy Optimization et Proximal Policy Optimization. Avantages apportés par l’approche PPO. Étude des résultats et des conditions d’application.
  • Soft actor critic : utilisation d’un paramètre d’entropie pour maximiser l’exploration. Détails d’architecture

Références :
– Asynchronous Methods for Deep Reinforcement Learning, Mnih et al, 2016
– Proximal Policy Optimization Algorithms, Schulman et al, 2017.

  • Approche distributionnelle : adaptation des équations et définitions fondamentales. Motivation de l’approche et résultats observés.
  • Algorithmes à évolution : utilisation de Natural Evolution Strategies pour une convergence Deep Reinforcement Learning. Vision de l’optimisation et de la parallélisation possible de l’apprentissage. Analyse des résultats comparés.

Références :
– Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement
Learning with a Stochastic Actor, Haarnoja et al, 2018
– Evolution Strategies as a Scalable Alternative to Reinforcement Learning,
Salimans et al, 2017

[JOUR 2]

3. Exploration de l’environnement

  • Exploration versus apprentissage : quelle pondération, quel intérêt ? Comment définit-on l’exploration ?
  • Étude des explorations basées sur un décompte des états/actions.
  • Analyse des modélisations possibles de l’état par Hash. Apprentissage du hash par Variational Autoencoder (rappel des principes du VAE)
  • Concepts de « curiosité »
  • Approche basée uniquement sur l’exploration sans récompense directe. Résultats, intérêts et discussions

Références :
– Exploration: A Study of Count-Based Exploration for Deep Reinforcement
Learning, Tang et al, 2016
– Large-Scale Study of Curiosity-Driven Learning, Burda et al, 2018

4. Model based Deep Reinforcement Learning : apprentissage du modèle.

  • Mise en œuvre de l’apprentissage d’un modèle interne à l’agent devant représenter l’environnement.
  • Étude des différentes stratégies de modélisation. Approche probabiliste ou déterministe.
  • Entrainement d’un modèle dans son environnement « interne » et application à l’environnement cible.
  • Étude du concept d’ « imagination » (Deepmind), Imagination Augmented Agent. Exploitation d’un apprentissage libre avec modélisation des états futurs d’une manière interne. Études d’ablation.
  • Résultats comparés

Références :
– Imagination-Augmented Agents for Deep Reinforcement Learning, Weber
et al, 2017
– Recurrent World Models Facilitate Policy Evolution, Ha and Schmidhuber,
2018.

5. Approches model-based : AlphaGo, AlphaGo Zero et dérivés

  • Monte Carlo Tree Search (MCTS) : analyse de l’algorithme fondamental
  • AlphaGo : analyse de l’apprentissage en quatre étapes, et utilisation de la MCTS pondérant les différents réseaux de neurones disponibles. Analyse de la performance et des résultats
  • AlphaGo Zero : analyse des évolutions, utilisation de la MCTS au sein de l’apprentissage. Comparaison AlphaGo VS AlphaGO Zero
  • AlphaZero : généralisation de l’approche AlphaGo Zero à d’autres approches
  • Imitation Learning : définition et exemples
  • Expert Iteration : utilisation de la MCTS pour modélisation interne d’un modèle expert permettant de mettre en oeuvre l’imitation learning.

Références :
– Mastering Chess and Shogi by Self-Play with a General Reinforcement
Learning Algorithm, Silver et al, 2017
– Thinking Fast and Slow with Deep Learning and Tree Search, Anthony et al,
2017

6. Scaling d’un apprentissage RL et algorithmes récents

  • Analyse des possibilités de parallélisation GPU versus CPU. Stratégies d’approches et de mitigation. Vision « data-efficiency » des approches proposées.
  • Approche distributive pour parallélisation plus importante des apprentissages
  • Analyse de l’algorithme R2D2 : utilisation de modèles récurrents et parallélisation, analyse poussée des biais induits par la variation de l’état caché du réseau

Références :
– Accelerated Methods for Deep Reinforcement Learning, Stooke and Abbeel,
2018
– Recurrent Experience Replay in Distributed Reinforcement Learning,
Kapturowski et al, 2018

Formations de la même catégories (5)

Ambient IT
TensorFlowPar Ambient IT

TensorFlow est devenu en un temps record l’un des frameworks de référence pour le Deep Learning et l’Intelligence Artificielle, utilisé aussi bien dans la recherche qu’en entreprise pour des applications en production.

Formez-vous dès maintenant au Framework IA de Référence !

Avec 25K contributeurs, Tensorflow fait partie du TOP 10 des projets les plus suivi actuellement sur GitHub et vous allez découvrir dans cette formation que ce n’est pas un hasard ! Des milliers de personnes contribuent également à ses dépendances, comme Numpy, Pytest, etc.

Découvrez comment résoudre des problèmes difficiles de Machine Learning avec la nouvelle librairie Open Source Tensorflow, le système révolutionnaire de Google d’apprentissage profond. Cette formation pratique vous montre comment construire, et quand utiliser, des architectures d’apprentissage profond. Vous apprendrez comment concevoir des systèmes capables de détecter des objets dans des images, comprendre la parole humaine, analyser la vidéo et prédire certains phénomènes. Nous aborderons ces concepts à travers des exemples pratiques afin que vous puissiez utiliser cette technologie dans vos projets Big Data. La formation AI & Deep Learning avec Tensorflow abordera les réseaux de neurones (convolutional neural networks). Vous maîtriserez également les concepts clés tels que la fonction SoftMax, les réseaux neuronaux à code automatique (Autoencoder Neural Networks), les réseaux récurrents, la machine Boltzmann restreinte (RBM, Restricted Boltzmann Machine).

Comme dans toutes nos formations, celle-ci vous présentera la toute dernière version stable de TensorFlow 2.4, sortie en Janvier 2020 couplée à Python 3.9.

ENI SERVICE
Deep Learning – Mise en oeuvre du traitement des languesPar ENI SERVICE

Cette formation présente les fondamentaux du Deep Learning appliqués au traitement du langage ainsi que les principales techniques utilisées dans l'industrie. Les travaux pratiques s'appuieront sur des données réelles et présenteront des modèles récents. Certains points aborderont des sujets de recherche récents.

Tanit Formation
Machine learning - concepts et mise en oeuvrePar Tanit Formation

Cette formation présente les fondamentaux du Machine Learning ainsi que les principales techniques utilisées dans l'industrie. Les travaux pratiques s'appuieront sur des données réelles.

Ambient IT
Atelier Découverte sur le Deep Learning avec TensorflowPar Ambient IT

Un atelier sur le Deep Learning d’une journée conçu pour les développeurs. Aucune compétence en Python ni en Machine Learning n’est nécessaire pour faire cet atelier. Venez avec votre curiosité et votre envie d’apprendre

Pendant quelques heures, vous allez coder vous-même un réseau de neurones profond pour résoudre une problématique définie d’apprentissage supervisé. Vous allez commencer par coder chaque fonction en python et vous verrez de vos propres yeux comment fonctionne le deep learning sous le capot. Dans un deuxième temps, vous allez refactoriser votre code à l’aide de TensorFlow, la librairie de machine learning la plus utilisée du monde.

Le Machine Learning est un sujet passionnant et en plein essor. Mais pour les développeurs logiciels, ce n’est pas toujours évident de trouver le temps de se lancer dans l’apprentissage de ce domaine, surtout quand on est en poste. Cet atelier a été conçu pour vous faire découvrir les réseaux de neurones profonds et vous permettre de faire vos premiers pas dans ce domaine !

Le Deep Learning est l’une des techniques les plus populaires pour faire du Machine Learning et une journée est suffisante pour acquérir des bonnes bases et vous permettre de mieux structurer votre projet d’apprentissage du vaste domaine qui est le Machine Learning et l’intelligence artificielle.

Pendant quelques heures, vous allez coder vous-même un réseau de neurones profond pour résoudre une problématique définie d’apprentissage supervisé. Vous allez commencer par coder chaque fonction en python et vous verrez de vos propres yeux comment fonctionne le deep learning sous le capot. Dans un deuxième temps, vous allez refactoriser votre code à l’aide de Tensorflow, la librairie de machine learning la plus utilisée du monde.

La plupart de développeurs logiciels tombent dans l’erreur de se spécialiser dans l’utilisation d’un outil, sans connaître le comment et le pourquoi (don’t be a tools user !). Notre objectif n’est pas de vous apprendre à utiliser un outil ou une technologie, mais plutôt de vous faire comprendre la logique derrière celle-ci. Un ingénieur ML doit pouvoir implémenter avec différentes librairies et ne pas être dépendant d’un outil en particulier.

Comme toutes nos formations, celle-ci présentera la dernière version en date de l’outil à savoir TensorFlow 2.4.

ENI SERVICE
Deep Learning – Mise en oeuvrePar ENI SERVICE

Cette formation présente les fondamentaux du Deep Learning ainsi que les principales techniques utilisées dans l'industrie. Les travaux pratiques s'appuieront sur des données réelles et présenteront des modèles récents. Certains points aborderont des sujets de recherche récents.