M2i Formation

Extraction de données avec Python

Par M2i Formation

Objectifs

  • Réaliser du scraping de données
  • Faire les actions d'ingestion nécessaires pour alimenter un Data Lake.

Programme

Les bases du langage Python

  • Les caractéristiques du langage Python
  • Pourquoi choisir Python pour l'analyse de données ?
  • Types de bases
  • Les instructions de bases
  • Les procédures et fonctions

L'ingestion avec Python

  • Utiliser la librairie Pandas pour manipuler les données
  • Introduction du concept de DataFrame
  • Les structures :
    • Interrogation
    • Indexation
  • Traitement de "données manquantes"
  • Fusion de DataFrames
  • Manipulation des dates
  • Application de mesures statistiques variées sur les DataFrames
  • Bonne compréhension des problèmes d'échelle de mesure, de normalisation
  • Création de métriques d'analyse

Scraping de données

  • Qu'est-ce que le scraping ?
  • Définition du scraping et de ses différents niveaux de difficulté sur plusieurs supports
    • Depuis le Web
    • Depuis du papier
    • Depuis des PDF
  • Exemples de projets réalisés grâce au scraping
  • L'architecture d'Internet
  • Qu'est-ce qu'un "client" ? Qu'est-ce qu'un "serveur" ? Pourquoi est-ce important ?
  • Comment HTTP et HTML impactent-t-ils nos scrapers ?
  • Qu'est-ce qu'une balise HTML ? Un attribut ?
  • Comment identifier certains éléments avec une "class" ou un "id" ?

Python comme solution ETL

  • Les formats de données structurées : CSV, flux XML et JSON
  • Lecture et écriture de fichiers
  • Exploitation des données de fichiers de différentes sources
  • Fonctions d'accès et de chargement de données en blocs de lignes
  • Outils spécifiquement dédiés au scraping :
    • Beautiful Soup
    • CSS Select

Mise en oeuvre d'un scraper

  • Un scraper simple (requêtes GET, pages séquencées)
  • Identifier la stratégie à adopter pour naviguer sur le site
  • Coder le scraper
  • Un scraper complexe : envoyer des données à un site Internet pour obtenir des résultats plus complexes
  • Qu'est ce qu'une requête POST et une requête GET ?
  • Parcourir un site pour trouver les données
  • Identifier la stratégie à adopter
  • Coder le scraper

Pédagogie

  • En cours de formation, par des études de cas ou des travaux pratiques
  • Et, en fin de formation, par un questionnaire d'auto-évaluation ou une certification (M2i ou éditeur)

Partager cette formationTélécharger au format pdf Ajouter à mes favoris

Formations de la même catégories (5)

Open Source School Executive Education
Python des bases à la maîtrisePar Open Source School Executive Education

Cette formation a pour objectifs de vous permettre de maîtriser les aspects essentiels du langage Python et de son écosystème, afin de vous permettre d'appréhender de façon autonome la réalisation d'applications ambitieuses dans les domaines de votre métier.

Global Knowledge
Le langage Python pour Machine LearningPar Global Knowledge

La Data Science nécessite des compétences spécifiques afin de prévoir le comportement des clients ou d’anticiper des tendances.
Cette formation vous permettra de découvrir l’analyse de données ainsi que le Machine Learning via Python, les différentes étapes qui interviennent lors de l’élaboration d’un modèle statistique, ainsi que l’analyse textuelle et la Data Visualisation.

Data Value
Python pour la Data SciencePar Data Value

Connaître et savoir utiliser les librairies incontournables de Python pour la data science : La Scipy Stack
Connaître et utiliser les principales librairies de visualisation de données et notamment orientées cartographie
Savoir manipuler des données volumineuses ne tenant pas en mémoire
Avoir une bonne compréhension de l'écosystème scientifique de Python, savoir trouver ses librairies et juger de leur qualité

IB Formation
Big Data - Python pour l'analyse de donnéesPar IB Formation
  • Savoir utiliser les principaux outils de traitement et d'analyse de données pour Python
  • Être capable d'extraire des données d'un fichier et les manipuler
  • Apprendre à mettre en place un modèle d'apprentissage simple
Arkesys
Python - Perfectionnement : Programmation orientée objet, interface graphiquePar Arkesys

La formation en quelques mots

Python est un langage devenu populaire en raison de la simplicité d’écriture et de mise en œuvre des analyses et des programmes, de son accessibilité (environnement open-source), et de son champ d’application complet grâce aux nombreuses librairies qui disposent de fonctions relatives à plusieurs domaines comme la Data Science, la Data Visualisation, le calcul scientifique. Ce langage permet de développer des applications variées.
La formation a pour objectif de permettre aux personnes ayant des bases en programmation d’approfondir les différentes notions de bases du langage Python, d’apprendre comment créer et implémenter des interfaces graphiques, tester et gérer un programme. La formation abordera également les différents outils Python qui permettent la manipulation de fichiers, de modules et de bibliothèques.

Thèmes principaux