Web scraping avec Python : Méthodes d'extraction de données du Web

Traduit de l'ANGLAIS (ETATS-UNIS) par DOMINIQUE MANIEZ

À propos

Un guide complet pour extraire presque tous les types de données du Web moderne avec le langage Python.
Si on peut considérer la programmation comme quelque chose de magique, alors le web scraping s'apparente assurément à de la sorcellerie ! En écrivant un simple programme automatisé en Python, vous pouvez envoyer des requêtes à des serveurs web, y rechercher des données et les analyser pour extraire les informations dont vous avez besoin.
Voici un guide complet pour extraire presque tous les types de données du Web moderne.
La première partie du livre se concentre sur les mécanismes de web scraping : utiliser Python pour demander des informations à un serveur web, effectuer une gestion de base de la réponse du serveur et interagir avec les sites de manière automatisée. La deuxième partie explore une variété d'outils et d'applications plus spécifiques pour s'adapter à tous les scénarios de web scraping que vous êtes susceptible de rencontrer.

Analyser des pages HTML compliquées
Développer des crawlers avec le framework Scrapy
Découvrir des méthodes pour stocker les données que vous récupérez
Lire et extraire des données à partir de documents
Nettoyer et normaliser les données mal formatées
Lire et écrire en langage naturel
Parcourir les formulaires et les identifiants
Scraper JavaScript et explorer les API
Utiliser et écrire un logiciel de conversion d'images en texte
Éviter les pièges et les bloqueurs de bots
Utiliser des " scrapers " pour tester votre site web


Sommaire

1. Fonctionnement d'Internet
2. Questions de légalité et d'éthique liées au web scraping
3. Applications du web scraping
4. Écrire votre premier web scraper
5. Analyse HTML avancée
6. Créer des web scraper
7. Modèles d'exploration Web
8. Utiliser Scrapy
9. Stocker des données
10. Lire des documents
11. Gérer les données incorrectes
12. Lire et écrire en langage naturel
13. Parcourir les formulaires et les identifiants de connexion
14. Web scraping avec JavaScript
15. Exploration des API
16. Traitement d'images et reconnaissance de texte
17. Éviter les pièges
18. Tester votre site Web avec des scrapers
19. Web scraping en parallèle
20. Proxys de web scraping

Rayons : Sciences & Techniques > Informatique > Programmation / Développement > Python


  • Auteur(s)

    Ryan Mitchell

  • Traducteur

    DOMINIQUE MANIEZ

  • Éditeur

    FIRST INTERACTIVE

  • Distributeur

    Interforum

  • Date de parution

    05/12/2024

  • EAN

    9782412096079

  • Disponibilité

    Disponible

  • Nombre de pages

    349 Pages

  • Longueur

    23.3 cm

  • Largeur

    19.4 cm

  • Épaisseur

    2.3 cm

  • Poids

    670 g

  • Diffuseur

    Interforum

  • Support principal

    Grand format

Infos supplémentaires : Broché  

Ryan Mitchell

Ryan Mitchell est ingénieure logiciel. Elle développe des outils de web scraping et d'aumatisation en Python pour différentes sociétés. Elle est régulièrement consultée sur des projets de web scraping dans le secteurs de la vente, de la finance et de l'industrie pharmaceutique.

empty