Test de l'extension Web Scraper pour Google Chrome

Поділитися
Вставка

КОМЕНТАРІ • 60

  • @vincentbailleul4154
    @vincentbailleul4154 5 років тому +2

    Sans aucun doute la meilleure vidéo de tout UA-cam sur Web Scraper. Merci !

  • @philippemartinoptimhome3664
    @philippemartinoptimhome3664 2 роки тому

    Merci beaucoup pour ce tuto extrêmement clair et comme dit précédemment dans d'autres commentaires, avec une élocution particulièrement excellente !

  • @Ed.Lacassaigne
    @Ed.Lacassaigne 13 днів тому

    Merci beaucoup pour cette vidéo !

  • @maorygarcia338
    @maorygarcia338 7 місяців тому

    Vrai crack, merci mon gars

  • @DfNetwork
    @DfNetwork 2 роки тому

    Merci pour le partage ! 👍

  • @michaelameslien3331
    @michaelameslien3331 7 років тому

    Bonjour,
    Puis-je vous poser une question ? du moins avoir de l'aide? j'ai essayé et n'y arrive pas ? donc je souhaite savoir où j'ai fauté. Merci d'avance

  • @theophilesollet9249
    @theophilesollet9249 4 роки тому

    Bonjour,
    Merci pour ce tuto j'ai une question. Je souhaite scraper des données venant du page ayant un menu déroulant, je voudrais savoir comment faire? Quel type de selector dois-je utiliser? Merci

  • @tguillet941tg
    @tguillet941tg 5 років тому +1

    super tuto

  • @SD-rg5mj
    @SD-rg5mj 7 років тому

    salut et est ce qu'avec ce logiciel je pourrais télécharger des adresses email?Cyril

  • @s1sko7
    @s1sko7 2 роки тому

    Top merci !!!

  • @rebeccaoziel3330
    @rebeccaoziel3330 4 роки тому

    Bonjour Ettore Rizza, super vidéo, repondez vous encore au question sur ce sujet? :). J'ai tt suivie à la lettre j'ai le même graph que vous, l'outil scrape correctement. Une fois finit je dois faire refresh et aucune information ne m'est proposé. Je l'ai refait plusieurs fois. Je ne sais pas si c'est une question de nombre de recherche? c'est possible? 2.500 resultats...merci!

  • @paultshipand1941
    @paultshipand1941 5 років тому

    tres edifient et important

  • @standibwe1637
    @standibwe1637 5 років тому

    interessant!

  • @gltubes
    @gltubes 6 років тому

    Hello, I have to click on a radio button to select it and then, on the same page, click on a button to see the article/details page the radio button point to: any suggestions on how to do it?

    • @EttoreRizza
      @EttoreRizza  6 років тому

      hi, could you provide an example ?

  • @wallid9996
    @wallid9996 3 роки тому

    Salut , super vidéo , j'ai une petite question je cherche a scrappé une liste d'entreprise sur le site on peut affiné sa recherche par secteur mais le problème et que une fois la recherche faite voila se qui suit l'url (/recherche.php) ce qui fait que web scrapper ne reconnait pas la page , et me sort aucune info , si ta une astuce pour moi c'est nickel

  • @sansoeilleres2685
    @sansoeilleres2685 3 роки тому

    Hello ! Petite question. par exemple si la personne du site change le nombre de population dans un pays on est obligé de refaire toutes les étapes ?

    • @EttoreRizza
      @EttoreRizza  3 роки тому +1

      Hello. Oui, le scraping est une photographie à un moment donné. Si l’on veut des données à jour, il faut le re-effectuer régulièrement

  • @hadjirayahi5184
    @hadjirayahi5184 6 років тому

    Merci pour ce tuto
    Je vous poser une question
    Esq on peut limité la sélection de pagination par exemple sélection de 1 à 5 ?!

    • @EttoreRizza
      @EttoreRizza  6 років тому

      Je ne pense pas qu'il existe une option "limit", mais vous pouvez utiliser la notation [1-5] dans l'URL, qui permet de définir un intervalle entre deux nombres. Par exemple, si la première page est example.webscraping.com/places/default/index/1 et la 2e page est example.webscraping.com/places/default/index/2 , vous pourrez sélectionner les cinq premières en utilisant comme URL de départ example.webscraping.com/places/default/index/[1-5]

    • @hadjirayahi5184
      @hadjirayahi5184 6 років тому

      Ettore Rizza merci

  • @robinceret2017
    @robinceret2017 4 роки тому

    Comment faire lorsque le bouton à cliquer n'est pas un lien avec les balises mais du code javascript (data-ng-click) qui renvoie vers une page quand on clique sur le bloc ? (par exemple pour le site www.thestorefront.fr/)

    • @EttoreRizza
      @EttoreRizza  4 роки тому

      Avez-vous essayé "element click" (ou un nom du genre) dans la liste des types de sélecteurs ? L'idée est de simuler un click de souris qui activera le javascript.

  • @kromebopoulos9392
    @kromebopoulos9392 Рік тому

    Salut, j'ai un problème avec Webscrapper tu peux m'aider ?

  • @antoinelebrun7926
    @antoinelebrun7926 Рік тому

    Merci pour cette vidéo Ettore, vraiment incroyable !
    Juste bémol, j’ai fait exactement comme toi mais a la fin mon scrap ne me ressort rien du tout, comment-faire ?

  •  5 років тому

    Merci, très intéressant. Il y a juste une chose qui m'échappe. Les seules données que j'ai obtenues sont celles de la page 1. Je n'arrive pas à comprendre d'où vient l'erreur, sachant que j'ai suivi pas à pas le déroulé.

    • @EttoreRizza
      @EttoreRizza  5 років тому

      Merci! Le site web de test n'ayant pas changé, il me faut supposer que vous avez manqué au moins un petit pas. ;) Vérifiez si le graphe de votre scrapeur ressemble à celui sur la vidéo, et si le sélecteur "pagination" sélectionne bien la page suivante.

  • @igortarass3005
    @igortarass3005 6 років тому

    Je cherche à scraper une page avec des onglets. Cela semble impossible avec Web Scraper. Si vous avez des infos sur ce cas de figure, je suis preneur... Merci d'avance.

    • @EttoreRizza
      @EttoreRizza  6 років тому

      Bonjour Igor. Difficile de répondre sans connaître le site en question. Il faudrait voir ce qu'il se passe sous le capot lorsqu'on clique sur un onglet. Est-ce que l'URL de la page change ? Si oui, l'onglet agit finalement comme un simple lien vers une autre page. Est-ce que le site semble charger quelque chose ? Il se peut aussi que le contenu entier de la page se trouve dans le code source originel et que cliquer sur l'onglet ne fasse que l'afficher dans le navigateur.

    • @igortarass3005
      @igortarass3005 6 років тому

      Merci Ettore pour ta réponse. Je vais essayer en traitant le tab comme un lien. L'URL change en rajoutant un /#xyz par exemple à l'URL principale. Difficile de te donner le site en question en "zone publique" :o) pour de simples histoires d'éventuel copyright.

    • @igortarass3005
      @igortarass3005 6 років тому

      Bonjour Ettore
      En fait, le click sur l'onglet déclenche un programme qui ouvre une nouvelle page avec des données, etc... Certains scrapeurs "visuels" ont l'option "Invoke Click" pour simuler un click, sur un onglet par exemple. Est-ce que Web Scraper aurait cette option ?

  • @pierrechefas3070
    @pierrechefas3070 6 років тому

    Bonjour, cette courte vidéo est très bien faite et donne véritablement envie d'utiliser cette extension. Question: savez-vous comment on peut rajouter un selector pour les boutons qui cachent par exemple un email ou un numéro de tel. C'est très utilisé sur des sites comme le bon coin ou pages jaunes où avant de pouvoir obtenir ces informations il faut cliquer manuellement sur un bouton, ceci pour éviter je suppose aux robots de s'approprier ces informations. Comme Web Scaper est une de ces formes de robot, je suppose que c'est pas évident de trouver le bon selector pour réaliser l'opération. Bon je pose l'occasion où quelqu'un ici aurait une idée à ce sujet dont le génial auteur de cette vidéo !

    • @EttoreRizza
      @EttoreRizza  6 років тому

      Bonjour, auriez-vous un lien vers l'un de ces boutons ?

    • @pierrechefas3070
      @pierrechefas3070 6 років тому

      Merci pour votre réponse super rapide. Pour avoir un exemple de site web, je vous donne un lien avec une sélection de biens immobiliers. Il faut rentrer dans chaque fiche puis cliquer sur le bouton "voir le numéro de tél". Quelque soit le selector utilisé je recupère le libellé "voir le numéro de tél" et pas le numéro en question. voici le lien: www.leboncoin.fr/ventes_immobilieres/1404022517.htm?ca=12_s

    • @EttoreRizza
      @EttoreRizza  6 років тому

      Je vois. Lorsque vous cliquez sur "Voir le numéro", une requête HTTP est envoyée au serveur du boncoin, qui renvoie le numéro sous la forme d'un fichier Json (on peut voir tout cela en effectuant l'opération avec le Web developper de Chrome ouvert, dans les onglets "Network" --> "XHR"). C'est ce que l'on appelle une technologie AJAX. Il est théoriquement possible de traiter ce genre de cas avec cette extension : webscraper.io/documentation#element-click-selector . Je dis "théoriquement" car je n'ai pas essayé, mais le développeur a manifestement prévu le cas des éléments chargés en AJAX.

    • @pierrechefas3070
      @pierrechefas3070 6 років тому

      Bonjour, mon niveau de compétences HTTP Json Ajax est proche du zéro absolu ! Donc je comprends bien qu'il y aurait peut être une solution mais pour votre dernière réponse je ne comprends pas ce que je dois saisir et où ? C'est surement trop vous demander, mais je tente tout de même: auriez-vous la gentillesse de me transmettre si cela marche de votre côté une courte vidéo privée sur ma boite mail pierre.chefas@gmail.com pour que j'arrive à comprendre comment faire et par où passer. Par avance je vous en remercie. Pierre

    • @EttoreRizza
      @EttoreRizza  6 років тому

      Je vous ai envoyé un mail. Mais tenez compte du fait qu'il n'y a pas de magie : pour récupérer des informations sur des sites web un peu compliqués, il faut prendre la peine d'apprendre (un peu) comment le web fonctionne (c'est-à-dire comment l'information que vous voulez est arrivée sur la page). Ce n'est pas la mer à boire. Il ne s'agit pas de devenir développeur web, juste de connaître vaguement les principales technologies impliquées.

  • @vincentbailleul4154
    @vincentbailleul4154 5 років тому

    Je confirme mon précèdent commentaire. J’ai refait l’exemple sans aucune difficulté.
    Une question pour Ettore. Est-il pertinent d’utiliser un VPN pour éviter d’être repéré ?

    • @EttoreRizza
      @EttoreRizza  5 років тому +1

      L'utilisation de proxies est souvent recommandée lorsqu'il existe un risque de voir son IP bannie par un site web : blog.hartleybrody.com/web-scraping-proxies/
      Cela dit, le scraping n'implique pas forcément d'en arriver-là. respecter quelques règles de bonne conduite (par exemple laisser passer une ou deux secondes entre chaque requête) peut suffire. Tout dépend du site web concerné et de ses "terms of use".

    • @vincentbailleul4154
      @vincentbailleul4154 5 років тому

      Ettore Rizza merci beaucoup.

    • @vincentbailleul4154
      @vincentbailleul4154 5 років тому

      Ettore Rizza, bonjour. C’est encore moi, avec une nouvelle question.
      WebScraper est-il le bon outil pour scraper un blog ?
      Je m’explique. J’ai trouver un blog qui m’intéresse. Il présente 130 articles de plus de 1000 mots chacun.
      Je préférerai les lire sur papier. J’aimerai donc les scraper pour les placer dans un word, imprimer et relier.
      Je ne sais pas encore comment je passerai du .csv au document word mais votre avis m’intéresse.

    • @EttoreRizza
      @EttoreRizza  5 років тому +1

      Je n'ai pas essayé, mais il doit être possible de scraper chaque billet (titre et corps de texte) en choississant comme format 'html". Vous aurez un csv dont une colonne sera constituée de 1000 bouts de HTML. Copiez cette colonne dans un nouveau document texte suivant le format VOTRE COLONNE DE HTML , changez l'extension du fichier de .txt en .html, et vous devriez obtenir un document qui peut être ouvert avec le navigateur, ou imprimé en PDF

    • @vincentbailleul4154
      @vincentbailleul4154 5 років тому +1

      Ettore Rizza merci. Je ferai l’essai dès que j’aurai le temps et je vous tiens informé.

  • @SD-rg5mj
    @SD-rg5mj 6 років тому

    ok merci, c'est quoi des expressions?

    • @EttoreRizza
      @EttoreRizza  6 років тому

      C'est ceci : regex101.com/r/sWPCKW/1 (pour le reste, Google est votre ami)

  • @rwankesta9
    @rwankesta9 5 років тому

    hello
    comment faire avec tripad qui ouvre une nouvelle page quand on ouvre le lien

    • @EttoreRizza
      @EttoreRizza  5 років тому +1

      j'imagine qu'il faut procédere en deux étapes. D'abord récolter la liste des liens vers les pages qui vous intéressent, puis appliquer un scraper à la liste d'URL. Ce plugin permet de faire cela : groups.google.com/forum/#!topic/web-scraper/coBRjlW0mBg

    • @rwankesta9
      @rwankesta9 5 років тому

      @@EttoreRizza merci beaucoup pour la rapidité de reponse et effectivement fallait le faire en deux etapes !! merci encore super tuto

  • @Rico_MC
    @Rico_MC 6 років тому

    genial ton tuto merci ! Par contre pour le site pages jaunes c'est pas top, car le lien "suivant" est en javascript je crois

    • @EttoreRizza
      @EttoreRizza  6 років тому

      Merci! Pour les cas un peu compliqués, il existe d'autres types de sélecteurs que "lien", par exemple "element clic"

    • @Rico_MC
      @Rico_MC 6 років тому

      Ettore Rizza Super ! Je vais tester ! Vous pourrez faire une petite video tuto pour le "element clic" ?

    • @EttoreRizza
      @EttoreRizza  6 років тому

      Jamais testé (je n'utilise pas vraiment cette extension de Chrome), mais en gros, cet élément simule un clic de souris sur la partie sélectionnée.

  • @jeanklein5776
    @jeanklein5776 2 роки тому

    Super, mais quand tu as dit google + j'ai compris que la vidéo date un peu. Lol.

  • @SD-rg5mj
    @SD-rg5mj 6 років тому

    bonjour avez vus vu ma question? merci

    • @EttoreRizza
      @EttoreRizza  6 років тому

      Nope, ce n'est pas fait pour ça. Retrouver des adresses emails dans une page web nécessite des expressions régulières, pas des sélecteurs CSS. Essayez plutôt un logiciel comme OutwitHub (payant, mais existe en version gratuite limitée)

  • @scraperbiz8414
    @scraperbiz8414 5 років тому

    Look ok the scraper.biz solution
    it has the interface, it's in beta, consts nothig right now.
    And permets collect the data you want