Эффективный парсинг сайтов с интерпретатором кода ChatGPT!

Поділитися
Вставка
  • Опубліковано 3 січ 2025

КОМЕНТАРІ • 80

  • @zproger
    @zproger  3 місяці тому +15

    Если тема зайдет, планирую сделать отдельный ролик с парсингом через Splash. Я принимаю любые идеи и дополнения к этому ролику, поэтому вы можете написать свой вариант в ответ на данный комментарий 🙃.

    • @marsel2912
      @marsel2912 3 місяці тому +1

      Зачем давать ссылку на Telegram, в котором ссылка на тот же UA-cam, который уже давно не работает? В итоге нельзя посмотреть ни там, ни там

    • @DrKillerChanel
      @DrKillerChanel 3 місяці тому

      @@marsel2912 Если у вас проблемы даже с тем, чтобы починить ютуб, что вы тут тогда забыли.

    • @babylon_pro
      @babylon_pro 3 місяці тому

      @@marsel2912 на программистском канале писать, что ютуб не работает..

    • @zymer4481
      @zymer4481 2 місяці тому

      У меня на пример есть заказ на парсинг авито но там надо парсить цифры с аккаунта продажи затраты и тп. И они обновляються постоянно так что скачивать так просто не получиться. Не подскажешь как парсить именно с моего аккаунта?(заказ уже выполнен через силениум но интересно как через чат сделать.)

    • @mazuridze
      @mazuridze День тому

      Привет, попробуй спарсить сайт БК, например Фонбет, а именно все игры по футболу, на предстоящие сутки в которых есть тотал больше 1 тайма 3,5. И вывести это все в таблицу Эксель

  • @kirck1414
    @kirck1414 3 місяці тому +6

    Первый , привет!

    • @zproger
      @zproger  3 місяці тому +3

      Привет, прям как молния :)))

  • @eule8587
    @eule8587 3 місяці тому +2

    Нейросети мощь, я так несколько проектов сделал, при том что фреймворк не знал от слова совсем

    • @zproger
      @zproger  3 місяці тому +2

      Красота :)
      Так и быстрее развиваться можно.

    • @eule8587
      @eule8587 3 місяці тому

      @@zproger Я помню еще 10 - 15 лет назад нужно было читать много книг смотреть кучу видосов аля Евгений Попов. Сейчас просто четкий вопрос copilot пишешь он вываливает решение, ты его подгоняешь под свои нужды а порой и таким используешь и все.
      Нооо нооо книги и полезные видосы тоже нужно смотреть что бы совсем валенком не оставаться.

    • @n1ret
      @n1ret 3 місяці тому +4

      развиваться не зная ничего и деплоя код, который даже не понимаешь?...

    • @evan_kirk
      @evan_kirk 3 місяці тому

      А теперь ссылку на репозиторий

  • @s0r04k4
    @s0r04k4 3 місяці тому +2

    Привет, классный ролик. Давно хотел тебя поблагодарить, после твоего ролика о продуктивности ( как приучиться кодить, а не играть в игры ), я забросил игры, стал пользоваться линухом ( была федора, теперь арч + hyprland ) и много кодить, и честно - мне очень нраится, и я совсем не жалею, спасибо за классные ролики/советы!

    • @zproger
      @zproger  3 місяці тому +2

      Благодарю за комментарий! Очень круто, что есть результат. Люди как правило делятся на 2 типа: (1) Те, для которых все вода и все не работает; (2) Которые берут и делают.
      А потом 1-я группа удивляется, почему у 2-й есть результат, а у них нет. Мне достаточно забавно за всем этим наблюдать, когда по сути одинаковые видео влияют по-разному на разных людей.

    • @s0r04k4
      @s0r04k4 3 місяці тому

      @@zproger Да, есть такие! Но самое главное в любом деле - желание им заниматься!

  • @dimakrilovskiy9902
    @dimakrilovskiy9902 2 місяці тому

    Все
    это делал, только с claude) Так же попробуй Zed с Zed Claude 3.5

  • @tolyachernov7849
    @tolyachernov7849 3 місяці тому +2

    Классный ролик, спасибо! А можешь показать как парсить плеймаркеты? Я как-то пробовал один известный плеймаркет парсить и получилось только через отправку запросов на сервер

    • @zproger
      @zproger  3 місяці тому

      Можно пример сайта? Возможно сделаю видео, если этот ролик будет интересен

    • @tolyachernov7849
      @tolyachernov7849 3 місяці тому

      @@zproger Весь каталог wildberiеs по категориям и вложенностям

    • @NarutoUzumaki-li4jf
      @NarutoUzumaki-li4jf 3 місяці тому +2

      ​@@zprogerон 100% хотел написать плейсмаркеты 😁 а точнее маркетплейсы

    • @dofaqq
      @dofaqq 3 місяці тому

      авито​@@zproger

  • @EvgeniiTimofeev-bc3yc
    @EvgeniiTimofeev-bc3yc 3 місяці тому +10

    если собрались динамику парсить не забудьте что вас отфуболит система защиты от ботов. по этому это все дело нужно нормас чекать. не все так просто. Я писал парсер через селен для пинтереста. пинтерест его видит.

    • @zproger
      @zproger  3 місяці тому +6

      Это да, нужен индивидуальный подход. Может быть дойдут руки показать пару динамических сайтов с подобными ограничениями.

    • @n1ret
      @n1ret 3 місяці тому +2

      Пинтерест супер легко парсится, я делал

    • @ivanalexandrovsky1909
      @ivanalexandrovsky1909 3 місяці тому

      Я именно этим и занимаюсь сейчас, надо просто правильно опции прописать. Загугли обход cloudflare и посмотри, какие опции прописываются. Там дофига кода, но буквально недавно в стак оверфлоу пост с вопросом и правильными конфигами в самом вопросе же

    • @ivanalexandrovsky1909
      @ivanalexandrovsky1909 3 місяці тому +1

      Будет обходить все блокировки. Если не найдешь, напиши, запарюсь и скину ✌️
      Странно, я возмущен, мой коммент выше удален, я писал, что надо просто загузглить “обход cloudflare selenium”

    • @aladinmovies
      @aladinmovies 3 місяці тому

      ​@@ivanalexandrovsky1909скинь мне такой, который сможет любой сайт парсить и при чем активно к примерно 1000 запросов в час

  • @sspace_1337
    @sspace_1337 3 місяці тому

    Привет, давно тебя смотрю. Хотел спросить. Сколько примерно по времени ты использовал дистрибутив для новичков?

    • @zproger
      @zproger  3 місяці тому

      На Manjaro сидел примерно 1-2 года и потихоньку изучал Linux, время от времени тестировал другие дистрибутивы, так как иногда можно найти интересные особенности.

    • @sspace_1337
      @sspace_1337 3 місяці тому

      @@zproger Спасибо за ответ!

    • @n1ret
      @n1ret 3 місяці тому

      "Дистрибутив для новичков" хахахах

    • @n1ret
      @n1ret 3 місяці тому

      хз, что там на счёт новичков. Друг сидел на винде и через putty конектился по ssh к серверу. За день разобрался, как поставить arch с гномом и сидит нормально на нём

  • @samloik
    @samloik 3 місяці тому

    Покажи как завернуть парсер на selenium (undetected_chrome_driver) без headless режима (т.е. с мордой) в docker контейнер. Вне docker контейнера сайт Лемана ПРО парсится норм, а если в docker завернуть, пишет отключите VPN... (Как то обнаруживает) Желательно на примере этого сайта показать...

  • @Кискисыч
    @Кискисыч 3 місяці тому

    с днём программиста

  • @StevenGray-g2x
    @StevenGray-g2x 3 місяці тому +1

    Во сколько лет ты начал программировать?

    • @zproger
      @zproger  3 місяці тому

      Не помню, наверное где-то в 19-20

  • @raindoss
    @raindoss 3 місяці тому

    Годно

    • @zproger
      @zproger  3 місяці тому +1

      Благодарю

  • @Zukoogfire
    @Zukoogfire 3 місяці тому

    Помогите пожалкйста black screen и курсор сидел не редите зделал многое и нечиго не помогло bspwm😢

  • @tokosotomimo14
    @tokosotomimo14 2 місяці тому

    все классно, просто закинул ссылку на гугл в чат гпт и попросил спарсить все данные пользователей, он все сделал за пару минут

  • @GeskO922
    @GeskO922 3 місяці тому

    А что можно сделать, когда паршу с помощью серениума, но сайт пишет что браузер не поддерживается.
    Ничего не помогает обойти, сайт прочто не дает авторзироватся.
    Например twitch.

    • @ИгорьСуслов-и9р
      @ИгорьСуслов-и9р 3 місяці тому

      У тебя браузер (хром) и драйвер должны по версии совпадать (плюс-минус)

  • @КириллФридочкин
    @КириллФридочкин 3 місяці тому

    Всем привет. Можете пожалуйста подсказать как официальным сайтом чата gpt можно воспользоваться. У меня он в моменте просто перестал работать, не могу пройти авторизацию. Пробовал впн и всякое другое, ничего не помогает

    • @zproger
      @zproger  3 місяці тому

      Я лично использовал когда-то вот эти прокси: proxy6.net/e/91388. Брал IPv4 и загружал в расширение браузера FoxyProxy, очень хорошо работало.

  • @do_bro
    @do_bro 3 місяці тому

    чем можно парсить твиттер полностью автоматизированно?

  • @VasilijAN
    @VasilijAN 3 місяці тому +1

    Интересный подоход, с одной строны gpt ускоряет написание кода, с другой стороны все равно нужны знания, и не понятно что быстрее опять gpt что тебе нужно или самому написать код и все спарсить.

    • @zproger
      @zproger  3 місяці тому +2

      Тут от ситуации зависит, бывают такие сайты, что достаточно абстрактного описания, по типу: достань данные из 1-й колонки таблицы и запиши в csv файл. Даже можно в таком случае примеры html кода не предоставлять.

    • @aladinmovies
      @aladinmovies 3 місяці тому

      Огонь

  • @ЭтоМедуза
    @ЭтоМедуза 3 місяці тому

    Я только начал изучать пайтон и чат гпт мне очень помогает. Но есть 2 проблемы - я решаю с его помощью задачи и мне кажется, что он заменит программистов. Меня так точно😢

    • @zproger
      @zproger  3 місяці тому +1

      Не думаю, что он способен заменить даже джуна. Его можно рассматривать максимум как инструмент автодополнения, когда надо какой-то маленький кусочек кода написать и вставить в проект.
      И то очень часто он ошибается + надо знать структуру проекта, уметь составить его архитектуру и сделать полно других вещей. Это слишком сложная задача для ИИ, я бы никогда не доверил ChatGPT написать приложение для работы с чувствительными данными.
      Сам работаю с ним как только его запустили, и уже давно понял, что это просто быстрая замена поисковика, но не более того.

  • @Coverast
    @Coverast 3 місяці тому

    Лучше уже попросить гпт код написать на селениуме с подстановкой пользовательских заголовков.

    • @zproger
      @zproger  3 місяці тому

      Хмм, неплохо

  • @iTikhon
    @iTikhon 3 місяці тому +3

    Автор ~ сказочник. Начал свою сказку про мифические статические сайты без JS, с которых можно парсить данные. Я такие сайты с 2010 года не видел. Далее про динамические - как много сайтов ты знаешь без защиты от ботов и т.д.?

  • @perfect10n_
    @perfect10n_ 3 місяці тому

    Что за мелодия?

    • @zproger
      @zproger  3 місяці тому

      Glory Be - Patrick Patrikios

  • @СергейСергеевич-э3и
    @СергейСергеевич-э3и 3 місяці тому

    как спарить чат бота в телеге?

    • @zproger
      @zproger  3 місяці тому

      Pyrogram или Telethon

    • @СергейСергеевич-э3и
      @СергейСергеевич-э3и 3 місяці тому

      @@zproger Спасибо. Запиши видео на эту тему, будет интересно посмотреть, как и все предыдущие

  • @dag_002
    @dag_002 2 місяці тому +2

    - для чего я создан?
    - Парсить сайты
    - боже мой!....

  • @Мир_без_ошибок
    @Мир_без_ошибок 3 місяці тому

    нах я 2 учусь если меня заменят этой програмой...

    • @zproger
      @zproger  3 місяці тому

      Не заменят) Это просто инструмент. Я бы этому ИИ не доверил ничего серьезного.

  • @МоНи-ы5ж
    @МоНи-ы5ж 3 місяці тому +3

    У тебя оффигенные ролики, но этот объективно халтура.
    Ой, gpt, я тебе скажу все теги и блоки
    Я понимаю, что написав текстом потрачу больше времени чем просто вбить эти же данные в bs4...
    Но мы же gpt юзеры, по современному....
    Условно я могу понять использование gpt для написания одного шаблона текстом и чтобы он работал на 100 или 1000 сайтов. Но это объективно халтура.
    Ну или если человек вообще не хочет потратить 10 минут чтобы посмотреть видос по bs4

    • @zproger
      @zproger  3 місяці тому +1

      Ну да, в конце видео это и говорил, что способ пригодится для очень ленивых задач, когда единственная цель это как можно быстрее достать данные :))

  • @vedorantager1688
    @vedorantager1688 2 місяці тому

    😂😂 Но это вообще не парсинг. Ты сохранил страницу HTML и отправил её gpt??? Он и так получил сразу весь код и доступ к всем возможностям, всё я ему больше ничего не нужно. Дальше gpt умеет переходить на странице и читать информацию с них. То есть по сути ты сбросил ссылку сайта и HTML страницу. По сути он уже сразу получил весь код и доступ.... Где здесь парсинг? Это больше похоже на сохранение страницы и просто сбрасываешь его в gpt для анализа

    • @zproger
      @zproger  2 місяці тому

      Парсинг это извлечение данных, не важно откуда, с локального файла или с веб-ресурсов, основная задача из набора данных достать необходимое.

  • @KOT3prod
    @KOT3prod 2 місяці тому

    Боже. Сколько чел будет одно и тоже видео высирать
    Статик сайты - никому не нужны, там где есть важная инфа не будет Статик сайтом
    Почему чел ajax загрузку называет ее загрузкой скриптом, когда загрузка через реальные скрипты js(не обычная ajax подгрузка страницы) парсятся по другому
    Проверять Нетворк, консоль, находить скрипт в HTML, а в нем json данные, что часто бывает. Серчить xhr загрузки, находить заурытый\открытый апи, попытаться его юзать
    И только когда все эти методы не работаю и ты не можешь получить к ним доступ, тогда уже можно юзать... Playwright. Какой селениум для парсинга, который работает с системным браузером? Давай поставь на сервачок в докер селениум))) когда я за 3 строчки playwright запущу в докере.
    Я не знаю кто смотрит этого типа и не нашлось людей, которые реально парсили хоть среднюю защиту у стримсервисов, которые бы поржали над тем, что тип несет

    • @vladimir7759
      @vladimir7759 Місяць тому

      боже зачем ты смотришь если это высер, просто пройди мимо

  • @Альберт-ц5э
    @Альберт-ц5э 3 місяці тому

    Дорвались макаки до чатгпт

  • @zhanimusaev5752
    @zhanimusaev5752 3 місяці тому

    умный чувак. Жаль что зетник

    • @zproger
      @zproger  3 місяці тому +1

      Я не зетник, я вообще глубоко верующий человек, и никогда никакую военную символику не использовал бы. Этому нику огромное количество лет. Жаль, что многие делают такие поспешные выводы, ничего при этом не зная.