Парсим сайты конкурентов с помощью Python | Часть 1 | Web Scraping Python

Поділитися
Вставка
  • Опубліковано 5 чер 2024
  • 🔥 Курс по Python: python.smysl.io/
    🎬 Плейлист про настройку рабочей среды:
    Настройка рабочей среды для разработки на Python
    • Настройка рабочей сред...
    СОДЕРЖАНИЕ
    00:00 - Начало
    00:54 - Как работает парсинг
    04:51 - Библиотека requests
    08:15 - HTML-тэги
    14:17 - Библиотека beautifulsoup
    23:55 - Обработка пагинации
    33:21 - Ограничения
    ОБО МНЕ
    👋 Привет! Меня зовут Алексей. Я работаю в IT, занимал ключевые позиции в Групоне, Gett, Яндекс-Логистике и Osome. Я люблю преподавать, и у меня получается делать сложные вещи понятными. Хочу помогать людям не бояться нового и понимать, как технологии могут сделать нашу жизнь лучше.
    📢 Канал в Телеграме: t.me/kulichevskiy

КОМЕНТАРІ • 30

  • @user-qr4un8on3e
    @user-qr4un8on3e 5 днів тому

    спасибо большое! сейчас занимаюсь изучением самостоятельно, Вас очень приятно и, главное что, понятно!!! слушать. Очень интересно и все получается)

  • @nikolaynikolay8019
    @nikolaynikolay8019 6 днів тому +1

    Приятно слушать, классные усы

  • @MrSunTrope
    @MrSunTrope 13 днів тому +1

    Леша, у тебя такая грамотная речь и внешка киноактера, в кино нужно сниматься))

  • @epifanovmaxim1
    @epifanovmaxim1 4 місяці тому +3

    Леша, у тебя супер канал!пожалуйста, не останавливайся :)

  • @nikitasherstianykh9155
    @nikitasherstianykh9155 4 місяці тому +2

    Интересно - продолжайте пожалуйста)
    Особенно интересно как работать с случаем, когда данные появляются в всплывающем окне -> Например сайт где по нажатию кнопки "Контакты" всплывает окошко с контактами. Нажатие кнопки отправляет доп. запрос и по сути дополняет главный HTML блоком кода.
    Спасибо🙌🏻🙌🏻

  • @Lancelot.Official
    @Lancelot.Official 4 місяці тому +1

    Спасибо за бесценный урок. Жду с нетерпением второй части

    • @Lancelot.Official
      @Lancelot.Official 4 місяці тому

      А нет, уже оказывается вышло. Бегу смотреть.

    • @kulichevskiy
      @kulichevskiy  4 місяці тому +2

      Там и третья часть вышла :)

  • @Parallacs
    @Parallacs 4 місяці тому +8

    Усы!

  • @furniture202
    @furniture202 3 місяці тому

    Пришел по настройке окружения, так дальше и остался, смотрю, все, что выходит! Спасибо!
    Парсить и сайты под логином и капчи - все интересно!
    а шлифовалок уже больше на сайте =)

  • @user-eo3nf6wk9i
    @user-eo3nf6wk9i 4 місяці тому

    Было бы славно посмотреть про капчи и прочие трудности, по типу ютуба

  • @sabirsadykov270
    @sabirsadykov270 4 місяці тому

    опачки пошли просмотры👍🏻

  • @kostyan6368
    @kostyan6368 4 місяці тому

    Здравствуйте. А парсить цены p2p на bybit или huobi так можно?

    • @kulichevskiy
      @kulichevskiy  4 місяці тому +1

      Думаю да, но, наверное, есть более простой способ. У обеих бирж есть API.

    • @kulichevskiy
      @kulichevskiy  4 місяці тому +1

      (бесстыжее промо) Приходите на курс, там будем учиться работать с API :)

  • @kulichevskiy
    @kulichevskiy  4 місяці тому +1

    🔥 Курс про автоматизацию рутины с помощью Python: python.smysl.io/

  • @user-eo3nf6wk9i
    @user-eo3nf6wk9i 3 місяці тому

    Что за тема в VsCode?

  • @alexzakr
    @alexzakr 4 місяці тому

    Я бы упростил условие для цикла while, посмотрев какой респонсе код выдаёт номер за границей диапазона.

    • @kulichevskiy
      @kulichevskiy  4 місяці тому

      Хорошая идея, только там всегда 200 было. Страничка ж генерится, просто на ней нет ничего.

    • @alexzakr
      @alexzakr 4 місяці тому

      @@kulichevskiy, посмотрел, как делают на форонде на нескольких сайтах. Заметил, что при превышении числа страниц часто возвращают последнюю. Может на этом условие сделать?
      В целом, очень хочется вас поблагодарить за мега профессиональный контент. Большое удовольствие и польза от вашего канала.

  • @user-ye5hv3us3e
    @user-ye5hv3us3e 3 місяці тому

    а как 403 сайты парсить? только не нужно про хэдерсы их замена не помогает как и замена ип

    • @kulichevskiy
      @kulichevskiy  3 місяці тому

      Послушайте, надо разбираться. Вообще обычно подстановка cookie помогает. Возможно, стоит попробовать selenium - там прям логин и пароль ввести можно

    • @user-ye5hv3us3e
      @user-ye5hv3us3e 3 місяці тому

      а как подставить куки в силениум чтобы браузер воспринимал пользователя как пользователя а не силениум чтобы обойти 403? @@kulichevskiy

  • @sledocktv7893
    @sledocktv7893 4 місяці тому

    А когда набор на курс?

    • @kulichevskiy
      @kulichevskiy  4 місяці тому +1

      Я думаю, что продажи откроются через 2-3 недели. Подпишитесь на сайте, я пришлю приглашение на вебинар

  • @artur_alf
    @artur_alf 3 місяці тому

    где код?

  • @cryptohyde
    @cryptohyde 3 місяці тому

    29:53 max_page последний элемент, зачем мудрить с дальнейшим переводом в интеджер всех элементов для поиска максимального. Ну и комент к концовке - про парсинг простых сайтов контента хоть отбавляй, как парсить сложные сайты?

  • @user-sj7wt3fp6f
    @user-sj7wt3fp6f 25 днів тому

    усы это треш какой-то...