Скрейпинг сайтов с помощью библиотек Beautifulsoup и Requests на Python

Поділитися
Вставка
  • Опубліковано 21 вер 2024

КОМЕНТАРІ • 216

  • @istories_workshop
    @istories_workshop  2 роки тому +29

    ❗❗❗Так называемое Министерство юстиции РФ признало «Важные истории» «нежелательной организацией». Так что репост этого и любого другого нашего видео может караться штрафом, а повторный репост - уголовным делом.
    Но никто не может запретить вам смотреть и думать. Поэтому подписывайтесь на наш канал, просите подписаться своих друзей и оставайтесь с нами - в это темное время выжить мы сможем только вместе.

    • @yarmik3d
      @yarmik3d 2 роки тому +5

      Так называемы "программист\ка" решила учить, сама не особо понимая, что делает.

    • @ВладиславГладкий-ъ7н
      @ВладиславГладкий-ъ7н 2 роки тому +4

      @@yarmik3d ахахах, любитель рУЗКОГО мира будет нам тут кукареть как правильно родину любить, иди грим смой, клоун😂

    • @yarmik3d
      @yarmik3d 2 роки тому +6

      @@ВладиславГладкий-ъ7н А ты любитель какого мира пишущего на русском языке?

    • @ВладиславГладкий-ъ7н
      @ВладиславГладкий-ъ7н 2 роки тому +8

      @@yarmik3d я сторонник цивилизованного мира, основанного на демократии, свободе слова и верховенства права. И какая тебе разница на каком языке я пишу. Ты же наверняка не знаешь ни одного другого языка кроме русского

    • @yarmik3d
      @yarmik3d 2 роки тому +5

      @@ВладиславГладкий-ъ7н Все это ты мог выразить одним словом - ПРЕДАТЕЛЬ

  • @МихаилРойтман-ъ5у
    @МихаилРойтман-ъ5у 2 роки тому +40

    Добрый день. Мне 60 лет, изучаю аналитику данных. Ваш урок - это СУПЕР. Все понятно, логично, доходчиво! Спасибо! Удачи Вам!

    • @Storks40
      @Storks40 Рік тому

      Мне 66.Тоже подсел на эту тему) По этому видео сделал календарь культурных событий в нашей области. Очень хорошее объяснение.

    • @art_alf-b9b
      @art_alf-b9b 9 місяців тому

      Вы крутые!

  • @weik_gamecut
    @weik_gamecut 2 роки тому +28

    Смотрел уроков 5 по парсингу и тяжело было уловить суть в какой последовательности и логике все делать, чтобы без подсказок самому делать потом. А здесь объяснение шикарное, у меня прям картинка прорисовалась в голове сразу, особенно хорошо, что сначала пишутся строки под один фильм, а уже когда понял это, показано как объединить строки чтобы получить все фильмы, а потом как и с каждой страницы. Так удобнее, спасибо!

    • @istories_workshop
      @istories_workshop  2 роки тому

      Йее! Очень рады, что вам подошел наш подход (простите за тавтологию)
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

    • @LifterAndy
      @LifterAndy 2 роки тому

      Начни лучше не с парсинга, а с решения олимпиадных задач и синтаксиса языка.

  • @clear1948
    @clear1948 2 роки тому +32

    У меня всегда было предвзятое отношение к русскоязычным урокам. Всегда смотрю туториалы на английском, так как они проще все обьясняют. Но здесь, Алеся вы просто супер. Как же вы круто обьясняете, быстро и понятно без лишних слов. Вы мастерский учитель. Спасибо вам большое ❤

    • @istories_workshop
      @istories_workshop  2 роки тому +1

      Спасибо большое за просмотр и такую оценку! Очень рады))
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @Моментыизфильма-н3р

    Как бывший преподаватель, работавший в SkillFactory, GeekBrains MailRu и других компаниях, подтверждаю - очень качественный контент, очень понравился ваш урок, со всеми разъяснениями. Понятно, что для того, чтобы точно всё понимать, без изучения азов вебверстки и самого языка python не обойтись. Однако, если вы уже знакомы со всеми этими технологиями, данный материал будет для вас максимально понятен и полезен. Всё даётся по пунктам, достаточно развёрнуто. Да, где-то приходится откатываться назад, чтобы пользователь понимал, откуда что берётся. Однако это не просаживает урок, всё очень динамично и не даёт уснуть. Спасибо!

  • @ЕвгенСахаров
    @ЕвгенСахаров 2 роки тому +14

    Алеся, какая же Вы молодец! Я собираюсь изучать пайтон, уже проплатил годовой онлайн курс. Мне 48 лет. Пробовал писать код по видео других авторов. Не получалось. Но по Вашему видео я дошол до конца. Все же прошол скрипт по всем страницам, спарсил все 250 фильмов и собрал все данные в файл. Вы дали возможность поверить в себя. Огромное Вам,Алеся,спасибо.

    • @istories_workshop
      @istories_workshop  2 роки тому +1

      Очень приятно, спасибо и вам!
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

    • @glimmer5103
      @glimmer5103 2 роки тому

      @@istories_workshop Что это значит "ДАННОЕ СООБЩЕНИЕ"... ?

    • @istories_workshop
      @istories_workshop  2 роки тому +5

      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА
      Что нас внесли в реестр СМИ-"иноагентов". Мы с этим не согласны и оспариваем через суд. Но т.к. мы живем в России и работаем в России, то вынуждены (пытаться) выполнять требования этого "закон об иноагентах". По нему мы должны вообще на все наши сообщения (тексты, видео, комментарии, репосты, ретвиты, и т.п.) ставить эту пометку. В противном случае наше юрлицо и главный редактор получат штраф. После нескольких штрафов главреду грозит уголовное преследование.

    • @ИванЕвдокимов-л6ь
      @ИванЕвдокимов-л6ь Рік тому

      как успехи?)

    • @ЕвгенСахаров
      @ЕвгенСахаров Рік тому +1

      @@ИванЕвдокимов-л6ь Дается не легко, не скрою. Но безумно интеоесно. Взял академ, на работу вызвали. Остановился на ООП. Через 2 недели домой. Вахта заканчивается. Думаю летом будет защита. Думаю какой проект взять. Уже написал самостоятельно несколько программ. Так что, Иван, всё хорошо!

  • @PapaBOSS
    @PapaBOSS 3 роки тому +10

    Какая же ты молодец! Всё очень доходчиво и спокойно объяснила . Спасибо!

  • @non5309
    @non5309 3 роки тому +18

    первый дисклеймер это похоже новый знак качества )

  • @msv108
    @msv108 2 роки тому +2

    Огромное спасибо! С обработкой none нигде не могла найти решение. А вы так просто все объяснили! Лайк и подписка!

  • @ДмитрийВаськин-й6л

    Классно объясняет, не зная языка питона, немного разбираясь в пхп, после просмотра урока получилось решить свою задачу))
    Однозначно лайк и подписка, теперь пересмотрю все уроки 😂

  • @ЮрийМашинистов-и6о

    Иноагент - это знак качества в наше время.

  • @Mr6epkym
    @Mr6epkym Рік тому +2

    Это лучшие уроки по парсингу которые я когда-либо встречал!

  • @cosmonaut380
    @cosmonaut380 Рік тому

    Этот канал - сокровище, которое лежало у меня под ногами, о котором я узнал благодаря Кацу. Полезность этого видео зашкаливает, спасибо огромное! Подписался

  • @НиколайПрокопьев-т4м

    кое как вырулил себе список ссылок с другого сайта, так как начинающий. Но все же у вас более доходчивое объяснение парсинга

  • @noname1999x
    @noname1999x 2 роки тому +6

    Большое вам спасибо за самые крутые уроки во вселенной! ❤️❤️❤️

    • @istories_workshop
      @istories_workshop  2 роки тому +1

      Рады, что нравится, спасибо, что смотрите!
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @andreyandreyovich5454
    @andreyandreyovich5454 Рік тому

    я загалом працюю в дотичній до іт галузі, але була потреба викростати скрейпінг, зазвичай теж дивлюся англійською, але ваші найкращі. дякую, все зрозуміло і по ділу

  • @larsthorleik2484
    @larsthorleik2484 Рік тому +3

    Всё понятно, только сайт Кинопоиск блокирует парсинг-запросы. В первый раз запрос срабатывает и данные получаются, потом выскакивает ошибка. Приходится мучиться. Может нужен прокси, а может в Юпитере нет таких проблем как в Пайчарме, в котором я работаю.

  • @ВиталийКоновалов-г1ц

    Спасибо! Информация доходчивая и легко усваиваемая во всех видео на канале!

    • @istories_workshop
      @istories_workshop  2 роки тому

      Спасибо, что смотрите :)
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @eldardev
    @eldardev 2 роки тому +1

    Супер! Спасибо за пример! Идеально взяли пример и объяснили кристально

  • @an-rh8bp
    @an-rh8bp 3 роки тому +2

    Держитесь, ребята, благодарю!

  • @ВикторФомичёв-х8л

    Спасибо вам большое за толковые и интересные видеоуроки

  • @fghhna
    @fghhna Рік тому +1

    Шикарная подача информации. Крайне полезное видео.

  • @ЛеонидСвиридов-г9ш
    @ЛеонидСвиридов-г9ш 3 місяці тому

    Благодарю, урок просто шикарен!

  • @yauhenilamakin8495
    @yauhenilamakin8495 2 роки тому +1

    Спасибо большое. Все просто и понятно. И главное, что работает

  • @vvitasikm3341
    @vvitasikm3341 Рік тому +1

    Супер ! Спасибо тебе милая девушка😊

  • @almaz1839
    @almaz1839 Рік тому +1

    Лучше пояснение! Спасибо, ты богиня!)

  • @ЯрославЛеонов-з8д

    УМНИЦА, очень круто объясняешь , спасибо тебе

  • @maestr0G
    @maestr0G Рік тому

    Вы просто супер , объясняет очень хорошо. Спасибо вам большое за контент ❤❤❤

  • @nadiiaschmitz2306
    @nadiiaschmitz2306 Рік тому

    Очень классное видео, прямо кристальная ясность наступает, спасибо огромное! 🌹🌹🌹

  • @forexmio
    @forexmio 10 місяців тому

    иноагенту лайк!!!! три раза!!!

  • @ThisIsGreenRoom
    @ThisIsGreenRoom 2 роки тому +1

    Зачётно всё понятно и доступно 💢 спасибо

  • @pervosled
    @pervosled 3 роки тому +2

    Очень полезно, спасибо!

  • @АндрейСамохин-о2ь

    Супер урок! Спасибо!:)

  • @pavelalex365
    @pavelalex365 4 місяці тому

    Спасибо!

  • @non5309
    @non5309 3 роки тому +3

    следующий урок будет интересным, видимо там будет про user_agent и подобное

  • @МортиМортимер-э1р
    @МортиМортимер-э1р 2 роки тому +1

    очень доступно, понятно, круто

  • @morinks
    @morinks 7 місяців тому

    Это лучшее обучение что я видел

  • @VitaliiTriboi
    @VitaliiTriboi Рік тому +2

    У меня не работает. Возможно потому что страница стала динамической. Я не получаю элементов с таким же классом как в браузере. можете пояснить?? Думаю многим будет интересно.

  • @gruzin01
    @gruzin01 Рік тому +1

    Спасибо большое за ваши уроки. Вы знаете, что на сегодняшний день ваш урок потерял актуальность так как сайт скорее всего переписали и теперь в объект soup попадает нечитаемая ерунда. Хорошо было бы если бы вы сняли видео как бы продолжение и рассказали как теперь парсить этот сайт.

    • @lifenow6078
      @lifenow6078 Рік тому

      да, тоже столкнулся с этой проблемой( смогли решить?

  • @kirillsidorov6641
    @kirillsidorov6641 Рік тому

    Просто отлично, лайк хоть можно поставить?

  • @Denmark1150
    @Denmark1150 2 роки тому +3

    Что-то у менявроде сначала все работало почти правильно, а потом перестало работать. Вроде с кодом все впорядке, но первый раз вывело не весь список, а потом и вовсе перестало выводить. Может ли быть такое, что кинопоиск мой айпишник из-за такой активности заблочил на какое-то время?
    В частности когда я по отдельности пытаюсь запустить запросы на один из пунктов(ссылка, название, страна и т.д.) выходит ошибка AttributeError 'NoneType' object has no attribute 'find'. Не мог же я наковырять во всех этих пунктах. Раньше они исправно работали
    UPD: заработало само через некоторое время, но почему-то выдало только 150. Но тоже не плохо😀
    Спасибо за видео, вы крутые

    • @МишаКулешов-ф2ф
      @МишаКулешов-ф2ф 2 роки тому

      Руслан, у меня такая же история, в тч выдает другой скрипт страницы через некоторое время...А на последнем цикле выдает строго одну страницу, а в след раз просто пустой список О_о Магия какая-то, иначе не могу объяснить...

    • @timuryuldoshev1609
      @timuryuldoshev1609 2 роки тому

      @@МишаКулешов-ф2ф это не магия, это защита от парсинга =) пробуйте внедрять в код "обманки".

  • @rikenbaker1
    @rikenbaker1 6 місяців тому +2

    Похоже что сайт стал динамическим и простыми запросами уже данные из него не получить.

  • @ИгнатМирзализадэ
    @ИгнатМирзализадэ 2 роки тому

    Каждый что то подчерпнет в этом видео. Я вот узнал, что я оказывается дата-журналист. Пойду ХХ шерстить на вакансии )

    • @istories_workshop
      @istories_workshop  2 роки тому

      День прошел не зря))
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @АлександрТележанин

    Очень живо и понятно всё! Спасибо за урок!

  • @karimjapparov5324
    @karimjapparov5324 9 місяців тому

    thank you

  • @Onixx616
    @Onixx616 2 роки тому

    Очень позновательный видос

  • @vasiliyovchinnikov1731
    @vasiliyovchinnikov1731 2 роки тому

    Спасибо огромное!

  • @chekito
    @chekito Рік тому +1

    Просто поклон до земли за эти уроки! Только у вас понял технику. Но возник вопрос. При парсинге вылетает исключение 'requests.exceptions.ConnectTimeout:' Как его лечить? Что конкретно прописать в except?

  • @name91fhghghg8
    @name91fhghghg8 3 роки тому

    с возвращением из застенков

  • @КатяШатохина-ь1в

    Подскажите, плиз, что не так после soup = bs(r.text, 'lxml') всё выходит в одну длинную строку. И потом при поиске soup.find('div', class_='styles_root__ti07r') ничего не находит

    • @sokatef
      @sokatef Рік тому +2

      Контент динамически загружается, т.е. просто так нельзя получить, так как js код в процессе исполняется. Используйте selenium, чтоб получить html вид страницы и уже по видео обработку делайте.

  • @floki_spb
    @floki_spb Рік тому

    УМНИЦА!!!!!!

  • @galievramil1169
    @galievramil1169 9 місяців тому

    Отлично

  • @alexdixon2844
    @alexdixon2844 Рік тому +1

    "видим что теперь наш код упорядочен..." - только почему он в реальности выводится в одну строчку?)

  • @АртемАлексеев-ж2ь

    Топ!!

  • @andrewhkh23
    @andrewhkh23 Рік тому +2

    Ребята, а почему не в pycharm или vs code? там же приходится каждую строчку через print выводить, или же с другими манипуляциями. Новички, в таком случае, не будут понимать основ кодировки. Юпитер это конечно прикольно. Но теряется смысл понимания алгоритмики кода. На win 10 этот юпитер, если честно очень криво работает. Точнее не срабатывает запуск окна ссылками. Приходится через отдельное приложение его запускать. Баг как никак. Недоработка на мультисистемность.
    А так не плохие у вас видео. Но все же разработка, должна вестись по правилам программирования.

  • @АлексейС-ч3г
    @АлексейС-ч3г 2 роки тому

    Так вот для кого продвигают Python! Иноагентки и иноагенты всех стран, саморазоблачайтесь!

  • @rakhmanovtr
    @rakhmanovtr 2 роки тому

    шикарно для новичка

  • @ИгорьКузнецов-т8р
    @ИгорьКузнецов-т8р 3 роки тому +4

    Спасибо за курсы! А можно ссылку на репозитории с кодом для предыдущего проекта(бот) и по текущему проекту тоже?

    • @istories_workshop
      @istories_workshop  3 роки тому +2

      Здравствуйте!
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА
      Ссылка на код робота ждала вас под последним видео курса, вот она: github.com/iStoriesMedia/robot
      По текущему будет чуть позже - тоже под видео появится ссылка.

    • @ИгорьКузнецов-т8р
      @ИгорьКузнецов-т8р 3 роки тому

      @@istories_workshop спасибо!

  • @Arnur-wt3vd
    @Arnur-wt3vd Рік тому +2

    А почему при парсинге вместо данных я получаю none?(

  • @garrig1925
    @garrig1925 2 роки тому +3

    Привет. При вводе soup = BeautifulSoup(r.text, "lxml") выводит ошибку FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? / Кое как запустил скрипт pycharm, выбрал как указали классы (но классы отличаются от ваших - время много прошло сайт поменялся), на выходе очень большой объем информации не получается уменьшить. Подскажите в чем ошибка

    • @yaroslavkuznetsov5016
      @yaroslavkuznetsov5016 2 роки тому +1

      нужно установить lxml так же как и BeautifulSoup - Pycharm - File - Settings - Python interpreter + ищешь и инсталируешь lxml

    • @МишаКулешов-ф2ф
      @МишаКулешов-ф2ф 2 роки тому

      Также выводится огромный нечитаемый массив данных, а при установке lxml пишет requirement already satisfied(

  • @gcodegsk9632
    @gcodegsk9632 2 роки тому +1

    Искренне не понимаю, как с таким качеством контента у вас такое небольшое количество подписчиков, уверен, это временно конечно, но возможно, стоит сменить название канала на что-то более логически подходящее к формату ;)

  • @moksggwp4195
    @moksggwp4195 Рік тому +2

    Можете прикрепить готовый ipynb, py файл из этого видео? Буду очень рад если скинете!❤

  • @CatMebelevich
    @CatMebelevich Рік тому

    Хорошо бы еще про установку BeautifulSoup

    • @АекссКек
      @АекссКек Рік тому

      В начале видео было … pip install bs4

  • @drgg9368
    @drgg9368 Рік тому +1

    Расскажите пожалуйста data science и скрейпинг это одно и тоже. Просто хотел купить книгу для изучения, а книга про скрейпинг 2016 года, я боюсь покупать т.к инфа может быть устарела . И я нашёл книгу про data science 2023 хорошую судя по отзывам и т.д. Вопрос такой мне нужна книга про то что говорится в видео . Подскажите пожалуйста какую взять накидайте вариантов буду очень благодарен. И ещё все таки data science и парсинг и скарпинг сайтов это одно и тоже?

  • @Dmitrijs.Skorohodovs
    @Dmitrijs.Skorohodovs Рік тому +1

    Выдаёт ошибку - raise FeatureNotFound(
    bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?
    Что делать?

    • @B1eka
      @B1eka 9 місяців тому

      Библиотеки надо сначало скачать и импотритовать

  • @TheMrDivinsky
    @TheMrDivinsky 3 роки тому

    Good soup 👌

  • @daxorid
    @daxorid Рік тому +1

    А это на какой версии пайтона? Просто я пробую парсить на 3.11 и у меня часть кода работает, а часть нет. Например: не работает .text, .get и др. Попробую установить более старую версию, например 3.10

  • @YAUHENNAUROTSKI
    @YAUHENNAUROTSKI Рік тому +1

    Здрастауйте ,а есть ли курсы при вашей поддержки по скрейпингу и анализу данных?

  • @МаринаВласова-и7у

    очень доступно подан материал, но не понятны слова запустим. это print в pyCharm? какая программа стоит у вас для кода?

  • @user-or6wr9xg4d
    @user-or6wr9xg4d 3 роки тому

    спасибо

  • @yaroslav1892
    @yaroslav1892 2 роки тому +2

    Сначала все работало, а потом find перестал что-либо искать, словно кинопоиск поставил какую-то защиту типа капчи.

    • @sofiam2237
      @sofiam2237 Рік тому

      Как решить эту проблему?

    • @ВладЯрмолюк-р3л
      @ВладЯрмолюк-р3л Рік тому +1

      Допишите юзер агент после юрл. На первые пару запросов хватит. Но это значение нужно бдует менять постоянно. Советую найти другой сайт для практики

  • @ДанисХ-з9ш
    @ДанисХ-з9ш 2 роки тому

    Алеся крутая

  • @constantine_rolls
    @constantine_rolls Рік тому

  • @АлисаВасильева-б1х
    @АлисаВасильева-б1х 2 роки тому +2

    здравствуйте! я +- разобралась в парсинге на реквестс, можете, пожалуйста, подсказать, как мне начать поиск по введенным данным пользователя (input) и вытащить первые 10 ссылок, которые находятся в браузере по этому запросу?

    • @istories_workshop
      @istories_workshop  2 роки тому

      Здравствуйте! Здесь (ua-cam.com/video/oqS-bR5m1bI/v-deo.html) рассказываем, как искать поле ввода и нажимать enter, чтобы поиск выполнился. И в этом же уроке есть пример того, как можно собрать первые 10 строк выдачи.
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @restsheets2962
    @restsheets2962 2 роки тому

    Спасибо за видео! А можно также брать информацию из сайта, где постоянно сервер перезагружается. Сайт универа ужасный, если просто вырвать ссылку, то нужно заходить по логину и паролю и всё заново

    • @istories_workshop
      @istories_workshop  2 роки тому

      Здравствуйте! Сложно сказать, не видя сайт и код. Возможно, придется логиниться каждый раз. Заходите в наш чат t.me/istories_helloworld, постараемся подсказать более детально.
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @Reach_of_the_Astronomican
    @Reach_of_the_Astronomican 3 роки тому

    а, блин, это же тоже иностранный агент, а то я захожу в мастерскую как в другой мир обычно

    • @istories_workshop
      @istories_workshop  3 роки тому

      Теперь это одна коновселенная))
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @flyEngineer
    @flyEngineer Рік тому

    Кинопоиск стал мешать парсингу. Теперь капча мешает.

  • @Hacking-NASSA-with-HTML
    @Hacking-NASSA-with-HTML Рік тому

    Здравствуйте, я очень извиняюсь за возможно тупой вопрос, а может парсер - работать в режиме event listener🤔?
    Чтобы "поселить" парсер на форум, и чтобы парсер сообщал о наиболее активных темах, типа "на ветке велосипеды за последний час появилось 9 сообщений". Как такое сделать 🤔?

    • @Hacking-NASSA-with-HTML
      @Hacking-NASSA-with-HTML Рік тому

      Бэкэнд сайта сделан на node js.
      Как вот такое сделать 🤔? Чтобы парсер "слушал" двести веток форума одновременно.
      Объясните пожалуйста хотя бы в общих чертах, дальше я уже сам догуглю, ато я даже не знаю что пока гуглить 😁🤷

  • @ОлегСташков-х6з
    @ОлегСташков-х6з 2 роки тому

    print("Богиня")

  • @Dmitrijs.Skorohodovs
    @Dmitrijs.Skorohodovs Рік тому

    Почему выдаёт ошибку
    raise FeatureNotFound(
    bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?
    Даже если lmlx установлен?...

  • @ambro4580
    @ambro4580 2 роки тому

    Можно было rfind использовать, мне кажется, когда жанр искали

  • @picassos3017
    @picassos3017 Рік тому

    Пробую повторить 2.01.2023. Названия классов сменились. Это как?

  • @patriziab6782
    @patriziab6782 2 роки тому

    Здравствуйте, на предпоследнем шагу len(data) возвращает 0.
    Код вроде точь-в-точь, не пойму в чём проблема. Код вроде точь-в-точь, не пойму в чём проблема. Не могли бы вы подсказать, что может быть тому причиной, или опубликовать исходник? Спасибо, видео очень понравилось!

    • @istories_workshop
      @istories_workshop  2 роки тому

      Здравствуйте! Видимо, все же не один в один...
      Попробуйте показать ваш код в нашем чате, постараемся помочь: t.me/istories_helloworld
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @Your.m.o.t.h.e.r
    @Your.m.o.t.h.e.r Рік тому

    При добавлении этой строчки
    soup = BeautifulSoup(r.text, "lxml")
    Выдает ошибку
    File "C:\Users\thxmd\PycharmProjects\html_pars\venv\Lib\site-packages\bs4\__init__.py", line 248, in __init__
    raise FeatureNotFound(
    bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library?
    Что я делаю не так ?

    • @kos6036
      @kos6036 Рік тому

      попробуй "lxml" в одинарные кавычки 'lxml'

    • @Павел-у9г1р
      @Павел-у9г1р Рік тому

      Если актуально то обнови lxml (pip install --upgrade lxml), перезагрузи kernel и импортируй все библиотеки заново. У меня сработало.

  • @РомаДинисов-э5б
    @РомаДинисов-э5б 2 роки тому

    Добрый день, мне просто стало интересно вы по паспорту Алеся? Или все таки это опечатка, на сколько мне известно данное имя пишется Олеся!

    • @istories_workshop
      @istories_workshop  2 роки тому

      Нет, она Алеся) Вряд ли бы мы не научились правильно писать имя коллеги))
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @MadinaAbaeva-b4w
    @MadinaAbaeva-b4w Рік тому

    Здравствуйте, у меня есть 30 тыс ссылок и мне нужно из каждой ссылки собрать - артикул, описание и картинку. Заметила, что сайт не любит большое количество запросов. Есть ли способ обойти эту защиту используя прокси или что-то другое. Хотела купить прокси, но это дорого.

  • @sikirey4151
    @sikirey4151 2 роки тому +1

    код может работать но при следующем включении выдает ошибку:
    'NoneType' object has no attribute 'find'
    понимаю что ошибка связана с тем что какая-то деталь find() - None, но прикол в том что он код работал

    • @timuryuldoshev1609
      @timuryuldoshev1609 2 роки тому

      точно такая же проблема...второй атрибут .find и атрибут .get не признаёт. Может bs4 изменился?

    • @ВладЯрмолюк-р3л
      @ВладЯрмолюк-р3л Рік тому

      Тоже столкнулся с такой проблемой. Код работает и при следующем запуске уже не работает поиск, так как исходник пустой. Как я понял, сайт блокает ваш запрос. Ведь сменив сайт и проделав всё тоже самое - таких проблем нет. Это при условии, что вы не ошиблись в самом коде

  • @valdemarvaldemar4734
    @valdemarvaldemar4734 2 роки тому

    Добрый день! Огромная благодарность за видео и знания, которыми Вы делитесь! Прошу помощи! Сложил код, но работает странно: выбирает данные только из первых двух (из 5) страниц сайта. Остальные 3, 4 и 5 просто под номером принтит (согласно коду), но без результатов парсинга данных в файл. Цикл страниц задан верно (1-6). Но, увы и ах...

    • @istories_workshop
      @istories_workshop  2 роки тому

      Здравствуйте. Попробуйте написать в наш чат t.me/istories_helloworld, не видя ваш код невозможно понять, в чем может быть проблема.
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

    • @valdemarvaldemar4734
      @valdemarvaldemar4734 2 роки тому

      @@istories_workshop Спасибо за обратную связь, к этому моменту я понял в чем проблема. После второй страницы на сайте появляется "капча". А значит Вашим урокам есть куда развиваться. Ждем предложений :)

    • @alex_grothendieck9701
      @alex_grothendieck9701 2 роки тому +1

      @@istories_workshop у меня появляется капча ещё на первой странице, совсем не даёт ничего спарсить :(
      Причем пробовал и устройства менять, и сети подключения. Это можно как-то починить? Ну или возможно вы могли бы подсказать какой-то другой сайт вместо КиноПоиска со схожим устройством разделов, чтобы можно было на этом сайте потренироваться?

  • @academy-mu6uh
    @academy-mu6uh Рік тому

    У меня вопрос, а как быть со страницами на которых кодьнельзя просмотреть (resources page), нажимая а открывается тупа пустая страница?

  • @Born2kill102
    @Born2kill102 2 роки тому

    Чзх, уроки по питону это незаконно

  • @ДенисЭдуардович-э8щ

    так и не понял где до цикла определена "переменная" film использующася в цикле.... после переименования соуп в филм, пропадает подкрашивание синтаксиса find

    • @istories_workshop
      @istories_workshop  2 роки тому

      Здравствуйте. Попробуйте написать в наш чат t.me/istories_helloworld, не видя ваш код невозможно понять, в чем может быть проблема.
      ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА

  • @МишаКулешов-ф2ф
    @МишаКулешов-ф2ф 2 роки тому

    Здравствуйте, кто-то может подсказать пожалуйста? Вот какая проблема. Делал все пошагово - работало. Ровно до тех пор, пока на попытался парсить все пять страниц. После этого мне вначале выдало исключительно 4ю страницу. А затем цикл просто стал выдавать пустой лист. Перешел к первым шагам, решил еще раз попробовать на одной странице и теперь request.get(url) с той же самой ссылкой выдает абсолютно другой скрипт страницы, как это происходит и что с этим делать?..

  • @teacherit5840
    @teacherit5840 8 місяців тому +1

    Сейчас у меня не работает видимо сайт стал динамическим?

    • @teacherit5840
      @teacherit5840 8 місяців тому

      Возможно.ВОзможно заголовки просит

    • @Stereophoto
      @Stereophoto 7 місяців тому

      пробуйте другие ресурсы, я на этом примере сделал скрейпинг каталога виниловых пластинок с одного ресурса

  • @alexeiiminailov560
    @alexeiiminailov560 Рік тому

    soup=BeautifulSoup(r.text, "lxml") выскакивает ошибка
    NameError Traceback (most recent call last)
    Cell In[12], line 1
    ----> 1 soup=BeautifulSoup(r.text, "lxml")
    NameError: name 'BeautifulSoup' is not defined

  • @ekaterinaivanova3816
    @ekaterinaivanova3816 2 роки тому

    "нога в ногу" не очень благозвучно в речи использовать)

  • @alexdixon2844
    @alexdixon2844 Рік тому

    Скажите пожалуйста, почему вместо кода пишет результат None?

  • @osvab000
    @osvab000 Рік тому

    На 9 минуте, после команды: soup.find('div', class_='desktop-rating-selection-film-item').find('a', class_='selection-film-item-meta_link') - выскакивает ошибка! У вас работает а у меня нет и не могу понять почему? Может это из-за Коллаба?

    • @istories_workshop
      @istories_workshop  Рік тому

      Чтобы ответить на вопрос, нужно видеть текст ошибки. Там должно быть написано, почему код не может пройти дальше и в какой строке проблема. Если не получается найти самому, погуглите текст ошибки - на StackOverflow скорее всего уже будет ответ

  • @codywallker1208
    @codywallker1208 2 роки тому +1

    Я вот Scraph делаю в VS и все правильно делаю но у меня выходит ошибка None object type Error и я не понимаю почему но я все правильно делаю

    • @codywallker1208
      @codywallker1208 2 роки тому

      Только не скажите надо гуглить я ютублю а не гуглю ) и от вас хочу узнать проблему

    • @istories_workshop
      @istories_workshop  2 роки тому

      так если ошибка выходит, значит все-таки что-то неправильно делаете)) Но по комментарию в ютубе сложно понять, что пошло не так, надо видеть код ошибки и ваш код. У нас в описаниях к видео есть ссылка на чатик, куда можно задавать такие вопрос, если вы не хотите задавать их гуглу (мы, как видите, в комментариях отвечаем медленновато)

  • @dicloniusN35
    @dicloniusN35 2 роки тому

    а как то же самое с мобильным приложением сделать?)

  • @ПавелЛешок-ь7л
    @ПавелЛешок-ь7л Рік тому

    Скачал пайтон, запустил, открылась системная трока (чёрное окно). Как сделать такой же удобный интерфейс, как у вас?

    • @Arnur-wt3vd
      @Arnur-wt3vd Рік тому

      у автора Jupyter Notebook