Парсим сайты конкурентов с помощью Python | Часть 1 | Web Scraping Python
Вставка
- Опубліковано 5 чер 2024
- 🔥 Курс по Python: python.smysl.io/
🎬 Плейлист про настройку рабочей среды:
Настройка рабочей среды для разработки на Python
• Настройка рабочей сред...
СОДЕРЖАНИЕ
00:00 - Начало
00:54 - Как работает парсинг
04:51 - Библиотека requests
08:15 - HTML-тэги
14:17 - Библиотека beautifulsoup
23:55 - Обработка пагинации
33:21 - Ограничения
ОБО МНЕ
👋 Привет! Меня зовут Алексей. Я работаю в IT, занимал ключевые позиции в Групоне, Gett, Яндекс-Логистике и Osome. Я люблю преподавать, и у меня получается делать сложные вещи понятными. Хочу помогать людям не бояться нового и понимать, как технологии могут сделать нашу жизнь лучше.
📢 Канал в Телеграме: t.me/kulichevskiy
спасибо большое! сейчас занимаюсь изучением самостоятельно, Вас очень приятно и, главное что, понятно!!! слушать. Очень интересно и все получается)
Приятно слушать, классные усы
Леша, у тебя такая грамотная речь и внешка киноактера, в кино нужно сниматься))
Леша, у тебя супер канал!пожалуйста, не останавливайся :)
Интересно - продолжайте пожалуйста)
Особенно интересно как работать с случаем, когда данные появляются в всплывающем окне -> Например сайт где по нажатию кнопки "Контакты" всплывает окошко с контактами. Нажатие кнопки отправляет доп. запрос и по сути дополняет главный HTML блоком кода.
Спасибо🙌🏻🙌🏻
Спасибо за бесценный урок. Жду с нетерпением второй части
А нет, уже оказывается вышло. Бегу смотреть.
Там и третья часть вышла :)
Усы!
Пришел по настройке окружения, так дальше и остался, смотрю, все, что выходит! Спасибо!
Парсить и сайты под логином и капчи - все интересно!
а шлифовалок уже больше на сайте =)
Было бы славно посмотреть про капчи и прочие трудности, по типу ютуба
опачки пошли просмотры👍🏻
Здравствуйте. А парсить цены p2p на bybit или huobi так можно?
Думаю да, но, наверное, есть более простой способ. У обеих бирж есть API.
(бесстыжее промо) Приходите на курс, там будем учиться работать с API :)
🔥 Курс про автоматизацию рутины с помощью Python: python.smysl.io/
Что за тема в VsCode?
Это Gruvbox :)
Я бы упростил условие для цикла while, посмотрев какой респонсе код выдаёт номер за границей диапазона.
Хорошая идея, только там всегда 200 было. Страничка ж генерится, просто на ней нет ничего.
@@kulichevskiy, посмотрел, как делают на форонде на нескольких сайтах. Заметил, что при превышении числа страниц часто возвращают последнюю. Может на этом условие сделать?
В целом, очень хочется вас поблагодарить за мега профессиональный контент. Большое удовольствие и польза от вашего канала.
а как 403 сайты парсить? только не нужно про хэдерсы их замена не помогает как и замена ип
Послушайте, надо разбираться. Вообще обычно подстановка cookie помогает. Возможно, стоит попробовать selenium - там прям логин и пароль ввести можно
а как подставить куки в силениум чтобы браузер воспринимал пользователя как пользователя а не силениум чтобы обойти 403? @@kulichevskiy
А когда набор на курс?
Я думаю, что продажи откроются через 2-3 недели. Подпишитесь на сайте, я пришлю приглашение на вебинар
где код?
29:53 max_page последний элемент, зачем мудрить с дальнейшим переводом в интеджер всех элементов для поиска максимального. Ну и комент к концовке - про парсинг простых сайтов контента хоть отбавляй, как парсить сложные сайты?
усы это треш какой-то...
👨🏻