Обучение парсингу на Python | Парсинг CloudFlare | Фриланс, Selenium, CloudFlare
Вставка
- Опубліковано 21 вер 2024
- ⚡️ Практика Python ⚡️
Фриланс. Обучение (Web-Scraping) веб парсингу на Python. В данном видео разбираемся как можно обойти Cloudflare правильно настроив Selenium WebDriver для Chrome браузера.
💰 Поддержать проект:
www.netstalker...
/ pythontoday
yoomoney.ru/to...
🔥 Стать спонсором канала:
/ @pythontoday
****Ссылки****
Дешевый/надежный сервер в Европе:
zomro.com/?from...
promo_code:
zomro_246874
Хороший proxy сервис:
proxy6.net/a/1...
🔥 Telegram канал с к кучей ништяков и кодом из видео:
t.me/python2day
Выполняем тестовое задание на Junior Python разработчика с зарплатой 70000р:
• Выполняем тестовое зад...
Зарабатываем на фрилансе | Requests, bs4 и телеграм бот на aiogram:
• Обучение парсингу на P...
Вычисляем по IP с помощью Python | Как определить местоположение по IP:
• Вычисляем по IP с помо...
Как узнать пароль от Wi-Fi с помощью Python | Достаем пароли от Wi-Fi точек доступа в Windows:
• Video
Что такое фишинг и как не попасться? | Генератор QR код на Python:
• Что такое фишинг и как...
Парсинг криптобиржи | Торговый бот | API криптобиржи:
• Парсинг криптобиржи | ...
Python с нуля | if _name_ == '__main__' | Зачем? И почему нужно использовать
• Python с нуля | if __n...
Асинхронный парсинг на Python | Ускоряем код в 10 раз
• Асинхронный парсинг на...
Парсинг на Python | Подмена IP-адреса | Запросы через прокси
• Парсинг на Python | По...
Парсинг динамического сайта на Python + Telegram бот на AIOGram | Requests, AIOGram, API, JSON
• Парсинг динамического ...
Пишем Telegram бота на Python + Загружаем Telegram бота на сервер(хостинг):
• Пишем Telegram бота на...
Плейлист по распознаванию лиц на Python:
• Распознавание лиц | Fa...
Плейлист по парсингу сайтов на Python:
• Парсинг/Scraping
Плейлист по Instagram боту:
• Instagram Bot на Pytho...
Плейлист по Linux для новичков:
• Linux для начинающих
CURL into Python requests:
curlconverter....
Код проекта на github:
github.com/pyt...
И в telegram канале:
t.me/python2day
****Соц.сети****
Telegram: t.me/python2day
#фриланс #парсинг #заработоквинтернете #requests #python #selenium #заработок #webscraping #scraping #api #webdriver #freelance
Long, long time ago I learned russian language in school. Now I use your channel to try to keep track with russian language in IT area. I still understand a lot .. some remaining stuff gets more clear when seeing the code. Thanks a lot and keep going.
Greetings from Germany.
Thanks a lot! Really appreciate it!
"Я напишу этот комментарий через переводчик"
Спасибо большое, я много понимаю из твоих роликов, конечно есть язычный барьер но Вы объясните лучше всех 🤝🤝
Большое спасибо за поддержку!
@@PythonToday Запиши пожалуйста урок как работать с определенным Гугл Профилем 🙏🙏 Очень полезно будет для новичков. Пару таких видео нашел, через undetected_chromedriver люди открывают, но у меня не работает, что только не пробовал 🥵 У меня открывается профиль, но почему то функция get() не открывает страницу.
@@PythonToday а как обойти cloudflare если скрипт запускается на heroku?
В моем случае сработало, спасибо тебе и Александру очень выручили!
Здравствуйте. Обычно комментарии не пишу, но вас я решил поддержать, потому что вы бесплатно делитесь такими крутыми знаниями. Спасибо за ваши видео, благодаря вам я уже пишу работающие парсеры, пока что для проектов моих друзей и знакомых, но дальше больше. Большинство скилов я приобрел из ваших видео. 🔥
Большое спасибо за поддержку и фидбэк!
Большое спасибо за практический и полезный материал, и за посты в телеге) Еще бы обзоров побольше на утилиты, понимаю что на ютубе вряд ли, но в приватке по возможности. И больше пентеста друг, большое тебе спасибо за то, что освещаешь эту тему с практической стороны ❤ С нас поддержка)
Да, учусь полным ходом, со временем совсем тяжело. Конечно будем делать больше видео по пентесту) Спасибо за поддержку дружище!
@@PythonToday для обхода Клауда есть либа клаудскрапе, пользуйся и не гемори с селеном
@@PythonToday Я бы добавил, что один и тот же код на разных компах работает по разному. На одном работает, на другом нет. Отличие только в версии Chrome.
Класс) кстати, хотелось бы побольше видео по парсингу с использованием селениум, особенно с запусками цепочек действий
Большое спасибо за фидбэк! Если будет заказ, обязательно выложу видео. Ушел сейчас с головой в другое направление)
@@PythonTodayВ какое?)
Прям супер вовремя. Тоже встрял с капчей из-за этого. Благодарности нет предела! 🔥🔥🔥
Спасибо большое дорогой друг, я долго ждал видео на базе обновленного Selentium. У тебя был курс но уже устарел!
Очень помогаешь, самые информативные уроки на русскоязычном пространстве. Благодарю!
Большое спасибо за фидбэк и поддержку! Да не так-то он и устарел, есть какие-то методы, но Python, как и Selenium прямо говорит что нужно заменить, всё максимально понятно) Достаточно загуглить
Красачик, и Сане спасибо) Благодарю за полезный контент!
Надеюсь Саня прочитает) Большое спасибо за фидбэк и поддержку друг!
Hallmore, кощак и ПАРСИНГ!!!)))) Обожаю!)))
Поддерживаю ребят в комментах. Можно побольше про selenium?
Спасибо за то видео! Искал ответ именно на этот вопрос, правда никаких cdc в консоле я не нашёл и не получилось зайти на озон. Хотелось бы ещё по playwright
Спасибо большое Вам за видео, а Александру за информацию.
Благодарю за фидбэк!
Не зря выкладываешь ролики :)
Просто лучший, благодарю.
Удивительно полезный канал)) мне очень нравится!!! Продолжайте в том же духе)))
Большое спасибо за поддержку!
спасибо. первый раз решил попробовать автоматизировать на озоне и сразу проверка такая. помогли твои действия.
Рад что полезно, спасибо за фидбэк!
Вау! Просто вау ) завтра буду тестить!
Вот я и потестил твой код ) супер! Все работает! Канал просто пушка!
Действительно работает )
Спасибо!
Рад что полезно, спасибо за фидбэк!
каааааааееееееееееееееееф!!!! огромное спасибо, как же это мне помогло)
Рад что полезно! Спасибо за фидбэк!
Молодец! И Сане большое спасибо 😀
Супер! Спасибо огромное за твой труд! Александру тоже спасибо)
Большое спаисбо за фидбэк!
Ещё было бы интересно посмотреть настройку selenium под максимально быструюработу, тоесть облегчить его полностью
Очень круто, спасибо!
Спасибо за фидбэк!
Спасибо ! Очень полезное и интересное видео !
Благодарю Вас - это для меня актуально
Отличный урок. Впрочем, как всегда. Спасибо за труд!
Большое спасибо за поддержку!
Спасибо за вашу работу. Хотелось бы увидеть ролик с использованием библиотеки dash.
ну сам видос оч полезен, спасибо)
Привет, хотелось бы ещё видео на эту тему, с нюансом, как обойти капчу при парсинге)
Используй установку плагинов с антикапч , к сожалению придётся сделать либо повторно запускаемый экземпляр браузера, либо установку плагина при каждом запуске.
@@rkpstam *Зачем? Скачиваешь расширения, закидываешь, подключаешь... Капча сама обнаруживается и решается.*
@@Proborder В любом случае расширение должно устанавливаться при каждом запуске(либо быть изначально установленным, при подключении к существующему браузеру)
@@Proborder Что за расширение, не подскажешь?
можно и без расширений обойтись
Канал бомба! 👍
Большое спасибо за поддержку!
Ух ты, спасибо. Я то привык пользоваться undetected chromedriver
ЭТО ПРОСТО ЛУЧШЕЕ ВИДЕО
Искал решение этой проблемы на протяжение месяца, а тут это видео. Огромное спасибо автору и Санечке, который рассказал об этой теме.
Огромный +реп
Большое спасибо за поддержку!
Санечка вообще красавчик,походу раньше в Cloudflare работал ))))
Отличный контент, для полной феерии ещё бы подмену webRtc, не удаление, а подмену
работаю на компанию у которой стоит подобная защита, буду пробовать. Не знал об этих функциях
как раз то что нужно мне сейчас
Надеюсь было полезно!
Very Nice!! Really help me!
отлично! надо попробовать в --headless режиме) буквально пару дней назад мучался, когда в оконном режиме сайт впускает, в безголовом же выскакивает заглушка. Оказывается, в режиме --headless нужно было изменять user-agent. В безголовом режиме он выглядит как chromeHeadless Browser 109.4.36.... Нужно попробовать, как у вас в видео,
Здравствуйте, сейчас столкнулся с этой проблемой, в headless режиме не возвращается разметка, которая видна при запуске и следственно невозможно произвести клик по чек-боксу для прохождения проверки. Вы эту проблему смогли решить? В оконном режиме кстати проверка проходит на ура.
@@vornedmort7318 не знаю нужно разбираться
круть, спасибо, как раз нужен был такой способ
Рад что полезно, спасибо за фидбэк!
Сейчас таким образом обойти защиту CloudFlare не получается. может кто подскажет какие есть актуальные варианты?
Больше спасибо!
Супер!!! Наконец то заработал!!!
Как всегда спасибо за топовый контент. Вот бы ещё знать как обойти затупы авито при использовании селениума или реквеста)
Прикольный метод. Такое в привате можно курсами толкать, тыща рублей за интенсив по обходу клоудфлера 😀
Благодарю за фидбэк!)
Благодарю за видео. Для себя код пришлось поменять, может кому-нибудь будет полезно.
from selenium import webdriver
import time
import undetected_chromedriver
options = webdriver.ChromeOptions()
options.add_argument('--no-sandbox')
options.add_argument('start-maximized')
options.add_argument('enable-automation')
options.add_argument('--disable-infobars')
options.add_argument('--disable-dev-shm-usage')
options.add_argument('--disable-browser-side-navigation')
options.add_argument("--remote-debugging-port=9222")
options.add_argument('--disable-gpu')
options.add_argument("--log-level=3")
try:
driver = undetected_chromedriver.Chrome(options=options)
driver.maximize_window()
driver.get('anycoindirect.eu')
time.sleep(40)
except Exception as ex:
print(ex)
finally:
driver.close()
driver.quit()
Впечатляет
Существует ли на данный момент рабочий метод обхода CloudFlare? Потому что этот метод перестал работать с начала августа 2023 года(
Есть, seleniumbase.Driver(uc=True)
Нашли?
@@ИгорьКатцкак вариант использовать версию Chrome такую же как и в видео 109.0.5414
Ну или
import undetected_chrondriver as uc
options=uc.ChromeOptions()
options.add_argument("--disable-blink-features=AutomationConrolled")
s=Service("/usr/../../chromedriver")
driver=uc.Chrome(service=s, options= options)
driver.get(url)
а вы нашли?
@@ma1lor208 а вы нашли?
Буду пробовать, а то я неделю бьюсь над тем как запустить парсер мегамаркета на сервере
Было бы круто обзодить на реквестах, но лучше чем открывать браузер и експорировать кукисы в реквест сессию я не находил
Вау, очень круто!!
шикардос спасибо
как обычно круто!!!!!!!!!!!!!!!!!!
Большое спасибо за фидбэк!
Парсить хромдрайвером не тру. Показал бы как использовать барп, и сделать на чистом реквесте\айохттп
огонь, спасибо за инфу
Спасибо за фидбэк!
Стянул это видео, как и учил мастер)
Ну всё, Озон держись.
Хотелось бы увидеть подобное для лисы
Прекрасное видео, очень помогло при парсинге ozon!
p.s в описании видео стоит не та ссылка на код проекта.
Большое спасибо за фидбэк! Рад что полезно!
@@PythonToday в описании видео стоит не та ссылка на код проекта.
Мне сейчас не помогает, может еще какая хитрость, которая в видео не описана?
Привет, у тебя в описании указан неверный репозиторий. Перекидывает на scrap-lifetime, а нужен selenium_cloudflare.
Канал огонь!!!!!
Рекомендую!!!
Подскажите адекватную фриланс биржу?!
Можно без танцев с бубном со скачиванием и установкой путей до драйвера. Есть пакет undetected_chromedriver, все тоже самое, но проще
Пробовал обойти cloudflare с помощью данного модуля?
@@PythonToday да, все обходится, сайт загружается. Было это месяца 4 назад. Сомневаюсь, что сейчас что-то поменялось
Возможно зависит от сайта, или версии cf, т.к обновляют. Насколько помню пробовал uc, но не смог пройти
Осенью ещё, может что-то обновилось в лучшую сторону для UC
Uc легко обходит клауд
Спасибо за отличный ролик!
Друзья, посоветуйте биржу фриланса. Хотел бы сам потренироваться что-то парсить, но чтоб за это и копеечку получать
Спасибо большое
Благодарю за фидбэк!
переписал код 1 в 1 но все равно капчу не пропустило, кто может помочь?
Спасибо круто
можно чаще видео делать!!
Спасибо за Ваш труд. Очень полезные штуки узнаем. У меня вопрос. Наверное у вас видел про псевдо элементы парсинг. Можете на которым видео... Если честно сказать вроде все Ваше видое просмотрел так и не могу найти.
Крутой материал!
Привет. Спасибо за отличное объяснения. Но на windows почему то не получается обойти эту капчу (. Несколько раз пересматривал
супер
Прикольно
попробуйте undetected selenium, там уже все настроено)
👍👍👍
у селениума есть свои таимауты, как условные так и безусловные , можно без таима .
интересно было бы посмотреть пример на фаерфоксе , а то селениум 4 версии с фаервокс как-то запутано иницируется
2024 не работает
Спасибо за ваши видео. Скажите вы выполняете заказы? Как можно с вами связаться?
как определить стоимость заказа (парсера)?
Привет! Спасибо за видео! Сталкивался ли с защитой 'F5'? Если да, подскажи как с ней бороться)) Устал видеть "The requested URL was rejected. Please consult with your administrador."😑
Ты же вроде показывал библиотеку fake-selenium, которая обходила cloudflare, она перестала работать или не в ней суть?
видимо в той библиотеке и используются эти опции
в nodejs/golang есть библиотека cycleTLS, которая шаманит с шифрами, что бы установить нормальный TLS handshake, что позволяют пройти сквозь cloudflfare, возможно на python можно реализовать такое же решение
К сожалению пока не в курсе
Скачал версию Chrome 114.0.5735.90 и к ней ChromeDriver и этот метод работает, там в параметрах window.cdc_ также как в видео, но начиная с версий 115 и более данный метод уже не актуален. Если у кого-то получилось, дайте обратную связь.
а можно использовать undetected-chromedriver и webdriver-manager и не городить "огород", но как я понял автор не ищет лёгких путей
Походу все! Данный метод не работает уже как пару дней. Видимо что-то подкрутили
Есть ли другие методы CloudFlare?
Не совсем понял почему бы просто вместо selenium в чистом виде не использовать undetected chrome driver? У меня лично Клауд не палит его и вроде как попроще решение или я чего-то не понимаю?
Подскажит пожалуйста, как данный обход/подход совместить с парсингом большого количества ссылок, которые генерируются мною лично для определённого сайта? Т.е. то что вебдрайвером селениума мы обходим единичную проверку CloudFlare это замечательно, но как дальше не попадать на эту же проверку, когда ссылок в работе большое количечство? Я имею ввиду, что может можно как то по типу requests.session сохранить свой "статус пройденной проверки" и дальше работать в обычном режиме?
Спасибо! А на Playwright как подобное сделать?)
что делать если в Fetch/XHR в Response нету ничего а просто цифра 1, я пытаюсь на другом сайте сделать это
Уже не работает, есть новые способы клауд обойти?
Приветствую, подскажите, терминал zsh? Как называется тема, где взять?
пытаюсь зайти на озон с этим кодом и у меня становится не кликабельной кнопка войти / выдает ошибку, так что их сайт как-то иначе отлавливает что я роботизировано захожу(
Как получить доступ к сайту через тор соединение?
Не получается проити tls рукопожание... (((
Как сохранить страницу теперь? Можно ли python поставить на крон?
Спасибо. А что лучше использовать, вариант из видео или undetected_chromedriver. Заранее спасибо.
последний не работает.
Рабочий нужен
Есть рабочий вариант еще???
ты лучший)
А можно как-то сделать с помощью requests?
Благодарю за фидбэк! Не могу сказать наверняка, пока не доводилось. Но нет ничего невозможного)
тоже интересует такой вопрос
Антибот Cloudflare и через Selenium-то, имитирующий человеческие действия, обойти сложно, а уж через requests... Возможно и есть какие-то методы, но мне кажется, это скорее всего дохлый номер :-/
А как вы так кастомизировали консоль vscode-а?
Я, как разработчик сервисов, обеспокоен такой проблемой Cloudflare. Как защититься от этого метода обмана Cloudflare?
Попробуй отключить сервер на котором сервис работает. Тогда и парсить нечего небудет.
@@ИмяФамилия-ы4е2ф Я серьезно))
сделать апи в 2023 уже(с лимитами) и не долбить сервер статическими страницами
Всем привет. При попытке парсинга столкнулся с такой проблемой: "You are using an outdated browser version and can not use all features of this website.
Please update your browser." Вот это все было в такой обвёртке "
интресно, можно ли пройти cloudflare без селениума через bs4?
Возможно, но это подрыв очка. Готовые решения есть только на 1-ую версию, на 2-ую нема (онли платные). И bs4 здесь вообще не при чем
@@re1von пон, спасибо. а сейчас какая версия?
@axelrod в смысле "какая сейчас"? Какую сервис, которому нужна защита, выберет, такая и будет. Доступны обе
Блин, перерыл весь интернет остался только этот способ, но вылезает ошибка: Can’t instantiate abstract class service with abstract method command line args