쿠팡 크롤링 차단되지 않고 상세 페이지, 리뷰까지 스크래핑하는 프로그램 만들기

Programmer Kimfl Studio

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 25 лис 2024

КОМЕНТАРІ • 43

@dubbing_dog 10 місяців тому
안녕하세요~~ 소중한 정보감사합니다 ㅎㅎㅎㅎ 영상을 보고 질문이 있는데...쿠팡 페이지 3페이지 정도면 리뷰를 가져오는 기능까지해서 요청이 어느정도 되나요~???? 비용을 계산해보고 싶어서 질문드립니다 ㅎㅎㅎㅎ
@0213undftd 2 місяці тому
쿠팡에서 판매자 정보 크롤링은 불가능한가요? 영상에서 알려주신대로 크롤링을 시도해봤는데 판매자정보는 추출이 안되네요
@KolisTube Рік тому ⁺⁵
이렇게 크롤링해서 어디에 응용해서 사용 가능할까요?
@kimfl Рік тому
스크랩한 정보를 필요한데 사용을 해야겠죠? 데이터 자체가 필요해서 크롤링을 할 수도 있을 테고 정보를 다른 웹이나 앱에서 보여줄 수도 있습니다.
가격정보를 사용해서 제품 가격 변화나 다른 쇼핑몰과의 가격비교도 할 수 있고, 제품 리뷰를 분석해서 시장 반응을 볼 수도 있겠죠.
어디에 사용할지는 정해진 건 없습니다. 기획하고 만드는 사람의 몫인 거죠.
@해피아워-o3v 9 місяців тому
스크래핑 브라우저 요금정책 중 세션 시간으로 했을 때 세션이라는게 해당 API 하나 호출 당 세션하나 인건가요? 가령 동일 키로 동시에 두개 호출하면 세션이 두개 유지되는거고 요금도 두배로 적용되는건지요?
@kimfl 9 місяців тому
맞습니다- 가격이나 기타 사항에 대한 부분은 브라이트 데이터로 메일 보내서 문의하시면 더 정확하게 답변 받으실 수 있습니다.
@gototheSky_4 8 місяців тому
안녕하세요! 상세페이지 url에서 브랜드명이랑 제품명가져올때 traceback(most recent call last) 오류가 뜨는데 혹시 이유를 알 수 있을까요?! ㅠㅠ
@원희이-c4c 9 місяців тому ⁺¹
페이지 넘어가면서 크롤링 하는 부분(29:42)에서 Traceback (most recent call last):~~라는 에러가 뜨는데 어떻게 해결해야하나요?? 문제가 뭔지도 알 수 있을까요
@kimfl 9 місяців тому
Traceback (most recent call last): 이 부분은 에러 메시지가 시작하는 부분입니다.
메시지에는 몇 번째 줄에서 에러가 발생했고 에러 이름은 무엇인지 나와있습니다.
코드와 함께 그 내용을 올려주셔야 어떤 에러인지, 어떻게 해결하는지 알려드릴 수 있습니다.
@싸코-t8k 2 місяці тому
위의 강의해주시는 과정대로 따라하는 중에 proxy와 os 관련 407 오류가 뜨는데 어떻게 해결해야 할까요? 영상 정말 잘보면서 공부하고 있습니다 감사합니다.
@김승현-f2r1c 6 місяців тому
vba 셀레니움으로 해서 크롤링하는게 나은가요?
파이썬으로 하는게 나은가요? ㅠ
아무것도 몰라서요 ㅜ
@kimfl 6 місяців тому
제가 vba에서 셀레니움을 사용할 줄 모릅니다.
@독서왕-m2l 7 місяців тому
영상 정말 감사합니다. 저는 소프트웨어를 배우는 학생입니다. 이 영상을 바탕으로 네이버 쇼핑에서 크롤링을 할 수 있도록 만들며 연습을 해보고있습니다. 네이버로 물품의 클래스가 같은 것을 찾아 제품 목록을 먼저 찾아서 개수를 세는 것을 만드는 것부터 시작했습니다. 하지만 이떄 맨 위에 뜨는 5개만 카운트 되고 그 밑은 스크롤이나 클릭으로 해결해야하는 것같아서 밑을 클릭하도록 하려고 해도 네이버는 쿠팡처럼 클릭 할 곳도 없어서 문제가 생기네요. 혹시 어떻게 해결할 수 있을까요? 그리고 개발자 도구 열어서 태그를 검색하는건 어떻게 하는건지 궁금합니다. 찾아봐도 그 태그가 몇 개가 있는지 세는 방법이 있는 정보는 없더라고요...가능할 때 답변 주시면 정말 감사하겠습니다.
@kimfl 6 місяців тому ⁺¹
1. 셀레니움을 사용해서 스크롤을 하고 페이지 소스를 가져와서 그 소스코드에서 찾아야 합니다.
2. Ctrl + F 누르면 입력하는 부분이 나오고 거기에 입력하면 옆에 몇개인지 나옵니다. 다만, 이건 일치한 갯수이기때문에 예를 들어 class="aaa"를 찾으려고 하는데 소스코드에 "aaabbb" 이런게 있다면 같이 찾아집니다. 이런 경우에는 입력창에 aaa만 입력하는게 아니라 "aaa" 이런식으로 입력하면 됩니다.
@user-l9v7xff567 Рік тому
감사합니다 계속 보니까 용어들이 귀에 들어오네요
한 가지 궁금한 점이 있는데요 예를 들어 만약 쿠팡이라면 100% 자동화하려면 수시로 변경되는 정보도 반영이 필요할 것 같은데요 특정한 시간에 엑셀에 저장된 값을 새롭게 반영된 값으로 받을 수 있게 파이썬에서 조작할 수 있을까요
가능하다면 어떤 명령어를 찾아보고 공부해보면 될까요
@kimfl Рік тому ⁺²
파이썬 스케줄러, 파이썬 cron 등으로 검색해보시면 특정 시간을 정해서 또는 정해진 간격으로 프로그램을 실행시키는 방법을 찾으실 수 있습니다.
@행복한열정-s1b 10 місяців тому
프로그램에 대한 개념이 없는데 혹시 저 브라이트데이터 가입하고 이영상만 보면되나여~?
처음사용하는 프로그램은 뭘까요? ㅜ 알려주시면 감사하겠습니다
답변부탁드려용 ㅎㅎㅎㅎㅎ
@kimfl 10 місяців тому
프로그램이 아예 처음이시라면 많이 어려울듯 합니다.
프로그래밍 언어는 파이썬을 사용하고 소스 코드 편집기는 vscode를 사용합니다.
일단 파이썬 기초를 조금이라도 살펴보신다음 이 영상을 따라 해보시는걸 추천드립니다.
@yulj3072 4 місяці тому
안녕하세요. 스크래핑 브라우저 부분에서 질문이 있어 댓글 남깁니다.
url 가져오는 driver.get() 이 부분에서, 네이버 등 다른 사이트 url를 적으면 정상 작동 하는데, 쿠팡사이트 url만 적으면 You don't have permission to access "(쿠팡url)" on this server. 이런 오류가 발생합니다. 혹시 해결 방법을 아실까요???
@kimfl 4 місяці тому
요즘 쿠팡과 네이버가 크롤링을 엄청 열심히 막고 있습니다.
아래 내용은 브라이트 데이터에 문의하고 받는 답변입니다.
KYC라는걸 신청해서 허가를 받으면 되는데 저는 일단 신청 해놓은 상태입니다.
Hi,
To successfully target coupang.com you'll need to submit and pass KYC, which will allow scraping browser to fully utilize our residential network. I've tested this domain with a demo user with full residential access and found no issue targeting it with the example code below.
Please submit your KYC via the following link(brightdata.com/cp/kyc), once your KYC is approved and you'll have full residential access you should be successful in targeting Coupang.
To learn more about our residential network and why KYC is needed to obtain full access to it I suggest you review the following article(brightdata.zendesk.com/hc/en-us/articles/13310952273041-Residential-network-policy)
Please let me know if further clarification is needed!
@yulj3072 4 місяці тому
@@kimfl 감사합니다!
@해피아워-o3v 9 місяців тому
선생님 해당 사이트 API를 한 PC 에서 병렬로 호출해서 사용해도 다 다른 IP를 부여받고 크롤링 하게 되는 건가요?
@kimfl 9 місяців тому
네- 맞습니다.
@JS_MUSIC272 6 місяців тому
좋은 정보 너무 감사합니다.
로켓배송 뱃지 가져오는 값을 못찾았는데 혹시 아시나요?
@kimfl 6 місяців тому
개발자 도구를 사용하면 간단하게 확인 가능합니다.
클래스 badge rocket입니다.
@JS_MUSIC272 6 місяців тому
@@kimfl 답변 감사드립니다^^
@모린-f1i Рік тому ⁺¹
구글은 프록시로 긁어오는게 안되는걸까요?
@pandaspython2024 10 місяців тому
구글 자체 크롤링은 난이도가 높아요 bot이라 판단되면 검색 결과 자체를 하나도 안줍니다
@라이즈노션 19 днів тому
초반부터 막히네요 ㅠㅠ response = requests.get(url, proxies=proxies, verify=False)
html = response.text
soup = BeautifulSoup(html, "html.parser")
items = soup.select(".search-product-list")
print(len(items))
0이 뜹니다 ㅠㅠ
@MoneyHubTips Рік тому
브라이트 데이터 스크래핑 브라우저는 어떤식으로 비용이 나가나요~
@kimfl Рік тому
brightdata.com/pricing/scraping-browser
스크래핑 브라우저는 사용량 + 시간입니다.
반면, 웹 언로커는 요청당 가격입니다.
brightdata.com/pricing/web-unlocker
보시면 1천번 요청당 2~3달러 수준으로 매우 저렴합니다.
꼭 셀레니움이 필요한 상황이 아니라면 웹 언로커를 사용하는게 속도도 빠르면서 비용도 저렴합니다.
brdta.com/kimfl
위 링크로 가입하시면 $10 무료 크레딧이 즉시 제공됩니다. 테스트에 사용해보세요~
@조르바-o1u Рік тому
@@kimfl 가격이 꽤 나가네요
@마루한-q1p Рік тому
@@kimfl 1000번 요청당 3달러라 써있는데.. 1000번 요청이 정확히 무슨 말일까요? 100페이지를 크롤링해~ 라고 한번 시키면 그게 한번인지 아니면 다른 단위로 쪼개지는 건지요~ 그리고 ip를 매번 바꿔준다고 하셨는데 알려주신대로 vsc에 적고 하긴 하는데 이게 작동이 되는중인지 안 되는중인지는 확인하는 방법도 궁금합니다. 영상 초반 proxy_url 이 주소가 크롤링 실행 할 때 마다 똑같이 출력이 되는데 어떻게 매번 다른 주소가 되는건지 이것도 궁금합니다.. 질문이 많아서 죄송합니다 ㅠ
@yulj3072 4 місяці тому
41:24
@yulj3072 4 місяці тому
1:31:33
@spectrum8200 8 місяців тому
리뷰를 크롤링하려면 꼭 "스크래핑 브라우저"를 써야하나요? 리뷰가 있는 위치까지 스크롤한 뒤에 css 식별자로 검색해도 안나와서요 ㅠㅠ
@kimfl 8 місяців тому ⁺¹
스크래핑 브라우저는 차단되지 않고 계속해서 스크래핑을 하기 위해 사용하는 도구일 뿐입니다. 셀레니움만으로 리뷰 스크랩이 안된다면 아마도 코드에 문제가 있을 겁니다.
@kimfl Рік тому ⁺¹
brdta.com/kimfl
위 링크로 가입하시면 복잡한 절차를 거치지 않아도 $10 무료 크레딧이 즉시 제공됩니다.
뷰티풀수프(Beautifulsoup)와 셀레니움(selenium)을 기반으로
저와 협업중인 세계 최고의 웹 데이터 플랫폼 브라이트 데이터(bright data)의 웹 언로커(Web Unlocker)와 스크래핑 브라우저(Scraping Browser) API를 사용하여
차단당하지 않고 원하는 제품(ex.노트북)을 검색해서 원하는 만큼 수십, 수백개의 제품명, 가격, 상세 페이지 링크 등을 스크랩하고
수집한 링크에 접속을 반복하여 상세 정보와 제품 리뷰까지 원하는 만큼 수집하는 방법을 배울 수 있는 강의입니다.
브라이트 데이터의 API 사용법뿐만 아니라 웹 크롤링에 대해 많은 내용을 담았습니다.
사실,
API 사용법 위주의 20분정도 짧은 영상을 계획했었는데 만들다보니
'이 내용이 있어야겠는데, 이것도 추가해야겠다.'
이러면서 거의 2시간 가량의 강의가 되었습니다.
그만큼 웹 크롤링에 대해 제대로 다룬 강의입니다.
제가 만들었지만 진짜 강추합니다!
brdta.com/kimfl
위 링크로 가입하시면 복잡한 절차를 거치지 않아도 $10 무료 크레딧이 즉시 제공됩니다.
@B3RMUD4 6 місяців тому
별점 추출 하고 싶은데
rating = soup.select_one(".rds-rating-score")
rating = 0 if not rating else rating.text.strip()
이러니까 0만 나오는데 어떻게 해야 될까요 ㅜ

Наступне

Автоматичне відтворення

안 보면 후회할 BeautifulSoup 클래스 정확하게 select 하는 방법