크롤링을 사용하여 블로그의 내용을 가져오는 것은 가능하고, 이미지 저장도 가능합니다. 다만 한글이나 워드로 저장하는 부분이 라이브러리가 필요할 거 같은데요. 대개는 크롤링한 데이터를 TXT나 CSV정도로 저장을 하거든요. 그리고 TXT, CSV를 한글이나 워드로 저장도 가능할거 같구요. 대학교 컴공 전공자면 아주 훌륭한거 같은데요. 한번 시도해보시고 막히시면 질문 주시면 같이 찾아볼께요~
아 제가 내 데이터 관련해서 아래 링크 한번 보실래요. m.blog.naver.com/PostView.nhn?blogId=kiddwannabe&logNo=221253004219&proxyReferer=https:%2F%2Fwww.google.com%2F 별도의 방법이 있어 보이네요.
안녕하세요. 화학물질 정보를 엑셀로 구축하고 싶은데요, 예를들어 물질명을 알면 그에 해당하는 CAS #, chemical formular 등을 특정 웹에서 추출하여 엑셀로 빠르게 정리하고 싶은데 이런 코딩은 웹 스크래핑으로 가능한건가요? 가능하다면 기술노트님의 영상 중 어떤거를 보면 좋을지도 추천 부탁드립니다!
안녕하세요~ 혹시 파이썬으로 만드실껀가요? 그리고 해당 사이트가 있다라는 말씀이시죠? 그 사이트에 가면 물질명으로 정보를 찾을 수가 있는 것이고, 그것을 가져오고 싶다는 얘기인거 같은데요. 혹시 지금 보신 영상을 활용하시면 어려움이 있으시나요? 엑셀로 저장하는 것은 별도의 라이브러리들이 있구요. 사이트에서 가져오는 것은 기본 로직이 비슷해서요. 해당 사이트의 상황으로 바꿔주시면 될거 같은데요. 해보시고 안되시면 질문주시구요~
말씀하신 것도 현재 공유드린 크롤링 기술을 응용하면 가능할거 같은데요. 그런데, 특정 사이트에 그 내용들이 좀 있어야 하구요. 검색을 해서 어느 사이트든 들어가서 가져오는 것은 쉽지는 않을거 같네요. 쉽게 말해 해당 내용이 모아져 있는 사이트가 있으면 규칙에 따라 가져 올 수 있을거 같아요.
네~ 주식 정보 수집 가능합니다. 주식의 경우는 두가지 방법으로 정보 수집이 가능한데요. 키움이나 이베스트 같은 곳은 api를 제공하고 있어서 api로 종목명 일자별 주가 등을 가져 올 수 있구요. 네이버 같은 곳에서는 주식 정보를 가져올 수 있습니다. 네이터 주식 정보 사이트 내용을 가져 올 올 수 가 있어요~
Javascript하고 문법이 비슷하네요. 관심있는 문서를 크롤링 하는방법을 찾다가 이런방법이 있구나 해서 봤는데 오늘 해봐야겠습니다.
단순하고 명쾌하네요. 초보자들이 이해하기 쉽습니다.
아~ 그러시면 너무 좋네요.
목소리 왜 이렇게 좋으시죠! 부럽네요..
저는 urlopen 보다 requests 가 편하더라고요ㅋㅋ
그리고 find보다는 select 가 짱편해요!
칭찬 감사합니다! 목소리를 더 가다듬게 되네요 ㅋㅋ
아 requests가 더 편하시군요. 워낙 기본으로 설명 드리다 보니 그렇게 되었네요.
독학중인 완전 생초보입니다. colab에서는 beautifulsoup를 인식안하나요? 저는 google colab에서 selenium이나 bs4 등을 통해서 크롤링하려고 하는데 작업이 쉽지 않네요 ㅎㅎㅎ
저도 colab을 사용해보진 않았는데요. 아래 블로그 보니 할 수 있어 보이네요.
m.blog.naver.com/xenostep/221987578832
링크만 가져오는것은 간단하죠 ㅋㅋ 실제 텍스터 파싱과 분류 불필요한 문자 제거, 포맷팅이 오래 걸리죠 ㅋ
쉽게 잘 설명해주셔서 감사합니다 ^^
감사합니다!
크롤링으로 블로그에 작성된 1000개정도 되는글을 폴더화시킨다고 했을때 사진은jpg으로 순서에맞게 이름변경돼서 폴더에 저장, 글원고의 제목은 블로그글의제목으로 글내용은 한글이나 워드로 저장하는 작업도 가능한건가요?
가능하다고하면 대학교 컴공 전공자들도 충분히 할수있는 난이도인가요??
크롤링을 사용하여 블로그의 내용을 가져오는 것은 가능하고, 이미지 저장도 가능합니다. 다만 한글이나 워드로 저장하는 부분이 라이브러리가 필요할 거 같은데요. 대개는 크롤링한 데이터를 TXT나 CSV정도로 저장을 하거든요. 그리고 TXT, CSV를 한글이나 워드로 저장도 가능할거 같구요. 대학교 컴공 전공자면 아주 훌륭한거 같은데요. 한번 시도해보시고 막히시면 질문 주시면 같이 찾아볼께요~
@@with2511 제가 찾고자 하는 강의가 말씀주신 부분인데요 : ) 강의 요청을...살짝쿵...드려봅니다...^^
안녕하세요4^^ 잘보고갑니다d
와 정말 많이 배웁니다 ^^ 페이스북 댓글 같은것도 같은 방법으로 크롤링이 가능할까요?
된다고 생각하구요. 자세히는 아래 링크 참고해보세요~
victorydntmd.tistory.com/244
내의 페이지에서 공백이 있는 class명을 가져오고 싶은데 (find_class_name) 공백이 있어서 css로 접근을 하자니 또 안되네요 이런 경우는 어떤 경우 일까용?
아 제가 내 데이터 관련해서 아래 링크 한번 보실래요. m.blog.naver.com/PostView.nhn?blogId=kiddwannabe&logNo=221253004219&proxyReferer=https:%2F%2Fwww.google.com%2F
별도의 방법이 있어 보이네요.
기술노트with 알렉 프레임 스위칭해도 공백 클래스가 문제네용 ㅜㅜㅜㅜㅜ
위 스크립트 돌려 보니 "NameError: name 'link' is not defined" 뜨네요.
뭐가 잘못 된 걸 까요?
크롤링 하는 대상 링크 내용 안에 link가 없는 거로 보이는데요.
안녕하세요. 화학물질 정보를 엑셀로 구축하고 싶은데요, 예를들어 물질명을 알면 그에 해당하는 CAS #, chemical formular 등을 특정 웹에서 추출하여 엑셀로 빠르게 정리하고 싶은데 이런 코딩은 웹 스크래핑으로 가능한건가요? 가능하다면 기술노트님의 영상 중 어떤거를 보면 좋을지도 추천 부탁드립니다!
안녕하세요~ 혹시 파이썬으로 만드실껀가요? 그리고 해당 사이트가 있다라는 말씀이시죠? 그 사이트에 가면 물질명으로 정보를 찾을 수가 있는 것이고, 그것을 가져오고 싶다는 얘기인거 같은데요. 혹시 지금 보신 영상을 활용하시면 어려움이 있으시나요? 엑셀로 저장하는 것은 별도의 라이브러리들이 있구요. 사이트에서 가져오는 것은 기본 로직이 비슷해서요. 해당 사이트의 상황으로 바꿔주시면 될거 같은데요. 해보시고 안되시면 질문주시구요~
말씀하신 것도 현재 공유드린 크롤링 기술을 응용하면 가능할거 같은데요. 그런데, 특정 사이트에 그 내용들이 좀 있어야 하구요. 검색을 해서 어느 사이트든 들어가서 가져오는 것은 쉽지는 않을거 같네요. 쉽게 말해 해당 내용이 모아져 있는 사이트가 있으면 규칙에 따라 가져 올 수 있을거 같아요.
저는 왜 결과가 HTTP Error 500: Internal Server Error 이렇게 나올까요.. 설마 맥을 사용해서 그런지요.. 서버가 에러가 뜬다고 하는데
이유를 잘 모르겠습니다. ㅜㅜ
인터널 서버에러는 대개 서버에서 나오는 에러인데요... 맥을 사용한다고 그러진 않을거 같은데요..
주식 정보를 수집하고싶은데,,, 특정 사이트에서 가져오는 것이 가능할까요? 종목명이나 그런것이라도..
네~ 주식 정보 수집 가능합니다. 주식의 경우는 두가지 방법으로 정보 수집이 가능한데요. 키움이나 이베스트 같은 곳은 api를 제공하고 있어서 api로 종목명 일자별 주가 등을 가져 올 수 있구요. 네이버 같은 곳에서는 주식 정보를 가져올 수 있습니다. 네이터 주식 정보 사이트 내용을 가져 올 올 수 가 있어요~
@@with2511 제가 조금 욕심인걸까요? 안해봤던 파이참이란 프로그램을 깔아서 유튜버님처럼 코딩을 쳐보고해봤는데, 자꾸 오류가 뜨네요,,
이미지 가져올 때 src는 어디서 나온 건지 알 수 있을까요?
이미지가 표시되는 위치를 보면 src= 하고 주소가 나오는데요. 그 주소가 출처가 되는데요. 질문주신게 그 말씀이신지요?
기술노트with 알렉 네 감사합니다!! 초보라 모든게 생소하네요!
@@추추-d7m 네, 화이팅입니다!
혹시 사진이 아니라 영상링크는 못가져오나요?
링크도 가져올 수 있어요~ HTML내에 포함된 모든 내용은 크롤링이 가능해요.
Remote ans closed connection without response 라고 에러가 뜨는데 무엇이 잘못된건가요
응답 없이 연결이 끊겼다는 의미인거 같은데요. 혹시 여러번 호출 시도를 한건가요?
@@with2511 html = urlopen 이쪽에서 해당 에러가 발생합니다 bs4 설치 되었음에도 이쪽에서 막히네요
@@gamjatang918 설치 경로가 다르거나 인식할 수 없는 문제 같은데요..
네이버가 안되는것같아요 다른 페이지들은 되네요(저는 ytn 뉴스긁어봄)
@@eeoim9329 네이버는 좀더 치밀하게 차단할 수 있어요. 그래도 다른 곳이 되면 그런 식으로 원하는 곳 하면 될 수 있겠네요.
네이버랑 외신 경제 주요누스만 20개씩 가져올수 있을까요?
뉴스 20개 정도 가져오는 것은 가능할 거 같구요. 그리고 Open API 찾아보시는 것도 좋은 방법인거 같아요.
@@with2511 카톡으로 모은 뉴스 전송하고싶은데 어려워요
구글기사도 강의해주세요!
아~ 한번 구글도 되는지 봐야겠네요.
개인적으로 문의드릴수있을까요 ??
어떤 문의 이신가요? hitouchsoft@gmail.com로 메일로 주실래요.
크롤러했고 이제 카톡으로 보내고싶은데 어떻게 하나요?
카톡으로 보내는 기능은 좀 꼼수가 필요할거 같아요. 카톡은 외부로 전송하거나 받는 API를 제공하지 않더라구요. 그런데, 홍보용으로 사용하려고 오픈해준 것이 있는 그것을 이용하면 되지 않을까 싶네요.
ModuleNotFoundError: No module named 'bs'라고 뜨면 어떻게 하나요? ㅠㅠ
이런 경우 라이브러리 설치가 잘 안되서 그렇거든요. 경로라든가 설치 여부를 확인해보시는게 좋겠습니다.
studyhard24.tistory.com/235
이 링크 가보시고 확인해보세요~
strip 함수가 인식이 안되요
아 strip은 기본 함수인거 같은데요...좀 찾아봤는데요. 해당 함수를 사용하기 위해서 별도 모듈 설치 과정은 없네요.
@@with2511 방법을 찾았어요 감사해요ㅜㅜ
아니 광고가 너무 많네요
@@T_Cell 프리미엄쓰는데요?
@@T_Cell 저땐 안썻나보지; 이제 그만하자 내가 잘못했어
뭔말인지 하나도 모르겠네여
조만간 크롤링에 대해서 한번 다시 올려볼께요~
불법이에요 이거
그렇네요. 웹사이트 콘텐츠를 긁어오는 '크롤링'을 이용해 확보한 콘텐츠를 자신의 영업에 무단 사용하는 것은 데이터베이스(DB)권 침해 행위라는 대법원 판단이 나왔다. 크롤링이라는 기술이 허락되는 사이트 또는 데이터로만 해야 할거 같네요. 무단은 안되겠네요.