파이썬 네이버 웹 스크래핑 Naver Blog Web Scraping with Python (한글자막)

Поділитися
Вставка
  • Опубліковано 22 січ 2025

КОМЕНТАРІ • 127

  • @suanlab
    @suanlab  5 років тому

    한글 자막이 추가되었습니다.

  • @haksookim9255
    @haksookim9255 5 років тому +1

    와.... 취미삼아 컴퓨팅언어 해보려고 맛보기로 봤는데
    저렇게 길고 복잡한 걸 백지 상태에서 어떻게 구상하고 입력을 하시는거지...
    대단...

    • @suanlab
      @suanlab  5 років тому

      취미삼아서 하신다니 대단하시네요. ^^

  • @masterrangers7032
    @masterrangers7032 5 років тому +2

    여기서 막혀서 한시간 째인데 왜이럴까요 ㅠㅠ
    ================= RESTART: C:/Users/J/Desktop/navertest.py =================
    Traceback (most recent call last):
    File "C:/Users/J/Desktop/navertest.py", line 62, in
    blog_count = get_blog_count(query, display)
    File "C:/Users/J/Desktop/navertest.py", line 22, in get_blog_count
    response = urllib.request.urlopen(request)
    File "C:\Users\J\AppData\Local\Programs\Python\Python37-32\lib\urllib
    equest.py", line 222, in urlopen
    return opener.open(url, data, timeout)
    File "C:\Users\J\AppData\Local\Programs\Python\Python37-32\lib\urllib
    equest.py", line 531, in open
    response = meth(req, response)
    File "C:\Users\J\AppData\Local\Programs\Python\Python37-32\lib\urllib
    equest.py", line 641, in http_response
    'http', request, response, code, msg, hdrs)
    File "C:\Users\J\AppData\Local\Programs\Python\Python37-32\lib\urllib
    equest.py", line 569, in error
    return self._call_chain(*args)
    File "C:\Users\J\AppData\Local\Programs\Python\Python37-32\lib\urllib
    equest.py", line 503, in _call_chain
    result = func(*args)
    File "C:\Users\J\AppData\Local\Programs\Python\Python37-32\lib\urllib
    equest.py", line 649, in http_error_default
    raise HTTPError(req.full_url, code, msg, hdrs, fp)
    urllib.error.HTTPError: HTTP Error 401: Unauthorized
    >>>

    • @suanlab
      @suanlab  5 років тому

      인증실패네요. 네이버에서 인증 ID와 Sercret 받으셨죠??

    • @masterrangers7032
      @masterrangers7032 5 років тому

      이수안컴퓨터연구소 네! 받아서 입력한건데, 다시 받아서 해볼게요! ㅠㅠ

  • @바다사랑바로
    @바다사랑바로 3 роки тому +1

    파이썬을 다운로드 하고나서 명령 프롬프트에 파이썬 라이브러리를 설치하려고 하니까 "내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는
    배치 파일이 아닙니다."이런식으로 나오던데요...

    • @suanlab
      @suanlab  3 роки тому

      파이썬 설치할 때, 환경변수 등록을 해주셔야해요.

  • @nonamelee9933
    @nonamelee9933 5 років тому +1

    29:38 접속이 안되는지 영상처럼 200이 연속해서 뜨지는 않는데요 어디가 잘못 된걸까요? 영상중간중간에 실행한 건 다 괜찮았었어요

    • @suanlab
      @suanlab  5 років тому

      API id와 secret은 잘 설정되셨죠?

    • @nonamelee9933
      @nonamelee9933 5 років тому

      네 ㅠ

  • @jeongseokkim4838
    @jeongseokkim4838 5 років тому +1

    불러오는 블로그 수도 1000까지고 다 잘되는데, 데이터가 21개 까지만 불러와지다가 멈추는 현상이 발생합니다..
    if __name__ == '__main__':
    no= 0
    query = 'bts'
    display = 10
    start = 1
    sort = "date"
    fs = open(query + ".txt",'a',encoding='utf-8')
    blog_count = get_blog_count(query,display)
    for start_index in range(start, blog_count +1,display):
    get_blog_post(query,display,start_index,sort)
    fs.close()
    문제가 어느부분인지 못찾겠습니다..ㅜ

    • @suanlab
      @suanlab  5 років тому

      아무래도 네이버에서 블로그 형식이 조금 다른게 있는데... 그 부분이 나타나면서 예외처리로 멈춘거 같네요. ^^

  • @jineeous2941
    @jineeous2941 3 роки тому +1

    유용한 강의 너무 감사합니다. 저는 스크립트 실행하니 다음과 같은 에러가 자꾸 뜨는데요. 왜 그런 걸까요?
    urllib.error.HTTPError: HTTP Error 401: Unauthorized

    • @suanlab
      @suanlab  3 роки тому

      새로 올려진 최신 강의를 참고해주세요. ^^

  • @유진주-d1v
    @유진주-d1v 5 років тому +2

    정상적으로 txt파일까지 만들어지지만 txt파일을 열어보면 비어있습니다ㅜㅜㅜ 왜이럴까요ㅜㅜㅜ 에러도 안뜨네요,,

    • @suanlab
      @suanlab  5 років тому

      디버깅이나 중간에 출력해보시면서 어디에서 안되는지 한번 살펴보시겠어요?

    • @유진주-d1v
      @유진주-d1v 5 років тому +1

      이수안컴퓨터연구소 실행이 안되는 부분은 없습니다! 다 정상적으로 작동이 되는데 txt파일만 비어있네용 ㅠㅠ 검색을 해보니 네이버 형식?이 바뀌어서 빈파일이 뜨는거라는 말이 있던데 어느부분을 수정해야하는지는 모르겠어요ㅠㅠ

    • @38thYun
      @38thYun 5 років тому

      @@suanlab 저도 이분과 똑같이 안됩니다... txt파일로 저장만 안됩니다 ㅠㅠ
      정말 감사하게 잘 따라왔는데 에러도 전혀 안나구요 근데 막상 결과물이 안나오니 아쉽습니다 ㅠㅠ
      우선 감사하다는 말씀 먼저 드립니다..
      근데 결과물은 텅 비어있어서 섭섭하네요 ㅠㅠㅠㅠ 왜일까요

  • @present1635
    @present1635 4 роки тому +1

    AttributeError: module 'urllib' has no attribute 'pare' 에러가 뜨는데 어떻게 해결할수 있을까요?ㅠㅠ

    • @suanlab
      @suanlab  4 роки тому

      pare가 아니라 parse 일꺼예요.

  • @seungholee2192
    @seungholee2192 3 роки тому +1

    감사합니다. 돌아가는데 마지막 풀 텍스트를 받은 text file이 아무런 내용이 적혀질 않네요. 혹시 답변이 가능하면 감사하겠습니다.

    • @suanlab
      @suanlab  3 роки тому

      마지막 text 만 내용이 항상 없나요?

    • @seungholee2192
      @seungholee2192 3 роки тому

      @@suanlab 예. 따라해 보았는데 text를 쓰질 못합니다. text file은만들어지지만 내용은 공란입니다.

  • @원예진-e9n
    @원예진-e9n 5 років тому +1

    안녕하세요, 공부하면서 따라해보고 있는데 get_blog_count 함수부분에서는 'lastBuildDate' 이나 'Total' 등 출력하는 부분에서 계속 keyerror 가 나고 get_blog_post 부분에서 response_body_dict['items'] 에 items에서 에러나는데 왜그런걸까요ㅡㅜ

    • @suanlab
      @suanlab  5 років тому

      Key는 대소문자 똑같이 입력해 주셔야해요. ^^

    • @원예진-e9n
      @원예진-e9n 5 років тому

      @@suanlab 안녕하세요 답변주셔서 감사합니다. 죄송하지만 대소문자를 똑같이 입력해주어야 한다는게 이해가 잘 안가서요ㅠㅜ

    • @원예진-e9n
      @원예진-e9n 5 років тому +1

      이수안컴퓨터연구소 저만 실행을 잘 못하고 있는걸까요ㅠㅠ 정확한 코드 확인 할 수 있을까요?ㅠㅠ 영상을 그대로 따라하면 안되는건가요?

    • @suanlab
      @suanlab  5 років тому

      @@원예진-e9n 이메일 주소 하나 알려주세요. ^^

    • @원예진-e9n
      @원예진-e9n 5 років тому

      이수안컴퓨터연구소 너무너무감사합니다ㅠㅠㅠ yjwon003@gmail.com 입니다!!

  • @싱그리벙그리헝그리
    @싱그리벙그리헝그리 4 роки тому +1

    비록 지금은 모든 블로그 글이 불러와지지는 않지만 비전공자도 충분히 따라할 수 있도록 복잡한 코딩 잘 설명해주셔서 정말 감사합니다^^ 한가지 질문이 있는데 display의 명확한 의미가 이해가 되지 않습니다. 검색 결과 출력 건수의 의미라고 하셨는데 총 1000개의 블로그 링크를 불러온다고 했을 때 display를 10으로 하든, 100으로 하든 각각 for문이 100바퀴와 10바퀴 돌아가는 횟수 말고는 큰 의미가 없어보이는데 display값의 명확한 용도를 알 수 있을까요?

    • @suanlab
      @suanlab  4 роки тому +1

      네, display는 네이버에 호출하면 검색되어 나오는 결과 건수를 의미합니다. 즉, 반복해서 가져오니 상관은 없습니다. 마치 게시물을 10개씩 볼건지 100개씩 볼건지의 차이랍니다. ^^

    • @싱그리벙그리헝그리
      @싱그리벙그리헝그리 4 роки тому +1

      @@suanlab 그렇군요 바쁘실텐데 성심껏 답주셔서 정말 감사합니다 😊

  • @jna1642
    @jna1642 5 років тому +1

    네이버 API 이용해서 블로그 내용까지 가져오는 방법을 꼭 알고 싶었습니다. 그러던 중 이 동영상은 정말 반가운 오아시스 같았습니다. ^^ 감사합니다~~ 그런데.......뭐가 잘 못된 것인지 실행하면 print로 나와야할 내용 중 제목과 링크만 나오고 디스크립션, 블로거 이름, 블로거 링크 등은 안나옵니다. 그리고 가장 중요한 블로그 본문 내용....검색어.txt 파일이 생성은 되는데 내용은 비어있습니다(0KB) .댓글들을 보면 저와 비슷한 결과가 블로그 형식이 업데이트 되서일 것이라는 내용도 있네요.....제가 궁금한 것은 저의 이런 결과가 제가 코딩 실수한 것 때문인지...이 코드가 네이버 업데이트 문제때문에 더 이상 실행이 안되는 것인지 알고 싶습니다. 답변 주시면 큰 도움될 것 같아요. 감사합니다~~!!

    • @suanlab
      @suanlab  5 років тому +1

      일부 json 형식을 가져오는 부분에서 에러가 있는것 같아요.

    • @jna1642
      @jna1642 5 років тому

      @@suanlab 답변 감사합니다~! 어떻게 해결하면 될까요? 제가 스스로 답을 찾고 싶지만 너무 초심자라... 시간되실 때 해결 방안을 메모정도라도 올려주시면 너무 고맙겠습니다. ^^ 감사합니다!

  • @개발자연이
    @개발자연이 5 років тому +1

    크롤링 할때 'div#postViewArea' 태그만 사용하면 크롤링이 되지 않는 사이트들이 몇개 있어서
    for selector in ['div#postViewArea','.post-view','.se-module','.se_textarea']:
    blog_post_contents = blog_post_soup.select(selector)
    if len(blog_post_contents) != 0:
    break
    처럼 select조건을 위 처럼 여러개로 두어도 되나요?

    • @suanlab
      @suanlab  5 років тому

      아주 좋네요 ^^

  • @최민철-e9d
    @최민철-e9d 5 років тому +1

    pip install requests 처음에 해도 설치가 되어있다떠도
    ModuleNotFoundError: No module named 'requests'
    계속 나와서
    어떻게 해야하나요

    • @suanlab
      @suanlab  5 років тому +1

      아마도 파이썬이 여러개 설치되어 있나보네요.
      콘솔에서 pip install requests 할때 적용되는 파이썬과 실제 코딩에서 사용하는 파이썬이 다른 거죠 ^^

    • @최민철-e9d
      @최민철-e9d 5 років тому +1

      현재 혹시몰라 아나콘다 삭제중입니다. 삭제하면 괜찮아 질려나요 ㅋㅋ

    • @최민철-e9d
      @최민철-e9d 5 років тому +1

      넵 감사합니다

    • @suanlab
      @suanlab  5 років тому

      아나콘다를 사용하신다면 아나콘다 콘솔에서 pip install requests를 해주셔야 합니다. ^^

  • @iiooiiooiiiu
    @iiooiiooiiiu 5 років тому +1

    안녕하세요.
    영상 보면서 크롤링을 공부중입니다. 그런데 파이썬에서 함수가 오류도 걸리지 않고 잘 돌아갑니다!
    근데.. 계속 같은 내용이 파싱되는데요.
    예를들면, 1-2-3-4-5-6-1-2-3-4-5-6 이런 식으로 계속 동일한 사이클에서 돌아갑니다ㅠㅠ
    혹시..왜그런건지 조언좀 구할 수 있을까요?ㅠㅠㅠ부탁드립니다ㅠㅠ

  • @아로만-p7r
    @아로만-p7r 5 років тому +1

    죄송한데 질문하나해도 될까요?? 크롤링을 하는과정에서 웹사이트의 html을 가져왔습니다.
    html code를 find를 통해서 a 태그안의 href 의 url을 가져왔는데요.
    그곳으로 requests.get(url)을 해보니깐 접속이 되지 않더군요.
    직접 브라우저를 사용해서 접속하니깐 href에 써있는 url로 접속되는것이 아닌 다른 url로 접속이 되고있습니다.
    혹시 이런상황에서 바뀐 url을 가져올수있는 방법이 없을까요??
    감사합니다.

    • @suanlab
      @suanlab  5 років тому +1

      해당 주소를 한번 살펴봐야 자세히 알 수 있을꺼 같아요. ^^

    • @아로만-p7r
      @아로만-p7r 5 років тому +1

      @@suanlab ​ www.mk.co.kr/news/column/view/2019/03/160137/ 이주소입니다!!
      매일경제 뉴스 검색창에서 href로는 이 url로 나와있는데, 다른url로 바뀌더라고요

    • @아로만-p7r
      @아로만-p7r 5 років тому

      밤늦게 죄송합니다.
      기존 html로 가져온 url과 새로이 이동되는 url간에 상관관계가 있더라고요.
      연도와 기사넘버를 통해서 새로운 url을 만드는 작업을 해주니깐 크롤링이 되고있습니다!!
      물론 이러다 안되면 슬플거같지만요 ㅠㅠ

    • @suanlab
      @suanlab  5 років тому +1

      @@아로만-p7r redirect 되어버리네요. ^^ webdriver 이용하시면 편하게 스크랩핑 된답니다.
      예를 들어서 이렇게 코드를 사용하시면 될꺼 같네요.
      from selenium import webdriver
      import time
      driver = webdriver.Firefox()
      driver.get('www.mk.co.kr/news/column/view/2019/03/160137/ ')
      time.sleep(6)
      title = driver.find_elements_by_tag_name('h3')
      for item in title:
      print(item.text)

  • @아로만-p7r
    @아로만-p7r 5 років тому +1

    좋은 강의감사합니다 교수님

    • @아로만-p7r
      @아로만-p7r 5 років тому

      display값을 10으로 주었음에도 불구하고 블로그는 1000개씩나오는 이유가 뭘까요??
      그리고 display를 30이나 99같이 넣었을때는 #1089번까지 나오는데, 제가알기로 한번에 불러올수있
      는 display의 양은 1000까지로 알고있는데 혹시 중간에 빈값이있어서 그렇게 나오는건가요?

    • @아로만-p7r
      @아로만-p7r 5 років тому

      for start_index in range(start,blog_count+1,display):
      get_blog_post(query, display, start_index, sort)
      을 사용해서 그랬던거였군요!
      start부터 1001까지를 display수만큼 건너뛰면서 실행하니깐 마지막 start_index에서 display만큼을 더했을때 1000을 넘는다면 그만큼 출력되는것 같네요. 그래서 display를 30으로 두면 #1의 내용이 #31에도 반복이되네요.
      만약 display수만큼만 보고싶다면 get_blog_post(query, display, sort)로 실행시키면 되는것같습니다.
      start_index를 보니깐 함수에서 사용하지 않는 파라미터여서 삭제해도 문제없는것 같습니다.

  • @38thYun
    @38thYun 5 років тому +2

    똑같이 잘 따라했고...
    에러없이 잘 작동하는데
    막상 결과물 txt 파일은 텅텅 비어있습니다.
    뭔가 ... 잘못 한거 같은데 ㅠㅠ
    스스로 수정이 어렵네요 ㅠㅠ
    힘들게 영상 올려주셨는데 학생 수준이 딸려서 ㅠㅠ 못따라가는것이 아쉽습니다 ㅠㅠ

    • @suanlab
      @suanlab  5 років тому

      나중에 더 잘 동작하고, csv 파일로 저장 가능한 코드로 알려드릴께요. ^^

    • @work8702
      @work8702 4 роки тому

      저도 같은 현상인데... 해결하셨나요?

    • @38thYun
      @38thYun 4 роки тому

      @@work8702 해결못했습니다 ㅠㅠ

  • @서상우-u7y
    @서상우-u7y 5 років тому +1

    안녕하세요! 강의를 듣다가 뜨는 오류를 해결못해서
    urllib.error.HTTPError: HTTP Error 401: Unauthorized
    이 오류가 뜨는데 찾아보니 웹로그인 자격이 없다는거 같은데
    네이버에서 주는 오픈소스는 잘 작동하는데 ㅠㅠ 선생님 강의의 소스를 치면 오류가 납니다ㅠㅠ
    어떻게 해결해야 할까요 ㅠ 오타는 없습니다..

    • @서상우-u7y
      @서상우-u7y 5 років тому

      참고로
      response = urllib.request.urlopen(request)
      이부분에서 오류가 납니다

    • @suanlab
      @suanlab  5 років тому +1

      네이버개발자 사이트에서 발급하는 key와 secret을 잘 입력하셨어도 에러가 나는건가요?
      이 에러는 말 그대로 OpenAPI 사용 인증에 대한 에러로 보입니다.

    • @서상우-u7y
      @서상우-u7y 5 років тому +1

      @@suanlab 답변감사드립니다. 오류가 왜 뜨는지는 말씀해주셔서 어떤 오류인지는 이해가 갔습니다. 근데 강의에서 처음에 보여주신 네이버에서 주는 블로그 예제로 실행하면 오류가 안나고 잘됩니다. key랑 secret은 그 예제에서 그대로 긁어왔어요.. 그래서 오류가 아니라고 생각하는데... 선생님께서 아시는 다른 오류 종류가 있을까요?!

    • @suanlab
      @suanlab  5 років тому +1

      @@서상우-u7y 아! 에제에서 사용한 key와 secret은 제가 예제를 위해서 발급한 것이고, 지금은 삭제해놓은 상태입니다.
      제가 강의 중에 네이버 개발자 사이트에서 key와 secret 발급 방법을 설명한 이유가 각자 발급을 받아서 사용해야 한다는 의도입니다. ^^
      왜냐하면 key와 secret은 마치 아이디와 암호를 알려주는 것과 같은거라서 강의 중에 공개된 key와 secret은 삭제해야 했답니다.

    • @서상우-u7y
      @서상우-u7y 5 років тому +1

      @@suanlab 발급은 제가 따로했어요 ㅠㅠ 키와 시크릿은 제 네이버아이디로 생성해서 했습니다...하하 일단 제가 무슨오류인지 다시 찾아보겠습니다 ㅠㅠ

  • @곰곰-y8d
    @곰곰-y8d 5 років тому +1

    안녕하세요 강의 잘 봤습니다. 궁금한 점이 2가지 있는데요.
    첫째. HTTPError: HTTP Error 429: Too Many Requests에러가 발생합니다. 돌릴때마다 스크래핑 되는 개수는 다른데 왜 발생하며, 어떻게 해결하는지 궁금합니다.
    둘쨰. 스크래핑 결과를 보면 description에 블로그 내용 전문이 아닌 요약본이 보입니다. 전체 내용을 보고싶을땐 어떻게 해야할까요??
    감사합니다!!

    • @suanlab
      @suanlab  5 років тому

      첫번째는 잘못 요청하거나 너무 많은 요청으로 인해 발생합니다.
      두번째는 요약본도 가져오고 실제 블로그 전체내용도 가져오도록 코드가 되어있습니다.
      단지 네이버 블로그 형식이 변경된 부분을 스크랩핑 코드에서 반영해주어야하는데 그 강의 영상은 추후 업로드 하겠습니다. ^^

    • @곰곰-y8d
      @곰곰-y8d 5 років тому

      @@suanlab 감사합니다!!

  • @실행-r2o
    @실행-r2o 6 років тому +1

    혹시 ImportError: No module named 'requests' 이렇게 나오는데 cmd 에서 확인했는데 있다고 나오고
    어떻게 해결하는게 좋을까요?

    • @suanlab
      @suanlab  6 років тому

      혹시 파이썬이 다른 버전으로 여러개 설치되어있나요?

    • @실행-r2o
      @실행-r2o 6 років тому

      네 맞아요 고맙습니다~

  • @이재진-s8r
    @이재진-s8r 4 роки тому +1

    영상에서는 검색하는 단어가 한개였는데, 두개 이상의 키워드를 동시에 검색하게 하려면 어떤 코드를 추가해야 할까요?

    • @suanlab
      @suanlab  4 роки тому

      질의를 날릴때, 스페이스로 구분하여 두 개 이상의 키워드를 넣으시면 됩니다. ^^

  • @shannon8012
    @shannon8012 5 років тому +1

    안녕하세요 스크래핑 예제를 한참 찾다가 결국 올려주신 내용을 보고 감탄을 내며 따라해보았습니다.
    너무 감사합니다~!!
    다른 검색어로 검색하다가 오류가 나서 질문드립니다.
    File "", line 146, in
    get_blog_post(query, display, start_index, sort)
    File "", line 87, in get_blog_post
    response = urllib.request.urlopen(request)
    File "C:\Users\User\Downloads\WPy-3661\python-3.6.6.amd64\lib\urllib
    equest.py", line 223, in urlopen
    return opener.open(url, data, timeout)
    File "C:\Users\User\Downloads\WPy-3661\python-3.6.6.amd64\lib\urllib
    equest.py", line 532, in open
    response = meth(req, response)
    File "C:\Users\User\Downloads\WPy-3661\python-3.6.6.amd64\lib\urllib
    equest.py", line 642, in http_response
    'http', request, response, code, msg, hdrs)
    File "C:\Users\User\Downloads\WPy-3661\python-3.6.6.amd64\lib\urllib
    equest.py", line 570, in error
    return self._call_chain(*args)
    File "C:\Users\User\Downloads\WPy-3661\python-3.6.6.amd64\lib\urllib
    equest.py", line 504, in _call_chain
    result = func(*args)
    File "C:\Users\User\Downloads\WPy-3661\python-3.6.6.amd64\lib\urllib
    equest.py", line 650, in http_error_default
    raise HTTPError(req.full_url, code, msg, hdrs, fp)
    HTTPError: Internal Sercer Error
    이러합니다... 왜그런지 혹시 아시나요...?

    • @suanlab
      @suanlab  5 років тому

      네이버 API ID와 Secret 다 잘받으셔서 넣었죠??

    • @shannon8012
      @shannon8012 5 років тому

      @@suanlab 다시 정리해서 하니까 잘 됩니다~감사합니다~ㅎㅎㅎ흥미삼아 지식인이랑 뉴스도 긁어보려고 했는데 지식인은 그래도 얼추 긁어오는데 성공했습니다...근데 뉴스는 네이버에서 올려주는 링크마다 html코드가 다 달라서 쉽지가 않네요~ㅠㅠ

  • @조재훈-e8r
    @조재훈-e8r 4 роки тому

    좋은 강의 해주셔서 감사합니다 박사님.
    블로그 형식이 바뀐 것 같아, 제대로 스크래핑이 되지 않는 상황인데요~ 바뀐 블로그 형식에 따라 새로운 블로그 스크랩핑 강의를 올려주신다고 하셨는데, 혹시 언제쯤 올라올까요?? 대략적인 시기를 알 수 있을까요????

    • @suanlab
      @suanlab  4 роки тому

      아! 4월중에 올려드릴께요. ^^

    • @조재훈-e8r
      @조재훈-e8r 4 роки тому

      @@suanlab 감사합니다~~

  • @jmhda11
    @jmhda11 5 років тому +1

    HTTP Error 403: Forbidden가 나오는 이유가 뭘까요 아무리봐도 오타는 없는데.

    • @suanlab
      @suanlab  5 років тому

      오타가 없으시다면 네이버 API 인증 부분 문제가 아닐까요?

  • @훈훈한감동을
    @훈훈한감동을 5 років тому +1

    쿼리명대로 txt파일이 저장되긴하는데 스크랩이 되지않네요 ㅠㅠ 뭐가 문제일까요...

    • @훈훈한감동을
      @훈훈한감동을 5 років тому +1

      참고로 주피터노트북으로 사용하고있습니다..

    • @suanlab
      @suanlab  5 років тому

      @@훈훈한감동을 네이버 블로그 형식이 조금 바뀐 부분도 있고해서 조만간 주피터 노트북으로 새로운 블로그 스크랩핑 강의를 올리도록 하겠습니다. ^^

    • @훈훈한감동을
      @훈훈한감동을 5 років тому

      아... 네이버 형식이 달라져서 그렇군요...

  • @alfl8867
    @alfl8867 4 роки тому +1

    csv 파일로 저장하는 법좀 알려주시면 감사하겠습니다...

    • @suanlab
      @suanlab  4 роки тому

      조만간 csv 저장하는걸로 올릴께요. ^^

  • @정수연-x7c
    @정수연-x7c 6 років тому +1

    방학때 해보고 싶군요! 감사합니다~~!

    • @suanlab
      @suanlab  6 років тому

      도전! ㅋㅋㅋ

  • @김도영-x7d2n
    @김도영-x7d2n 4 роки тому +1

    이 방식으로 네이버 기사들도 긁어 모을수가 있나요??

    • @suanlab
      @suanlab  4 роки тому +1

      당연히 가능합니다.
      저는 예제로 blog에 대해서 구현한겁니다.
      블로그는 blog.json으로 접근하지만 뉴스는 news.json으로 접근하시면 됩니다. 자세한 부분은 다음 링크를 참고해보세요.
      developers.naver.com/docs/search/news/

    • @김도영-x7d2n
      @김도영-x7d2n 4 роки тому +1

      @@suanlab 혹시 만약 제가 어플을 만들려고할때 손흥민 기사를 스크래핑해서 모으고 그정보를 써도 문제가 안생기나요?

    • @suanlab
      @suanlab  4 роки тому +1

      제가 알기로는 뉴스 기사도 저작권이 있는 것으로 알고 있습니다.
      다음 링크 한번 참고해보세요.
      www.kpf.or.kr/front/user/subMainG.do

    • @김도영-x7d2n
      @김도영-x7d2n 4 роки тому +1

      @@suanlab 답변 해주셔서 감사합니다 많은 도움이 된거같아요 ㅠㅠ

    • @suanlab
      @suanlab  4 роки тому +1

      네, 즐거운 코딩 하세요 ^^

  • @shjung173
    @shjung173 5 років тому +1

    대박입니다 ㅎ 정말 감사드려요^^
    근데 혹시 엑셀VBA로 긁어온 것처럼 블로그 본문 content는 가져올 수 없나요? 가능하다면 코드 추가해주시면 안될까요? 부탁 드립니다.

    • @suanlab
      @suanlab  5 років тому

      본문 컨텐츠도 가져오는 코드로 나중에 업데이트 할께요. ^^

  • @리제임스-c2r
    @리제임스-c2r 5 років тому +1

    완성했습니다 ^^ 그런데 게임 시작하자마자 배경음악 나오게 하려면 어떻게 하면될까요..?... 게임 시작 화면 -> 스페이스바 누르는 부분이 있다면.. 어떻게 해볼텐데요 ㅠㅠ

    • @suanlab
      @suanlab  5 років тому

      무슨 게임 이신가요??

  • @이재성-x8c
    @이재성-x8c 4 роки тому +1

    영상 잘 봤어요. 이 코드는 요약글만 크롤링을 하던데... 혹시 특정 키워드(예.떡볶이) 관련 블로그 전체 본문 내용도 크롤링 할 수 있나요?

    • @suanlab
      @suanlab  4 роки тому

      네 가능하죠. ^^

    • @이재성-x8c
      @이재성-x8c 4 роки тому +1

      @@suanlab 올려주신 코드를 응용하면 가능한가요? ㅎㅎㅎ 아님 다른 방법을 활용해야 하나요? 꼭 만들어 보고 싶어서 그런데 참고할 자료나 대략적인 가이드라인을 부탁드려도 될까요?

    • @suanlab
      @suanlab  4 роки тому +1

      조만간 영상 한번 올리겠습니다. ^^

    • @이재성-x8c
      @이재성-x8c 4 роки тому +1

      @@suanlab 감사합니다^^

  • @최민영-g2d
    @최민영-g2d 6 років тому +2

    그리고 div#PostArea 뜻이 뭔가요? 블로그 내용을 파일화하는데 문제가 있는것 같아서요

    • @suanlab
      @suanlab  6 років тому

      네이버 블로그의 html과 css를 살펴보면 PostArea 부분이 블로그 내용을 가지고 있는 태그 부분이랍니다. ^^

  • @gihunlim
    @gihunlim 5 років тому +1

    정말 잘배웠습니다. 긁어온 블로그 정보를 txt 파일로 저장하려면 어떻게 해야하나요 ??

    • @suanlab
      @suanlab  5 років тому +1

      print로 블로그 정보를 출력하는 부분을 fs.write 를 이용하여 파일에 써주시면 됩니다. ^^

    • @gihunlim
      @gihunlim 5 років тому

      @@suanlab 감사합니다 ~~

  • @breaseroto8552
    @breaseroto8552 5 років тому +1

    네이버 카페글 수집하는 것도 영상 만들어주시면 유용할 것 같습니다. 감사합니다.

    • @suanlab
      @suanlab  5 років тому

      추후에 카페글도 강의영상 올려야겠네요. ^^

  • @qwer-k6i
    @qwer-k6i 5 років тому +1

    파이선 웹 스크래핑을 통해서 구글 웹 사이트 내 정보도 가져올 수 있나요?

    • @suanlab
      @suanlab  5 років тому

      그럼요. ^^

    • @qwer-k6i
      @qwer-k6i 5 років тому

      @@suanlab 이 동영상 원리와 같은 방법으로 가능한건가요? 아니면 조금 다른 방법으로 해야 하나요?
      조금 구체적으로 여쭤볼 수 있을까요??

  • @실행-r2o
    @실행-r2o 6 років тому +1

    다른 파이썬 버전 다 지우고 다시 진행해도 같은 내용의 오류가 발생하네요 ㅜㅜ 한번 꼭해보고싶은데 검색해도 오류고칠수 있는 방법이 안나오네요 혹시 다른조치 할수 있는 방법없나요?

    • @suanlab
      @suanlab  6 років тому

      requests를 설치 못하신거죠? 파이썬 설치하실때 PATH 등록 하셨나요? 개발 환경이 어떻게 되시나요? 꼭 도와드릴께요 ^^

    • @실행-r2o
      @실행-r2o 6 років тому +1

      @@suanlab path는 등록한거같아요 윈도우 쓰고있습니다.

    • @suanlab
      @suanlab  6 років тому

      PATH 등록이 되었다면, 윈도우 콘솔 화면에서 pip install requests가 동작할겁니다. 이 링크를 참조해보시면 좋겠네요. (m.blog.naver.com/PostView.nhn?blogId=lee95292&logNo=221205091279&proxyReferer=https%3A%2F%2Fwww.google.com%2F)

    • @실행-r2o
      @실행-r2o 6 років тому

      @@suanlab 고맙습니다. 처음부터 다시해보겠습니다!

  • @tiger8540
    @tiger8540 6 років тому +1

    잘배웠습니다 !!

    • @suanlab
      @suanlab  6 років тому +1

      수고했어요 ^^

  • @victorialeigh2726
    @victorialeigh2726 5 років тому +1

    박사님 안녕하세요 이거 pdf 강의자료 클릭하면 '404 Not Found' 나와용 유ㅅ유)...

    • @suanlab
      @suanlab  5 років тому

      앗! 파일이름이 잘못되었네요. 수정하였습니다. 알려주셔서 감사합니다. ^^

  • @specifictoken
    @specifictoken 5 років тому +1

    근데 이거 개수 제한이 1000개 이지 않나요..? ㅜㅜ 개수제한없이 하는 방법이 있을지..

    • @suanlab
      @suanlab  5 років тому

      네이버가 검색 결과를 1000개로 제한해둬서 그렇습니다.

  • @uio86a
    @uio86a 5 років тому +1

    유투버님은 월얼마버시나요 파이썬하면 월얼마정도벌수잇나요

    • @suanlab
      @suanlab  5 років тому

      광고를 안넣어서 아직 수익이 없어요. ^^

  • @毕-v9r
    @毕-v9r 5 років тому +2

    비전공자는 알아듣기가 조금힘드네요.....비전공자 배려해서 조금더 상세한 설명해주셨으면 합니다.

    • @suanlab
      @suanlab  5 років тому

      피드백 감사합니다. 다음 영상에서는 좀더 상세히 설명하겠습니다. ^^