GPT爬虫:一键采集网站数据、无缝构建GPTs知识库,免编程 | GPT-Crawler,网站内容转GPTs知识库的神器!

Поділитися
Вставка
  • Опубліковано 12 вер 2024

КОМЕНТАРІ • 112

  • @kuisun4622
    @kuisun4622 9 місяців тому +12

    只能抓一般架构的网站,遇到动态页面还有大量表格和图像的网站直接乱成一坨...之前用这个来抓取一个比较复杂的网站,搞了半天,最后还是自己写python

    • @linbintalk
      @linbintalk  9 місяців тому +1

      这个综合能力我觉得不错,对小白很友好,方便简单。python会的有几个

    • @Thisnthat979
      @Thisnthat979 8 місяців тому

      @@linbintalk 我购买了您的课程,也正在学习python 中,听说python连小学生都要学的?

    • @cssa2893
      @cssa2893 6 місяців тому

      怎么解决IP会被封呢

    • @sanzhao
      @sanzhao 5 місяців тому

      感谢提醒

  • @蓝狐
    @蓝狐 6 місяців тому

    讲得真好啊,林兄真的是想把我们教会啊🤣

    • @linbintalk
      @linbintalk  6 місяців тому

      那是必须的、主打一个真教

  • @user-nkbzabh
    @user-nkbzabh 9 місяців тому

    非常感谢博主,成功了

  • @user-kt2yb3ux5u
    @user-kt2yb3ux5u 9 місяців тому

    很赞,迫不及待实操

  • @ambitionaura_lucky
    @ambitionaura_lucky 7 місяців тому

    看到一半实在忍不住了,不行,一定要点个赞!

    • @linbintalk
      @linbintalk  7 місяців тому

      哈哈,感谢感谢

  • @SJT-jb9gz
    @SJT-jb9gz 7 місяців тому

    Great video. Wanna to learn how to actions to connect to other websites via API

    • @linbintalk
      @linbintalk  7 місяців тому

      Welcome to subscribe

  • @sorter1024
    @sorter1024 3 місяці тому

    我又來學習了

    • @linbintalk
      @linbintalk  3 місяці тому

      🙏🏻如果内容对你有帮助,拜托给我的视频点个赞

    • @sorter1024
      @sorter1024 3 місяці тому

      @@linbintalk 必須點贊,做個標記

  • @willsun5943
    @willsun5943 9 місяців тому

    我感觉这个也适合做数据分析,针对数字类或者文字类都行

  • @musicears66
    @musicears66 9 місяців тому

    那如果直接把网站网址给gpt 他是不是直接抓取内容了?

    • @linbintalk
      @linbintalk  9 місяців тому

    • @aixizhang
      @aixizhang 9 місяців тому

      有些网站是可以的,有些会说不让访问

  • @yuancao7536
    @yuancao7536 6 місяців тому

    巨赞术

  • @shenzhouzhao
    @shenzhouzhao 4 місяці тому

    npm start 执行过程中报错信息如下,请问如何解决?
    (node:85468) [DEP0040] DeprecationWarning: The `punycode` module is deprecated. Please use a userland alternative instead.

  • @yellowbonbon1
    @yellowbonbon1 9 місяців тому

    这个方法有可能依赖于FE 的layout 和structure, 和才算是。举一个极端的例子,“飞行最长时间” 与 “46分钟” 这两个dom 看其他是同一行,大多数coding 的写法都会把他们放到同一个div,so 他俩是siblings 关系。假如他俩不是这种关系,例如layout 是两大columns(一个column是label,另一个column 是value),AI 还会找到答案吗?(我可能表达不清,不好意思)

    • @linbintalk
      @linbintalk  9 місяців тому

      它比想象的聪明,会筛选排查

    • @3170ccp
      @3170ccp 9 місяців тому

      FE?

    • @logicai4928
      @logicai4928 8 місяців тому

      @@3170ccp 这个方法可能会受到前端(Front End)的布局(layout)和结构(structure)的影响,以及他们之间的关系。举一个极端的例子,“飞行最长时间”和“46分钟”这两个DOM元素,如果在视觉上他们位于同一行,那么在大多数编程实践中,我们会将他们放入同一个div元素中,这样他们就成了兄弟关系。但如果他们的关系并非如此,比如布局是分为两大列(一列是标签,另一列是值),那么人工智能(AI)是否还能找到答案呢?(我可能没有表达得很清楚,对此表示歉意)。

  • @regman1100
    @regman1100 9 місяців тому

    您好,我是使用win 11,已確認安裝好,因為版本也有顯示,但是執行npm start後,執行也有跑完,但是並沒有出現output.json檔案,不知道是哪出問題了。不知道學長有沒有甚麼解決方法?!

  • @jasonhe9475
    @jasonhe9475 9 місяців тому

    这个工具是否适合爬类似Twitter、微博这样的信息?刚才试了一下都有登录限制,有没有什么办法绕过限制的?

  • @salesRoger
    @salesRoger 6 місяців тому

    请问一下是否可以把最终爬取的数据,导出Excel的文件格式?

    • @linbintalk
      @linbintalk  6 місяців тому

      json变成excel很简单,都是格式化的数据

  • @user-uf7of1er3h
    @user-uf7of1er3h 8 місяців тому

    请问这个对于同一个 url 下多页面内容,有办法实现翻页抓取吗。按视频的方法试了一下,只能抓到第一页的内容

    • @linbintalk
      @linbintalk  8 місяців тому

      翻页可以在后面加page,找到链接规律手动更改

  • @ningcai4703
    @ningcai4703 3 місяці тому

    爬虫生成的是本地json格式的数据,coze只支持本地csv和json格式的在线API,怎么整?

    • @linbintalk
      @linbintalk  3 місяці тому

      转换一下格式试试

  • @StreetdanceFung
    @StreetdanceFung 8 місяців тому

    出了這一句
    > cross-env NODE_ENV=development npm run build && node dist/src/main.js

    • @linbintalk
      @linbintalk  8 місяців тому

      可以用ChatGPT查原因解决

  • @shader406
    @shader406 9 місяців тому

    npm 1指令执行以后要下很多东西吗?我这边下不停了

    • @linbintalk
      @linbintalk  9 місяців тому

      不会很久, 是 i

  • @user-iv6nn6yj9h
    @user-iv6nn6yj9h 9 місяців тому

    您好,我是win11用户,我的config文件里没有selector:‘.docs--builder-container’,这行字。是否可以自己添加进去?

  • @dongliang6663
    @dongliang6663 3 місяці тому

    请问下能爬取谷歌学术吗

    • @linbintalk
      @linbintalk  3 місяці тому

      需要登录的网站不行

  • @user-er9xg1fc1i
    @user-er9xg1fc1i 9 місяців тому

    假设问题对应的答案中涉及到图片,它也能正常显示吗?

    • @linbintalk
      @linbintalk  9 місяців тому

      图片不能,只会抓地址

  • @user-sj7mf8kw2u
    @user-sj7mf8kw2u 5 місяців тому

    谢谢博主,我有2个问题,第一是网站更新了怎么办;第二是我想采集多个网站怎么办呢?

  • @李志国-k7p
    @李志国-k7p 5 місяців тому

    只有gpt4 能这么做 还是3.5也能这么做呢?

  • @timealley
    @timealley 8 місяців тому

    請問可以抓取抖音短視頻的字幕文件嗎?

    • @linbintalk
      @linbintalk  8 місяців тому

      这个不能,但是有其他工具

    • @timealley
      @timealley 8 місяців тому

      @@linbintalk 或者大大也做個教學視頻供菜鳥學習?😁

  • @谢生-u7c
    @谢生-u7c 6 місяців тому

    可以解析某个网站的视频内容吗

    • @linbintalk
      @linbintalk  6 місяців тому

      这个方法不行,有其他方式

  • @leescott7667
    @leescott7667 9 місяців тому

    有可能在不買PLUS的狀況(或先試用)下使用嗎 ?

    • @linbintalk
      @linbintalk  9 місяців тому

      只要能上传附件就可以。

    • @leescott7667
      @leescott7667 9 місяців тому

      @@linbintalk 謝謝 可是不買PLUS好像沒辦法上傳..

    • @leescott7667
      @leescott7667 9 місяців тому

      還是有其他可以分析抓下來Vector JSON的地方?

    • @makisekurisu_jp
      @makisekurisu_jp 8 місяців тому

      @@linbintalk沒有用,即使使用擴展工具上傳json檔案也不能讓chatgpt回答問題。

  • @user-bj8fk6rl7u
    @user-bj8fk6rl7u 9 місяців тому

    如何识别哪些网站反爬?

    • @linbintalk
      @linbintalk  9 місяців тому

      爬一下就知道了

  • @鱼摆摆-l6v
    @鱼摆摆-l6v 7 місяців тому

    z抓整个京东的网站数据它能行吗😁

  • @user-bs9xx6sn6m
    @user-bs9xx6sn6m 9 місяців тому

    我没有安装 Homebrew,按说明安装的,运行版本git version 2.39.3 (Apple Git-145),npm10.2.3,再下一步打开config.ts文件,我电脑上找不到这个文件,咋么办?

  • @zhezhang4394
    @zhezhang4394 9 місяців тому +1

    GPT-Crawler 可以控制爬虫的爬取速度么?如果太快的话,部分网站会被限速

  • @htslong
    @htslong 9 місяців тому

    需要登录的网页怎么办?比如语雀

  • @莲华-灵性成长
    @莲华-灵性成长 9 місяців тому

    在运行中,发生路径错误,该怎么解决?

  • @wishrevealingdestiny
    @wishrevealingdestiny 5 місяців тому

    can you teach mme how to do with youtube + python to craw all data in order to have the top view on my video ? hah

  • @jason9072
    @jason9072 9 місяців тому

    完全按照步骤安装了,版本也对了,但是运行后成功0个,失败1个,不知道哪里出问题了

    • @linbintalk
      @linbintalk  9 місяців тому

      换个网址试试,可能配置不对

  • @derikli5727
    @derikli5727 7 місяців тому

    自己的模型都下载下来么?

  • @莲华-灵性成长
    @莲华-灵性成长 9 місяців тому

    安装Homebrew后,验证,brew -v 显示找不到

  • @soapman2533
    @soapman2533 7 місяців тому

    我直接用coze 根本就不用本地跑代码 直接添加网站到知识库创建机器人😂

    • @linbintalk
      @linbintalk  7 місяців тому

      那还是有差距的、这是批量整站

  • @chacexu8213
    @chacexu8213 6 місяців тому

    又没有离线版本的

    • @linbintalk
      @linbintalk  6 місяців тому

      离线怎么访问网站,怎么获取数据?

  • @user-lb5fu1io4b
    @user-lb5fu1io4b 6 місяців тому

    不好用,信息太杂了,GPT还是理解不了
    我试了一下,数据需要数据清洗。就是找到content也不行

    • @linbintalk
      @linbintalk  6 місяців тому

      这种一般配合知识库使用

  • @ericchan2540
    @ericchan2540 7 місяців тому

    在国內ChatGPT
    不友好的屏蔽
    应如何解决
    谢谢

    • @linbintalk
      @linbintalk  7 місяців тому

      和你看油管一个方案

  • @makisekurisu_jp
    @makisekurisu_jp 8 місяців тому

    影片教學不完整,到導出json檔案後沒有後續的教學,還需要升級到GPT PLUS並設定custom gpt,如果使用api則需要去設定custom assistant。

    • @linbintalk
      @linbintalk  8 місяців тому

      可以用playground里面的assistant,用API就能上传知识库,并在线使用

    • @makisekurisu_jp
      @makisekurisu_jp 8 місяців тому

      @@linbintalk 我看了你頻道的其他影片,直接使用lobe chat就可以採集網站資料了,不需要自己去安裝GPT Crawler☺️

    • @makisekurisu_jp
      @makisekurisu_jp 8 місяців тому

      @@linbintalk 我有一個需要請教的問題,我在這部影片的留言看到你說可以不使用gpts和assistant,只要可以上傳檔案就能使用GPT Crawler,我有安裝ChatGPT File Uploader Extended這個擴展,怎樣在沒有gpt plus和api的情況下執行GPT Crawler,因為工作中沒有很需要,只是極少情況會用,不太想花錢。

  • @uubob7408
    @uubob7408 8 місяців тому

    就则???

  • @aixizhang
    @aixizhang 9 місяців тому

    博主能不能讲一期这些AI工具怎么结合电商🥺

    • @linbintalk
      @linbintalk  9 місяців тому

      我关注一下先。

    • @user-vh6pr1sj4j
      @user-vh6pr1sj4j 8 місяців тому

      ​@@linbintalk我也需要,买会员学AI就是为了电商

  • @Douglas-f
    @Douglas-f 8 місяців тому +2

    爬虫什么的python也能搞,没必要搬个项目吧,哈哈哈哈🤣,gpt4一个月20$,你也不说一下,等小白们搞完爬虫才发现gpts要充钱才能用😅

    • @linbintalk
      @linbintalk  8 місяців тому +1

      python小白更不会,逻辑很返常识

    • @mazizhang831
      @mazizhang831 6 місяців тому

      @@linbintalk你心知肚明ChatGPT付费账户才是关键,并且哪怕你觉得不是问题也应该有提示,你却为了流量只字不提,确实有点不厚道!浪费别人时间等于谋财害命知道吗?

    • @月白秋
      @月白秋 4 місяці тому

      @@mazizhang831 大佬,所以说免费的chatgpt3.5不可以使用吗?不能用的我就不浪费时间去试了

  • @user-cq1wc5tz7c
    @user-cq1wc5tz7c 9 місяців тому

    °∆ I believe we are meant to be like Jesus in our hearts and not in our flesh. But be careful of AI, for it is just our flesh and that is it. It knows only things of the flesh (our fleshly desires) and cannot comprehend things of the spirit such as peace of heart (which comes from obeying God's Word). Whereas we are a spirit and we have a soul but live in the body (in the flesh). When you go to bed it is your flesh that sleeps but your spirit never sleeps (otherwise you have died physically) that is why you have dreams. More so, true love that endures and last is a thing of the heart (when I say 'heart', I mean 'spirit'). But fake love, pretentious love, love with expectations, love for classic reasons, love for material reasons and love for selfish reasons that is a thing of our flesh. In the beginning God said let us make man in our own image, according to our likeness. Take note, God is Spirit and God is Love. As Love He is the source of it. We also know that God is Omnipotent, for He creates out of nothing and He has no beginning and has no end. That means, our love is but a shadow of God's Love. True love looks around to see who is in need of your help, your smile, your possessions, your money, your strength, your quality time. Love forgives and forgets. Love wants for others what it wants for itself. Take note, true love works in conjunction with other spiritual forces such as patience and faith (in the finished work of our Lord and Savior, Jesus Christ, rather than in what man has done such as science, technology and organizations which won't last forever). To avoid sin and error which leads to the death of our body and also our spirit in hell fire, we should let the Word of God be the standard of our lives not AI. If not, God will let us face AI on our own and it will cast the truth down to the ground, it will be the cause of so much destruction like never seen before, it will deceive many and take many captive in order to enslave them into worshipping it and abiding in lawlessness. We can only destroy ourselves but with God all things are possible. God knows us better because He is our Creater and He knows our beginning and our end. Our prove text is taken from the book of John 5:31-44, 2 Thessalonians 2:1-12, Daniel 2, Daniel 7-9, Revelation 13-15, Matthew 24-25 and Luke 21. Let us watch and pray... God bless you as you share this message to others.