GPT爬虫:一键采集网站数据、无缝构建GPTs知识库,免编程 | GPT-Crawler,网站内容转GPTs知识库的神器!

Поділитися
Вставка
  • Опубліковано 29 гру 2024

КОМЕНТАРІ •

  • @IvyWang-pb1vx
    @IvyWang-pb1vx Місяць тому

    谢谢您!讲得真详细!

  • @刘洪萍
    @刘洪萍 2 місяці тому +2

    小林学长,能否教一下怎么自动爬取微信公众号上的行业会议信息呢

  • @ambitionaura_lucky
    @ambitionaura_lucky 11 місяців тому +1

    看到一半实在忍不住了,不行,一定要点个赞!

    • @linbintalk
      @linbintalk  11 місяців тому

      哈哈,感谢感谢

  • @user-nkbzabh
    @user-nkbzabh Рік тому

    非常感谢博主,成功了

  • @蓝狐
    @蓝狐 10 місяців тому

    讲得真好啊,林兄真的是想把我们教会啊🤣

    • @linbintalk
      @linbintalk  10 місяців тому

      那是必须的、主打一个真教

  • @sorter1024
    @sorter1024 7 місяців тому

    我又來學習了

    • @linbintalk
      @linbintalk  7 місяців тому

      🙏🏻如果内容对你有帮助,拜托给我的视频点个赞

    • @sorter1024
      @sorter1024 7 місяців тому

      @@linbintalk 必須點贊,做個標記

  • @TIANELI-p1q
    @TIANELI-p1q Рік тому

    很赞,迫不及待实操

  • @kuisun4622
    @kuisun4622 Рік тому +13

    只能抓一般架构的网站,遇到动态页面还有大量表格和图像的网站直接乱成一坨...之前用这个来抓取一个比较复杂的网站,搞了半天,最后还是自己写python

    • @linbintalk
      @linbintalk  Рік тому +1

      这个综合能力我觉得不错,对小白很友好,方便简单。python会的有几个

    • @Thisnthat979
      @Thisnthat979 Рік тому

      @@linbintalk 我购买了您的课程,也正在学习python 中,听说python连小学生都要学的?

    • @RevealedChina
      @RevealedChina 10 місяців тому

      怎么解决IP会被封呢

    • @sanzhao
      @sanzhao 8 місяців тому

      感谢提醒

  • @SJT-jb9gz
    @SJT-jb9gz 11 місяців тому

    Great video. Wanna to learn how to actions to connect to other websites via API

    • @linbintalk
      @linbintalk  11 місяців тому

      Welcome to subscribe

  • @willsun5943
    @willsun5943 Рік тому

    我感觉这个也适合做数据分析,针对数字类或者文字类都行

  • @yuancao7536
    @yuancao7536 10 місяців тому

    巨赞术

    • @linbintalk
      @linbintalk  10 місяців тому

      😄,感谢支持

  • @shenzhouzhao
    @shenzhouzhao 7 місяців тому

    npm start 执行过程中报错信息如下,请问如何解决?
    (node:85468) [DEP0040] DeprecationWarning: The `punycode` module is deprecated. Please use a userland alternative instead.

  • @yellowbonbon1
    @yellowbonbon1 Рік тому

    这个方法有可能依赖于FE 的layout 和structure, 和才算是。举一个极端的例子,“飞行最长时间” 与 “46分钟” 这两个dom 看其他是同一行,大多数coding 的写法都会把他们放到同一个div,so 他俩是siblings 关系。假如他俩不是这种关系,例如layout 是两大columns(一个column是label,另一个column 是value),AI 还会找到答案吗?(我可能表达不清,不好意思)

    • @linbintalk
      @linbintalk  Рік тому

      它比想象的聪明,会筛选排查

    • @3170ccp
      @3170ccp Рік тому

      FE?

    • @logicai4928
      @logicai4928 Рік тому

      @@3170ccp 这个方法可能会受到前端(Front End)的布局(layout)和结构(structure)的影响,以及他们之间的关系。举一个极端的例子,“飞行最长时间”和“46分钟”这两个DOM元素,如果在视觉上他们位于同一行,那么在大多数编程实践中,我们会将他们放入同一个div元素中,这样他们就成了兄弟关系。但如果他们的关系并非如此,比如布局是分为两大列(一列是标签,另一列是值),那么人工智能(AI)是否还能找到答案呢?(我可能没有表达得很清楚,对此表示歉意)。

  • @不在周
    @不在周 Місяць тому

    爬取官网数据一段时间就被封了,怎么办

  • @salesRoger
    @salesRoger 10 місяців тому

    请问一下是否可以把最终爬取的数据,导出Excel的文件格式?

    • @linbintalk
      @linbintalk  10 місяців тому

      json变成excel很简单,都是格式化的数据

  • @ningcai4703
    @ningcai4703 6 місяців тому

    爬虫生成的是本地json格式的数据,coze只支持本地csv和json格式的在线API,怎么整?

    • @linbintalk
      @linbintalk  6 місяців тому

      转换一下格式试试

  • @dongliang6663
    @dongliang6663 7 місяців тому

    请问下能爬取谷歌学术吗

    • @linbintalk
      @linbintalk  7 місяців тому

      需要登录的网站不行

  • @谢生-u7c
    @谢生-u7c 10 місяців тому

    可以解析某个网站的视频内容吗

    • @linbintalk
      @linbintalk  10 місяців тому

      这个方法不行,有其他方式

  • @李志国-k7p
    @李志国-k7p 8 місяців тому

    只有gpt4 能这么做 还是3.5也能这么做呢?

  • @saijunhu
    @saijunhu 3 місяці тому

    git拉取不成功过

  • @timealley
    @timealley Рік тому

    請問可以抓取抖音短視頻的字幕文件嗎?

    • @linbintalk
      @linbintalk  Рік тому

      这个不能,但是有其他工具

    • @timealley
      @timealley Рік тому

      @@linbintalk 或者大大也做個教學視頻供菜鳥學習?😁

  • @wishrevealingdestiny
    @wishrevealingdestiny 9 місяців тому

    can you teach mme how to do with youtube + python to craw all data in order to have the top view on my video ? hah

  • @大派-i6j
    @大派-i6j Рік тому

    如何识别哪些网站反爬?

  • @郭浩-c9s
    @郭浩-c9s Рік тому

    我没有安装 Homebrew,按说明安装的,运行版本git version 2.39.3 (Apple Git-145),npm10.2.3,再下一步打开config.ts文件,我电脑上找不到这个文件,咋么办?

  • @黎志-t6r
    @黎志-t6r 8 місяців тому

    谢谢博主,我有2个问题,第一是网站更新了怎么办;第二是我想采集多个网站怎么办呢?

  • @鱼摆摆-l6v
    @鱼摆摆-l6v 11 місяців тому

    z抓整个京东的网站数据它能行吗😁

  • @StreetdanceFung
    @StreetdanceFung Рік тому

    出了這一句
    > cross-env NODE_ENV=development npm run build && node dist/src/main.js

    • @linbintalk
      @linbintalk  Рік тому

      可以用ChatGPT查原因解决

  • @0xtootoo
    @0xtootoo Рік тому

    请问这个对于同一个 url 下多页面内容,有办法实现翻页抓取吗。按视频的方法试了一下,只能抓到第一页的内容

    • @linbintalk
      @linbintalk  Рік тому

      翻页可以在后面加page,找到链接规律手动更改

  • @musicears66
    @musicears66 Рік тому

    那如果直接把网站网址给gpt 他是不是直接抓取内容了?

    • @linbintalk
      @linbintalk  Рік тому

    • @aixizhang
      @aixizhang Рік тому

      有些网站是可以的,有些会说不让访问

  • @jasonhe9475
    @jasonhe9475 Рік тому

    这个工具是否适合爬类似Twitter、微博这样的信息?刚才试了一下都有登录限制,有没有什么办法绕过限制的?

  • @yangliu-j9p
    @yangliu-j9p Рік тому

    假设问题对应的答案中涉及到图片,它也能正常显示吗?

    • @linbintalk
      @linbintalk  Рік тому

      图片不能,只会抓地址

  • @regman1100
    @regman1100 Рік тому

    您好,我是使用win 11,已確認安裝好,因為版本也有顯示,但是執行npm start後,執行也有跑完,但是並沒有出現output.json檔案,不知道是哪出問題了。不知道學長有沒有甚麼解決方法?!

  • @shader406
    @shader406 Рік тому

    npm 1指令执行以后要下很多东西吗?我这边下不停了

  • @htslong
    @htslong Рік тому

    需要登录的网页怎么办?比如语雀

  • @田中小百合-r2b
    @田中小百合-r2b Рік тому

    您好,我是win11用户,我的config文件里没有selector:‘.docs--builder-container’,这行字。是否可以自己添加进去?

  • @leescott7667
    @leescott7667 Рік тому

    有可能在不買PLUS的狀況(或先試用)下使用嗎 ?

    • @linbintalk
      @linbintalk  Рік тому

      只要能上传附件就可以。

    • @leescott7667
      @leescott7667 Рік тому

      @@linbintalk 謝謝 可是不買PLUS好像沒辦法上傳..

    • @leescott7667
      @leescott7667 Рік тому

      還是有其他可以分析抓下來Vector JSON的地方?

    • @makisekurisu_jp
      @makisekurisu_jp Рік тому

      @@linbintalk沒有用,即使使用擴展工具上傳json檔案也不能讓chatgpt回答問題。

  • @ericchan2540
    @ericchan2540 11 місяців тому

    在国內ChatGPT
    不友好的屏蔽
    应如何解决
    谢谢

    • @linbintalk
      @linbintalk  11 місяців тому

      和你看油管一个方案

  • @chacexu8213
    @chacexu8213 9 місяців тому

    又没有离线版本的

    • @linbintalk
      @linbintalk  9 місяців тому

      离线怎么访问网站,怎么获取数据?

  • @莲华-灵性成长
    @莲华-灵性成长 Рік тому

    安装Homebrew后,验证,brew -v 显示找不到

  • @derikli5727
    @derikli5727 11 місяців тому

    自己的模型都下载下来么?

  • @莲华-灵性成长
    @莲华-灵性成长 Рік тому

    在运行中,发生路径错误,该怎么解决?

  • @zhezhang4394
    @zhezhang4394 Рік тому +1

    GPT-Crawler 可以控制爬虫的爬取速度么?如果太快的话,部分网站会被限速

  • @soapman2533
    @soapman2533 10 місяців тому

    我直接用coze 根本就不用本地跑代码 直接添加网站到知识库创建机器人😂

    • @linbintalk
      @linbintalk  10 місяців тому

      那还是有差距的、这是批量整站

  • @jason9072
    @jason9072 Рік тому

    完全按照步骤安装了,版本也对了,但是运行后成功0个,失败1个,不知道哪里出问题了

    • @linbintalk
      @linbintalk  Рік тому

      换个网址试试,可能配置不对

  • @zhenli-l1f
    @zhenli-l1f 10 місяців тому

    不好用,信息太杂了,GPT还是理解不了
    我试了一下,数据需要数据清洗。就是找到content也不行

    • @linbintalk
      @linbintalk  10 місяців тому

      这种一般配合知识库使用

  • @aixizhang
    @aixizhang Рік тому

    博主能不能讲一期这些AI工具怎么结合电商🥺

    • @linbintalk
      @linbintalk  Рік тому

      我关注一下先。

    • @蒋小伟-i5b
      @蒋小伟-i5b Рік тому

      ​@@linbintalk我也需要,买会员学AI就是为了电商

  • @makisekurisu_jp
    @makisekurisu_jp Рік тому

    影片教學不完整,到導出json檔案後沒有後續的教學,還需要升級到GPT PLUS並設定custom gpt,如果使用api則需要去設定custom assistant。

    • @linbintalk
      @linbintalk  Рік тому

      可以用playground里面的assistant,用API就能上传知识库,并在线使用

    • @makisekurisu_jp
      @makisekurisu_jp Рік тому

      @@linbintalk 我看了你頻道的其他影片,直接使用lobe chat就可以採集網站資料了,不需要自己去安裝GPT Crawler☺️

    • @makisekurisu_jp
      @makisekurisu_jp Рік тому

      @@linbintalk 我有一個需要請教的問題,我在這部影片的留言看到你說可以不使用gpts和assistant,只要可以上傳檔案就能使用GPT Crawler,我有安裝ChatGPT File Uploader Extended這個擴展,怎樣在沒有gpt plus和api的情況下執行GPT Crawler,因為工作中沒有很需要,只是極少情況會用,不太想花錢。

  • @matthewliang850
    @matthewliang850 21 день тому

    还是要学Python,遇到不同的网站,有不同的问题,问ai你也一头雾水

    • @linbintalk
      @linbintalk  20 днів тому

      问法很重要。有学python的魄力,掌握怎么用好AI应该很简单

  • @uubob7408
    @uubob7408 Рік тому

    就则???

  • @Douglas-f
    @Douglas-f Рік тому +2

    爬虫什么的python也能搞,没必要搬个项目吧,哈哈哈哈🤣,gpt4一个月20$,你也不说一下,等小白们搞完爬虫才发现gpts要充钱才能用😅

    • @linbintalk
      @linbintalk  Рік тому +1

      python小白更不会,逻辑很返常识

    • @mazizhang831
      @mazizhang831 9 місяців тому

      @@linbintalk你心知肚明ChatGPT付费账户才是关键,并且哪怕你觉得不是问题也应该有提示,你却为了流量只字不提,确实有点不厚道!浪费别人时间等于谋财害命知道吗?

    • @月白秋
      @月白秋 8 місяців тому

      @@mazizhang831 大佬,所以说免费的chatgpt3.5不可以使用吗?不能用的我就不浪费时间去试了

  • @BrightMatolo
    @BrightMatolo Рік тому

    °∆ I believe we are meant to be like Jesus in our hearts and not in our flesh. But be careful of AI, for it is just our flesh and that is it. It knows only things of the flesh (our fleshly desires) and cannot comprehend things of the spirit such as peace of heart (which comes from obeying God's Word). Whereas we are a spirit and we have a soul but live in the body (in the flesh). When you go to bed it is your flesh that sleeps but your spirit never sleeps (otherwise you have died physically) that is why you have dreams. More so, true love that endures and last is a thing of the heart (when I say 'heart', I mean 'spirit'). But fake love, pretentious love, love with expectations, love for classic reasons, love for material reasons and love for selfish reasons that is a thing of our flesh. In the beginning God said let us make man in our own image, according to our likeness. Take note, God is Spirit and God is Love. As Love He is the source of it. We also know that God is Omnipotent, for He creates out of nothing and He has no beginning and has no end. That means, our love is but a shadow of God's Love. True love looks around to see who is in need of your help, your smile, your possessions, your money, your strength, your quality time. Love forgives and forgets. Love wants for others what it wants for itself. Take note, true love works in conjunction with other spiritual forces such as patience and faith (in the finished work of our Lord and Savior, Jesus Christ, rather than in what man has done such as science, technology and organizations which won't last forever). To avoid sin and error which leads to the death of our body and also our spirit in hell fire, we should let the Word of God be the standard of our lives not AI. If not, God will let us face AI on our own and it will cast the truth down to the ground, it will be the cause of so much destruction like never seen before, it will deceive many and take many captive in order to enslave them into worshipping it and abiding in lawlessness. We can only destroy ourselves but with God all things are possible. God knows us better because He is our Creater and He knows our beginning and our end. Our prove text is taken from the book of John 5:31-44, 2 Thessalonians 2:1-12, Daniel 2, Daniel 7-9, Revelation 13-15, Matthew 24-25 and Luke 21. Let us watch and pray... God bless you as you share this message to others.