教你如何训练自己的大模型知识库| huggingface | llama |langchain |faiss | 零成本 | google colab

Поділитися
Вставка
  • Опубліковано 26 вер 2024
  • 本视频手把手教大家如何去训练自己的大模型知识库(rag),并且通过llama+langchain+faiss搭建一套基于大模型的问答系统
    #llama #langchain #faiss #huggingface #llm #colab #sora #openai
    #textgeneration
    参考资料:
    huggingface.co...
    github.com/lan...
    github.com/cha...
    github.com/hug...
    github.com/fac...
    colab.research...
    / using-llama-2-0-faiss-...
    github.com/mur...

КОМЕНТАРІ • 55

  • @dazhaosay
    @dazhaosay  5 місяців тому +12

    这是rag,如果想了解大模型训练请绕过,这个视频没法帮助到你,谢谢

    • @simplastx4821
      @simplastx4821 2 місяці тому

      😂有点不专业,我还以为他要讲微调

  • @Jack-gr4hx
    @Jack-gr4hx 6 місяців тому +46

    Rag怎么能叫训练,训练是要改变参数至少是插入参数,这个就是增强检索,不要误导外行

  • @myboloo1
    @myboloo1 6 місяців тому +15

    准确的说,应该是训练自己的知识库,不是训练自己的大模型,训练好的知识库可以配合多个大模型工作。文本embedding当然也是一种训练,RAG另一个名称是prompt-tuning,指令微调

    • @dazhaosay
      @dazhaosay  6 місяців тому +1

      说的很好,学习了

    • @leojack9228
      @leojack9228 6 місяців тому

      那怎么训练自己的知识库然后部署呢,有没论文或者文章学习一下?感谢!

  • @meowalien4160
    @meowalien4160 6 місяців тому +15

    影片是好的影片,但是這不是訓練大模型,只是套出了一個RAG(Retrieval-Augmented Generation)

  • @8ysuzaen3
    @8ysuzaen3 Місяць тому

    这个正是我需要. 谢谢

  • @ddwinhzy
    @ddwinhzy 7 місяців тому +1

    先赞后看好习惯!❤

  • @fangliu1369
    @fangliu1369 4 місяці тому

    真不错 谢谢呀 哈哈哈

  • @user-cm4ce5fh4q
    @user-cm4ce5fh4q 2 місяці тому

    谢谢

  • @fooevr
    @fooevr 7 місяців тому +12

    你这就一个RAG应用,竟然自称大模型训练?你怕是什么是机器学习都不知道,不要耽误别人时间了。

    • @dazhaosay
      @dazhaosay  7 місяців тому +1

      不要把大模型训练概念给狭隘化了

    • @江生浩
      @江生浩 6 місяців тому

      细分化总归是好的​@@dazhaosay

    • @江生浩
      @江生浩 6 місяців тому

      ​@dazhao不过感谢你出的视频say

  • @粘靖烽-r3o
    @粘靖烽-r3o 6 місяців тому +4

    老哥,把標題改了吧,這與訓練兩字完全無關的,就是檢索增強生成RAG,不要誤導觀眾

  • @xinyuliu7346
    @xinyuliu7346 7 місяців тому

    先赞后听 ;)

  • @fireopen
    @fireopen 5 місяців тому +1

    这不是典型的rag吗

  • @keyr3557
    @keyr3557 7 місяців тому +2

    增强索引在规定范围内进行回答

  • @longlim3418
    @longlim3418 17 днів тому

    求大哥能不能放出那个Colab的地址?😵

    • @dazhaosay
      @dazhaosay  16 днів тому

      所有资料都在视频的描述里面

  • @luzizi-g9o
    @luzizi-g9o Місяць тому

    我以为是对大模型进行微调。。。原来只是rag,anythingllm会不会更简单一点

  • @hasszhao
    @hasszhao 7 місяців тому +6

    这个不是fine-tuning,这是RAG,本质不同但是目的一样。
    不过的确我也很倾向用RAG,成本低。

    • @dazhaosay
      @dazhaosay  7 місяців тому +3

      是的,控制成本 把业务跑通

  • @jaydencheng4228
    @jaydencheng4228 7 місяців тому +2

    感谢分享!但这个真的叫训练么?感觉是检索增强啊

    • @dazhaosay
      @dazhaosay  7 місяців тому

      是训练, 只是没有加入微调

    • @samba2012long
      @samba2012long 7 місяців тому +2

      他对训练的理解和一般人不一样,这个就是RAG的一个实现框架,不是通常理解的fine-tuning

  • @teentime-b1y
    @teentime-b1y 7 місяців тому

    讲的很细,学习了 。请教一下。如何把本地的pdf文件上传进行训练?

    • @dazhaosay
      @dazhaosay  7 місяців тому +2

      可以参考一下这个文档:python.langchain.com/docs/modules/data_connection/document_loaders/pdf

    • @teentime-b1y
      @teentime-b1y 7 місяців тому

      十分感谢@say

  • @bluewang1146
    @bluewang1146 Місяць тому

    这个头像看着像鹅厂员工

  • @23beyond56
    @23beyond56 6 місяців тому

    这个是RAG增强检索,不是训练模型

  • @hzhikang6304
    @hzhikang6304 5 місяців тому

    流量密码,你不是不知道原始的模型是机器学习。你这种基于模型的不叫训练,只能叫自定义

  • @todaytomorrow1352
    @todaytomorrow1352 7 місяців тому

    用的GPU是colab的GPU?

  • @leojack9228
    @leojack9228 6 місяців тому

    可以本地离线部署吗?数据有私密性,不能联网和传网络上

    • @myboloo1
      @myboloo1 6 місяців тому +2

      我们已经做到了大模型和知识库本地离线部署了,无需安装配置,windows解压双击运行即可,且不需要GPU

    • @dazhaosay
      @dazhaosay  6 місяців тому

      @@myboloo1 降低使用门槛还有成本,才能普及化,让大家都能用上ai

    • @leojack9228
      @leojack9228 6 місяців тому

      但关键是知识库的训练和调用,还有怎么通过微调让它准确一点,不要胡说八道😂@@myboloo1

    • @dazhaosay
      @dazhaosay  6 місяців тому +2

      可以了解一下 open webui+ollama

    • @罗大林-w3q
      @罗大林-w3q 6 місяців тому

      如何联系?@@myboloo1

  • @弘军周
    @弘军周 6 місяців тому

    可以回答中文吗

    • @dazhaosay
      @dazhaosay  6 місяців тому +1

      可以,有个开源模型叫llama-chinese

  • @jet8772
    @jet8772 5 місяців тому

    建议去掉BGM

  • @libescavasa
    @libescavasa 5 місяців тому

    感觉你这套东西coze就能做了,而且更简单。

    • @dazhaosay
      @dazhaosay  4 місяці тому

      感谢 感谢,我试一下coze

  • @jackcheng7474
    @jackcheng7474 12 днів тому

    不把标题夸张化,怎么能骗到外行的流量,懂得都懂。

  • @abby498
    @abby498 7 місяців тому +2

    很棒的分享,出一个训练好的模型怎么调用到第三方平台,例如微信、网页等,谢谢

    • @dazhaosay
      @dazhaosay  7 місяців тому +4

      训练好后,后面就是建立一个业务场景合适的prompt 去调用大模型,并封装成接口 给具体应用去使用, 后面可以考虑专门出一期视频讲怎么应用问题

    • @abby498
      @abby498 7 місяців тому

      好的谢谢@@dazhaosay

    • @FFL-lff1118
      @FFL-lff1118 6 місяців тому

      挺好的,可以再详细点😂

    • @dazhaosay
      @dazhaosay  6 місяців тому +1

      这个也有现成的解决方案, open webui + ollama

    • @williamliu9928
      @williamliu9928 6 місяців тому

      @@dazhaosay 期待早日看到“专门出一期视频讲怎么应用问题”