21世纪最重要的发明:LoRA,让每个人都能微调大语言模型!将会如何重写世界规则?(用笔记本就能做大模型)

Поділитися
Вставка
  • Опубліковано 19 гру 2024

КОМЕНТАРІ •

  • @awaykangaroo
    @awaykangaroo 7 місяців тому +6

    听不懂,先放着

    • @phdvlog2024
      @phdvlog2024  7 місяців тому +24

      其实是一个很简单的论文,原始模型是1000*1000,太大了。现在用1000*1和1*1000的两个相乘的矩阵(结果也是1000*1000)来微调,这样就能用很小的参数改变模型原先的结果了。这么小的修改可以在本地电脑上完成,把LLM带入寻常百姓家。

    • @phdvlog2024
      @phdvlog2024  7 місяців тому +25

      简单来说就是以小博大,加杠杆来改模型,效果很好。把本来个人无法训练的东西变成可以训练的东西。

  • @TOMATOFAQ
    @TOMATOFAQ 7 місяців тому +21

    感觉博主有两点非常厉害
    1. 剪视频似乎不需要时间,感觉基本上是一次过。李沐剪视频都亲口承认产出一个视频的时间是视频时长的两到四倍
    2. 做 PPT 很快。基本上是图加 chatgpt快速搞定。一般人单凭这单薄的内容做不到。但是博主的表达能力极强,所以可以通过语言输出内容。

    • @TOMATOFAQ
      @TOMATOFAQ 7 місяців тому +2

      眼睁睁看着博主积累海量粉丝

    • @phdvlog2024
      @phdvlog2024  7 місяців тому +3

      但我讲的没李沐讲得好,有些地方还是有些混乱,我主要是没时间去详细整理了,其实预先排练一次会有更好的效果

    • @TOMATOFAQ
      @TOMATOFAQ 7 місяців тому +1

      @@phdvlog2024 没事。内容到了的时候,听众有理解的义务。

    • @mingyang6800
      @mingyang6800 7 місяців тому

      李沐是誰?

  • @bingebinge3722
    @bingebinge3722 7 місяців тому +8

    微软和微软研究院在人工智能 机器学习 自然语言处理上持续投入 给研究社区持续做贡献至少已经20多年了 只是以前和商业稍微远一些所以没有太多人注意罢了 20多年前这些领域的很多高影响论文都是他们的。

  • @vurtnesaerdna
    @vurtnesaerdna 5 місяців тому +2

    大佬能讲一些外国前沿领域的研究项目么?研究生改如果选择一个比较前沿的领域做研究,望大佬指教一下!

  • @jjjabsjwksjxbsujw
    @jjjabsjwksjxbsujw 7 місяців тому +2

    大佬實在太高產啦,佩服

  • @JianXinLin-e8v
    @JianXinLin-e8v Місяць тому +1

    太厉害了 浅显易懂

  • @HuayangYu
    @HuayangYu 7 місяців тому +4

    讲太好了❤

  • @lush93yt
    @lush93yt 6 місяців тому +1

    12:55 的說法可能有些疑慮。 LoRA 應該不是透過 A, B 兩個 low rank 矩陣來取代原先模型的 weights, 也不是一種壓縮模型的手段。 而是透過 A,B 這兩個參數量較少的矩陣來進行 fine-tune。 且由於用於 fine-tune 的資料通常都比較少,所以 low rank 以較少參數量進行微調,也可以避免模型 parameter 過於 powerful,進而增進模型成效

    • @phdvlog2024
      @phdvlog2024  6 місяців тому +3

      不是取代 是共同作用

  • @zinchen7209
    @zinchen7209 7 місяців тому

    感謝分享,得到一個重要概念的類比,SVD LoRA model,,再到數據壓縮,大學讀線代一直覺得這東西很奇妙,用來處理空間映射問題,但可惜概念上可接受到實作上跟不上XDD 後來就轉換跑道了。感謝UP分享 撿回一些大學的記憶

    • @phdvlog2024
      @phdvlog2024  7 місяців тому +1

      svd和lora原理还是不太一样 但想法差不多啦

  • @derek142
    @derek142 6 місяців тому

    您好请教个问题:谈到训练量的时候两个低秩矩阵的1000*4,1000*4,的总训练量为8000,为什么是加的关系呐? 两个低秩矩阵不是相乘才是才能和原来的矩阵是同维的吗?

    • @phdvlog2024
      @phdvlog2024  6 місяців тому

      是啊,一个是1000*4 另一个是 4*1000,所以参数量一共8000,相乘之后变成1,000,000

    • @phdvlog2024
      @phdvlog2024  6 місяців тому

      最终那个1000000是个“稀疏的”矩阵,虽然看起来好像有1000000个内容,但是实际上就是8000个参数

    • @derek142
      @derek142 6 місяців тому

      @@phdvlog2024 多谢,明白了,期待更多好内容

  • @巫鴻麟-n7t
    @巫鴻麟-n7t 6 місяців тому

    想請教幾個問題?
    1.使用lora 微調後的模型 推理速度會比較慢嗎? 因為多了一個path要算。
    2. 我對已經使用lora finetune 過的模型 再使用lora finetune 一次另一個數據集, 他會產生兩條path 還是重新調整原本那條,這樣我第一次訓練的內容會被蓋掉嗎?
    抱歉我是外行,但純看完影片好奇。

    • @phdvlog2024
      @phdvlog2024  6 місяців тому

      会慢,但不会慢多少。已经lora过的模型可能会产生两条路径,也可能会覆盖,取决于你代码怎么写,但两条路径没意义。

  • @donxu4961
    @donxu4961 7 місяців тому

    想问问vlog,视频中提到的sd模型加lora的时候,cross attention与lora是如何结合的,是sd和lora两部分输出做cross attention吗? 另外最近比较疑惑 多模态融合策略的差异,比如cross attention和q former,貌似前者这种更适合两种模态语义更加接近? 谢谢❤

    • @phdvlog2024
      @phdvlog2024  7 місяців тому

      SD 和 LoRA 结合:
      当将 LoRA 应用于 SD 模型时,LoRA 模块会被插入到 transformer 模型的 attention 层中。具体过程如下:
      在应用 LoRA 之前,SD 模型会首先进行 cross attention,其中文本嵌入作为 key 和 value,图像特征作为 query。
      应用 LoRA 后,cross attention 的 query, key, 和 value 都会通过 LoRA 模块进行线性变换。这些变换由 LoRA 的低秩矩阵参数化。
      LoRA 使得这些线性变换的参数可以被有效微调,而不需要调整原模型的大量参数。
      因此,SD 和 LoRA 的结合并不是两个部分独立输出再做 cross attention,而是 LoRA 模块直接嵌入到 SD 模型的 cross attention 中,参与到 query, key, 和 value 的变换过程。

    • @phdvlog2024
      @phdvlog2024  7 місяців тому

      多模态融合策略主要有 cross attention 和 Q-Former 两种,分别适用于不同的应用场景:
      Cross Attention:
      机制:Cross attention 在 transformer 中用 query 从一个模态(如图像)中提取信息,并用 key 和 value 从另一个模态(如文本)中获取相关信息。
      适用场景:这种策略特别适用于两个模态之间语义关系较为接近的情况,因为它能够直接在两个模态之间建立细粒度的对应关系。例如,在图像生成任务中,文本描述和生成图像之间的紧密联系使得 cross attention 非常有效。
      Q-Former:
      机制:Q-Former 是一种基于 query 的 transformer 模型,使用查询向量(queries)来从不同模态中提取信息。它可以被看作是一种对 cross attention 的扩展,其中查询向量不仅限于一个模态。
      适用场景:Q-Former 更适合于处理模态之间语义关系不那么紧密的情况,因为它允许模型通过查询向量来聚合不同模态的信息,从而在多个模态之间建立更加灵活的关联。
      总结来说,cross attention 更适合语义接近的多模态任务(如图像生成),而 Q-Former 则更适合处理语义关系较弱的多模态任务(如多模态分类)。

    • @phdvlog2024
      @phdvlog2024  7 місяців тому

      有些过于细节的问题问chatgpt就好了,部署起来用现成模型即可,所以有时候我也不是特别清楚具体怎么做的(有些工具集成度太高了,细节我也不懂,也不需要懂,因为我什么都不改)

  • @yeyafeixiang
    @yeyafeixiang 7 місяців тому +1

    有时间可以讲讲llama-factory吗?

  • @ZZsunfire
    @ZZsunfire 7 місяців тому +8

    刚看完林亦发的视频B站大战弱智吧,惊叹用lora居然能在macbook上fine tune qwen1.5,转头就看到博主发了讲解LoRa。点赞

  • @dean76105
    @dean76105 7 місяців тому +1

    请问vlog现在AI方向博士是不是很难申请哇。听说至少得一篇顶会一作,感觉本科的话很难。
    vlog前面好多视频都看了,感觉讲的挺有启发性的,但因为没有类似coding的demo,有些蛮抽象的概念就。。。挺抽象的😂
    但是很感谢vlog的讲解❤

    • @phdvlog2024
      @phdvlog2024  7 місяців тому +2

      看什么学校 有的难有的简单

    • @dean76105
      @dean76105 7 місяців тому

      @@phdvlog2024 我跟我们学校phd聊,感觉至少得有paper;然后看到国内像是mhy招聘,期望都是顶会一座。像是本科生的话,因为本质和科研还离得比较远,只靠自己想搞出一点东西,就感觉无从下手,请问vlog有什么建议嘛?或者可以分享一下这方面的心得体会嘛🥺

  • @jasonyu8020
    @jasonyu8020 7 місяців тому

    博士好,Lora圖片訓練步驟略可以理解。但大語言的Lora訓練要如何進行?

    • @phdvlog2024
      @phdvlog2024  7 місяців тому

      在transformer上直接并列一个lora块(这东西主要就是优化语言transformer)

    • @jasonyu8020
      @jasonyu8020 7 місяців тому

      @@phdvlog2024 那麼,調整大型LLM的 Lora訓練步驟如何進行?與LLM的Lora樣本如何製作? 這類的樣本維度大致長如何? 是不是要自己收集創建語言風格的Q&A樣本?

    • @phdvlog2024
      @phdvlog2024  7 місяців тому +2

      @@jasonyu8020 这种就需要去GitHub找开源代码然后问chatgpt了。我目前的模型都没自己写LoRA,都是封装库。现在这个时代你搞不清楚所有的东西,就是别人怎么用你就复现就行了

  • @brozuh2364
    @brozuh2364 7 місяців тому +2

    这个东西个人快速迭代是好的,但目前我没看到哪个工业界大模型正经这么部署的,我们自己也是模型整个开始微调,lora表现有点问题。

    • @phdvlog2024
      @phdvlog2024  7 місяців тому +4

      lora只适合语言transformer 不适合图像的

  • @idwdt
    @idwdt 7 місяців тому

    这个paper是2021年发表的?怎么会现在很流行?

    • @phdvlog2024
      @phdvlog2024  7 місяців тому

      因为这是现在llm微调的重要方法

    • @phdvlog2024
      @phdvlog2024  7 місяців тому +1

      不是现在很流行 是自从发表以来就很流行

  • @平-o2n
    @平-o2n 7 місяців тому +1

    還以為 lora 這老掉牙的東西迴光返照起死回生,原來有別的東西也叫 lora。😂

    • @phdvlog2024
      @phdvlog2024  7 місяців тому

      😂

    • @phdvlog2024
      @phdvlog2024  7 місяців тому

      我是觉得有点蹭热度的嫌疑 就像ssd算法 在ssd最火的时候出来 实际上和固态硬盘没有任何关系

  • @JoeyXie
    @JoeyXie 7 місяців тому

    LoRa 微调能去掉原大模型的安全限制吗,比如说现在的开源模型问题色情暴力的问题都会拒绝回答,有没可能微调后去掉这个限制,甚至能成为这些领域的专家

    • @phdvlog2024
      @phdvlog2024  7 місяців тому +1

      理论上可以

    • @JoeyXie
      @JoeyXie 7 місяців тому

      @@phdvlog2024 感觉很难,官方不让模型回答这些问题,但是第三方微调又专门灌输这些问题,我感觉模型会很头大,改天我去试验看看

  • @menkiguo7805
    @menkiguo7805 7 місяців тому +1

    感觉lora和adapter有点像

    • @phdvlog2024
      @phdvlog2024  7 місяців тому +1

      都是即插即用,有空讲讲

    • @AGI.Trainer
      @AGI.Trainer 7 місяців тому +1

      感觉本质上是差不多的,都是冻结预训练网络,训练新增小网络。
      小网络是并联的UNet的结构,即编码器+解码器的结构。
      这种方法在CNN的很多论文早就有使用。
      我认为本文主要贡献应该是引入了更多的数学技巧,来解释为什么这么做。

    • @phdvlog2024
      @phdvlog2024  7 місяців тому +1

      是的

  • @harimekoishi7407
    @harimekoishi7407 7 місяців тому +1

    不是,哥們,這個產出速度😬

    • @phdvlog2024
      @phdvlog2024  7 місяців тому +4

      😂,这是我正常读论文速度的10%不到

    • @TOMATOFAQ
      @TOMATOFAQ 7 місяців тому

      @@phdvlog2024 产出速度是真的快。做 PPT 仿佛不用时间

  • @pakersmuch3705
    @pakersmuch3705 5 місяців тому

    赛博朋克了

  • @無名氏-l1c
    @無名氏-l1c 7 місяців тому +2

    我知道你很想到10萬,不過這類不經剪輯、沒有動畫、高知識門檻的內容是很難到10萬的;做得好的話1萬到3萬左右是蠻有可能的。畢竟會中文還想要這樣論文導讀的人群也就那麼多,還很大一部分是知識稅😂(人在看到教育內容會多收藏、訂閱,但播放數明顯低得多的現象)