21世纪最重要的发明：LoRA，让每个人都能微调大语言模型！将会如何重写世界规则？（用笔记本就能做大模型）

Ph.D. Vlog

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 19 гру 2024

КОМЕНТАРІ •

@awaykangaroo 7 місяців тому ⁺⁶
听不懂，先放着
@phdvlog2024 7 місяців тому ⁺²⁴
其实是一个很简单的论文，原始模型是1000*1000，太大了。现在用1000*1和1*1000的两个相乘的矩阵（结果也是1000*1000）来微调，这样就能用很小的参数改变模型原先的结果了。这么小的修改可以在本地电脑上完成，把LLM带入寻常百姓家。
@phdvlog2024 7 місяців тому ⁺²⁵
简单来说就是以小博大，加杠杆来改模型，效果很好。把本来个人无法训练的东西变成可以训练的东西。
@TOMATOFAQ 7 місяців тому ⁺²¹
感觉博主有两点非常厉害
1. 剪视频似乎不需要时间，感觉基本上是一次过。李沐剪视频都亲口承认产出一个视频的时间是视频时长的两到四倍
2. 做 PPT 很快。基本上是图加 chatgpt快速搞定。一般人单凭这单薄的内容做不到。但是博主的表达能力极强，所以可以通过语言输出内容。
@TOMATOFAQ 7 місяців тому ⁺²
眼睁睁看着博主积累海量粉丝
@phdvlog2024 7 місяців тому ⁺³
但我讲的没李沐讲得好，有些地方还是有些混乱，我主要是没时间去详细整理了，其实预先排练一次会有更好的效果
@TOMATOFAQ 7 місяців тому ⁺¹
@@phdvlog2024 没事。内容到了的时候，听众有理解的义务。
@mingyang6800 7 місяців тому
李沐是誰？
@bingebinge3722 7 місяців тому ⁺⁸
微软和微软研究院在人工智能机器学习自然语言处理上持续投入给研究社区持续做贡献至少已经20多年了只是以前和商业稍微远一些所以没有太多人注意罢了 20多年前这些领域的很多高影响论文都是他们的。
@vurtnesaerdna 5 місяців тому ⁺²
大佬能讲一些外国前沿领域的研究项目么？研究生改如果选择一个比较前沿的领域做研究，望大佬指教一下！
@jjjabsjwksjxbsujw 7 місяців тому ⁺²
大佬實在太高產啦，佩服
@JianXinLin-e8v Місяць тому ⁺¹
太厉害了浅显易懂
@HuayangYu 7 місяців тому ⁺⁴
讲太好了❤
@lush93yt 6 місяців тому ⁺¹
12:55 的說法可能有些疑慮。 LoRA 應該不是透過 A, B 兩個 low rank 矩陣來取代原先模型的 weights, 也不是一種壓縮模型的手段。而是透過 A,B 這兩個參數量較少的矩陣來進行 fine-tune。且由於用於 fine-tune 的資料通常都比較少，所以 low rank 以較少參數量進行微調，也可以避免模型 parameter 過於 powerful，進而增進模型成效
@phdvlog2024 6 місяців тому ⁺³
不是取代是共同作用
@zinchen7209 7 місяців тому
感謝分享，得到一個重要概念的類比，SVD LoRA model,，再到數據壓縮，大學讀線代一直覺得這東西很奇妙，用來處理空間映射問題，但可惜概念上可接受到實作上跟不上XDD 後來就轉換跑道了。感謝UP分享撿回一些大學的記憶
@phdvlog2024 7 місяців тому ⁺¹
svd和lora原理还是不太一样但想法差不多啦
@derek142 6 місяців тому
您好请教个问题：谈到训练量的时候两个低秩矩阵的1000*4,1000*4，的总训练量为8000，为什么是加的关系呐？两个低秩矩阵不是相乘才是才能和原来的矩阵是同维的吗？
@phdvlog2024 6 місяців тому
是啊，一个是1000*4 另一个是 4*1000，所以参数量一共8000，相乘之后变成1,000,000
@phdvlog2024 6 місяців тому
最终那个1000000是个“稀疏的”矩阵，虽然看起来好像有1000000个内容，但是实际上就是8000个参数
@derek142 6 місяців тому
@@phdvlog2024 多谢，明白了，期待更多好内容
@巫鴻麟-n7t 6 місяців тому
想請教幾個問題?
1.使用lora 微調後的模型推理速度會比較慢嗎? 因為多了一個path要算。
2. 我對已經使用lora finetune 過的模型再使用lora finetune 一次另一個數據集, 他會產生兩條path 還是重新調整原本那條,這樣我第一次訓練的內容會被蓋掉嗎?
抱歉我是外行,但純看完影片好奇。
@phdvlog2024 6 місяців тому
会慢，但不会慢多少。已经lora过的模型可能会产生两条路径，也可能会覆盖，取决于你代码怎么写，但两条路径没意义。
@donxu4961 7 місяців тому
想问问vlog，视频中提到的sd模型加lora的时候，cross attention与lora是如何结合的，是sd和lora两部分输出做cross attention吗？另外最近比较疑惑多模态融合策略的差异，比如cross attention和q former，貌似前者这种更适合两种模态语义更加接近？谢谢❤
@phdvlog2024 7 місяців тому
SD 和 LoRA 结合：
当将 LoRA 应用于 SD 模型时，LoRA 模块会被插入到 transformer 模型的 attention 层中。具体过程如下：
在应用 LoRA 之前，SD 模型会首先进行 cross attention，其中文本嵌入作为 key 和 value，图像特征作为 query。
应用 LoRA 后，cross attention 的 query, key, 和 value 都会通过 LoRA 模块进行线性变换。这些变换由 LoRA 的低秩矩阵参数化。
LoRA 使得这些线性变换的参数可以被有效微调，而不需要调整原模型的大量参数。
因此，SD 和 LoRA 的结合并不是两个部分独立输出再做 cross attention，而是 LoRA 模块直接嵌入到 SD 模型的 cross attention 中，参与到 query, key, 和 value 的变换过程。
@phdvlog2024 7 місяців тому
多模态融合策略主要有 cross attention 和 Q-Former 两种，分别适用于不同的应用场景：
Cross Attention：
机制：Cross attention 在 transformer 中用 query 从一个模态（如图像）中提取信息，并用 key 和 value 从另一个模态（如文本）中获取相关信息。
适用场景：这种策略特别适用于两个模态之间语义关系较为接近的情况，因为它能够直接在两个模态之间建立细粒度的对应关系。例如，在图像生成任务中，文本描述和生成图像之间的紧密联系使得 cross attention 非常有效。
Q-Former：
机制：Q-Former 是一种基于 query 的 transformer 模型，使用查询向量（queries）来从不同模态中提取信息。它可以被看作是一种对 cross attention 的扩展，其中查询向量不仅限于一个模态。
适用场景：Q-Former 更适合于处理模态之间语义关系不那么紧密的情况，因为它允许模型通过查询向量来聚合不同模态的信息，从而在多个模态之间建立更加灵活的关联。
总结来说，cross attention 更适合语义接近的多模态任务（如图像生成），而 Q-Former 则更适合处理语义关系较弱的多模态任务（如多模态分类）。
@phdvlog2024 7 місяців тому
有些过于细节的问题问chatgpt就好了，部署起来用现成模型即可，所以有时候我也不是特别清楚具体怎么做的（有些工具集成度太高了，细节我也不懂，也不需要懂，因为我什么都不改）
@yeyafeixiang 7 місяців тому ⁺¹
有时间可以讲讲llama-factory吗？
@phdvlog2024 7 місяців тому ⁺¹
可以
@ZZsunfire 7 місяців тому ⁺⁸
刚看完林亦发的视频B站大战弱智吧，惊叹用lora居然能在macbook上fine tune qwen1.5，转头就看到博主发了讲解LoRa。点赞
@dean76105 7 місяців тому ⁺¹
请问vlog现在AI方向博士是不是很难申请哇。听说至少得一篇顶会一作，感觉本科的话很难。
vlog前面好多视频都看了，感觉讲的挺有启发性的，但因为没有类似coding的demo，有些蛮抽象的概念就。。。挺抽象的😂
但是很感谢vlog的讲解❤
@phdvlog2024 7 місяців тому ⁺²
看什么学校有的难有的简单
@dean76105 7 місяців тому
@@phdvlog2024 我跟我们学校phd聊，感觉至少得有paper；然后看到国内像是mhy招聘，期望都是顶会一座。像是本科生的话，因为本质和科研还离得比较远，只靠自己想搞出一点东西，就感觉无从下手，请问vlog有什么建议嘛？或者可以分享一下这方面的心得体会嘛🥺
@jasonyu8020 7 місяців тому
博士好，Lora圖片訓練步驟略可以理解。但大語言的Lora訓練要如何進行?
@phdvlog2024 7 місяців тому
在transformer上直接并列一个lora块（这东西主要就是优化语言transformer）
@jasonyu8020 7 місяців тому
@@phdvlog2024 那麼，調整大型LLM的 Lora訓練步驟如何進行?與LLM的Lora樣本如何製作? 這類的樣本維度大致長如何? 是不是要自己收集創建語言風格的Q&A樣本?
@phdvlog2024 7 місяців тому ⁺²
@@jasonyu8020 这种就需要去GitHub找开源代码然后问chatgpt了。我目前的模型都没自己写LoRA，都是封装库。现在这个时代你搞不清楚所有的东西，就是别人怎么用你就复现就行了
@brozuh2364 7 місяців тому ⁺²
这个东西个人快速迭代是好的，但目前我没看到哪个工业界大模型正经这么部署的，我们自己也是模型整个开始微调，lora表现有点问题。
@phdvlog2024 7 місяців тому ⁺⁴
lora只适合语言transformer 不适合图像的
@idwdt 7 місяців тому
这个paper是2021年发表的？怎么会现在很流行？
@phdvlog2024 7 місяців тому
因为这是现在llm微调的重要方法
@phdvlog2024 7 місяців тому ⁺¹
不是现在很流行是自从发表以来就很流行
@平-o2n 7 місяців тому ⁺¹
還以為 lora 這老掉牙的東西迴光返照起死回生，原來有別的東西也叫 lora。😂
@phdvlog2024 7 місяців тому
😂
@phdvlog2024 7 місяців тому
我是觉得有点蹭热度的嫌疑就像ssd算法在ssd最火的时候出来实际上和固态硬盘没有任何关系
@JoeyXie 7 місяців тому
LoRa 微调能去掉原大模型的安全限制吗，比如说现在的开源模型问题色情暴力的问题都会拒绝回答，有没可能微调后去掉这个限制，甚至能成为这些领域的专家
@phdvlog2024 7 місяців тому ⁺¹
理论上可以
@JoeyXie 7 місяців тому
@@phdvlog2024 感觉很难，官方不让模型回答这些问题，但是第三方微调又专门灌输这些问题，我感觉模型会很头大，改天我去试验看看
@menkiguo7805 7 місяців тому ⁺¹
感觉lora和adapter有点像
@phdvlog2024 7 місяців тому ⁺¹
都是即插即用，有空讲讲
@AGI.Trainer 7 місяців тому ⁺¹
感觉本质上是差不多的，都是冻结预训练网络，训练新增小网络。
小网络是并联的UNet的结构，即编码器+解码器的结构。
这种方法在CNN的很多论文早就有使用。
我认为本文主要贡献应该是引入了更多的数学技巧，来解释为什么这么做。
@phdvlog2024 7 місяців тому ⁺¹
是的
@harimekoishi7407 7 місяців тому ⁺¹
不是，哥們，這個產出速度😬
@phdvlog2024 7 місяців тому ⁺⁴
😂，这是我正常读论文速度的10%不到
@TOMATOFAQ 7 місяців тому
@@phdvlog2024 产出速度是真的快。做 PPT 仿佛不用时间
@pakersmuch3705 5 місяців тому
赛博朋克了
@phdvlog2024 5 місяців тому
😂
@無名氏-l1c 7 місяців тому ⁺²
我知道你很想到10萬，不過這類不經剪輯、沒有動畫、高知識門檻的內容是很難到10萬的；做得好的話1萬到3萬左右是蠻有可能的。畢竟會中文還想要這樣論文導讀的人群也就那麼多，還很大一部分是知識稅😂（人在看到教育內容會多收藏、訂閱，但播放數明顯低得多的現象）

Наступне

Автоматичне відтворення