Розмір відео: 1280 X 720853 X 480640 X 360
Показувати елементи керування програвачем
Автоматичне відтворення
Автоповтор
听不懂,先放着
其实是一个很简单的论文,原始模型是1000*1000,太大了。现在用1000*1和1*1000的两个相乘的矩阵(结果也是1000*1000)来微调,这样就能用很小的参数改变模型原先的结果了。这么小的修改可以在本地电脑上完成,把LLM带入寻常百姓家。
简单来说就是以小博大,加杠杆来改模型,效果很好。把本来个人无法训练的东西变成可以训练的东西。
感觉博主有两点非常厉害1. 剪视频似乎不需要时间,感觉基本上是一次过。李沐剪视频都亲口承认产出一个视频的时间是视频时长的两到四倍2. 做 PPT 很快。基本上是图加 chatgpt快速搞定。一般人单凭这单薄的内容做不到。但是博主的表达能力极强,所以可以通过语言输出内容。
眼睁睁看着博主积累海量粉丝
但我讲的没李沐讲得好,有些地方还是有些混乱,我主要是没时间去详细整理了,其实预先排练一次会有更好的效果
@@phdvlog2024 没事。内容到了的时候,听众有理解的义务。
李沐是誰?
微软和微软研究院在人工智能 机器学习 自然语言处理上持续投入 给研究社区持续做贡献至少已经20多年了 只是以前和商业稍微远一些所以没有太多人注意罢了 20多年前这些领域的很多高影响论文都是他们的。
大佬能讲一些外国前沿领域的研究项目么?研究生改如果选择一个比较前沿的领域做研究,望大佬指教一下!
大佬實在太高產啦,佩服
太厉害了 浅显易懂
讲太好了❤
12:55 的說法可能有些疑慮。 LoRA 應該不是透過 A, B 兩個 low rank 矩陣來取代原先模型的 weights, 也不是一種壓縮模型的手段。 而是透過 A,B 這兩個參數量較少的矩陣來進行 fine-tune。 且由於用於 fine-tune 的資料通常都比較少,所以 low rank 以較少參數量進行微調,也可以避免模型 parameter 過於 powerful,進而增進模型成效
不是取代 是共同作用
感謝分享,得到一個重要概念的類比,SVD LoRA model,,再到數據壓縮,大學讀線代一直覺得這東西很奇妙,用來處理空間映射問題,但可惜概念上可接受到實作上跟不上XDD 後來就轉換跑道了。感謝UP分享 撿回一些大學的記憶
svd和lora原理还是不太一样 但想法差不多啦
您好请教个问题:谈到训练量的时候两个低秩矩阵的1000*4,1000*4,的总训练量为8000,为什么是加的关系呐? 两个低秩矩阵不是相乘才是才能和原来的矩阵是同维的吗?
是啊,一个是1000*4 另一个是 4*1000,所以参数量一共8000,相乘之后变成1,000,000
最终那个1000000是个“稀疏的”矩阵,虽然看起来好像有1000000个内容,但是实际上就是8000个参数
@@phdvlog2024 多谢,明白了,期待更多好内容
想請教幾個問題?1.使用lora 微調後的模型 推理速度會比較慢嗎? 因為多了一個path要算。2. 我對已經使用lora finetune 過的模型 再使用lora finetune 一次另一個數據集, 他會產生兩條path 還是重新調整原本那條,這樣我第一次訓練的內容會被蓋掉嗎?抱歉我是外行,但純看完影片好奇。
会慢,但不会慢多少。已经lora过的模型可能会产生两条路径,也可能会覆盖,取决于你代码怎么写,但两条路径没意义。
想问问vlog,视频中提到的sd模型加lora的时候,cross attention与lora是如何结合的,是sd和lora两部分输出做cross attention吗? 另外最近比较疑惑 多模态融合策略的差异,比如cross attention和q former,貌似前者这种更适合两种模态语义更加接近? 谢谢❤
SD 和 LoRA 结合:当将 LoRA 应用于 SD 模型时,LoRA 模块会被插入到 transformer 模型的 attention 层中。具体过程如下:在应用 LoRA 之前,SD 模型会首先进行 cross attention,其中文本嵌入作为 key 和 value,图像特征作为 query。应用 LoRA 后,cross attention 的 query, key, 和 value 都会通过 LoRA 模块进行线性变换。这些变换由 LoRA 的低秩矩阵参数化。LoRA 使得这些线性变换的参数可以被有效微调,而不需要调整原模型的大量参数。因此,SD 和 LoRA 的结合并不是两个部分独立输出再做 cross attention,而是 LoRA 模块直接嵌入到 SD 模型的 cross attention 中,参与到 query, key, 和 value 的变换过程。
多模态融合策略主要有 cross attention 和 Q-Former 两种,分别适用于不同的应用场景:Cross Attention:机制:Cross attention 在 transformer 中用 query 从一个模态(如图像)中提取信息,并用 key 和 value 从另一个模态(如文本)中获取相关信息。适用场景:这种策略特别适用于两个模态之间语义关系较为接近的情况,因为它能够直接在两个模态之间建立细粒度的对应关系。例如,在图像生成任务中,文本描述和生成图像之间的紧密联系使得 cross attention 非常有效。Q-Former:机制:Q-Former 是一种基于 query 的 transformer 模型,使用查询向量(queries)来从不同模态中提取信息。它可以被看作是一种对 cross attention 的扩展,其中查询向量不仅限于一个模态。适用场景:Q-Former 更适合于处理模态之间语义关系不那么紧密的情况,因为它允许模型通过查询向量来聚合不同模态的信息,从而在多个模态之间建立更加灵活的关联。总结来说,cross attention 更适合语义接近的多模态任务(如图像生成),而 Q-Former 则更适合处理语义关系较弱的多模态任务(如多模态分类)。
有些过于细节的问题问chatgpt就好了,部署起来用现成模型即可,所以有时候我也不是特别清楚具体怎么做的(有些工具集成度太高了,细节我也不懂,也不需要懂,因为我什么都不改)
有时间可以讲讲llama-factory吗?
可以
刚看完林亦发的视频B站大战弱智吧,惊叹用lora居然能在macbook上fine tune qwen1.5,转头就看到博主发了讲解LoRa。点赞
请问vlog现在AI方向博士是不是很难申请哇。听说至少得一篇顶会一作,感觉本科的话很难。vlog前面好多视频都看了,感觉讲的挺有启发性的,但因为没有类似coding的demo,有些蛮抽象的概念就。。。挺抽象的😂但是很感谢vlog的讲解❤
看什么学校 有的难有的简单
@@phdvlog2024 我跟我们学校phd聊,感觉至少得有paper;然后看到国内像是mhy招聘,期望都是顶会一座。像是本科生的话,因为本质和科研还离得比较远,只靠自己想搞出一点东西,就感觉无从下手,请问vlog有什么建议嘛?或者可以分享一下这方面的心得体会嘛🥺
博士好,Lora圖片訓練步驟略可以理解。但大語言的Lora訓練要如何進行?
在transformer上直接并列一个lora块(这东西主要就是优化语言transformer)
@@phdvlog2024 那麼,調整大型LLM的 Lora訓練步驟如何進行?與LLM的Lora樣本如何製作? 這類的樣本維度大致長如何? 是不是要自己收集創建語言風格的Q&A樣本?
@@jasonyu8020 这种就需要去GitHub找开源代码然后问chatgpt了。我目前的模型都没自己写LoRA,都是封装库。现在这个时代你搞不清楚所有的东西,就是别人怎么用你就复现就行了
这个东西个人快速迭代是好的,但目前我没看到哪个工业界大模型正经这么部署的,我们自己也是模型整个开始微调,lora表现有点问题。
lora只适合语言transformer 不适合图像的
这个paper是2021年发表的?怎么会现在很流行?
因为这是现在llm微调的重要方法
不是现在很流行 是自从发表以来就很流行
還以為 lora 這老掉牙的東西迴光返照起死回生,原來有別的東西也叫 lora。😂
😂
我是觉得有点蹭热度的嫌疑 就像ssd算法 在ssd最火的时候出来 实际上和固态硬盘没有任何关系
LoRa 微调能去掉原大模型的安全限制吗,比如说现在的开源模型问题色情暴力的问题都会拒绝回答,有没可能微调后去掉这个限制,甚至能成为这些领域的专家
理论上可以
@@phdvlog2024 感觉很难,官方不让模型回答这些问题,但是第三方微调又专门灌输这些问题,我感觉模型会很头大,改天我去试验看看
感觉lora和adapter有点像
都是即插即用,有空讲讲
感觉本质上是差不多的,都是冻结预训练网络,训练新增小网络。小网络是并联的UNet的结构,即编码器+解码器的结构。这种方法在CNN的很多论文早就有使用。我认为本文主要贡献应该是引入了更多的数学技巧,来解释为什么这么做。
是的
不是,哥們,這個產出速度😬
😂,这是我正常读论文速度的10%不到
@@phdvlog2024 产出速度是真的快。做 PPT 仿佛不用时间
赛博朋克了
我知道你很想到10萬,不過這類不經剪輯、沒有動畫、高知識門檻的內容是很難到10萬的;做得好的話1萬到3萬左右是蠻有可能的。畢竟會中文還想要這樣論文導讀的人群也就那麼多,還很大一部分是知識稅😂(人在看到教育內容會多收藏、訂閱,但播放數明顯低得多的現象)
听不懂,先放着
其实是一个很简单的论文,原始模型是1000*1000,太大了。现在用1000*1和1*1000的两个相乘的矩阵(结果也是1000*1000)来微调,这样就能用很小的参数改变模型原先的结果了。这么小的修改可以在本地电脑上完成,把LLM带入寻常百姓家。
简单来说就是以小博大,加杠杆来改模型,效果很好。把本来个人无法训练的东西变成可以训练的东西。
感觉博主有两点非常厉害
1. 剪视频似乎不需要时间,感觉基本上是一次过。李沐剪视频都亲口承认产出一个视频的时间是视频时长的两到四倍
2. 做 PPT 很快。基本上是图加 chatgpt快速搞定。一般人单凭这单薄的内容做不到。但是博主的表达能力极强,所以可以通过语言输出内容。
眼睁睁看着博主积累海量粉丝
但我讲的没李沐讲得好,有些地方还是有些混乱,我主要是没时间去详细整理了,其实预先排练一次会有更好的效果
@@phdvlog2024 没事。内容到了的时候,听众有理解的义务。
李沐是誰?
微软和微软研究院在人工智能 机器学习 自然语言处理上持续投入 给研究社区持续做贡献至少已经20多年了 只是以前和商业稍微远一些所以没有太多人注意罢了 20多年前这些领域的很多高影响论文都是他们的。
大佬能讲一些外国前沿领域的研究项目么?研究生改如果选择一个比较前沿的领域做研究,望大佬指教一下!
大佬實在太高產啦,佩服
太厉害了 浅显易懂
讲太好了❤
12:55 的說法可能有些疑慮。 LoRA 應該不是透過 A, B 兩個 low rank 矩陣來取代原先模型的 weights, 也不是一種壓縮模型的手段。 而是透過 A,B 這兩個參數量較少的矩陣來進行 fine-tune。 且由於用於 fine-tune 的資料通常都比較少,所以 low rank 以較少參數量進行微調,也可以避免模型 parameter 過於 powerful,進而增進模型成效
不是取代 是共同作用
感謝分享,得到一個重要概念的類比,SVD LoRA model,,再到數據壓縮,大學讀線代一直覺得這東西很奇妙,用來處理空間映射問題,但可惜概念上可接受到實作上跟不上XDD 後來就轉換跑道了。感謝UP分享 撿回一些大學的記憶
svd和lora原理还是不太一样 但想法差不多啦
您好请教个问题:谈到训练量的时候两个低秩矩阵的1000*4,1000*4,的总训练量为8000,为什么是加的关系呐? 两个低秩矩阵不是相乘才是才能和原来的矩阵是同维的吗?
是啊,一个是1000*4 另一个是 4*1000,所以参数量一共8000,相乘之后变成1,000,000
最终那个1000000是个“稀疏的”矩阵,虽然看起来好像有1000000个内容,但是实际上就是8000个参数
@@phdvlog2024 多谢,明白了,期待更多好内容
想請教幾個問題?
1.使用lora 微調後的模型 推理速度會比較慢嗎? 因為多了一個path要算。
2. 我對已經使用lora finetune 過的模型 再使用lora finetune 一次另一個數據集, 他會產生兩條path 還是重新調整原本那條,這樣我第一次訓練的內容會被蓋掉嗎?
抱歉我是外行,但純看完影片好奇。
会慢,但不会慢多少。已经lora过的模型可能会产生两条路径,也可能会覆盖,取决于你代码怎么写,但两条路径没意义。
想问问vlog,视频中提到的sd模型加lora的时候,cross attention与lora是如何结合的,是sd和lora两部分输出做cross attention吗? 另外最近比较疑惑 多模态融合策略的差异,比如cross attention和q former,貌似前者这种更适合两种模态语义更加接近? 谢谢❤
SD 和 LoRA 结合:
当将 LoRA 应用于 SD 模型时,LoRA 模块会被插入到 transformer 模型的 attention 层中。具体过程如下:
在应用 LoRA 之前,SD 模型会首先进行 cross attention,其中文本嵌入作为 key 和 value,图像特征作为 query。
应用 LoRA 后,cross attention 的 query, key, 和 value 都会通过 LoRA 模块进行线性变换。这些变换由 LoRA 的低秩矩阵参数化。
LoRA 使得这些线性变换的参数可以被有效微调,而不需要调整原模型的大量参数。
因此,SD 和 LoRA 的结合并不是两个部分独立输出再做 cross attention,而是 LoRA 模块直接嵌入到 SD 模型的 cross attention 中,参与到 query, key, 和 value 的变换过程。
多模态融合策略主要有 cross attention 和 Q-Former 两种,分别适用于不同的应用场景:
Cross Attention:
机制:Cross attention 在 transformer 中用 query 从一个模态(如图像)中提取信息,并用 key 和 value 从另一个模态(如文本)中获取相关信息。
适用场景:这种策略特别适用于两个模态之间语义关系较为接近的情况,因为它能够直接在两个模态之间建立细粒度的对应关系。例如,在图像生成任务中,文本描述和生成图像之间的紧密联系使得 cross attention 非常有效。
Q-Former:
机制:Q-Former 是一种基于 query 的 transformer 模型,使用查询向量(queries)来从不同模态中提取信息。它可以被看作是一种对 cross attention 的扩展,其中查询向量不仅限于一个模态。
适用场景:Q-Former 更适合于处理模态之间语义关系不那么紧密的情况,因为它允许模型通过查询向量来聚合不同模态的信息,从而在多个模态之间建立更加灵活的关联。
总结来说,cross attention 更适合语义接近的多模态任务(如图像生成),而 Q-Former 则更适合处理语义关系较弱的多模态任务(如多模态分类)。
有些过于细节的问题问chatgpt就好了,部署起来用现成模型即可,所以有时候我也不是特别清楚具体怎么做的(有些工具集成度太高了,细节我也不懂,也不需要懂,因为我什么都不改)
有时间可以讲讲llama-factory吗?
可以
刚看完林亦发的视频B站大战弱智吧,惊叹用lora居然能在macbook上fine tune qwen1.5,转头就看到博主发了讲解LoRa。点赞
请问vlog现在AI方向博士是不是很难申请哇。听说至少得一篇顶会一作,感觉本科的话很难。
vlog前面好多视频都看了,感觉讲的挺有启发性的,但因为没有类似coding的demo,有些蛮抽象的概念就。。。挺抽象的😂
但是很感谢vlog的讲解❤
看什么学校 有的难有的简单
@@phdvlog2024 我跟我们学校phd聊,感觉至少得有paper;然后看到国内像是mhy招聘,期望都是顶会一座。像是本科生的话,因为本质和科研还离得比较远,只靠自己想搞出一点东西,就感觉无从下手,请问vlog有什么建议嘛?或者可以分享一下这方面的心得体会嘛🥺
博士好,Lora圖片訓練步驟略可以理解。但大語言的Lora訓練要如何進行?
在transformer上直接并列一个lora块(这东西主要就是优化语言transformer)
@@phdvlog2024 那麼,調整大型LLM的 Lora訓練步驟如何進行?與LLM的Lora樣本如何製作? 這類的樣本維度大致長如何? 是不是要自己收集創建語言風格的Q&A樣本?
@@jasonyu8020 这种就需要去GitHub找开源代码然后问chatgpt了。我目前的模型都没自己写LoRA,都是封装库。现在这个时代你搞不清楚所有的东西,就是别人怎么用你就复现就行了
这个东西个人快速迭代是好的,但目前我没看到哪个工业界大模型正经这么部署的,我们自己也是模型整个开始微调,lora表现有点问题。
lora只适合语言transformer 不适合图像的
这个paper是2021年发表的?怎么会现在很流行?
因为这是现在llm微调的重要方法
不是现在很流行 是自从发表以来就很流行
還以為 lora 這老掉牙的東西迴光返照起死回生,原來有別的東西也叫 lora。😂
😂
我是觉得有点蹭热度的嫌疑 就像ssd算法 在ssd最火的时候出来 实际上和固态硬盘没有任何关系
LoRa 微调能去掉原大模型的安全限制吗,比如说现在的开源模型问题色情暴力的问题都会拒绝回答,有没可能微调后去掉这个限制,甚至能成为这些领域的专家
理论上可以
@@phdvlog2024 感觉很难,官方不让模型回答这些问题,但是第三方微调又专门灌输这些问题,我感觉模型会很头大,改天我去试验看看
感觉lora和adapter有点像
都是即插即用,有空讲讲
感觉本质上是差不多的,都是冻结预训练网络,训练新增小网络。
小网络是并联的UNet的结构,即编码器+解码器的结构。
这种方法在CNN的很多论文早就有使用。
我认为本文主要贡献应该是引入了更多的数学技巧,来解释为什么这么做。
是的
不是,哥們,這個產出速度😬
😂,这是我正常读论文速度的10%不到
@@phdvlog2024 产出速度是真的快。做 PPT 仿佛不用时间
赛博朋克了
😂
我知道你很想到10萬,不過這類不經剪輯、沒有動畫、高知識門檻的內容是很難到10萬的;做得好的話1萬到3萬左右是蠻有可能的。畢竟會中文還想要這樣論文導讀的人群也就那麼多,還很大一部分是知識稅😂(人在看到教育內容會多收藏、訂閱,但播放數明顯低得多的現象)