【人工智能】模型压缩四大方法概述 | 量化、剪枝、蒸馏和二值化 | 模型瘦身 | 降低精度 | 速度提升 | 知识蒸馏 | 温度参数 | XNOR | 优缺点 | 发展方向
Вставка
- Опубліковано 10 лют 2025
- 为了在保持大型模型能力的同时,给这些巨无霸瘦身,于是就产生了模型压缩技术。今天咱们就来简单聊聊模型压缩的四大核心技术,量化、剪枝、蒸馏和二值化。
视频中提到的参考论文:
arxiv.org/pdf/...
arxiv.org/pdf/...
arxiv.org/pdf/...
static.googleu...
⭐️---------最佳拍档的推荐---------
【Galaxy】AI多语言学习App :shorturl.at/QQhsg ,大飞专属优惠注册码「DAFEI666」,赠送3天解锁所有课程,订阅服务限时半价,买一送一,不要错过~~
【易帆云】自用梯子/机场:shorturl.at/Oq3E7
⭐️---------最佳拍档的频道---------
成为会员,提前观看视频: / @bestpartners
大飞日更,这天天啃硬核论文,消化后做视频,还要剪视频。辛苦辛苦
一开始我也以为做节目要啃,后来我看了这个量,就明白了
又一个非常专业的技术视频, 谢谢博主!
支持支持,大飞辛苦
感谢支持🙏
講的不錯 竟然連結構化和非結構化剪枝都有提到:)
謝謝!
感谢支持🙏
太棒了 正好想了解一下蒸馏
终究还是压缩问题。就像如何把1g数据压缩成1k😂。压缩算法中尽可能找出最长的数据作为字典复用查询,但是长的token有不具备通用性。如果能找出数据通用基础数据就好了。有点像生物dna,同一种生物dna90%以上相同,只需要保留不同的那些变异数据。当然如果一个二进制位可以表示多种状态而不仅仅是0或1(如把0v当作一种状态,或者电压级数分的更精密)相信存储的数据量会变得很小。这对现在的计算机架构也是一种挑战。如果那天发明一种基于非电流芯片的物理模拟GPU加速器,直接用物理规则模拟得出需要巨大计算量的结果,例如量子态计算机。相比传统芯片也是质的飞跃!总之要想更快的人工智能,我觉得要从硬件底层改造,实现更适合物理法则与量子状态的计算器。
sgddsz wghg gw
wfjf
👍专家😂我每个字都认识一句都没看懂😅
我玩ComfyUI 网上找Flux模型时 量化和剪枝常见 知道他们精度不够也得下载用 没办法不是富哥 显存不够
Thank you 大 飞 一口氣看到尾 看完再看 🏆 ☘ 🍉 😄 🌺 🀄 😃 ☕ 🌸 😁 🏵 🎄 😀 🧧 🎉 😇 🌺 😎 🏮 🍀
想詢問大飛
1.因為MoE架構可以做到Sparse Activation,推論成本較傳統dense架構更低,那在訓練方面,MoE架構訓練成本還會較dense架構低嗎?
2.LLM訓練雖然會區分block,但分區訓練完成後還是要讓每個block都理解彼此的訓練成果(sync),這個sync過程會產生大量的data interconnect需求;想詢問MoE架構下的訓練還是需要這樣sync嗎?還是說,MoE底下的每個Expert model可以分開訓練,因此data interconnect需求較傳統dense架構可以大幅降低?
因为是开放性问题,试着回答您,欢迎讨论:
先说结论:(1)MoE会牺牲训练效率来换取推理效率,训练成本可能反而更高;(2)MoE的同步需求在专家参数层面降低,但路由同步和负载均衡仍需要全局协调,综合开销可以做到低于Dense模型但无法完全消除。
1. 为了保障实际效果(当前各大模型厂商,训练前肯定做好充分准备,设好目标才会正式启动训练,一般都这样,所以效果第一是前提吧),稀疏模型的训练成本通常不会低于传统的稠密模型架构。虽然MoE是通过系数激活的方式减少了单词计算量,单模型整体参数量可能更大,比如DS刚发布的V3模型有671B个参数量,除了参数量大以外,MoE架构还需要额外的训练路由网络来分配任务,此外,在分布式训练中,这些专家模型可能在不同的服务器上,所以相比于稠密模型的全参数同步,MoE这种跨设备通信的开销也会进一步增加同步成本。所以,结论是不一定低,反而可能更高。
2. 同步是MoE和dense模型训练都需要的,但同步范围有区别。因为MoE模型依赖所有专家的特征做决策,所以路由网络的参数需要全局同步,而每个专家参数只需由分配到它的样本数据来更新,因此需要通过专家并行技术之类的减少同步数据量。比如,你训练一个128位专家的MoE模型,如果需要64张GPU卡训练,每张GPU只需要同步2位专家的参数,而dense模型需要同步全部参数。不过,MoE的同步需求会低于传统密集型架构(当前已经可以做到这样,以后会越来越低),因为它不需要频繁同步所有部分,而是依赖于较为灵活的路由和激活机制来减少不必要的数据交换。
今后更好的算力生态和好的算法,第一个的成本也可能会反过来,业界还在期待更优于Transformer的同样革命性的架构出现,毕竟Transformer这个架构有很多缺陷无法克服,不过这就是另外的话题了。
你去问deep seek R1得到的答案可能更全面。
大飛是不是瘦了啊 太辛苦了
瘦了十几斤吧,减减肥吧,之前太胖了🤣
想把ds和gpt级别的模型安装到手机中,或者自家服务器上,手机通过api互联,但按照现在的情况,任重而道远,量化的模型能力又不行
1. 量化(Quantization)
将模型中的**浮点数(FP32)参数转换为低精度整数(INT8, INT4)**或定点数,减少存储和计算需求。
主要方法:
1.1 后训练量化(Post-training Quantization, PTQ)
训练完成后,将权重转换为低比特表示。
计算简单,但可能损失一定精度。
1.2 量化感知训练(Quantization-Aware Training, QAT)
在训练过程中加入量化模拟,使模型适应低比特计算。
计算开销更大,但能保留更多精度。
1.3 量化感知微调(Quantization-Aware Fine-Tuning, QAFT)
基于已有的预训练模型,仅对量化后模型进行短时间微调,而不是从头训练。
适用于已经训练好的大模型,在量化后可能有一定精度损失,此时用 QAFT 进行小规模训练来恢复精度。
特点:训练时间比 QAT 短(因为只是在量化后进行轻量微调)。适用于大型预训练模型,如 Llama、BERT、ResNet 等。
⚠ 如果微调数据集不足,恢复效果有限。
4. 二值化(Binarization)
极致的量化,将权重和激活值限制为二值(-1, +1),从而极大减少存储和计算需求。
主要方法:
4.1 二值神经网络(Binary Neural Network, BNN)
例如 XNOR-Net, Binarized Neural Networks(BNNs)。
4.2 Ternary Networks(三值化,权重取 {-1, 0, 1})
在极端压缩的同时尽量减少精度损失。
应用:
超低功耗设备,如嵌入式 AI 芯片、边缘计算
TinyML(在微控制器上跑 AI 模型)
Sounds like a chat-gpt summary. Do you use AI to research a topic?
昨天的小姐姐去哪儿了😅
哈哈😂是AI吗?
👍👍👏💯
Xnor 1490不能跟net863==707A對接
Praise Omnissiah
减一下,再练一次,再减一下,再练一次,循环循环循环=AGI?
架构不对,很难
distill是常用技术,closedAI自己能用别人不能用?
中國人都不管合約約定 ,強盜國家,
@@kz1iv 蒸馏技术本身并无不当,但如果蒸馏别人的模型来商用就有问题了,毕竟别人是花了重金训练的。
主要最后openai的模型也无法提供最后几层的输出分布,所以严格意义上和知识蒸馏比这更偏向数据增广或者仿真数据生成
@@tycoonbig1776应该开发新的商业模式
openai专门负责开发原始模型
然后其它各大AI公司购买原始模型并蒸馏然后商用化
就像原始的游戏公司后来分化成引擎公司和游戏公司
这样一来,openai通过出售他们的原始模型可以大赚其钱,何乐而不为?
🎉🎉🎉❤❤❤
微软还有一个三值化的工作
三值化可能比二值化更优,因为e更接近三而不是二
一生二,二生三,三生万物。
昨天装了几个deep seek的压缩模型,表现大失所望,问它魏征为什么受到李世民的敬重,它大谈社会主义核心价值观,连魏征是谁都没弄清楚。
问deepseek: 魏征为何受到李世民尊重?这是我刚刚得的到回答:魏征受到唐太宗李世民的尊重,主要有以下几个原因:
### 1. **直言敢谏**
魏征以敢于直言进谏著称,即使面对皇帝也毫不畏惧。他常常指出李世民的过失,提出改进建议。李世民虽然有时感到不快,但深知魏征的忠诚,因此对他非常敬重。
### 2. **忠诚为国**
魏征始终以国家利益为重,他的谏言多是为了国家的长治久安。李世民欣赏他的忠诚,认为他是真正的贤臣。
### 3. **才华出众**
魏征不仅在政治上表现出色,还精通文史,参与编撰了《隋书》等重要史书,展现了卓越的学识和治国才能,进一步赢得了李世民的尊重。
### 4. **君臣信任**
李世民与魏征之间建立了深厚的信任。魏征的谏言帮助李世民避免了许多错误,李世民也多次公开赞扬魏征,甚至在魏征去世后感叹失去了一面“镜子”。
### 5. **历史影响**
魏征的谏言对“贞观之治”的形成起到了重要作用,他的事迹被后世传颂,成为忠臣的典范。李世民对他的尊重也反映了对贤才的重视。
总之,魏征的直言、忠诚、才华以及与李世民的信任关系,使他成为李世民极为敬重的大臣。
国内的模型和国外的模型对齐方式不同,如果问太敏感的问题不会拿到你期望的结果,所以建议问非敏感问题(如果必须要问,你得会绕过该问题问法得到答案,但还是不建议用R1,记得截屏,因为有可能突出内容突然被收回),即便是Chatt也同样还在努力做对齐。另外,尽量不要用压缩模型,虽然能部署到我们的电脑,但一只苍蝇的大脑还是没法和一只猴子相提并论,再怎么吹,也是一样。当前基于Transformer的大模型并非真的智能,还是模式匹配方式在运作,所以,参数量大还是非常重要的。
你是不是沒搞懂LLM擅長什麼。問這種問題你需要提供足夠的語料,甚至用對話的方式一步步精確定義你真正想問的是什麼。你這種問法能測出的就只是他在訓練時有沒有使用相關的語料而已
@@無名氏-l1c The biggest problem with the Transformer architecture is that it can only fit the data it has learned. If LLMs are to appear smarter, they have to rely on techniques outside the architecture to achieve that, like reasoning or Agents. It's not that the model can really generalize to the level of intelligence that can be reached through association (not hallucination). That's the core issue. Man, you don't understand what I'm saying.
@@dennislau1440 First of all, my post isn’t responding to you but to the original comment. Also, I completely agree with what you’re saying. That nonsensical response is definitely due to “中国特色 alignment,” and a compressed model also doesn’t help the model properly understand the question.
What I want to say is that LLMs are not good at handling information outside their training data. Therefore, if you want to ask a domain-specific question, you should provide sufficient material to ensure it has enough information to answer. If you don’t, that wouldn’t be a fair test.
大家真会说些没用的话。