半块RTX4090 玩转70B大语言模型

AlphaArea KCORES

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 24 гру 2024

КОМЕНТАРІ • 70

@韩锐爵士 День тому
大佬太强了，深入浅出，简明易懂
@lon91ong 5 місяців тому ⁺¹⁶
这个视频出来，P100小黄鱼要涨价了😅
@chihuahsieh7471 3 місяці тому
剛剛看閒魚，P100-16G已經超過1000人民幣一張了@@
@黑鷺-c3n 5 місяців тому ⁺⁴
閣下的玩具起飛的聲音 ... 怕怕. 不過真的多謝資訊. 非常有用😊
@lanye9052 Місяць тому ⁺²
厉害，原来还能这么玩，我现在只是租显卡玩一玩，但我发现一块4090已经不够玩了
@ufoformdad5845 5 місяців тому ⁺⁵
我自己有台双路e5 2699v4 ,最后只能搁置，这个方案国家电网合作伙伴加24小时不间断直升机了。 4090vram 又太小。没钱玩玩，可以去买16g 的a770, 便宜，玩玩也没问题。中等玩家，mac studio 大内存才是王道，设置简单，速度够用，电费少。高端玩家肯定是计算卡走起。
@AlphaArea 5 місяців тому ⁺¹
AI又不是NAS需要一直挂机下载，用的时候再开就行，电费哪有那么吓人。Mac内存大但速度太低，只有在MoE模型上有不错的速度体验
@ufoformdad5845 5 місяців тому
@@AlphaArea 你炼丹不是以小时就算？还是那句话，炼丹的人找替代方案几年了，要是这个方案真实用，你根本捡不到这么便宜的矿渣…
@AlphaArea 5 місяців тому ⁺⁷
@@ufoformdad5845 一开始就说了只推理不训练, 你这是一点都没看就硬杠啊
@Zephyr711 5 місяців тому ⁺⁷
太神啦XDDDDDDDDD
6:52請問那些解除限制的模型該怎麼找呢? 影片中只看到一個 Liberated-Qwen1.5-72B
我目前希望成本再更低，回答速度可以捨棄，所以我用一套64GB RAM的洋垃圾配P40，windows會自動劃分一半的RAM，也就是32GB給顯卡借用，這樣也能跑70b大模型，比CPU快不少，很便宜，整機大約6000台幣而已，約1350人民幣。能跑，能用，但真的超級慢XDDDDDDDDDDDDDDDD
@jessishandsome 5 місяців тому
Uncensored ai model 搜尋
@AlphaArea 5 місяців тому ⁺²
huggingface上会有一些個人或組織做解限模型，這你只能自己找。
P40的問題是幾乎只能用llama.cpp和那些基於llama.cpp二次開發的軟體加速。而llama.cpp本身就不是個高效能框架，他們更喜歡搞各種平台的移植。所以P40也就只能一張卡玩，多張P40除了顯存大以外真的慢到沒辦法玩。
@jessishandsome 5 місяців тому ⁺¹
Uncensored ai model 可以找到
@Zephyr711 5 місяців тому
@@jessishandsome 謝謝
@future7442 5 місяців тому
PC的畫有PCIE 理論上也是可以走這種只是模型host 要換成影片裡說的那個還有機殼跟散熱要可以支援雙卡感謝分享
@Zephyr711 5 місяців тому ⁺¹
4:53 看起來這個方案不需要支援Nvlink，這是不是代表可以用多張4060Ti而非P100?
4060Ti一樣有16GB VRAM，浮點性能更好一點，功耗更低，也沒有公版計算卡那種超吵散熱問題，雖然比較貴，但拿來玩推理或許也是一種解方?
@AlphaArea 5 місяців тому ⁺¹
4060Ti是牙膏倒吸的一代，VRAM带宽还不如3060，不适合跑AI
@asdjkm2484 5 місяців тому
@@AlphaArea 那用3060呢，有没有可能把噪音压制在能够使用一个房间隔离的程度，甚至可以放在同一个房间不感觉吵
@AlphaArea 5 місяців тому ⁺²
@@asdjkm2484 为什么不省点钱买2060 12G。2060是这期视频的备选方案，但是我实在是不想碰矿渣，加上考虑到VRAM没ECC就没搞
@Zephyr711 5 місяців тому
@@asdjkm2484 3060太慢，不如P100改散熱，想省心省力可以考慮3090礦渣，但貴而且是礦渣
@caibi_ 5 місяців тому
可以用Speculative Sampling达到更快计算速度
@antonylam8213 5 місяців тому
請問下那張OLD MASTER設計的擴長卡有得賣的沒有？如果GPU用AMD的是否也能這樣用？謝！
@AlphaArea 5 місяців тому
这是个开源项目 oshwhub.com/malong/PEX8796_PCIE_GEN3_24PORT_Switch
在闲鱼应该有商家卖成品
@antonylam8213 5 місяців тому
@@AlphaArea 好的謝謝
@光辉-e3c 7 днів тому
原来是靠二手的服务器来玩，关键是软件编译能力
@ti1272 5 місяців тому
你好!我剛買了4028GR-TRT2 ,我試著用 UEFI mode啟動 PCI-e 接上的NVMe 4TB M.2 SSD, 雖然ubuntu server安裝過程的可以順利完成, 但系統無法啟動, 請問4028GR-TR2可以用pci-e 上的NVMe M.2 啟動系統嗎?還是這台機器只能用傳統的2.5吋SSD 啟動作業系統? 麻煩指點我一下, 謝謝!
@AlphaArea 4 місяці тому ⁺²
超微X10世代不支援NVME啟動，一定要用NVME做啟動碟的話需要修改BIOS韌體刷入
@ti1272 4 місяці тому
@@AlphaArea 另外這台風扇真的很吵, 有沒有針對這台機器推薦的風扇型號可以替代這8顆風扇?
@AlphaArea 4 місяці тому ⁺¹
@@ti1272 只要不怕顯示卡過熱, 可以用ipmi指令手動調速
@Neo-ho6ly 3 місяці тому
你好，以后把背景音乐声调小一点好吗？都听不清说话了
@Neo-ho6ly 3 місяці тому
你们这种科技类的视频，其实根本就不应该配背景音乐，太吵了
@yejustin9194 2 місяці тому
70B的模型还是有点弱智，怎么最高性价比弄460B的模型？
@dudulook2532 5 місяців тому
Spectral Compute宣布推出“SCALE”，这么说起来AMD的gpu也可以尝试尝试了啊
@彭瀚賢 5 місяців тому ⁺¹
感謝分享！！想請教一題，StableDiffusion這類生成圖片、影片的模型，也可以透過這樣的方式，來達成高顯存需求的單一推論工作嗎？感謝您解惑：）
@AlphaArea 5 місяців тому
StableDiffusion画图直接买24G显存的显卡就行了，上不起4090就上3090。还没到单显卡性能的瓶颈，所以没人优化多卡运行
@彭瀚賢 5 місяців тому ⁺¹
@@AlphaArea 想問是否是做得到的呢？因為在嘗試影片的生成，長長超出ＶＲＡＭ線限制，目前用A6000 48G，如果再上去就是H100那種了，所以才想請教看看多卡運行的可行性：）
@AlphaArea 4 місяці тому
@@彭瀚賢現在也有支援多卡並行的高效圖片/視頻生成框架 xdit-project/xDiT, 但是不確定對老顯卡支持如何, 我還沒有試
@ericxu9566 5 місяців тому
请教UP，没搜到4028GR准系统好价，求个关键词。另外4张卡用7048GR怎么样，准系统不到2600。
@AlphaArea 5 місяців тому ⁺¹
7048GR上的4块显卡分别连接在两块CPU上，通信延迟超级高。属于前AI时代的遗留，不适合跑现在的多卡并行推理
@zesenqian1591 5 місяців тому ⁺¹
@@AlphaArea 注意要买4028GR-TR2，主要的8条pcie插槽都是从单个cpu引出的。如果4028GR-TR的话，主要的8条pcie是用两个cpu分别引出的，那这两组显卡之间的延迟只会比7048GR更高（因为PLX）。另外注意，20系开始的消费级显卡已经不支持基于pcie的p2p了（除非nvlink）。所以必须要通过cpu中转。
@ericxu9566 5 місяців тому
@@zesenqian1591 谢谢佬儿，看来只能选"战斗机"
@ericxu9566 5 місяців тому
@@AlphaArea 多谢佬儿，原来差在这儿了！
@JustALittleDuck. 5 місяців тому
為什麼不用gemma 2 27b能力接近llama70b的
@AlphaArea 5 місяців тому
gemma能出2，llama后面也会出4的嘛。我刚开始研究这套服务器的时候还只有qwen1和llama2呢。
综合来说模型还是越大越好的，只是新训练技术一般都会先在相对小尺寸的模型上应用，所以会呈现出交替进步的效果
@zesenqian1591 5 місяців тому
P100是pascal架构，他的半精度运算好像pytorch不支持
@zesenqian1591 5 місяців тому
如果想要pytorch的混合精度支持，好像起码得是volta或turing架构
@zesenqian1591 5 місяців тому
另外一些研究：2080ti（图灵架构）开始，消费级显卡就阉割了基于pcie的p2p功能，只能用nvlink（只能两张显卡）。老卡p100（帕斯卡架构）是支持基于pcie的p2p的。
@zesenqian1591 5 місяців тому
所以说，如果你打算买p100这系显卡的话，那视频里推荐的基于pcie switch的4028gr是个好选择。如果你打算买更新一代的消费级显卡，那还是买直连pcie的7048gr。
@AlphaArea 5 місяців тому
现在追求高性能的推理框架基本都是丢开pytorch自己实现的，所以不太受这个影响
@AlphaArea 5 місяців тому
@@zesenqian1591 消费级显卡也别买7048GR，跨CPU的内存访问仍然会严重增加延迟
@李慧-f5x 5 місяців тому
大哥 gpu p2p和有没有pcie switch没关系
@AlphaArea 5 місяців тому
intel CPU的PCIe端口間P2P性能普遍有問題，個別型號還有嚴重問題。避坑最簡單的方法就是上顆PCIe Switch啊
@ruu6101 5 місяців тому
可以混搭顯卡嗎 3080 ti 12G 搭 3060 12G 或 P100 之類的
@AlphaArea 5 місяців тому ⁺¹
llama.cpp及衍生軟體支援的就是這種混搭。永遠只能同時用到一顆GPU，無論加多少顯示卡都只加顯存不加速度，而且一塊速度慢的卡加進去就能把速度帶崩
@ruu6101 5 місяців тому
@@AlphaArea 懂了，謝謝！
@liuliu3302 4 місяці тому
pcie的v100可以用这套方案吗
@AlphaArea 4 місяці тому
可以, 就是太贵了, 不然我都想直接插满V100的
@jackyzhang806 5 місяців тому
P4能玩点啥，自己玩小模型就可以了。
@AlphaArea 5 місяців тому
P4基本就是个节能版P40，用ollama试试能跑什么算什么
@vaelephant 5 місяців тому
精品
@bon_come 3 місяці тому
光是那顆2000瓦就值2000了吧
@sauxybanana2332 5 місяців тому
我還是掏卡給groq了,不是顯卡,是信用卡
@matrix_tomato 5 місяців тому
可以可以私有化模型
@dong-l3x 3 місяці тому
没看到700的，都过千
@zhoumartin2327 5 місяців тому ⁺⁶
太大，太吵了。。。本还想弄一台玩玩来着，被这个起飞的声音劝退了
@Zephyr711 5 місяців тому
我只弄了一張p40隨便玩玩，由於原裝散熱模組的限制，全速運行時散熱風扇聲音一定很吵，因為進氣口就那麼點大，如果要玩tesla計算卡又想要安靜的全速運行，一定要有改卡的準備。
@tony608 5 місяців тому
放到另一个房间里
@AlphaArea 5 місяців тому ⁺²
我是阳台机房
@meiowong7199 5 місяців тому
你可以泡著

Наступне

Автоматичне відтворення