半块RTX4090 玩转70B大语言模型

Поділитися
Вставка
  • Опубліковано 24 гру 2024

КОМЕНТАРІ • 70

  • @韩锐爵士
    @韩锐爵士 День тому

    大佬太强了,深入浅出,简明易懂

  • @lon91ong
    @lon91ong 5 місяців тому +16

    这个视频出来,P100小黄鱼要涨价了😅

    • @chihuahsieh7471
      @chihuahsieh7471 3 місяці тому

      剛剛看閒魚,P100-16G已經超過1000人民幣一張了@@

  • @黑鷺-c3n
    @黑鷺-c3n 5 місяців тому +4

    閣下的玩具起飛的聲音 ... 怕怕. 不過真的多謝資訊. 非常有用😊

  • @lanye9052
    @lanye9052 Місяць тому +2

    厉害,原来还能这么玩,我现在只是租显卡玩一玩,但我发现一块4090已经不够玩了

  • @ufoformdad5845
    @ufoformdad5845 5 місяців тому +5

    我自己有台双路e5 2699v4 ,最后只能搁置,这个方案国家电网合作伙伴加24小时不间断直升机了。 4090vram 又太小。 没钱玩玩,可以去买16g 的a770, 便宜,玩玩也没问题。 中等玩家,mac studio 大内存才是王道,设置简单,速度够用,电费少。高端玩家肯定是计算卡走起。

    • @AlphaArea
      @AlphaArea  5 місяців тому +1

      AI又不是NAS需要一直挂机下载,用的时候再开就行,电费哪有那么吓人。Mac内存大但速度太低,只有在MoE模型上有不错的速度体验

    • @ufoformdad5845
      @ufoformdad5845 5 місяців тому

      @@AlphaArea 你炼丹不是以小时就算?还是那句话,炼丹的人找替代方案几年了,要是这个方案真实用,你根本捡不到这么便宜的矿渣…

    • @AlphaArea
      @AlphaArea  5 місяців тому +7

      @@ufoformdad5845 一开始就说了只推理不训练, 你这是一点都没看就硬杠啊

  • @Zephyr711
    @Zephyr711 5 місяців тому +7

    太神啦XDDDDDDDDD
    6:52請問那些解除限制的模型該怎麼找呢? 影片中只看到一個 Liberated-Qwen1.5-72B
    我目前希望成本再更低,回答速度可以捨棄,所以我用一套64GB RAM的洋垃圾配P40,windows會自動劃分一半的RAM,也就是32GB給顯卡借用,這樣也能跑70b大模型,比CPU快不少,很便宜,整機大約6000台幣而已,約1350人民幣。 能跑,能用,但真的超級慢XDDDDDDDDDDDDDDDD

    • @jessishandsome
      @jessishandsome 5 місяців тому

      Uncensored ai model 搜尋

    • @AlphaArea
      @AlphaArea  5 місяців тому +2

      huggingface上会有一些個人或組織做解限模型,這你只能自己找。
      P40的問題是幾乎只能用llama.cpp和那些基於llama.cpp二次開發的軟體加速。而llama.cpp本身就不是個高效能框架,他們更喜歡搞各種平台的移植。所以P40也就只能一張卡玩,多張P40除了顯存大以外真的慢到沒辦法玩。

    • @jessishandsome
      @jessishandsome 5 місяців тому +1

      Uncensored ai model 可以找到

    • @Zephyr711
      @Zephyr711 5 місяців тому

      @@jessishandsome 謝謝

  • @future7442
    @future7442 5 місяців тому

    PC的畫 有PCIE 理論上也是可以走這種只是 模型host 要換成影片裡說的那個 還有機殼跟散熱要可以支援雙卡 感謝分享

  • @Zephyr711
    @Zephyr711 5 місяців тому +1

    4:53 看起來這個方案不需要支援Nvlink,這是不是代表可以用多張4060Ti而非P100?
    4060Ti一樣有16GB VRAM,浮點性能更好一點,功耗更低,也沒有公版計算卡那種超吵散熱問題,雖然比較貴,但拿來玩推理或許也是一種解方?

    • @AlphaArea
      @AlphaArea  5 місяців тому +1

      4060Ti是牙膏倒吸的一代,VRAM带宽还不如3060,不适合跑AI

    • @asdjkm2484
      @asdjkm2484 5 місяців тому

      @@AlphaArea 那用3060呢,有没有可能把噪音压制在能够使用一个房间隔离的程度,甚至可以放在同一个房间不感觉吵

    • @AlphaArea
      @AlphaArea  5 місяців тому +2

      @@asdjkm2484 为什么不省点钱买2060 12G。2060是这期视频的备选方案,但是我实在是不想碰矿渣,加上考虑到VRAM没ECC就没搞

    • @Zephyr711
      @Zephyr711 5 місяців тому

      @@asdjkm2484 3060太慢,不如P100改散熱,想省心省力可以考慮3090礦渣,但貴而且是礦渣

  • @caibi_
    @caibi_ 5 місяців тому

    可以用Speculative Sampling达到更快计算速度

  • @antonylam8213
    @antonylam8213 5 місяців тому

    請問下那張OLD MASTER設計的擴長卡有得賣的沒有?如果GPU用AMD的是否也能這樣用?謝!

    • @AlphaArea
      @AlphaArea  5 місяців тому

      这是个开源项目 oshwhub.com/malong/PEX8796_PCIE_GEN3_24PORT_Switch
      在闲鱼应该有商家卖成品

    • @antonylam8213
      @antonylam8213 5 місяців тому

      @@AlphaArea 好的謝謝

  • @光辉-e3c
    @光辉-e3c 7 днів тому

    原来是靠二手的服务器来玩,关键是软件编译能力

  • @ti1272
    @ti1272 5 місяців тому

    你好!我剛買了4028GR-TRT2 ,我試著用 UEFI mode啟動 PCI-e 接上的NVMe 4TB M.2 SSD, 雖然ubuntu server安裝過程的可以順利完成, 但系統無法啟動, 請問4028GR-TR2可以用pci-e 上的NVMe M.2 啟動系統嗎?還是這台機器只能用傳統的2.5吋SSD 啟動作業系統? 麻煩指點我一下, 謝謝!

    • @AlphaArea
      @AlphaArea  4 місяці тому +2

      超微X10世代不支援NVME啟動,一定要用NVME做啟動碟的話需要修改BIOS韌體刷入

    • @ti1272
      @ti1272 4 місяці тому

      @@AlphaArea 另外這台風扇真的很吵, 有沒有針對這台機器推薦的風扇型號可以替代這8顆風扇?

    • @AlphaArea
      @AlphaArea  4 місяці тому +1

      @@ti1272 只要不怕顯示卡過熱, 可以用ipmi指令手動調速

  • @Neo-ho6ly
    @Neo-ho6ly 3 місяці тому

    你好,以后把背景音乐声调小一点好吗?都听不清说话了

    • @Neo-ho6ly
      @Neo-ho6ly 3 місяці тому

      你们这种科技类的视频,其实根本就不应该配背景音乐,太吵了

  • @yejustin9194
    @yejustin9194 2 місяці тому

    70B的模型还是有点弱智,怎么最高性价比弄460B的模型?

  • @dudulook2532
    @dudulook2532 5 місяців тому

    Spectral Compute宣布推出“SCALE”,这么说起来AMD的gpu也可以尝试尝试了啊

  • @彭瀚賢
    @彭瀚賢 5 місяців тому +1

    感謝分享!!想請教一題,StableDiffusion這類生成圖片、影片的模型,也可以透過這樣的方式,來達成高顯存需求的單一推論工作嗎?感謝您解惑:)

    • @AlphaArea
      @AlphaArea  5 місяців тому

      StableDiffusion画图直接买24G显存的显卡就行了,上不起4090就上3090。还没到单显卡性能的瓶颈,所以没人优化多卡运行

    • @彭瀚賢
      @彭瀚賢 5 місяців тому +1

      @@AlphaArea 想問是否是做得到的呢?因為在嘗試影片的生成,長長超出VRAM線限制,目前用A6000 48G,如果再上去就是H100那種了,所以才想請教看看多卡運行的可行性:)

    • @AlphaArea
      @AlphaArea  4 місяці тому

      @@彭瀚賢 現在也有支援多卡並行的高效圖片/視頻生成框架 xdit-project/xDiT, 但是不確定對老顯卡支持如何, 我還沒有試

  • @ericxu9566
    @ericxu9566 5 місяців тому

    请教UP,没搜到4028GR准系统好价,求个关键词。另外4张卡用7048GR怎么样,准系统不到2600。

    • @AlphaArea
      @AlphaArea  5 місяців тому +1

      7048GR上的4块显卡分别连接在两块CPU上,通信延迟超级高。属于前AI时代的遗留,不适合跑现在的多卡并行推理

    • @zesenqian1591
      @zesenqian1591 5 місяців тому +1

      @@AlphaArea 注意要买4028GR-TR2,主要的8条pcie插槽都是从单个cpu引出的。如果4028GR-TR的话,主要的8条pcie是用两个cpu分别引出的,那这两组显卡之间的延迟只会比7048GR更高(因为PLX)。另外注意,20系开始的消费级显卡已经不支持基于pcie的p2p了(除非nvlink)。所以必须要通过cpu中转。

    • @ericxu9566
      @ericxu9566 5 місяців тому

      @@zesenqian1591 谢谢佬儿,看来只能选"战斗机"

    • @ericxu9566
      @ericxu9566 5 місяців тому

      @@AlphaArea 多谢佬儿,原来差在这儿了!

  • @JustALittleDuck.
    @JustALittleDuck. 5 місяців тому

    為什麼不用gemma 2 27b能力接近llama70b的

    • @AlphaArea
      @AlphaArea  5 місяців тому

      gemma能出2,llama后面也会出4的嘛。我刚开始研究这套服务器的时候还只有qwen1和llama2呢。
      综合来说模型还是越大越好的,只是新训练技术一般都会先在相对小尺寸的模型上应用,所以会呈现出交替进步的效果

  • @zesenqian1591
    @zesenqian1591 5 місяців тому

    P100是pascal架构,他的半精度运算好像pytorch不支持

    • @zesenqian1591
      @zesenqian1591 5 місяців тому

      如果想要pytorch的混合精度支持,好像起码得是volta或turing架构

    • @zesenqian1591
      @zesenqian1591 5 місяців тому

      另外一些研究:2080ti(图灵架构)开始,消费级显卡就阉割了基于pcie的p2p功能,只能用nvlink(只能两张显卡)。老卡p100(帕斯卡架构)是支持基于pcie的p2p的。

    • @zesenqian1591
      @zesenqian1591 5 місяців тому

      所以说,如果你打算买p100这系显卡的话,那视频里推荐的基于pcie switch的4028gr是个好选择。如果你打算买更新一代的消费级显卡,那还是买直连pcie的7048gr。

    • @AlphaArea
      @AlphaArea  5 місяців тому

      现在追求高性能的推理框架基本都是丢开pytorch自己实现的,所以不太受这个影响

    • @AlphaArea
      @AlphaArea  5 місяців тому

      @@zesenqian1591 消费级显卡也别买7048GR,跨CPU的内存访问仍然会严重增加延迟

  • @李慧-f5x
    @李慧-f5x 5 місяців тому

    大哥 gpu p2p和有没有pcie switch没关系

    • @AlphaArea
      @AlphaArea  5 місяців тому

      intel CPU的PCIe端口間P2P性能普遍有問題,個別型號還有嚴重問題。避坑最簡單的方法就是上顆PCIe Switch啊

  • @ruu6101
    @ruu6101 5 місяців тому

    可以混搭顯卡嗎 3080 ti 12G 搭 3060 12G 或 P100 之類的

    • @AlphaArea
      @AlphaArea  5 місяців тому +1

      llama.cpp及衍生軟體支援的就是這種混搭。永遠只能同時用到一顆GPU,無論加多少顯示卡都只加顯存不加速度,而且一塊速度慢的卡加進去就能把速度帶崩

    • @ruu6101
      @ruu6101 5 місяців тому

      @@AlphaArea 懂了,謝謝!

  • @liuliu3302
    @liuliu3302 4 місяці тому

    pcie的v100可以用这套方案吗

    • @AlphaArea
      @AlphaArea  4 місяці тому

      可以, 就是太贵了, 不然我都想直接插满V100的

  • @jackyzhang806
    @jackyzhang806 5 місяців тому

    P4能玩点啥,自己玩小模型就可以了。

    • @AlphaArea
      @AlphaArea  5 місяців тому

      P4基本就是个节能版P40,用ollama试试能跑什么算什么

  • @vaelephant
    @vaelephant 5 місяців тому

    精品

  • @bon_come
    @bon_come 3 місяці тому

    光是那顆2000瓦就值2000了吧

  • @sauxybanana2332
    @sauxybanana2332 5 місяців тому

    我還是掏卡給groq了,不是顯卡,是信用卡

  • @matrix_tomato
    @matrix_tomato 5 місяців тому

    可以可以 私有化模型

  • @dong-l3x
    @dong-l3x 3 місяці тому

    没看到700的,都过千

  • @zhoumartin2327
    @zhoumartin2327 5 місяців тому +6

    太大,太吵了。。。本还想弄一台玩玩来着,被这个起飞的声音劝退了

    • @Zephyr711
      @Zephyr711 5 місяців тому

      我只弄了一張p40隨便玩玩,由於原裝散熱模組的限制,全速運行時散熱風扇聲音一定很吵,因為進氣口就那麼點大,如果要玩tesla計算卡又想要安靜的全速運行,一定要有改卡的準備。

    • @tony608
      @tony608 5 місяців тому

      放到另一个房间里

    • @AlphaArea
      @AlphaArea  5 місяців тому +2

      我是阳台机房

    • @meiowong7199
      @meiowong7199 5 місяців тому

      你可以泡著