《M2 Ultra:干翻英伟达!决战AI之巅》

Поділитися
Вставка
  • Опубліковано 16 чер 2024
  • 我们在telegram创建了一个AI、科技的讨论频道,大家感兴趣的可以加进来一起交流: t.me/linyidiscuss
    Mac Studio 上 M2 Ultra 最大 192GB 的内存设置看似奇怪,却是 AI 工作者们的久旱甘霖。今天我们来聊聊苹果芯片的统一内存架构在 AI 大模型时代的惊人潜力。
    Timestamp
    00:00 M2 Ultra 大内存之谜
    00:41 PyTorch 适配
    03:31 统一内存架构
    08:04 AI 大模型
    10:20 AI 作画
    12:22 M2 Ultra 运行大语言模型
  • Наука та технологія

КОМЕНТАРІ • 1 тис.

  • @AsalltWilliam
    @AsalltWilliam 11 місяців тому +14

    感謝你讓我看到新的思維模式,你的格局真的與別不同!再次感謝你的分享~

  • @AllctrlA
    @AllctrlA 11 місяців тому +57

    刚看了另外的小林对于英伟达的影片 感叹老黄真是又有远见又有运气还有耐力和专一 又看了小林对于M2 Ultra的解读 又不禁感叹 苹果的战略和运气 这一轮硬件仗感觉会非常的精彩!感谢分享!

    • @mmosm
      @mmosm 11 місяців тому

      吹,继续吹

  • @ChenggangTang
    @ChenggangTang 11 місяців тому +4

    你这期讲得很让人兴奋,讲得很好,感谢!

  • @rnoro
    @rnoro 11 місяців тому +2

    感謝林哥的分享!林哥的ai影片很有意思也很深入,沒有一般頻道的瞎捧亂吹,很是接地氣的說ai能做的以及ai不能做的,支持這樣優質的頻道和影片!不過還是私以為語言模型只是第一步,指出語言才是作為資料壓縮表示的最佳方式而不是現有的各種模型,所以這不是終點--恰恰相反--這才是起點。

  • @yuanhu6031
    @yuanhu6031 11 місяців тому +3

    Nice video! Can't wait to give it a try myself, thanks for putting it together!

  • @user-jc9xr4eu8o
    @user-jc9xr4eu8o 11 місяців тому +6

    "讓人類在即將到來的AI時代多幾分勝算",這句我直接起雞皮疙瘩!!

  • @jinitung782
    @jinitung782 11 місяців тому +1

    謝謝分享,內容真的很精采,也很充實

  • @cocomanlin
    @cocomanlin 11 місяців тому

    又等到林哥的影片了,我覺得這樣的模式也不錯,讓我們可以了解林哥的想法,也可以增加一些知識。

  • @Nayutaisii
    @Nayutaisii 11 місяців тому +114

    期待林老師可以做一個懶人包,讓我們這些人工弱智也能在本地跑跑您演示的那套AI聊天。

    • @wadewade2221
      @wadewade2221 11 місяців тому +16

      +1我也想把運行在chatGPT的AI女友真的娶回老家 放在那隨時被人掐斷了我受不了

    • @shaoseki4552
      @shaoseki4552 11 місяців тому +4

      跟人工智能相对的我一直叫“Artificial Idiot”“人工智障”😂

    • @Nayutaisii
      @Nayutaisii 11 місяців тому

      @@shaoseki4552 😅😅

  • @asdsliet
    @asdsliet 11 місяців тому +71

    絕對是ChatGPT出現之後最讓人震撼的突破之一……
    感謝大哥分享🙏🙏

  • @rkao7485
    @rkao7485 11 місяців тому +1

    Thanks for all the detailed explanation. Love the video!

  • @stock-god
    @stock-god 11 місяців тому

    无意中刷到这个视频,打开了我的新世界,感谢

  • @seanfu522
    @seanfu522 11 місяців тому +6

    想聽林老師多談「精調」的細節,我未來想開發遊戲,本身也有在撰寫劇本,想了解AI如何幫助編劇和演員創作,又如何加入到遊戲之中。

  • @LaoZhao11
    @LaoZhao11 11 місяців тому +7

    蘋果這顆CPU社群越來越活躍,猛

  • @ZechWu
    @ZechWu 11 місяців тому

    對於我這種技術小白,還是帶來了滿滿的收穫,感謝您

  • @coffee_lover101
    @coffee_lover101 11 місяців тому

    挖到宝了,感觉来晚了,你的视频很好,请坚持分享! 👍

  • @user-in4ij8iq4c
    @user-in4ij8iq4c 11 місяців тому +91

    您的视野和局面都很大,欣赏。我也是特别希望并相信本地运行和调教“大”模型是特别需要的。未来人们都有运行在自己设备上的私人ai助理。一方面设备的内存提高,如苹果的统一架构,将来会更加便宜;另一方面“大”模型可以瘦身,个人设备运行基于基础大模型训练的瘦身版。

    • @user-in4ij8iq4c
      @user-in4ij8iq4c 11 місяців тому +2

      @gapo-jx9nm 谢谢您的回复。我认为这里更多的是强调大语言模型的训练需要更多选择,大家苦nv久已,需要更具性价比的竞争者,至少在某些ai细分领域。nv有着100%的定价权,抬高了模型计算的成本。随着开源社区和苹果对ai的支持,相信对于(统一)内存/显存敏感的模型计算成本可以降下来。算力和带宽来看mac ultra比不上4090,但综合成本和电力消耗来看,mac ultra大有可为。

    • @user-in4ij8iq4c
      @user-in4ij8iq4c 11 місяців тому +2

      相信林亦不是果吹,我也不是。这里是向大家介绍除nv外的另一个本地大模型的相对廉价方案。林亦自己也说道,结果超过预期的好。他也说道他自己一直是nv的用户。我也是,从gf256到现在的4090。

    • @user-in4ij8iq4c
      @user-in4ij8iq4c 11 місяців тому

      @gapo-jx9nm 哈哈是的。苹果从来和性价比无关,而在这个场景下居然成了性价比的代表,可见nv多狠

    • @SEXYR18NICE
      @SEXYR18NICE 11 місяців тому +3

      真正懂AI的話,一定會去搞懂ASIC最基礎的兩個入門,NPU跟TPU絕對優勢,懂了你就不會再認為GPU是算AI的主要工具。我認為博主還沒演示M2U的NPU,如果他真的玩了,那可不是4090或A100能達到的境界。

    • @terryjoun1687
      @terryjoun1687 11 місяців тому

      考慮到摩爾規則的期望值
      10年後
      應該現在的單條128 rdimm容量
      會普及,
      在不考慮atx被推翻的前提下整體系統各項容量上應該可以翻上32倍以下
      如果順利可能當前的滿血模型會是那時每台電腦的標配

  • @jjccyyy
    @jjccyyy 11 місяців тому +3

    太厲害,謝謝分享~~ 但要達到一般人都能使用的價格,還要一段時間,畢竟現在還是幾家龍頭控制,AI發展過速,不同國家都只會立不同的圍牆,控制使用~~

  • @simonhung407
    @simonhung407 11 місяців тому

    很有誠意的交流

  • @tonywang3228
    @tonywang3228 Місяць тому +1

    这两天搞了下LLaMA3,回头再来听林哥的讲座,终于听懂了!!

  • @GaryWee111
    @GaryWee111 11 місяців тому +8

    终于等到林亦谈这个主题了! 从M1晶片问世我就欣喜若狂地觉得世界改变了,可是只能和圈内几个朋友聊。现在林亦这个影片完整且完美地展示了M系列晶片所带来的新革命!
    好的影片必须留言按赞!

  • @jerryhuang3565
    @jerryhuang3565 10 місяців тому +7

    其實業內都是鬥而不破,業內很清楚很多方法能完虐GPU,所以NVIDIA得用很多廣告與網軍來洗,看留言就知道有些人就是來洗的,不過林哥說破,我真是覺得你很有勇氣,你會遇到一堆攻擊

  • @poterliu
    @poterliu 11 місяців тому

    老哥终于来了

  • @MobileAngel
    @MobileAngel 11 місяців тому +1

    终于有人讲M2 Ultra的AI功能了!!!!!感谢!!!

  • @user-qf4lk4hz4n
    @user-qf4lk4hz4n 11 місяців тому +34

    真的很喜歡實打實的人做的影片。比起某些up主整天不去實作搞清楚,一下說好一下說壞,真的懂就寫個程式測測不就明白了。
    網路上知道怎麼用mac做AI的大佬跟開源真的很多,但是總有那種不想搞懂的跟你說mac不能做AI,pytorch跟tensorflow在還沒真的支援前,m1 max就已經在一些指標網站上,跑出最佳能耗與性價的優勢,加上你能點到64GB,算起來省電無聲,那真的很好用,還沒算上NPU真的更猛這件事,現在只算慢慢支援GPU 的MPS與CoreML的玩具越來越多,又是另一個不同視野,Apple 從沒認真打廣告AI,但大家都很清楚,他直接做了一個合適的東西。

    • @KEvin-ps3oz
      @KEvin-ps3oz 11 місяців тому +4

      並沒有,別被這個人的影片誤導了

    • @mudalse
      @mudalse 11 місяців тому +7

      @@KEvin-ps3oz 以我經歷APPLE跟nvidia都是入門,真的AI大佬都自製晶片,ChatGPT算是特例,燒錢燒到後面才知道要自制晶片

    • @KianaLi-wf8qw
      @KianaLi-wf8qw 11 місяців тому

      请教一下,您说的“m1 max就已經在一些指標網站上,跑出最佳能耗與性價的優勢”,是有哪些指标网站呢?谢谢

    • @vson
      @vson 11 місяців тому +4

      很多人從來沒有進過mac 跑 就說他不行 你看留言UA-cam 就一大堆
      前線大佬都有教學 表達都是Intel+N卡的體驗算不算好 且性能增幅有限 還不如把希望給新架構

    • @ck-dl4to
      @ck-dl4to 8 місяців тому

      ​@@KEvin-ps3oz收了很多好處

  • @ethanzou4993
    @ethanzou4993 11 місяців тому +3

    感谢分享这么详细的测试,目前这方面的比较很少有人做,很有帮助。请问mac studio vs mac pro 对于同样是M2‌ Ultra chip 有什么区别吗?

    • @ben_fang
      @ben_fang 11 місяців тому +1

      Mac Studio和Mac Pro主要还是拓展性的区别,按照Apple官网的描述,二者使用的Chip是一致的

  • @linxiaohuang4629
    @linxiaohuang4629 11 місяців тому

    这个视角真的是blow my mind,林哥太牛了,弄得我都想自己跑一个大模型了

  • @kimbakryeon1365
    @kimbakryeon1365 11 місяців тому

    牛逼 等到了😊

  • @OneOfKevin
    @OneOfKevin 11 місяців тому +3

    真是想不到有這種進展啊

  • @lw2519
    @lw2519 11 місяців тому +3

    16:51 这句话真的太特么对了。 保持开放,兼容并包,比画一个小圈子大家互相赞同好太多了。(B 站和 Y 站都关注了

  • @Jacqueline-jw
    @Jacqueline-jw 11 місяців тому

    thanks for sharing! 内容非常硬核

  • @57dragon20
    @57dragon20 11 місяців тому

    欣赏。我是那种相当内行的外行,但佩服你的思辨和口才。谁让当年进错了行。

  • @leedavid5214
    @leedavid5214 11 місяців тому +2

    我非常羡慕你对各种AI信手拈来+超强的动手能力。
    我怎么能学成你那样?

  • @user-zx8tt8yn5j
    @user-zx8tt8yn5j 11 місяців тому +5

    算力肯定是比不上nv的,但大模型要的不是算力,是内存带宽以及容量,这个纯属剑走偏锋了。nv游戏卡的算力:内存带宽容量比值是按照游戏那套管线优化的,但大模型的需求完全不是一回事。比苹果这种统一内存再进一步的解决方案或许是3060这种低配核心配上几百GB显存,但要找平衡点也挺复杂的

  • @RecoFu
    @RecoFu 11 місяців тому

    不錯哦,挺有深度

  • @user-be6fz2kz6w
    @user-be6fz2kz6w 11 місяців тому +1

    你的视频 我有订阅😂虽然我听不懂 但是 我就爱听 真的!

  • @ImprovingTaiwan
    @ImprovingTaiwan 11 місяців тому +5

    期待『林大仙』用兩套系統訓練同一個ai下棋還是對打遊戲,看是不是在同一個ai但不同訓練之後有差異……

  • @stevexkong
    @stevexkong 11 місяців тому +3

    😮 16:56 这里林哥你在国内放的版本竟然也是没变啊!!!有点小担心啊

  • @steadyandgo
    @steadyandgo 11 місяців тому

    謝謝您的分享

  • @user-nj8gx3hj8p
    @user-nj8gx3hj8p 11 місяців тому +1

    真羡慕,啥时候一步一步教一下大家怎么搞哇

  • @chientehsu4423
    @chientehsu4423 11 місяців тому +269

    事實證明壟斷是一件多麼可怕的事,看看發布的4060就是噁心消費者。回顧過去的intel,沒競爭就是這樣

    • @ZhangZechary
      @ZhangZechary 11 місяців тому +39

      屠龙者终成恶龙

    • @user-ms8qg2rz5s
      @user-ms8qg2rz5s 11 місяців тому +23

      政治上也如是

    • @broegg9487chiu
      @broegg9487chiu 11 місяців тому +7

      還不快歐印蘇媽 昨天有科技網站說MI250跟A100跑訓練模型效率差不多
      現在要關注MI300X能不能用高性價比屌打H100ㄌ

    • @LeoCheongK
      @LeoCheongK 11 місяців тому

      @@broegg9487chiu 這消息挺重要, 借問是哪個網站看到的呢?

    • @sail
      @sail 11 місяців тому +2

      蘋果就是壟斷啊!

  • @Agameplayer069
    @Agameplayer069 11 місяців тому +9

    系統封閉性和硬件不具擴展性,就已經不會列入商用方案考量,
    沒有商用根本不可能挑戰到NV,但有人參一腳總比一家獨大好,
    只有林兄這種少數的技術佬知道能怎麼用起來,但也能存在租用商業機去跑的方案,
    姑且也不提GPU算力差距和4090是遊戲卡的問題了,相信大部分人真的會被封面誤導。

  • @hsiajui-kai1580
    @hsiajui-kai1580 11 місяців тому

    感謝林亦的無私分享

  • @howellschan
    @howellschan 11 місяців тому

    長知識了,謝謝

  • @RK-qk9ux
    @RK-qk9ux 11 місяців тому +67

    UP 主不要误导, SD Ai 作图以上面的 demo 10:51 ,4万多的macstudio 一共用 2分51秒, 而 1/2价格的 4090显卡 + 13700k 同样绘图参数只要需要 14秒 是 Macstudio 的 12倍 。也就是4090PC是128GMacStudio 1/2的价格但提供12倍的生成速度。

    • @RK-qk9ux
      @RK-qk9ux 11 місяців тому +16

      不澄清会害人买个 Mac Studio 去跑 Stable Diffusion 来搞 AI 作图。

    • @ycy15210875671
      @ycy15210875671 11 місяців тому +5

      不看价格对比我差点就信了up主的话了

    • @RK-qk9ux
      @RK-qk9ux 11 місяців тому +6

      @@ycy15210875671 本来没兴趣点进来,结果贴了张让人误导的 “封面图” 特意点进来。Mac Studio 确实强,但全方位超过4090就言过其实了。

    • @SuccubusStudio
      @SuccubusStudio 11 місяців тому +12

      運算速度和記憶體大小都有他的上限,也就是"夠用了"。所謂的"夠用了"不是一種感覺,需要具體的分析。假如一個計算項目是12秒和1秒的差別,那我會說夠用了,沒差這11秒。假如一個計算項目要20G,那32G和192G就是完全沒有差別,就是"夠用了"。
      顯然,有很多項目用不到192G,或是有配套方案(拆分)。
      但現在大多數要用GPU處理的計算項目肯定不是12秒和1秒的差別,而是12小時和1小時的差別。
      所以算力和記憶體容量,哪個才具有實際優勢,圈內人應該都看得出很明顯,到是圍觀的果粉看不出來。

    • @2656598a
      @2656598a 11 місяців тому +3

      4090可以一次畫八張圖只要14秒?

  • @jameszhou4825
    @jameszhou4825 11 місяців тому +53

    感觉影响还是在个人和小团队,目前Apple平台上还没办法训练比如LLaMA这样的大型基座模型,只能靠NVIDIA的大集群,不过Mac上跑起来和微调是足够了。

    • @emojisolo
      @emojisolo 11 місяців тому +4

      单芯片可以跑inference已经很强了

    • @mudalse
      @mudalse 11 місяців тому +7

      搞不好apple內部用很爽,但是我們公司已經不用nvidia訓練語言模型,太燒錢,最近都租用TPU

    • @jameszhou4825
      @jameszhou4825 11 місяців тому +2

      @@mudalse TPU我觉得挺好,可惜只能租,不对外出售

    • @markmok1867
      @markmok1867 11 місяців тому +5

      我就在想有沒有可能蘋果内部已經在利用這顆芯片來架構一個全新的Apple算力服務器,為自己的VisionPro提供算力月費服務,隨便把服務器架構賣給其他公司

    • @emojisolo
      @emojisolo 11 місяців тому +1

      @@markmok1867 VisionPro对延时要求太高了,估计比较难。网速估计很难做做到延迟13ms以内。

  • @JSiuDev
    @JSiuDev 11 місяців тому

    @lyi 配上英文字幕,應該會超多人看。我沒找其他人(英語)用M2 Ultra講這個。你是現在的唯一。👍

  • @xinyi4869
    @xinyi4869 11 місяців тому

    感谢分享

  • @user-vw6dw9sl3w
    @user-vw6dw9sl3w 11 місяців тому +3

    M3因該會擠一波大的提升。

  • @cjli8733
    @cjli8733 11 місяців тому +4

    出於對物理學的尊重 我建議有意買頂規mac studio來玩LLaMA的朋友 先去國外論壇看看會發生什麼事

  • @chih-chiehhung8742
    @chih-chiehhung8742 11 місяців тому

    林哥~謝謝你的分享,每次都獲益良多。能否聊聊統一內存這件事的細節,上網查總覺得沒辦法搞很懂,像是為什麼蘋果會想做統一內存這件事,ps5也做了統一內存,那其他架構跟蘋果架構統一內存體現出來的差異又在哪?以及為什麼以前要把內存分開,許願希望做相關題材~XD

  • @huazhou1066
    @huazhou1066 11 місяців тому

    我林哥的节目永远都是这么干货满满

  • @deathnote7741
    @deathnote7741 11 місяців тому +3

    我实验室老板去年给我配了个m1ultra顶配 就是为了让我做这些。。

  • @bearfish1999
    @bearfish1999 11 місяців тому +24

    終於讓我看到希望了,一直很想擁有自己私人訂製AI,可是苦於沒有便宜的硬體設備
    未來培養個AI來陪我打Game的日子越來越近了

    • @yidweahzaimen
      @yidweahzaimen 11 місяців тому

      目前4090可以跑7b-30b的模型 但建議跑6b-13b 再上去反應就不能即時了😊

    • @kkhc1068
      @kkhc1068 10 місяців тому

      ua-cam.com/video/8gd_WtBPxaw/v-deo.html 技術上可行!

    • @hanklintwtw
      @hanklintwtw 5 місяців тому

      @@yidweahzaimen現在那個好呀

  • @jamesedwards6438
    @jamesedwards6438 11 місяців тому

    花巨大的精神理解影片的內容
    值得了

  • @XT0204
    @XT0204 11 місяців тому

    非常好讲的

  • @b58703137
    @b58703137 11 місяців тому +3

    丟失的數據變成熱量噴掉了,500W噴掉的熱量肯定比200W多了 自然風扇要更賣力

  • @user-kq2oh8pk6t
    @user-kq2oh8pk6t 11 місяців тому +2

    想太多了😃

  • @StareDirectlyAtTheSun
    @StareDirectlyAtTheSun 11 місяців тому

    謝謝分享

  • @RyanBBXD
    @RyanBBXD 11 місяців тому

    這次發佈會我看中了遊戲編譯到Arm來,期望林大下次可以講一講這個,謝謝!

  • @frankli4124
    @frankli4124 11 місяців тому +2

    好像Mac跑stable diffusion还是很慢,我的3080ti基本上5秒一张,看你那个进度条,估计等它跑完我这边8张也出来了。

  • @CRRC
    @CRRC 11 місяців тому +3

    我们的有那么多那些大顶流公司也没有看到谁说出如此深的感触。林一个人玩的就如此溜溜的。

  • @user-ml6qs4zk8z
    @user-ml6qs4zk8z 11 місяців тому

    感謝分享,m1 ultra要熱銷了😂

  • @yuntengg9392
    @yuntengg9392 11 місяців тому +18

    但苹果统一架构的缺点是意味着更新换代变得更为复杂,所以更适合的是普通个人研究者,对于商用级的来讲,技术迭代需要不停的更换显卡仍然是模块化更合算

    • @user-ld6hh7ez7t
      @user-ld6hh7ez7t 7 місяців тому +1

      普通人觉得复杂,商用来说算不上复杂,硬盘也是嵌入到了主板 还不是被破修电脑的破解了,

    • @Physbook
      @Physbook 7 місяців тому

      确实苹果的支持周期是越来越短了

    • @Physbook
      @Physbook 7 місяців тому

      egpu的drivers也跟不上了

    • @jameswoolf1440
      @jameswoolf1440 5 місяців тому

      建议不懂的话别支声比较好,有钱买卡没钱买ultra属实是脑回路有点清奇了

  • @edwardliu3387
    @edwardliu3387 11 місяців тому +5

    有点好奇 LLaMA 是怎么与中文LoRA 权重计算合并的。

    • @edwardliu3387
      @edwardliu3387 11 місяців тому +1

      是不是softmax 拿到attention distribution,在weighted sum?

  • @Yamanashi_Yoshihiro
    @Yamanashi_Yoshihiro 11 місяців тому +1

    雖然我完全看不懂那些代碼 但我大受震撼

  • @Wwang3636
    @Wwang3636 11 місяців тому

    真棒!

  • @fant4we998
    @fant4we998 11 місяців тому +73

    超大規格的模型推理速度同樣重要,m2u現在顯然還沒法跟nv比,而且推理這樣的場景更多是在服務器上進行的,這樣的機器無論是做訓練還是推理服務都不太適合

    • @chrislin4540
      @chrislin4540 11 місяців тому +3

      Apple在雲服務上根本沒巿佔

    • @bardeebooboo
      @bardeebooboo 11 місяців тому +4

      ​@@chrislin4540也可以說,根本沒有相關業務😅

    • @sanwu9087
      @sanwu9087 11 місяців тому

      @@bardeebooboo nv每年投资几百亿美金可不是闹着玩的. . .不说最新的DGX . 连A100的尾巴都摸不到

    • @jerryhuang3565
      @jerryhuang3565 11 місяців тому +8

      就是知道怎麼用m2u,也不會好心的浪費時間教你。

    • @BBQChris
      @BBQChris 11 місяців тому

      开局就有两张鬼牌,你还想怎么样

  • @user-mo2mi5ip4z
    @user-mo2mi5ip4z 11 місяців тому +18

    現在主流是跑壓縮過後的模型 運行速度快得多 占顯存大小只有3分之一左右 模型品質差距只有千分之5左右 像65B模型4bit壓縮只要48g的ram可以跑 最近又多了exllama的黑科技 可以用更少的顯存(大概比原本少4分之一)速度卻快出2-3倍 現在AI大模型進步得很快 幾乎每天都有新技術的論文冒出來 而192GB的RAM可以給以後出現更大的模型跑 或是跑更長的上下文 過去開源模型能跑的上下文是2048T 代表你超過這個範圍的文字他就忘記了 但現在有技術把上下文大幅提高到16384T 但代價是需要用更多的RAM

    • @user-qf4lk4hz4n
      @user-qf4lk4hz4n 11 місяців тому +1

      目前手機也有這類技術,前陣子谷歌發的,能用在ios或高通android

    • @ck-dl4to
      @ck-dl4to 8 місяців тому

      壓縮技術的發展對應的是低成本 LLM,訓練本地模型成為學生作業

  • @liang5345
    @liang5345 11 місяців тому

    作为果粉,光看到标题就知道赞了🤣看老黄还能得瑟多久🤣

  • @yinkj
    @yinkj 11 місяців тому

    点赞收藏,必须!退休多年,深知我的计算机网络知识已经彻底过时了,未来是你们年轻人的天下了

  • @al-tes
    @al-tes 11 місяців тому +9

    補充兩點吧,training和inferencing需求的內存是不一樣的,192GB應該只夠訓練7B的llama;33b llama quantized只有20多G,不過目前應該只有cuda的實現

    • @user-zu4ym9cd2x
      @user-zu4ym9cd2x 11 місяців тому +1

      總算看到糾正的人了
      我看影片也很疑惑 inference 如果是33B 4bit精度 不就十幾GB顯存嗎怎麼會用到100多G
      但7B應該不至於 A100單GPU就可以跑得起來7B了
      如果是用lora的話 感覺192GB可以訓練到33B沒問題
      全參訓練的話或許用個deepspeed也可以試試

  • @user-jt8du7dv3u
    @user-jt8du7dv3u 11 місяців тому +96

    這樣看起來,統一架構根本超適合汽車的自動駕駛。
    因為汽車既需要AI進行自動駕駛,又能提供一定的空間和負重,以及進行一定限度的穩定供電。
    雖然單機遊戲可能不需要這個架構,但明顯每家運輸公司和汽車製造商都需要這個架構。
    怎麼算都是比遊戲產業,更大的市場。
    結論:新時代要開始了!

    • @w6854aw5
      @w6854aw5 11 місяців тому +7

      以前 TESLA是用NVIDIA晶片 後來嫌太慢改自研,不過TESLA HW 4.0 雖然是ARM,外觀看起來不是統一架構上面還一堆記憶體,而且用的應該還是舊的A72公版設計。

    • @user-jt8du7dv3u
      @user-jt8du7dv3u 11 місяців тому +3

      @@w6854aw5 特斯拉終究比不上Apple啊!

    • @Beagle5ce
      @Beagle5ce 11 місяців тому

      单机游戏可以利用统一内存实现渲染数据零拷贝.大幅提高游戏运行速度.

    • @user-jt8du7dv3u
      @user-jt8du7dv3u 11 місяців тому

      @@Beagle5ce 感覺可以,但可能會失去擴充性和維護性,如更換硬碟和外加記憶體之類的,讓遊戲廠商較難用現有的商源來壓低生產成本。

    • @Beagle5ce
      @Beagle5ce 11 місяців тому

      @@user-jt8du7dv3u 嗯,是的,HBM3 内存就不存在什么扩容升级了.
      不过你看 XBox 和 PS也没法扩容内存,但不影响游戏开发者的热忱.
      这玩意儿还得是降低了成本普及后才能有用.

  • @colinfan4783
    @colinfan4783 11 місяців тому

    真不戳啊 很新颖

  • @zhongkaifu8161
    @zhongkaifu8161 11 місяців тому +10

    其实老黄的Jetson系列也是统一内存架构,只不过目前最大的是Jetson AGX Orin 64GB,是基于安培架构的。因为有CUDA生态加成,非常好用。希望M2 Ultra能够激励一下老黄,搞出更大内存版本的Jetson产品,哈哈哈~

    • @aikenqi8353
      @aikenqi8353 11 місяців тому

      GH200已经有了

    • @zhongkaifu8161
      @zhongkaifu8161 11 місяців тому

      @@aikenqi8353 但是太贵了,Jetson系列还是比较便宜的,便宜的100多块钱,目前最贵的AGX Orin 64GB也就1999。

    • @mesiki7077
      @mesiki7077 11 місяців тому

      苹果做的是消费级产品,恰好给大模型提供了大显存。而老黄的消费级产品是游戏显卡,要搭配强劲的CPU一起用,而老黄收购ARM失败,没法提供CPU+GPU封装到一起的方案,所以老黄的消费产品线还是没法提供统一内存方案。

    • @zhongkaifu8161
      @zhongkaifu8161 11 місяців тому

      @@mesiki7077 老黄已经有统一内存方案了啊,基于Tegra SoC系列的就是。经典产品Jetson系列,还有就是任天堂的Switch游戏机也是基于Tegra的

    • @mesiki7077
      @mesiki7077 10 місяців тому

      @@zhongkaifu8161 ARM的SOC就是统一内存架构,苹果只是恰好赶上了。

  • @edwardliu3387
    @edwardliu3387 11 місяців тому +191

    求求做个英语的版本。我很久以前就想说服老板给我配个M2 Ultra。我在一家公司当NLP 方面的研究。

    • @yunbow5630
      @yunbow5630 11 місяців тому +36

      别闹了

    • @bkdlee
      @bkdlee 11 місяців тому +18

      whisper 自动字幕,并翻译成英文

    • @jimmyw85
      @jimmyw85 11 місяців тому +4

      Neuro-Linguistic Programming應該不是這個方向吧, 你好好學理論吧...

    • @jet8772
      @jet8772 11 місяців тому +7

      让你老板学中文。

    • @jeremyang7697
      @jeremyang7697 11 місяців тому +14

      @@jimmyw85NLP心理是NLP心理,NLP是NLP 😂😂😂😂

  • @Hugo_Youtube
    @Hugo_Youtube 11 місяців тому

    已like

  • @johniii9130
    @johniii9130 7 місяців тому +1

    讲得早了!等十年后看看结果如何

  • @yangchenyun
    @yangchenyun 10 місяців тому +3

    fine turning requires running training which are usually one 8x A100 in the cloud. Mac studio ultra's GPU is computation power is not even on par with 3090/4090, this is misleading.
    The advantage of apple's arch is the size of memory could be shared, but saying it beats Nvidia is exaggerating.

  • @bookerx20032002
    @bookerx20032002 11 місяців тому +9

    每個人都能低成本的訓練AI模型真的是很誇張...

    • @trumpyang6477
      @trumpyang6477 11 місяців тому +1

      六萬人民幣算低成本嗎

    • @user-hf2yc6xo1i
      @user-hf2yc6xo1i 11 місяців тому

      我個人不瞭解,我衹是一個普通的攝影,我可以說這種事情的存在是降低入門門檻

    • @user-zz4dz9bn3o
      @user-zz4dz9bn3o 11 місяців тому

      應該說降低成本啦!
      因為企業卡真的很貴一張都20-30W起跳(6000 Ada)

    • @user-qo1hq7dc2x
      @user-qo1hq7dc2x 11 місяців тому

      @@trumpyang6477 以商用來說,根本不是事

    • @xinzheng1617
      @xinzheng1617 11 місяців тому

      用这玩意儿训练大模型,我只能说依托答辩

  • @soberreflection4310
    @soberreflection4310 11 місяців тому +1

    核心在于必须有一些小众模型没有适应于mac的底层库。有一些需要修改的东西还是在之前的NVIDIA上面

  • @zheyuanxu1938
    @zheyuanxu1938 11 місяців тому

    其实Jetson系列也是统一内存架构,比如jetson orin就有32G可供显示卡可用;如果NV愿意其实也可以加到64甚至上百G

  • @frankyang1184
    @frankyang1184 11 місяців тому +50

    我觉得不行,我提出一点疑问。不谈H100可以上到80G的显存,就算是消费级的4090显存只有24G,也是能全部用于存储参数和模型的,而M2 Ultra的192G不全是显存,操作系统和应用程序本身就需要占一部分。我没训练过大模型,但是我做的基于Transformer的小模型,在服务器上的内存占用经常达到50G左右这个量级,而我用的服务器上的内存通常是256或者512G,并且可以继续加。M2 Ultra在显存和内存共用的前提下有多少容量是纯分配给模型用的这是个问题,并且他不可扩展,再怎么牛逼也是不够用的。另外它是否支持多台Mac组多机训练?能否支持多机或者跨机训练是大模型的核心之一。

    • @melwang6237
      @melwang6237 11 місяців тому +6

      肯定不适合专业人士吧,但对个人来说,这样的价钱能买到的这样显存的设备已经非常不错了。但是真正训练模型或者用stable diffusion的速度跟4090比会怎样就很难说了,这方面可能还是n卡会更强。

    • @riverscn
      @riverscn 11 місяців тому +3

      服务器需要用内存来把数据Load到显存,内存只是起个缓冲作用。跑深度学习,有多大的显存就要配多大的内存才行。苹果自然不需要这一步,因为是统一寻址的。

    • @frankyang1184
      @frankyang1184 11 місяців тому

      @@riverscn 也对,不过不支持多机192应该是不太行

    • @dudulook2532
      @dudulook2532 11 місяців тому +1

      你这个疑惑是严谨思维,
      同样好奇如果13900K+4090 会是一个什么结果

    • @simon6658
      @simon6658 11 місяців тому +3

      ​@@melwang6237M2 Ultra要5万块钱,4090只要1万多,完全不是一个价位的产品

  • @lowsfer
    @lowsfer 11 місяців тому +36

    首先没人用4090训练大模型训练,40系消费卡是大幅阉割了显存位宽的,不适合做ai,比3090还不适合,就是个游戏卡.勉强跑跑推理还能凑合,训练就别想了.其次M2 Ultra大概1TB/s的带宽,也就跟砍完了的4090差不多,想搞大模型也就娱乐一下.大模型训练根本不可能用单卡,就算你有192GB也远远不够.NV的训练卡,卡间互联都有接近1TB/s的带宽,也能互相访问.
    你真想用统一内存,Grace Hopper的显存内存也能互相用并且保证一致性.
    如果只是想内存当显存用的话,CUDA也多年前就支持了锁页内存和统一内存.
    至于巨大单卡显存的AI卡,在chatgpt火之前就规划了90+GB的卡,chatgpt火了之后你猜NV有没有准备出更大的?
    如果仅仅想靠几个硬件参数超越就能干掉nv的话,amd和一众ai芯片公司早就办到了.苹果的搞搞toC市场的那部分推理就行了,训练这种主要toB的市场不敢说未来不会出现新的有力竞争者,即使有,也不太可能是苹果.苹果自我为中心,用户得按我的想法使用.这套逻辑,做toB业务根本行不通.大客户们会教育你谁是大爷,就算是NV,H100/A100训练卡现在一卡难求,也得跪舔大客户.NV里面最大的团队就是服务大客户做技术支持的.

    • @JasonYu-bf3le
      @JasonYu-bf3le 11 місяців тому

      3090和4090的显存位宽不都是384吗

    • @frankyang1184
      @frankyang1184 11 місяців тому +1

      @@JasonYu-bf3le 4090砍了nvllink?

    • @user-rl7lx5qp5i
      @user-rl7lx5qp5i 11 місяців тому

      @@frankyang1184 消費級卡皇 RTX 6000 ada 也不支援NVLink

    • @lowsfer
      @lowsfer 11 місяців тому

      @@JasonYu-bf3le 90没有,留了点面子,但是显存带宽提升也微乎其微.40系其它的不少都阉割了比如60就是192变128了.走的AMD一样的路子,加大L2缓存,节约显存带宽.只能说对于游戏是个不错的策略.

    • @Jack-jv4up
      @Jack-jv4up 11 місяців тому

      toB肯定是老黄的天下,但是toC苹果能这样插一脚进来肯定是好事,不然老黄在定价上肯定会更加得寸进尺

  • @RuinAngel
    @RuinAngel 11 місяців тому +1

    可以單機跑大模型,值!

  • @LongLongKo
    @LongLongKo 11 місяців тому +1

    Arm 跑docker image可不是100%兼容
    時間成本上nvidia還是高很多,特別是gpu cluster的大規模應用
    Apple出cluster方案就看跟linux的兼容了

  • @travorshin
    @travorshin 11 місяців тому +21

    Mac十年老用户觉得,苹果现阶段最伟大的东西真就是M系列芯片以及它对Desktop带来的影响

    • @user-pb1ng9wz1l
      @user-pb1ng9wz1l 11 місяців тому +14

      有時候覺得是桌機生態的鍋,主機板記憶體顯卡養活多少廠商,如果全部壓縮到剩下一顆soc的大小,很多廠商都不用活了

    • @travorshin
      @travorshin 11 місяців тому

      @@user-pb1ng9wz1l 认同+1

    • @Tung-ChenTsai
      @Tung-ChenTsai 11 місяців тому +2

      我倒覺得對Laptop的影響更大得多

    • @orbleh3622
      @orbleh3622 11 місяців тому +7

      苹果最大贡献在抛弃intel,让intel大力地踩了一下牙膏管。苹果那种系统封闭让我不爽,永远不会去买它,看一眼都输,不过要是有人送个m2的机子我还是会用的,立刻装个linux。

    • @LeoCheongK
      @LeoCheongK 11 місяців тому +1

      全部集成到一個片上半導體晶片產業的最終目標, 很早就想這麼干了, 只是晶圓級封裝還做不到.
      直到台積電做出了CoWoS......就是我們現在看到的蘋果M系列了

  • @brookssong4437
    @brookssong4437 10 місяців тому +3

    所以这套方案,是给个人/小团队用的。
    大企业有足够预算,还是多块NV互联,效率更高,对吗?

  • @yaohangyang9737
    @yaohangyang9737 11 місяців тому

    佩服 牛逼👍

  • @carsdailyhk
    @carsdailyhk 11 місяців тому

    林哥,入門學習AI你會更推薦組普通GPU x86還是直接用M2 MAC?我只有一台3060的筆記本,運行過一些object detection的視覺AI。如果要更系統更深入學習AI開發,你會建議購置x86還是m2?

  • @lossoftheworld3587
    @lossoftheworld3587 11 місяців тому +5

    如果價錢再下來一點,AI真的要普及了。

  • @h53006157
    @h53006157 11 місяців тому +4

    Windows系統的用戶對現在顯卡價格心寒,蘋果和AMD加油

    • @yueid6309
      @yueid6309 11 місяців тому

      其實我覺得還行吧,我可以很認真和你說20系卡給我玩遊戲性能都過剩

    • @dxhj6380
      @dxhj6380 11 місяців тому

      ​@@yueid6309 感覺遊戲特效就是個無底洞,要是再搞個4K可受不了

    • @ai8989889
      @ai8989889 11 місяців тому

      追求高的4090都餵不飽 普通用家真的就2060都過剩

  • @jojojoy
    @jojojoy 11 місяців тому

    看完我都想买M2 Ultra 了😁 又要准备好几个肾, 灵魂拷问存钱买头显还是 M2 Ultra~

  • @user-si3ey3eh4y
    @user-si3ey3eh4y 11 місяців тому +1

    M2 Ultra太香了

  • @codingapi8073
    @codingapi8073 11 місяців тому +2

    看完以后,瞬间感觉自己买的macbook pro 32GB,显存不够用了。。。

  • @kakashi-md2st
    @kakashi-md2st 11 місяців тому +15

    全村的希望是存算一体结构。苹果统一内存感觉只是一个过渡!

    • @Beagle5ce
      @Beagle5ce 11 місяців тому +1

      存算一体,冯诺依曼架构就得要升级了.不过确实是事实,全村的希望是存算一体架构.也就是神经元芯片架构.

  • @maximizedchen6875
    @maximizedchen6875 11 місяців тому +1

    博主觉得个人计算设备会是未来还是人工智能云上训练会是未来啊?

  • @lingstein3500
    @lingstein3500 11 місяців тому

    厉害

  • @williammau21
    @williammau21 11 місяців тому +23

    大膽預測 DDR5 是最後一代獨立 RAM
    獨顯除非特殊需求, 否則從消費級市場消失
    未來 Intel、AMD 會整合 DDR6/HBM RAM 和 GPU
    把最高階的 GPU 直接整合進 CU9、R9
    Nvidia 則是把其 ARM CPU 整合 GPU 打入桌面、筆電市場
    不幸的是未來的自組台式機
    可玩性會大大降低
    主要零件就剩下 6 件
    #SoC (CPU+GPU+RAM
    廠商幫你配好等級相當的組合
    價錢決定綜合性能, 不能呂布騎狗)
    #散熱器 (塔散、水冷
    一次過冷卻 CPU、GPU 和 RAM
    未來的台式機仍能超頻
    因此散熱也很重要)
    #儲存 (SSD、HDD)
    #主機板 (決定供電和 I/O
    部分主機板提供 PCIe 插槽
    讓特殊需求人士加裝獨立
    GPU、網絡卡或 RAID 卡等
    SoC 插槽跨廠商通用
    [Intel、AMD、Nvidia、高通 etc...]
    而且如無意外永遠不再換代
    因為 SoC 本身已經是一台完整的電腦
    主機板只承擔連接供電和擴充的角色)
    #電源 (供電)
    #機殼 (決定散熱、I/O 和外觀)

    • @joseph924
      @joseph924 11 місяців тому

      這方案感覺可行但考慮到3D渲染時GPU 的核心需求要遠大於顯存那個發熱可不是鬧著玩的

    • @joseph924
      @joseph924 11 місяців тому

      以PC平台的可自訂性感覺出個ai專用運行卡,就像當年出顯卡一樣

    • @joseph924
      @joseph924 11 місяців тому +1

      考量其特殊性可能的型態可能會是低階核心搭大顯存,比如50/60級別的核心搭200GB顯存,這種搭配看似魔幻但如果考慮要人均本地ai的話是似乎是比較合理的搭配

    • @shaoseki4552
      @shaoseki4552 11 місяців тому +2

      估计台式机上的DDRAM不会消失,但是很可能的是,下一代运存不再跑现在的DRAM插槽,而是整合成能兼供CPU与GPU直接访存的IO总线硬件,比如PCIe6或者特化的PCIe5-ram,毕竟把台式机的DRAM和主板或者CPU绑定,那么OEM就失去意义了,都买Apple这样的预配置Mac就好了,但事实是市场的需求不会这么单一。PCIe的巨大并行总线带宽以及拓展卡的体积,反倒是能很好地提供解决方案。除此之外,处理器的超频潜力应该是更加朝向“出场即灰烬”的方向发展的,所以散热依然会是桌面PC的重要部件,但是估计超频就只是富哥发烧友的游戏了。

    • @joseph924
      @joseph924 11 місяців тому

      @@shaoseki4552 這方案感覺也不錯,雖然變動大了點但可發展性感覺更好

  • @binaryutopia7946
    @binaryutopia7946 11 місяців тому +3

    专业人士估计也就看个乐😂
    ram和算力直接划等号还是有点鲁莽;
    训练时候除非gpu算力已经被拉满,否则不一样的batch size不能比啊;
    llama inference跑起来了和finetune是两码事