ASIC 要崛起?别被媒体忽悠,GPU 人工智能领域还能打多久?

Поділитися
Вставка

КОМЕНТАРІ • 52

  • @sasasasasasasami
    @sasasasasasasami День тому +12

    希望以后可以多出一些这类影片,帮助太大了,莫名其妙的传言满天飞,根本不能安心投资😂,甚至开始怀疑自己的观点

    • @SafemayorStudio
      @SafemayorStudio День тому +3

      传言是为了做空和拉某些概念股的,对行业有所了解和定期更新知识后有自己看法就坚持下去。

    • @andrewkong8080
      @andrewkong8080 6 годин тому +1

      這個影片講的產業趨勢都沒錯,但DeepSeeK等開源模型的推出,讓終端使用者可以自行下載、以較低的算力在地端自行訓練AI模型,讓美國AI巨頭的獲利模式受到嚴厲挑戰,AI應用的平民化、普及化意謂著「神話」、「本夢比」的破滅,股價估值面臨下修壓力。

  • @wbyoung4280
    @wbyoung4280 23 години тому +9

    我在我的台式電腦上用CPU跑32b版本,32G DDR4,速度有點慢,但對個人用途絕對是可忍受的。
    問題的關鍵是皮衣黃的刀法,GPU算力確實更好,但顯存給你綁死,48G的顯卡天價,最多也只能跑到70b,沒有性價比。

  • @Barking4849
    @Barking4849 9 годин тому +1

    固定算法會被ASIC取代 成本差十倍 彈性大的如LLM學習 才是GPU主場 但是LLM服務 FPGA+NPU 會比GPU差2-3效率

  • @DevinTey
    @DevinTey День тому +2

    I like the analog of personal computer vs mainframe. We know the mainframe was superior in so many ways, yet the "good enough" wide-spread PC computing defines our Era. Those companies that blindly bet on pre-ordering Nvidia next-gen hardware, without any specific use cases, will need to justify to shareholders, what the point of stockpiling Mainframe in the 1980's. AMD/Hwawei GPU can run deepseek, investment into non-Nvidia hardware can be more balanced after this.

    • @faronchen
      @faronchen 49 хвилин тому

      You are kind of elder

  • @verypleasantguy
    @verypleasantguy 7 годин тому +1

    对于 tpx 不能用于不同的芯片框架,我不认同
    我是 assembly language 的使用者,在 x86/x64 我用 assembly language,在ARM 可以的话我还是用 assembly language
    当然,x86/x64 的 ASM 和 ARM 的 ASM 在编制上有差别,但 ASM 不管是在x86/x64 或是在 ARM 就是 ASM,就是跟 machine code 直接贯通的工具
    tpx 就是专门在平行架构 (parallel architecture)推动运行的 ASM,不管那个平行架构是 nvidia 的,或是华为的,GPU,或是ASIC,只要 reference chart 是对的,就可以用

    • @HelloLU
      @HelloLU Годину тому

      ptx

    • @TJ-qv8rx
      @TJ-qv8rx 28 хвилин тому

      PTX是low level NVIDIA proprietary framework

  • @Roy-rs5tl
    @Roy-rs5tl 21 годину тому +8

    现在的问题不是lpu or tpu。问题是nvda的垄断是不可持续的,垄断造成的高成本必定会被打下来。ds的出现就是一个信号

    • @hunterhuang-c6c
      @hunterhuang-c6c 18 годин тому +1

      是的,从垄断变成龙头

    • @Roy-rs5tl
      @Roy-rs5tl 18 годин тому +1

      @ 对的。行业需要充分竞争,也自驱向这样

    • @TJ-qv8rx
      @TJ-qv8rx 2 години тому

      AI Chip以後高機率是惡性削價競爭市場,NVDA毛利率降10%、20%都能活下來,但競品會全部被橫掃出場

  • @faronchen
    @faronchen 51 хвилина тому

    說的明白

  • @許明陽
    @許明陽 20 годин тому +3

    重點是"預期報酬"(資本真正關注的),如果"低成本AI"確定為真,可以實現,那目前美國所走"核電+AI晶片"基本上將無法回收成本,就連N公司""技術路線""可能也不對,那""基礎設施投資""必然要檢討。所以"預期報酬"才是重中之重,當""預期報酬""改變,股市一定改變,投資方向也必然改變,原始投資甚至可能崩盤。。。。。

  • @Thor2024yn
    @Thor2024yn 14 годин тому +2

    有种说法是利用deepseek来做PTX编程,而不是人工编程。

    • @TJ-qv8rx
      @TJ-qv8rx 2 години тому

      現在人人都用AI寫程式,但我從沒見過有人用AI把程式全部打掉,重寫成Assembly的

    • @Thor2024yn
      @Thor2024yn 2 години тому

      @TJ-qv8rx deepseek可以繞過Cuda,直接使用PTX運行在芯片上,進而提高效率。

    • @PIWEI
      @PIWEI Годину тому

      @@Thor2024yn 那不是那种锁浮点性能的矿卡又会香爆了啊?像cmp70hx,90hx,100hx,170hx这些nv专业矿卡,我之前验证过,浮点性能低下是驱动在捣鬼,驱动只要识别到矿卡就卡FMA指令运行速度而FMA指令的运行就是依赖CUDA来完成的!

    • @TJ-qv8rx
      @TJ-qv8rx Годину тому

      @@Thor2024yn PTX不能直接運行在GPU上,driver會把PTX compile成SASS才能在GPU上執行。可以這樣理解:CUDA是high level NVIDIA proprietary framework,可以寫訂製版的C語言並透過NVCC編譯成PTX。PTX是low level NVIDIA proprietary framework,概念類似Java Bytecode,所以在不同代硬體之間有backward compability。SASS才是optimized for a specific generation of GPU。NVIDIA不提供SASS assembler,也沒有official docs,所以近乎不可能在SASS層級開發,不過有經驗的工程師多半會讀,因為偶爾會需要在SASS層debug performance issue。

  • @coolspeed793
    @coolspeed793 День тому

    谢谢很有料的视频。
    在vram bound的应用的推论服务中,比如LLM,确实存在高端芯片能跑,低端芯片不能跑的现象。可以做分布式,但是分布式成本更高。
    当然我也不同意任何编译器技术突破会降低CPU需求。但是短期来看,感觉稍微会的。

    • @erchongyee
      @erchongyee День тому

      主要能跑不能跑,局限在记忆体的容量。不是计算能力的差别。

    • @coolspeed793
      @coolspeed793 День тому

      @ 低端卡不给大VRAM。

  • @joeming198x
    @joeming198x 8 годин тому +1

    楼主对英伟达的未来怎么看?有没有可能被groq这样的公司干掉

  • @ccbill2852
    @ccbill2852 15 годин тому

    great sharing thanks

  • @yi-erliao468
    @yi-erliao468 19 годин тому

    目前大模型多是transformer, 如果未來別的架構更好,訂製化的ASIC 還能用嗎?

    • @小兵-j1r
      @小兵-j1r 17 годин тому

      你只要把算式改過就不行了。有興趣查一下self /multihead/ attention 之類的。

    • @yi-erliao468
      @yi-erliao468 15 годин тому

      所以不管羊駝各種變體、deepseek, 或其他開源模型,用transformer架構就都能用為它設計的ASIC?

    • @awwaey_tw9414
      @awwaey_tw9414 11 годин тому +1

      @@yi-erliao468可以這麼說吧,你回答自己問題了啊,。Based on transformer and transformer-specific ASIC

  • @sasasasasasasami
    @sasasasasasasami День тому

    和媒体反着买,多半没错😂

    • @AquilaIIIII
      @AquilaIIIII 17 годин тому

      那你到现在还赔9%

  • @fanyang7
    @fanyang7 8 годин тому

    我觉得说的是打破垄断吧,没说cuda不需要了。就像c++,java,c#没有哪一种语言取得垄断

  • @yuechenwu2383
    @yuechenwu2383 День тому

    想问一下。如果模型结构不变,只是再训练,权重改变。这时候原本使用的asic芯片会需要重新制作吗?还是可以重复使用?

    • @SafemayorStudio
      @SafemayorStudio День тому +2

      看模型精度的需求,asic流片后只能用确定下来和以下的精度,比如流片是fp128,那大于fp128就得重新流片而小于的就不用。

  • @showyes-vj1tb
    @showyes-vj1tb 18 годин тому +1

    ASIC的灵活性太差了,还是先搞大内存的FPGA吧。自动驾驶就主要用FPGA做推理。

    • @wayneleo9281
      @wayneleo9281 4 години тому

      fpga做ai的时代都已经过去很久了

    • @showyes-vj1tb
      @showyes-vj1tb 3 години тому

      @@wayneleo9281 1TB内寻址范围的FPGA还没有吧,大模型出来之后就有这种需求了。

  • @HomunMage
    @HomunMage 5 годин тому

    好的 繼續買NVDA

  • @金晗财经晗评
    @金晗财经晗评 21 годину тому

    你是程序员吗? 特殊用途,用汇编一样可以编写适合不同硬件的ai专用
    组件

  • @afonsode419
    @afonsode419 День тому

    謝謝 及時解說 但是可不可以再深入點

  • @jz_69
    @jz_69 День тому +1

    grop架构小内存大算力以当前模型大小部署成本太高了,目前推理最合适还是nv的gpu

  • @sb1314-g9n
    @sb1314-g9n 23 години тому +1

    所以结果是两种都用对吧

    • @zhimingqin1418
      @zhimingqin1418 23 години тому +1

      我认同你的说法。钳子有钳子的用途,锤子有锤子的用途。

    • @nft8888
      @nft8888  21 годину тому +2

      从行业来看 两者都会存在

    • @sb1314-g9n
      @sb1314-g9n 21 годину тому

      @@nft8888 除非有一个针对性整合技术才是颠覆科技创新,如果成本还很低

  • @bxmccg
    @bxmccg 15 годин тому +2

    ptx不是汇编啦,ptx也需要cuda进行编译。 另外cuda不是上层库,cuda包括了软件和硬件。

    • @michelwan9073
      @michelwan9073 14 годин тому

      你确定?

    • @bxmccg
      @bxmccg 5 годин тому

      @ 专业从业者,放心

  • @sb1314-g9n
    @sb1314-g9n 23 години тому

    可以请问tpu吗有什么不一样

    • @nft8888
      @nft8888  21 годину тому +2

      tpu是谷歌针对训练进行优化的芯片,初期最核心的优化是数据类型的支持,比如int8。 早期Google是低精度训练的神。现在以jax的联动为主。 优势在于,硬件速度快做得早+软件硬件生态支持。 劣势还是在于成本。
      经常我们可以看到基于jax的优化能提高训练和推理的速度。

  • @catherinediao5089
    @catherinediao5089 7 годин тому

    口误,PXT 汇编语言。早期英伟达的硬件连接语言。效率远远低于CUDA。