ASIC 要崛起？别被媒体忽悠，GPU 人工智能领域还能打多久?

数字黑魔法

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 1 лют 2025
Наука та технологія

КОМЕНТАРІ • 52

@sasasasasasasami День тому ⁺¹²
希望以后可以多出一些这类影片，帮助太大了，莫名其妙的传言满天飞，根本不能安心投资😂，甚至开始怀疑自己的观点
@SafemayorStudio День тому ⁺³
传言是为了做空和拉某些概念股的，对行业有所了解和定期更新知识后有自己看法就坚持下去。
@andrewkong8080 6 годин тому ⁺¹
這個影片講的產業趨勢都沒錯，但DeepSeeK等開源模型的推出，讓終端使用者可以自行下載、以較低的算力在地端自行訓練AI模型，讓美國AI巨頭的獲利模式受到嚴厲挑戰，AI應用的平民化、普及化意謂著「神話」、「本夢比」的破滅，股價估值面臨下修壓力。
@wbyoung4280 23 години тому ⁺⁹
我在我的台式電腦上用CPU跑32b版本，32G DDR4，速度有點慢，但對個人用途絕對是可忍受的。
問題的關鍵是皮衣黃的刀法，GPU算力確實更好，但顯存給你綁死，48G的顯卡天價，最多也只能跑到70b，沒有性價比。
@Barking4849 9 годин тому ⁺¹
固定算法會被ASIC取代成本差十倍彈性大的如LLM學習才是GPU主場但是LLM服務 FPGA+NPU 會比GPU差2-3效率
@DevinTey День тому ⁺²
I like the analog of personal computer vs mainframe. We know the mainframe was superior in so many ways, yet the "good enough" wide-spread PC computing defines our Era. Those companies that blindly bet on pre-ordering Nvidia next-gen hardware, without any specific use cases, will need to justify to shareholders, what the point of stockpiling Mainframe in the 1980's. AMD/Hwawei GPU can run deepseek, investment into non-Nvidia hardware can be more balanced after this.
@faronchen 49 хвилин тому
You are kind of elder
@verypleasantguy 7 годин тому ⁺¹
对于 tpx 不能用于不同的芯片框架，我不认同
我是 assembly language 的使用者，在 x86/x64 我用 assembly language，在ARM 可以的话我还是用 assembly language
当然，x86/x64 的 ASM 和 ARM 的 ASM 在编制上有差别，但 ASM 不管是在x86/x64 或是在 ARM 就是 ASM，就是跟 machine code 直接贯通的工具
tpx 就是专门在平行架构（parallel architecture）推动运行的 ASM，不管那个平行架构是 nvidia 的，或是华为的，GPU，或是ASIC，只要 reference chart 是对的，就可以用
@HelloLU Годину тому
ptx
@TJ-qv8rx 28 хвилин тому
PTX是low level NVIDIA proprietary framework
@Roy-rs5tl 21 годину тому ⁺⁸
现在的问题不是lpu or tpu。问题是nvda的垄断是不可持续的，垄断造成的高成本必定会被打下来。ds的出现就是一个信号
@hunterhuang-c6c 18 годин тому ⁺¹
是的，从垄断变成龙头
@Roy-rs5tl 18 годин тому ⁺¹
@ 对的。行业需要充分竞争，也自驱向这样
@TJ-qv8rx 2 години тому
AI Chip以後高機率是惡性削價競爭市場，NVDA毛利率降10%、20%都能活下來，但競品會全部被橫掃出場
@faronchen 51 хвилина тому
說的明白
@許明陽 20 годин тому ⁺³
重點是"預期報酬"(資本真正關注的)，如果"低成本AI"確定為真，可以實現，那目前美國所走"核電+AI晶片"基本上將無法回收成本，就連N公司""技術路線""可能也不對，那""基礎設施投資""必然要檢討。所以"預期報酬"才是重中之重，當""預期報酬""改變，股市一定改變，投資方向也必然改變，原始投資甚至可能崩盤。。。。。
@Thor2024yn 14 годин тому ⁺²
有种说法是利用deepseek来做PTX编程，而不是人工编程。
@TJ-qv8rx 2 години тому
現在人人都用AI寫程式，但我從沒見過有人用AI把程式全部打掉，重寫成Assembly的
@Thor2024yn 2 години тому
@TJ-qv8rx deepseek可以繞過Cuda，直接使用PTX運行在芯片上，進而提高效率。
@PIWEI Годину тому
@@Thor2024yn 那不是那种锁浮点性能的矿卡又会香爆了啊?像cmp70hx,90hx,100hx,170hx这些nv专业矿卡,我之前验证过,浮点性能低下是驱动在捣鬼,驱动只要识别到矿卡就卡FMA指令运行速度而FMA指令的运行就是依赖CUDA来完成的!
@TJ-qv8rx Годину тому
@@Thor2024yn PTX不能直接運行在GPU上，driver會把PTX compile成SASS才能在GPU上執行。可以這樣理解：CUDA是high level NVIDIA proprietary framework，可以寫訂製版的C語言並透過NVCC編譯成PTX。PTX是low level NVIDIA proprietary framework，概念類似Java Bytecode，所以在不同代硬體之間有backward compability。SASS才是optimized for a specific generation of GPU。NVIDIA不提供SASS assembler，也沒有official docs，所以近乎不可能在SASS層級開發，不過有經驗的工程師多半會讀，因為偶爾會需要在SASS層debug performance issue。
@coolspeed793 День тому
谢谢很有料的视频。
在vram bound的应用的推论服务中，比如LLM，确实存在高端芯片能跑，低端芯片不能跑的现象。可以做分布式，但是分布式成本更高。
当然我也不同意任何编译器技术突破会降低CPU需求。但是短期来看，感觉稍微会的。
@erchongyee День тому
主要能跑不能跑，局限在记忆体的容量。不是计算能力的差别。
@coolspeed793 День тому
@ 低端卡不给大VRAM。
@joeming198x 8 годин тому ⁺¹
楼主对英伟达的未来怎么看？有没有可能被groq这样的公司干掉
@ccbill2852 15 годин тому
great sharing thanks
@yi-erliao468 19 годин тому
目前大模型多是transformer, 如果未來別的架構更好，訂製化的ASIC 還能用嗎？
@小兵-j1r 17 годин тому
你只要把算式改過就不行了。有興趣查一下self /multihead/ attention 之類的。
@yi-erliao468 15 годин тому
所以不管羊駝各種變體、deepseek, 或其他開源模型，用transformer架構就都能用為它設計的ASIC?
@awwaey_tw9414 11 годин тому ⁺¹
@@yi-erliao468可以這麼說吧，你回答自己問題了啊，。Based on transformer and transformer-specific ASIC
@sasasasasasasami День тому
和媒体反着买，多半没错😂
@AquilaIIIII 17 годин тому
那你到现在还赔9%
@fanyang7 8 годин тому
我觉得说的是打破垄断吧，没说cuda不需要了。就像c++，java,c#没有哪一种语言取得垄断
@yuechenwu2383 День тому
想问一下。如果模型结构不变，只是再训练，权重改变。这时候原本使用的asic芯片会需要重新制作吗？还是可以重复使用？
@SafemayorStudio День тому ⁺²
看模型精度的需求，asic流片后只能用确定下来和以下的精度，比如流片是fp128，那大于fp128就得重新流片而小于的就不用。
@showyes-vj1tb 18 годин тому ⁺¹
ASIC的灵活性太差了，还是先搞大内存的FPGA吧。自动驾驶就主要用FPGA做推理。
@wayneleo9281 4 години тому
fpga做ai的时代都已经过去很久了
@showyes-vj1tb 3 години тому
@@wayneleo9281 1TB内寻址范围的FPGA还没有吧，大模型出来之后就有这种需求了。
@HomunMage 5 годин тому
好的繼續買NVDA
@金晗财经晗评 21 годину тому
你是程序员吗? 特殊用途,用汇编一样可以编写适合不同硬件的ai专用
组件
@afonsode419 День тому
謝謝及時解說但是可不可以再深入點
@jz_69 День тому ⁺¹
grop架构小内存大算力以当前模型大小部署成本太高了，目前推理最合适还是nv的gpu
@sb1314-g9n 23 години тому ⁺¹
所以结果是两种都用对吧
@zhimingqin1418 23 години тому ⁺¹
我认同你的说法。钳子有钳子的用途，锤子有锤子的用途。
@nft8888 21 годину тому ⁺²
从行业来看两者都会存在
@sb1314-g9n 21 годину тому
@@nft8888 除非有一个针对性整合技术才是颠覆科技创新，如果成本还很低
@bxmccg 15 годин тому ⁺²
ptx不是汇编啦，ptx也需要cuda进行编译。另外cuda不是上层库，cuda包括了软件和硬件。
@michelwan9073 14 годин тому
你确定？
@bxmccg 5 годин тому
@ 专业从业者，放心
@sb1314-g9n 23 години тому
可以请问tpu吗有什么不一样
@nft8888 21 годину тому ⁺²
tpu是谷歌针对训练进行优化的芯片，初期最核心的优化是数据类型的支持，比如int8。早期Google是低精度训练的神。现在以jax的联动为主。优势在于，硬件速度快做得早+软件硬件生态支持。劣势还是在于成本。
经常我们可以看到基于jax的优化能提高训练和推理的速度。
@catherinediao5089 7 годин тому
口误，PXT 汇编语言。早期英伟达的硬件连接语言。效率远远低于CUDA。

Наступне

Автоматичне відтворення

一小時略懂量子電腦｜量子位元、量子計算、超導電路、離子阱、拓撲量子位元、量子糾錯