I like the analog of personal computer vs mainframe. We know the mainframe was superior in so many ways, yet the "good enough" wide-spread PC computing defines our Era. Those companies that blindly bet on pre-ordering Nvidia next-gen hardware, without any specific use cases, will need to justify to shareholders, what the point of stockpiling Mainframe in the 1980's. AMD/Hwawei GPU can run deepseek, investment into non-Nvidia hardware can be more balanced after this.
希望以后可以多出一些这类影片,帮助太大了,莫名其妙的传言满天飞,根本不能安心投资😂,甚至开始怀疑自己的观点
传言是为了做空和拉某些概念股的,对行业有所了解和定期更新知识后有自己看法就坚持下去。
這個影片講的產業趨勢都沒錯,但DeepSeeK等開源模型的推出,讓終端使用者可以自行下載、以較低的算力在地端自行訓練AI模型,讓美國AI巨頭的獲利模式受到嚴厲挑戰,AI應用的平民化、普及化意謂著「神話」、「本夢比」的破滅,股價估值面臨下修壓力。
我在我的台式電腦上用CPU跑32b版本,32G DDR4,速度有點慢,但對個人用途絕對是可忍受的。
問題的關鍵是皮衣黃的刀法,GPU算力確實更好,但顯存給你綁死,48G的顯卡天價,最多也只能跑到70b,沒有性價比。
固定算法會被ASIC取代 成本差十倍 彈性大的如LLM學習 才是GPU主場 但是LLM服務 FPGA+NPU 會比GPU差2-3效率
I like the analog of personal computer vs mainframe. We know the mainframe was superior in so many ways, yet the "good enough" wide-spread PC computing defines our Era. Those companies that blindly bet on pre-ordering Nvidia next-gen hardware, without any specific use cases, will need to justify to shareholders, what the point of stockpiling Mainframe in the 1980's. AMD/Hwawei GPU can run deepseek, investment into non-Nvidia hardware can be more balanced after this.
You are kind of elder
对于 tpx 不能用于不同的芯片框架,我不认同
我是 assembly language 的使用者,在 x86/x64 我用 assembly language,在ARM 可以的话我还是用 assembly language
当然,x86/x64 的 ASM 和 ARM 的 ASM 在编制上有差别,但 ASM 不管是在x86/x64 或是在 ARM 就是 ASM,就是跟 machine code 直接贯通的工具
tpx 就是专门在平行架构 (parallel architecture)推动运行的 ASM,不管那个平行架构是 nvidia 的,或是华为的,GPU,或是ASIC,只要 reference chart 是对的,就可以用
ptx
PTX是low level NVIDIA proprietary framework
现在的问题不是lpu or tpu。问题是nvda的垄断是不可持续的,垄断造成的高成本必定会被打下来。ds的出现就是一个信号
是的,从垄断变成龙头
@ 对的。行业需要充分竞争,也自驱向这样
AI Chip以後高機率是惡性削價競爭市場,NVDA毛利率降10%、20%都能活下來,但競品會全部被橫掃出場
說的明白
重點是"預期報酬"(資本真正關注的),如果"低成本AI"確定為真,可以實現,那目前美國所走"核電+AI晶片"基本上將無法回收成本,就連N公司""技術路線""可能也不對,那""基礎設施投資""必然要檢討。所以"預期報酬"才是重中之重,當""預期報酬""改變,股市一定改變,投資方向也必然改變,原始投資甚至可能崩盤。。。。。
有种说法是利用deepseek来做PTX编程,而不是人工编程。
現在人人都用AI寫程式,但我從沒見過有人用AI把程式全部打掉,重寫成Assembly的
@TJ-qv8rx deepseek可以繞過Cuda,直接使用PTX運行在芯片上,進而提高效率。
@@Thor2024yn 那不是那种锁浮点性能的矿卡又会香爆了啊?像cmp70hx,90hx,100hx,170hx这些nv专业矿卡,我之前验证过,浮点性能低下是驱动在捣鬼,驱动只要识别到矿卡就卡FMA指令运行速度而FMA指令的运行就是依赖CUDA来完成的!
@@Thor2024yn PTX不能直接運行在GPU上,driver會把PTX compile成SASS才能在GPU上執行。可以這樣理解:CUDA是high level NVIDIA proprietary framework,可以寫訂製版的C語言並透過NVCC編譯成PTX。PTX是low level NVIDIA proprietary framework,概念類似Java Bytecode,所以在不同代硬體之間有backward compability。SASS才是optimized for a specific generation of GPU。NVIDIA不提供SASS assembler,也沒有official docs,所以近乎不可能在SASS層級開發,不過有經驗的工程師多半會讀,因為偶爾會需要在SASS層debug performance issue。
谢谢很有料的视频。
在vram bound的应用的推论服务中,比如LLM,确实存在高端芯片能跑,低端芯片不能跑的现象。可以做分布式,但是分布式成本更高。
当然我也不同意任何编译器技术突破会降低CPU需求。但是短期来看,感觉稍微会的。
主要能跑不能跑,局限在记忆体的容量。不是计算能力的差别。
@ 低端卡不给大VRAM。
楼主对英伟达的未来怎么看?有没有可能被groq这样的公司干掉
great sharing thanks
目前大模型多是transformer, 如果未來別的架構更好,訂製化的ASIC 還能用嗎?
你只要把算式改過就不行了。有興趣查一下self /multihead/ attention 之類的。
所以不管羊駝各種變體、deepseek, 或其他開源模型,用transformer架構就都能用為它設計的ASIC?
@@yi-erliao468可以這麼說吧,你回答自己問題了啊,。Based on transformer and transformer-specific ASIC
和媒体反着买,多半没错😂
那你到现在还赔9%
我觉得说的是打破垄断吧,没说cuda不需要了。就像c++,java,c#没有哪一种语言取得垄断
想问一下。如果模型结构不变,只是再训练,权重改变。这时候原本使用的asic芯片会需要重新制作吗?还是可以重复使用?
看模型精度的需求,asic流片后只能用确定下来和以下的精度,比如流片是fp128,那大于fp128就得重新流片而小于的就不用。
ASIC的灵活性太差了,还是先搞大内存的FPGA吧。自动驾驶就主要用FPGA做推理。
fpga做ai的时代都已经过去很久了
@@wayneleo9281 1TB内寻址范围的FPGA还没有吧,大模型出来之后就有这种需求了。
好的 繼續買NVDA
你是程序员吗? 特殊用途,用汇编一样可以编写适合不同硬件的ai专用
组件
謝謝 及時解說 但是可不可以再深入點
grop架构小内存大算力以当前模型大小部署成本太高了,目前推理最合适还是nv的gpu
所以结果是两种都用对吧
我认同你的说法。钳子有钳子的用途,锤子有锤子的用途。
从行业来看 两者都会存在
@@nft8888 除非有一个针对性整合技术才是颠覆科技创新,如果成本还很低
ptx不是汇编啦,ptx也需要cuda进行编译。 另外cuda不是上层库,cuda包括了软件和硬件。
你确定?
@ 专业从业者,放心
可以请问tpu吗有什么不一样
tpu是谷歌针对训练进行优化的芯片,初期最核心的优化是数据类型的支持,比如int8。 早期Google是低精度训练的神。现在以jax的联动为主。 优势在于,硬件速度快做得早+软件硬件生态支持。 劣势还是在于成本。
经常我们可以看到基于jax的优化能提高训练和推理的速度。
口误,PXT 汇编语言。早期英伟达的硬件连接语言。效率远远低于CUDA。