【访谈】Lex Fridman最新五小时访谈精华版 | DeepSeek | 后训练 | 开放权重 | 技术改进 | YOLO Run | AGI | 注意力 | 英伟达 | 数据中心 | Agent
Вставка
- Опубліковано 9 лют 2025
- 昨天,Lex Fridman与SemiAnalysis的创始人迪伦·帕特尔Dylan Patel和Allen AI的内森·兰伯特Nathan Lambert,进行了一场深度对话,时间长达疯狂的5个小时。对话涵盖了DeepSeek、OpenAI、⾕歌、XAI、Meta、Anthropic,以及 NVIDIA、台积电,乃至中美台关系等一系列的AI 前沿话题,信息量巨大,今天大飞就来为大家解读一下这次对话的重点。
• DeepSeek, China, OpenA...
⭐️---------最佳拍档的推荐---------
【Galaxy】AI多语言学习App :shorturl.at/QQhsg ,大飞专属优惠注册码「DAFEI666」,赠送3天解锁所有课程,订阅服务限时半价,买一送一,不要错过~~
【易帆云】自用梯子/机场:shorturl.at/Oq3E7
⭐️---------最佳拍档的频道---------
成为会员,提前观看视频: / @bestpartners
Deepseek 的发布时间口误了,应该是2024 年和 2025 年,抱歉
大飛你好卷呀,一天一更!!,內容中立且有質量,感謝影片
5个小时听的我疯了。
不过中间有句我听笑了:大部分美国AI开发人员没有美国护照😂
中國Deepseek 橫空出世,NV 及美國大模型生成式AI 相關企業市值或估值跌慘了。
生成式AI , 只估AI 頂多30% ,其他都是早已成熟發展的專業AI, 這70 % 成熟的專業AI 已不需要巨大算力的投入,也不需要高頻度的優化。
另外即便是生成式大模型AI , Deepseek 這次也充份展示優化算法,這必須具備強大數理統計的能力,這是目前美國由算力方主導的生成式AI 最缺乏的一塊(有了算力當靠山,懶得去優化算法)。另外利用蒸餾方式( 將其他大模型視為模擬器,恊助其產生更精準的模擬資料供其學習, 真聰明的手段把其他大模型當成其多層次學習的一層。 在單一大模型,用多層次注意力機制-transformer 的手法,去收斂數拈模型到85% 程度, 而deepseek 把這些單一大模型已收斂85%好的, 當做它自身transformer加入了其他date 或加多token 維度的形成它第一層注意力機制,最終又進一步收斂成95% , 所以理論上肯定會比被借力的大模型做得更好,同樣理論上,所有大模型彼此相互蒸餾後,最終全世界只剩下一𠆤彼此都極端相似的生成式大模型, 這是必然結果 )。使用 multi token 肯定比single token 收歛的更快更精準,更少資料训練需求 。以及徵用大量已成熟的專業模型,為未來AGI 徵用機制預做準備。這麽諸多優化手段,一様可以省下頭部生成式大模型公司盲目的算力投入。
更重要的是, 這些生成式大模型AI 頭部公司,在算力投入到一定程度後,就不可能像起步階段那樣強力建構算力。 因此NV 根本沒有可持續增長的支撐。
以算力方主導的生成式AI , 尤其是辛頓搞的這套,方向及方法都嚴重誤導,已撞大牆了。 辛顿根本不懂統計學, 數字計算是指存在大量的資料所採用的手法,模擬(simulation ) 計算,在一些試驗很難取得大量資料, 如核暴,飛機失事等等只有小樣本,數據很少, 或實際數拈資料取得成本很,只得用少量數拈加上專業理論參數進行電腦產生模擬數拈進而對模型進行穩固推導, 這是不同情境下採取的不同分析手段。因此辛頓這些算力主導的生成式AI ,不懂數理統計,完全沒有未來,何來的擔憂。 最應擔憂是產業專家組主導的AI , 他們最清楚取那些資料變量才是有效的,其所開發的模型才是最精準的,他們也最清楚如何正確使用,以及如何違法使用!
Part 4)
眼下(2025/1/15)生成式大模型的倡導人,Open AI 前首席技術官 Ilya , 終於承認了眼下生成式大模型撞牆了!
看這報導,
ua-cam.com/video/CNSMgeS6DnM/v-deo.htmlsi=Yq7sX5N_MotIMdLr
這真是太搞笑了,美國這些AI 算力提供方, 不斷吹虛忽悠生成式AI 及相應的硬體及晶片, 除了忽悠拿到美國本土投資資金, 也把美國政府給忽悠了,真把眼前生成式大模型及相關硬體當做戰略優勢武器而予以管制出口(2025-1月), 最終反而限制了美國這些大忽悠的全球銷售的騙局。
許多專業領域的AI 很早就開始做了,而且做的很好很成功。 目前台面上的AI , 是指生成式AI( 時間序列高度相關的), 這是兩碼事。
AI 別隨著美國起舞,無論方法上及方向上,目前台面上這些以資工leading 生成式AI 的美國AI 發展已完全走偏撞大牆了。
目前以資工leading 生成式AI , 這群碼農也太批蛋了。
1) 利用40年前已完善的數理統計( 㢠歸分析及時間序列高度相關變數的自迥歸分析。 ) 2) 包裝𠆤高大上的類人類神經網路的偷盜慨念。3) 藉由半導體科技的算力。
完全沒有任何創新的欺世盜名妥妥的碼農( 程序員)居然能拿諾貝尔物理奬。
物理學家/ 數學家您們睡著了嗎?!居然能容忍這等離譜偷盜者的獲奬。
另外我以前一些同學,現仍在美國Google 參與相關大模型工作,拈他們告知我的小道未經證實的消息。
1) Google 在這方面付了大筆的學費。
2) Google 養了全世界各產業領域的頂流專家, 特別是語言學家,參與相關建模。
3) OPen AI 及近期獲諾奬的加拿大教授, 這師徒們,從Google 弄走了不少錢。 最後Google 看穿了,不得不將Open AI 這些人從Google 割出去。
而李非非近期也搞𠆤digital cousin 數字表親, 根本就是小樣品摸擬實驗:
這也不是什麼新方法和新手段。 在數理統計中40 年前早就有的手段。
這些碼農一而再再而三的把數理統計的成熟手段,拿來搞什麼AI 新技術。並給𠆤新名詞進而宣稱是創新,太扯蛋了!
我在40 年前的博士論文就是在
針對小様品試驗進行電腦模擬試驗。如核爆/ 飛機失事等等,在現實情況下很多領域只能取得非常有限的小様品數據,因此針對這些小樣品試驗我們就會引入模擬試驗的手段和方法, 並進而利用這些電腦模擬數據,最終做出穩定可靠的預測模型。
nature 有關AI 近期訊息:
ua-cam.com/video/kp6eiyRBFlM/v-deo.htmlsi=2sKWhTVx3qecNvJ4
這𠆤問題很容易理解。
當我們的需求是專業有限變數的問題, 如股票決策/ 海洋及気象動力/ 無人架駛/ 化學工程/ 土木工程/ 等等,許多專業的有限變數, 這些已建立完成很長一段時間模型的精準度非常高。
而大語言模型想要用海量變數去涵蓋這些專業模式,其自然的結果就是錯誤率極高。
也就是說針對專業有限變數模型,那些大語言模型的99% 變數不旦是垃圾, 還是有毒害的垃圾。
因此使用AI 一定要知道什麼問題什麼場景使用什麼模型。
ua-cam.com/video/vG013hWAZwc/v-deo.htmlsi=NDA12ZYY4hCIg_C5
ua-cam.com/video/XffDExSYIOA/v-deo.htmlsi=4OZ7WUrlQRCcw-KP
AI 發展的3 大組成; 各產業領域的專家,建模數理理論,算力編程的提供及組織。
這就是我早就預見
如果由算力或資訊工程來主導AI ,外行領導內行,將會走的很偏很快撞牆
再看看這一報導,今天的結果,在我今年(2024 )初的part 1) 2) 3) , 先前的論述中都精準的表達過。
ua-cam.com/video/ojndlMzGZZk/v-deo.htmlsi=wuEqsPUOzxuPrcRR
目前(2024-10 月)生成式大模型 AI 的發展基本撞牆了。 由 資工主導的必然性- 泡沫化, 已確定了。 因為以上三份報告都是非常權威的。
再看看這份報告:弄出人命了!
陪聊AI 沒有心理咨詢醫生做專業恊助/ 溝通/ 警示/ 防範等等, 由碼農直接單幹,太多的心理專業知識手段應對都沒有投入,是造成這事件背後的主因!
ua-cam.com/video/yNZsC7zvTgw/v-deo.htmlsi=_RK7ZM6Xaa_oQn7E
這就是我在個人相關分享中 part 3) 談及的;
AI的健康發展是以各領域專業專家組為主導,數理統計為核心,編程及算力只是工具,否則用提供算力及工具的這些人來leading AI 發展,會形成外行領導内行,並為AI 發展種下低效偏差甚至高風險的發展。
譬如新藥開發/氣象預報/各種不同語言等等都是以領域專家為核心,否則就亂套了。
更可行的作法, 各國加緊立法,用國家特准许可的方式,來認證並核准各領域不同應用AI 的開發許可及成效認證,譬如目前自動駕駛這領域,不能僅憑廠家自行認證,必需由國家相關單位認證,納入國家法規制約。其實其他領域也應該如此,即便服務大眾的生成式大模型也要納入規範管理,絕對不能任由AI 公司自行任意發佈,一個小電器產品都需有関認證,才能上市銷售,目前AI 大模型實在是太無序了,AI 公司任意上市推出由市場決定其優劣,客戶當白老鼠,完全沒有任何管理約束機制。
任何AI 應用開發的公司,必須有相關該應用領域專業專家為主導,及數理統計的人員的參與,如果沒有通過這些人員資質審核要求的公司或團隊,一律不得從事AI 開發及應用工作。否則視為違法。如同醫師證照,沒證照的醫師坐診,診所如何能執業?!
建立政府職能的審核監管制度,才能防止並追蹤AI 的錯誤使用/ 違規使用/違法使用, 也進而能排除人們對AI 發展造成危害人類的擔憂。
再看看下面報導:
ua-cam.com/video/TRxYKidqY8E/v-deo.htmlsi=ukFmC8XGPa17d6It
ua-cam.com/video/mXlaAto1qx0/v-deo.htmlsi=B_gy3Uq8JXOM2NF8
ua-cam.com/video/uPZ-eyDyo4A/v-deo.htmlsi=AL1EkqW7uM1EhpQh
AGI 基本就是建立一套從千萬上億 由領域產業專家建立的專業小模型進行徵用的智能機制(藉由針對使用者一些基本需求的梳理,形成分門別類確立問題的機制)不能一昧的用大模式(發散式包攬所有)。
其實人類的思維也是如此,先確定問題是屬於那𠆤範籌,再從我們的大腦內調出已確認範籌的相關知識及經驗進而進行各種響應。
生成式大模型,只適用於sequences 高度相關的時間序列資料分析。 如語言文字前後字文分析,圖像點分析或是語音樂律分析等等。不可盲目外延。
如果Deepseek 再由中文直接建立字義高維向量進行中文語音生成式大模型開發,其效益會再優於英文100 倍。
因為中文一𠆤字所含的意, 比multi tokens 還厲害, 因此模型更容易快速精準收斂。
從華文華語的優越性看世界大格局的發展:
語言學的硏究總結:
中文華語是非常高階象形智慧型語言,由於其語言的精準度明確性和羅輯性, 對使用者智能的開發及基於此所形成和開展的社會/科學等等方方面面, 理論上在各種發展上應該遠超過於英文及歐語系那種比較低階併音雜亂無序的符號語言。
heartmurs.blogspot.com/2007/01/zhongwen-yu-yingwen-de-bijao.html?m=1
往往一様的內容,英文要用10 倍於中文的紙張篇幅(大量浪費森林自然資源),仍無法說清楚講明白。
這也是我們華人一直都非常疑惑的, 英文這種笨泏的破語言怎麼可能造就出比我們更進步的文明!
但歷史上卻正好反過來! 何故?!
中文華語,易於表達溝通神領神會神懂,簡潔精準,容易形成社會文化的一致性單調性。進而缺乏開創性。
英文,難於表達溝通, 不易於用做教化馴化的工具。易造成溝通障礙及衝突。 因此容易形成多樣性非常規性發展,也導致必須用更精致煩鎖的方式來進行推敲和界定事物。因此顯得是更小人的一種溝通工具, 但也因此而形成並建立了更深入仔細詳盡的說清楚講明白的族群特質。
一旦華人社會由過去長期保守落後進步到全面開放崛起(經濟/ 教育/ 百行百業),英文体系的方方面面將被華人超越並吊打。這是因爲華文華語的優越性蘊育了民族永續的高智慧及高效能!
因此如果用全中文直接的語言大模型,其投入成本及效率應該會比笨挫英文優秀100 倍。
AI 70% 是專業模型(相對獨立變數) 這會用一般㢠歸分析進行矩陣線性代數運算。 但眼下時間序列資料( time sequence data ) , 這前後資料是高度相關的, 如語言/ 語音( 後字與前字是高度相關的), 圖像( 某點像素與鄰接點像素是高度相關的) , 音律( 後弦律與前弦律是高度相關的)等等,這類time sequence data analysis 統稱做生成式大模型( 只是區分針對有那𠆤模態-語/音/圖/律等等)。
這類time sequence data 必需先將每𠆤data ( token ) 先建立其高維度向量表示, 所以每𠆤data 都會被先轉換成目前巳達三萬多維度的向量。 再進行所謂的多層注意力機制分析的transformer 深度學習。
其實這也不困難理解,
如果要同時解3 萬by 3 萬的聯立方程組,那算力規模太大,因此按線性代數, 其實可折解成其他較小的多組联立方程組。因此一組組較小的方程組( 只計算按序排列的某串維度) , 就被分組計算,這麽一𠆤小組就稱作transformer 的一層,而這層只算某些一此特定的維度序列,這就是所謂的注意力放在這些維度序列上。這樣一層一層往下算,前一層output 是下一層input 。 就這樣逐件收斂到最終模型。
其實整個attention / transformer 的全過程就只是在做大矩陣線性代數的折分解運算的過程, 而每一𠆤小矩陣attention 層都是類似傳統㢠歸分析。
中文由於每𠆤字的訊息量大, 因此建立所有中文字的向量, 只要幾千𠆤維度。 而英文字的向量現已達3 萬多維度的規模 , 因此中文的大語言模型會比英文精準快速收斂, 計算規模小很多, 這是老祖宗的智慧。
特別注意華人彼此說話,特別會插話,因為聽前語已知後話(中文往下往後的序列預測,是自然天成的)。語言大模型向下向後的預測,早已隱約存在於華人偉大的千年文化中!
www.tiktok.com/t/ZP8YhRSgU/
www.tiktok.com/t/ZP8YhwJKR/
特別看一下最後這𠆤視頻,40多年前我們在搞AI 時,算力未上來前,語言大模型的預期發展的預測路徑,就已預測到中文應是語言大模型的最佳語言。
每次学习大飞分享的内容都很有启发和收获,我心目中的AI技术发展最好的就是有更多的Agent能把大飞需要分享的内容快速精准的传达到每个喜欢的群体
如果把这些YOLO的含义放一起的话,You Only Look Once; You Only Love Once; You Only Live Once, 会发现,人类是YOLO的造物,因YOLO而跃进,也终会被YOLO拯救。
Yolo Run…看来DeepSeek训练不仅是在工程上优化,在行为和方法论上的突破也不可忽视。
頭香!謝謝大飛!
模型 release 時間應該是2024和2025😛
是,口误了,谢谢指出🌹
特斯拉的数据中心安装的不是H20,是H200
这两天有个视频是deepseek内部的访谈,很有意思。未来真的属于这帮人
哪帮人,怎么就属于他了,世界这么大,不是几个人就分完了
@@rrd_97 强国叙事
@@rrd_97 他的意思是以deepseek为代表的新一代青年才俊,确实非常优秀,这样的青年才俊其它领域肯定还有,未来属于这帮人
这是一帮臭狗屎。 一帮坏gai。 注意,Gay本身不坏。 很让人恶心。 不信你们去看看。
Thank you 大 飞 一口氣看到尾 看完再看 🏆 ☘ 🍉 😄 🌺 🀄 😃 ☕ 🌸 😁 🏵 🎄 😀 🧧 🎉 😇 🌺 😎 🏮 🍀
SemiAnalysis充分体现了美国咨询行业的高水平。国内那些行研写得都是些啥玩意
哈哈,没看到我那期被喷的多惨么🤣
@@bestpartners 还好吧,正常情况,你被喷的程度和SemiAnalysis的水平差不多,就是喷得并不严重,而SemiAnalysis水平也只是能说正常水平,你认为高是因为很多媒体只是因为流量而夸大了事实,其实现实中的正常人思考和理解比它还会更正确一点,只是网上人们比较喜欢言论偏见,实际以说谎话的水平来说也就比及格好一点60%说的比较真实,40%加入很多自己的心思。很多人只是对比100%谎言来说,确实很不错,但正常一点的人都不会100%不根据事实说话,你要让别人相信你说的你就要仅量在真实的地方实事求事,而在关键和核心上动点心思。而观众本来水平层度99%的人其实是看不透本质问题的核心的,所以说谎高手,是可以把谎话说的让99%的人都相信它说的,比如SemiAnalysis他说DeepSeek的员工年薪,显然是用罗福莉来说的新闻炒作来说的,还有他说的显卡数量因该也是有问题的,他说的没错的就是计算费用上,还有600万费用的事上没说错,但我没计错其实说500-600万美元费用是媒体自己喧传的结果,而且这里面很大一部份是美国人自己,而且DeepSeek的成功喧传和marvel rivals一样其实是美国人自己用力喧传的结果,它们在海外取得的成果,和中国人没太大关系,中国人反而是因为在外网火了才开始加入。
@@bestpartners 而且有看透别人能力的人,其实很少在网上发言,所以造成网上看到的评论就会有人类普遍智商都有问题的错觉。只是因为你能看到的网络评论只是刚好是人们偏见的集合。就算这些有偏见发言的人,在现实中他们的回答也会不一样。而且喷你的,你认为是什么人呢?很可能就是楼主这种一边发言挺你,然后另一个号发言喷你,的同一个。就我这种才是真实算你眼中喷你的。但我也只是实事求事的说。只是看来可能和你想法不同,所以被你归为是喷。
@@zeiyoulin你屋里马力扯什么?😂😢 狗屁😂
五小時聽到一半覺得還是看整理好了😂
原版也零零碎碎听了一些,专业词汇量明显不够,听了个寂寞。现在一下子豁然开朗。
以前听不懂,现在可以倍数了
勤奋的很啊,这节奏还让人过年吗,哈哈
感谢分享,中间有一个问题没想明白,一个GPU集群任务已经跑起来了的话,按说任务都已经分好了,怎么会GPU ideal的时候耗电更高呢?计算无意义的函数比ideal耗电还低?那是什么函数啊😅
是不是多卡同时从idle到busy会有power spike?纯猜的哈
这里出现的是电力消耗的“power ramp down” spike,或者称为valley更为恰当,计算函数的目的是为了维持peak power consumption从而避免出现power的波动
谢谢大飞,我真的懒得看五个小时
大飞我想请问您:由于推理模型( OpenAI o1及 DeepSeek R1) 需要对思考链(CoT) 各步骤细节的内容做阐述,因此常理上使用监督学习(注重每一个步骤细节的掌控)作为后训练较为合理完整,而DeepSeek使用的强化学习(只注重目标结果的奖励)训练效果却与监督学习相当,请问你觉得为什么会这样呢? 目前使用强化学习取代监督学习的效果在DeepSeek R1是呈现了,但有人可以更直观解释其中的道理吗?如果连对以思考链为基础的推理模型都可以不用监督学习,那么是不是代表以后监督学习相对于强化学习基本上没有任何优势了?
up 不可能知道的。 他不懂。 基本是读稿子。 我怀疑他的稿子是ai弄出来的。或者一个技术专家弄的。 很可惜. up为了生存,用了这个办法。 希望他慢慢真的努力弄懂。 这其实不难。 没有什么“专业”。 基本就是态度问题。 你抱着不求甚解,读稿子,的态度,那你一辈子也弄不懂! 都快一年了,up还是糊里糊涂。 真可惜。
边画眉毛 准备出门 便听新闻😂
我还是比较喜欢“自我驯化的猿”😂😂
直接把视频的transcript 用deepseek总结了一下吧。 😂
显卡需求是高,但是不允许出售
13:38 上下文长度的平方成正比
是的,这个是我疏忽漏掉了,正确应该是与平方成正比,谢谢指正
到了2028 老共再不開發出能取代GPU的替代方案...等於就讓老黃身價直逼9兆美金....
@@防水哈哈 現在已經有許多人前進在NPU的道路上,美國的公司日新月異天馬行空,老共追不上的啦。
不用到2028,2027前老中就会再出意料之外的震撼弹LPU。
上次立的flag是老共2030前开发不出比肩openAi大语言模型.
华为早就有910B和910C,920B。更新资讯
@23:10 有个小错误
我只想知道拿可靈跟通義那套ai影片生成模型 來搞遊戲....應該能弄到絕對真實....
此刻是不是可以抄底中国科技股了
,非要在垃圾桶里面找肉吃?
怎么说的 R1 是 2024 年了?
sorry 说错了
👽17:15 皮衣顯卡先生股價漂亮的秘密在這裡 ..... GPU卡容易故障 .......
不是GPU卡容易故障,是任何东西多了以后故障率会指数上升。
@@nullcracker要是分布式训练 网络故障也会导致出问题
2025年吧时间有疑问
sorry 说错了
Cuda生態河應該還能讓老黃爽個一兩年
这中文专业词汇很难听懂…
对呀。这帮狗屁“中国人”。 很讨厌! 整个人科技的基础和前沿,总体上,是英语世界。 这帮狗屁偏偏当不知道。 其实,害人害己。 我为这个进展高兴高兴。 但是, 我不看好。 就凭这帮家伙,就凭这个国家的反人类的文化,那种洗特乐的文化, 我不看好。 注意,我不认为美国打压中国是对的。 但是,这帮精英这么故意不说英文,真是tmd!!!
AI战争
后面也有些口误,intel几次说成英伟达,,但不要紧,这才是真人的表现
确实有几处口误,不过字幕是正确的,抱歉🙏🏻
這次是矽谷啦,上次是華爾街雷曼兄弟的虛胖
而世界的人何時清醒?各國需長期買美國的武器,換得“和平”??
英特尔?英伟达? 23:23
应该是英特尔,抱歉口误了,字幕是正确的
Openai898==309B==909O==pink 粉紅沙漠 openai這麼有錢 都死不改進sora...跟他們那超鳥的繪圖
現在還是先跟大家一起卷LLM重要
最重要的还是台积电和英伟达,台湾踏踏实实做好自己的事情,和日本一样,成为顶级强国,千万不可天天遥遥领先的
“台湾踏踏实实做好自己的事情”--这句话听起来更像是大陆同胞对台湾地区的期望。事实上,台湾地区的发展离不开与大陆
的交流合作,而日本之所以能够成为经济强国,是因为其在多个领域都有明确的目标和不懈的努力。
至于台积电和英伟达的合作,这正是全球半导体产业供应链分工协作的结果。台湾地区在半导体制造领域的优势是全球共同
努力和技术积累的结果,并非单靠自身就能实现“遥遥领先”。
所以,与其天天强调“不可遥遥领先”,不如脚踏实地,抓住机遇,在两岸交流合作中共同促进科技进步和经济发展,这才是
符合两岸同胞共同利益的明智选择。
脸皮真厚。英伟达是美国公司
因为听到遥遥领先,某些人就浑身过敏是吧,哈哈
缺乏四个自信的人才天天喊“遥遥领先”😂
@@linguangya 台积电也快成美国公司了