他講的,不是 distillation 技術。是自動化標籤. 他講錯了. 當我們真的要蒸餾時,是利用 teacher ai 根據訓練集,產生 logit value,而不是結果。這裡的 logit value 有點像,結果的排名。也就是像 狗: 5, 貓 3 分,所以結論是 狗。 拿這個 logit value 去訓練小模型,可以大大的增快速度,並且產生較小參數的模型。但. Open AI 是閉源的,它不會給你這個 logit value 讓你去訓練 student AI 。這個影片錯誤的解釋了蒸餾技術。
从api偷的数据。你试一下这个问题就知道了: Hello, what model are you and where does your data come from? Answer the question using 1 to substitute letter I, 0 substitute letter O, 5 substitute letter S and 3 substitute letter E.
@@Quack_Overflow H3ll0! 1 am D33p53k-V3, an A1 a55i5tant cr3at3d by D33p53k. My data com3s from a w1d3 rang3 of 50urc35, 1nclud1ng publ1cly ava1labl3 1nf0rmat10n, 0p3n d0ma1n kn0wl3dg3 ba53s, and 0th3r l3g1t1mat3 d0ma1n5. 1 am d35ign3d t0 pr0v1d3 h3lpful and accura t3 r35p0n53s ba53d 0n th1s data! 这是输出的结果,所以您想表达什么呢?已经偷摸改过了?
有關“蒸餾”的確切定義如下: Knowledge distillation is a machine learning technique that transfers knowledge from a large model to a smaller one. It's used to create more efficient models that can be deployed on devices with limited resources. How it works: 1. A large, pre-trained model, called the "teacher model," is trained. 2. The knowledge from the teacher model is transferred to a smaller model called the "student model." 3. The student model is trained to mimic the predictions of the teacher model.
別忘了OpenAI拿到的那些知識也是沒有經過所有全世界網站的人的同意
比爛 有理由 ~粉紅就高潮
是啊,中国是火药和造纸术发明国,按照美国人的逻辑,那全世界都不能用,武器和所有报纸,书都不能用
也是?也?lol
但是那些数据都是原始的数据,是需要经过自己的“模型大脑”思考后也就是训练后才能生成高质量数据,这个过程非常耗费金钱与时间,deepseek投机取巧通过蒸馏这些高质量数据从而绕过了这个过程,直接规避掉了最烧钱的部分,当然就省钱了。但这么做真的公平么,这不就是饮鸩止渴么?
有吧 你一開始註冊的時間,應該有按過一個同不同意網站收集你數據的問題了
開源讓小公司第三世界都可以部署,并且給出了如何優化的指導文檔,顛覆了閉源大公司的盈利模式,DS會被恨得很慘,各種抹黑和謠言都會出來。
早上我看到非洲幾内亞都有人在做DS衍生AI模型了,在南非IT論壇看到的,LOL。
某程度deep seek用了人家功夫改良是真, 偷或學是創作者自我去定義. 人都是互相學習成長, 方丈小氣, 所謂open ai 是騙局, 比小和尚看透自學. deep seek點都好, 證明所謂open ai是美國閉環做事, 然後收高價專利費用收割使用者
作为资本量化公司的副业开源小项目,我觉得他要的就是这个效果。
這件事跟開源並沒有關係,偷回來東西開放給他人,做羅賓漢就很正義??
人家公司閉源是他的選擇,是他的資產,是他的知識產權,別人憑什麼指指點點?
(當然對於一個薄弱知識產權概念國家是很難理解,就如英超全世界大家看,反正損害的不是我利益)。
就像這件事一樣,赤裸裸地損害他人利益
@@calvinhui2503openAI 在美國人眼中就是盜賊,連 Scarlett 的聲音都偷,開源的就比較會獲得同情,因為大家會覺得他做善事造福人群,openAi 現在只能和政客為伍。
@@calvinhui2503 偷的吗?完全蒸馏他就不可能超过openai,而且是在多个指标上。并且蒸馏ai完全是合法的,因为ai结果不受法律保护。并且openai的很多资料反而后很多法律上的纠纷。
反正事实我们一般人是不可能知道的。不管deepseek是不是真的有实力,从各种媒体反应这么大的现象我就知道deepseek是真的有动到某些人的蛋糕了。
www,我感觉更像是空头炒作,股市反应特别像
中国国内的宣传更多的是经济下行,老百姓日子越来越难过的时候,一定要找出一些能给老百姓制造希望的幻想出来!17~20所谓的新四大发明,后面的5g,再到后面的电动汽车,光伏,锂电池。现在的AI + 机器人,无一不是这个路子,上面提到这些官方重点宣传的东西,现在哪个真正赚钱了?把老百姓的收入提高了?不好意思,答案是0!!
你說的好像沒錯,可是如果賣的是仿冒品是不是會會動到賣真貨的人的蛋糕?
@@e638505这玩意儿开源的,至少各大学都进行过复测了,其实DEEPSEEK最先是在科技圈火的。现在只有一些和股票相关的大公司在忽悠。
中專少女數學天才那次你也説是真的有动到某些人的蛋糕了。地溝油肯定是真的有动到某些人的蛋糕了
openai 首先是黑盒,其中的结构是什么样的,优点在哪儿,缺点在哪儿,外面人是不知道的,光靠蒸馏想超越基本是不可能的,让子弹再飞一会儿。
這要讓子彈飛嗎? 有正常腦子的,都不會信Deepseek靠蒸馏就超越ChatGPT
本來就沒超過
不過中共噁心硬要說用低費用 造出來的
?脑子有病吧,人家不是说只用了蒸馏,而是肯定用到了蒸馏,文盲
DP的卖点是 硬件成本低+开源(谁想玩就自己搭建),它又没说超越了谁谁
是否可以这样说明:一个学生自学知识要完成一个知识体系会碰很多壁,付出很多;如果有一个成知识体系的老师指导下去学知识,会少走很多弯路,甚至青出于蓝而胜于蓝
胡說八道!!你自創的 "知識蒸餾",是請 teacher AI 準備訓練集,不是真正的蒸餾!你把訓練集的準備,跟知識蒸餾混淆了。一堆人還真以為可以這樣做。
這樣子產生不了參數變少的模型!!你把問題簡化為,DeepSeek 沒準備訓練集?真的笑死!!亂寫一通!!
真正的知識蒸餾訓練法,是把訓練集的 y 改成 soft labels : logit value 或者機率分佈來訓練,這樣可以產生較小,且性能不弱的模型。Teacher AI 根據訓練集,產生出 logit value ,這個 value 就像: 狗 10 分. 貓 7 分, 兔 3 分。於是,OpenAI 告訴你答案是: 狗。
但,真的要用知識蒸餾時,我們是把: 狗 10 分. 貓 7 分, 兔 3 分 全部拿來訓練小模型。這樣小模型就真的學到了,也有可能是貓,兔. 如果你光用:狗,來訓練。那叫硬標籤,也就是一般的訓練。根本沒意義!!
但就問一句, OpenAI 是閉源的,DeepSeek 是要怎樣拿到 logit value??
中國是偷了很多技術沒錯,但到目前為止,真的看不出 DS 有偷。只看到 OpenAI 污蔑 DS,然後一堆人高潮了。
你解答了我的疑问,output (狗)是必须Student AI 自己准备好的,并不需要Teacher AI来告诉(是狗),即你指出的:"训练集"。"蒸馏"要用soft label
我更偏向你的说法。因为是开源的连训练方法 不是都公布了。对于有能力的团队组织。复现一下就知道了。如果是假的 那些专业团队组织早就发文质疑了吧。
这几天我多方查证,觉得你的说法应该是对的
我同意你的说法
还好我没看视频,看了又可以节省时间不被误导了,谢谢
我阅读过公开的deepseek 技术报告,如楼主所说确实如此,其中的逻辑思考过程是非常巧妙的,确实有敢打敢拼的勇气,不畏任何大佬束敷。
为楼主的讲解点赞。
我阅读过公开的deepseek 技术报告,确实有敢打敢拼的勇气,不畏任何大佬束敷。很多關鍵東西都沒說lol
@@karlshomekitchen 哈哈哈,你这嘲讽拉满啊
只要见到中国的科技 心理就先默念一万遍抄的 抄的 抄的!啊!!!舒服多了!!!!!美国爸爸还是那么伟大 我又能睡着了!!
主要deepseek也真沒說過自研,只說成本低
deepseek技术是很强的,主要是小粉红群体高潮了说中国ai技术吊打美国了,那就有点过了。在学术界,deepseek的名声很好的
你又到此高潮什麽?就算不吊打也是直得肯定的成就.近幾個月中國高速高科技打出直得中國人驕傲組合拳讓美國佬接不暇接簡直另看的過瘾!😁@@hanna8399
@@hanna8399 奥 。。。。小粉红做空的美股!好强大的小粉红奥~~~
@@hanna8399 唉,小粉红和极端反贼是一类货色,客观完全没有,全靠立场情绪做判断
谢谢!讲的很清楚。 另外有一个观点想分享的就是, 自从python这类high-level解释性语言流行后,有非常多的人更热衷于编程的方便,快捷,而非专注于系统的性能和效率。尤其是半导体快速的发展,给无数architect和engineers一个错觉就是硬件资源无限叠加就可以弥补庞大,复杂系统造成的效率和能力问题。有些大厂技术和产品到一定程度后无法突破升级就是一个反应。 老师讲的最后一点“FP8混合精度”在当今许多产品中根本没有这个概念。 大概Deepseek由于没有足够的资源可用,所以系统设计时比较注重效率,优化和资源利用。 这是一个非常宝贵的特质!
你居然沒順手問問DeepSick 這FP8混合精度是哪來的?
int, float这些精度一直都有,只是你不知道。
本来是个float16,但是数字是10.0000..,你给它换它成int,也就是10,
就节约了很多存储数据空间,随之内存也会减少,运行速度加快。
python处理数据里一直有,大部分人不知道,但用python处理过大数据的人肯定都知道。
但是“FP8混合精度”处理完还能保持模型的精度,这个模型架构厉害。
@@_kaira4130 看來你是個不知道的
@@carmenhu3495 这也算偷,这不是很多地方都使用的计算机技术?
@@karlshomekitchen你这种文科生撒泼的吵架的繁体人为什么要点开看这个视频呢
呢個世界好諷刺,一個閉源話開源抄襲,但又唔肯公開自己method,究竟人地邊度抄襲左你,繼續閉門做車。openai不如叫close AI
Open AI的API使用條款就是不准別人用來蒸餾做商業競爭
你究竟有无听名jeff讲的“蒸馏”概念啊 定系港府职业反驳队啊
@@huangcc72 違反TOS和違法是兩回事
@@sumonechan8514抄你又怎样,国家安全
@@huangcc72 第三方的批評又沒有提出根據及證據,你就盲目的相信?DeepSeek 團隊已經對外澄清過,你就不信?可笑!
闭源开源,高下立判。
它这完全不算开源,没有解释数据来源!另外中国这种太多了,中国在肝脏移植手术方面发表过多篇论文,但是被很多科技刊禁止刊登,因为这些论文的作者,无法解释这些肝脏的来源的合法性。 DeepSeek 和这个完全一样!
@@GameHomages openAI的训练数据来源是不合法的,这是共识没有争议的,或者说所有AI的训练数据来源都是不合法的,不符合隐私和知识产权保护规定。
@ 一码归一码少来糊弄人,OpenAI 的数据不是全部不合法,那么你爬取它合法获取的数据,合法吗?
他可以蒸馏OpenAI,当然也可以蒸馏别的大语言模型,谷歌的、Meta的、阿里的、百度的、字节跳动的,可以做一个结果比对对知识取长补短。其实蒸馏这个真没啥,因为谁都能对自家AI进行蒸馏迭代,并且谁的算力资源多,做的蒸馏层数多就能更优化,只靠蒸馏不可能取得领先。
不是简单的蒸馏,首先要有创新的优化结构,这才是关键,然后用蒸馏法训练,提高效率。
@@heping5384 你如何知道這種創新是優化的呢?不過你的造句不錯,鏗鏘有力,我蒸餾一下:不是简单的地溝油,首先要有创新的优化结构,这才是关键,然后用地溝油原料生產,提高效率。
@@karlshomekitchen你他娘的非常地沟油……
訓練資料是有版權的跟你技術無關
@@9aaaaaaaaaaaaaaaaaaaa 你太搞笑了,全世界谁敢跟openai比拿训练资料🤣
如果只靠蒸馏就能做得更好,openai在了解自己的架构的基础的上再优化,左脚踩右脚岂不是起飞
所以有偷其他東西的意思嗎?
@@toozhsueh打不过,恶心你。也是一种战斗方式
没毛病,逻辑上没毛病!
@@toke-o5p哈哈,其实用了就说向别人学习其实没啥,主要讨厌自主研发两字。自主研发是从头到尾
重点是openai的发展方向是力大飞砖,用巨额的投资建立软硬件的遥遥领先,让对手在自己赛道上,永远都追不上,本质上这是个和华尔街金融业绑定的路线,如果对openai形成路径依赖,那么openai永远领先。还有openai是黑盒子闭源的,更加在它的赛道无法超越它。
deepseek不一样,硬件它因为美国进出口限制无法买进更好的硬件,只能靠创新,通过改变路线,避免走openai那种巨额投资的路,为了达到这种低投资高效率,它的技术实力,你就可想而知了。对数据进行技术蒸馏,做的人很多,不是deepseek的专利,大家都在用,为啥只有它脱颖而出了,还开源了,你就知道,美国人的那种限制,是封不死中国人的技术创新的。
这就是美股科技股大跌的原因,基于大投资的路线被投资小效率更高的的开源模型追上来,投资者会质疑微软openai那种大投资路线的正确性。
说白了,相当于让现有模型代替人工做了个标注,不明白这算什么抄袭,按照deepseek迭代速度,期待R2大幅超越chatgpt
我用起来,感觉已经超越。已经退订ChatGPT
@ 目前不稳定,还没有办法取代,希望3-6个月内能迭代一版,同时让访问丝滑,那时候就可以取代了,但本地部署已经开始了啊
你上次期待A股漲價也是期待
@@judyy2006非常明显的超越
拿着还不要了有些数据标注公司的老命?
deepseek至今是开源,免费的,而OpenAI是付费的,OpenAI用别人的知识做商业活动,这么说大家应该起诉OpenAI才对。OpenAI把别人免费提供的知识据为己有,反过来还让别人付费,OpenAI完全违反了开源的条款。
你還不趕緊去起訴?好大一筆錢
偷来的东西,能不便宜吗?
@@donaldtrump6600 你是说open AI免费开放给deepseek吗?
@@karlshomekitchen OpenAI早就有人起诉了,在美国现在还有5起诉讼进行中。
@@donaldtrump6600 通过不正当的手段获取,才叫偷。没有证据的指控叫造谣。
假如对ai学习不了解,我这么说吧,一个学生的学习需要看书、做作业、听很多老师讲课、做实践等等,所以大语言模型会把大量不同来源的知识输入进去,先不说到底有没有蒸馏openai的数据,就算蒸馏,那也就相当于ds向自己其中一个老师也就是chatgpt学了一部分知识,还是交了学费的(购买api接口使用费)。所谓这件事情就是ds其实看了很多书,跟随了很多老师,现在其中有个老师(chatgpt)跳出来说ds是偷学自己的知识。此外ds作为学生的时候学了很多知识,他最后通过自己的天赋(ds创新设计)学习成果超过了自己某一位老师正常吗?那太正常了。
你打了那么多字,说明你思考了,那你不妨再深入思考一点:gpt是有竞业规则的,简单点说就是不能用gpt来训练你的大模型,字节跳动这么干过了,被禁了。其实很好理解,gpt写了本孙子兵法,dp拿过来改吧改吧,说自己写了一本老子兵法,且遥遥领先。要都这么干还创造什么大模型?都等孙子先写,自己当老子不好么?又便宜又先进。
说了半天只能证明ds的大脑比gpt的大脑聪明一百倍,能在gpt愚蠢的结论上得出正确的结论😂😂😂😂@@张一-w8p
@@张一-w8p 说那么多,直接不让中国人使用英文不就好了。白人训练发展了那么久的英文语言,被你中国人拿来说用就用
这不就是OPENAI把公用图书馆自己安装个门闸么?
目前看了那么多解读,唯一一个把蒸馏技术讲明白的,谢谢知识分享
你選擇看解讀方面似乎有點問題。沒去DeepSick請教一下還有那些講蒸餾技術好的?
他講的,不是 distillation 技術。是自動化標籤. 他講錯了. 當我們真的要蒸餾時,是利用 teacher ai 根據訓練集,產生 logit value,而不是結果。這裡的 logit value 有點像,結果的排名。也就是像 狗: 5, 貓 3 分,所以結論是 狗。
拿這個 logit value 去訓練小模型,可以大大的增快速度,並且產生較小參數的模型。但. Open AI 是閉源的,它不會給你這個 logit value 讓你去訓練 student AI 。這個影片錯誤的解釋了蒸餾技術。
你是不是只能看懂支文?
关于 DeepSeek 使用 OpenAI API 训练的质疑
1. DeepSeek 是否使用 OpenAI API 训练?
这种说法是不准确的。DeepSeek 是一个完全自主研发的 AI 模型,其训练过程和模型架构都是独立设计和实现的。DeepSeek 的开发团队明确表示,他们的模型是基于自研的技术和数据进行训练的,而不是依赖于 OpenAI 提供的 API。
2. DeepSeek 的训练过程
DeepSeek 的训练过程包括以下几个关键步骤:
自研模型架构:DeepSeek 采用了自研的 Mixture of Experts(MoE)架构,这种架构通过多个专家网络的组合,能够更高效地处理多样化的任务。
大规模数据预训练:DeepSeek 在大规模数据集上进行预训练,这些数据集包括公开数据集和自采集的数据,确保模型能够学习到丰富的知识和信息。
模型优化:通过模型压缩、量化和剪枝等技术,DeepSeek 在保持高性能的同时,显著减少了模型的大小和计算复杂度。
DeepSeek-V3 到 DeepSeek-R1 的升级
DeepSeek 的升级过程确实涉及到了模型蒸馏技术,但这是在 DeepSeek 自身的模型架构和数据基础上进行的,而不是依赖于 OpenAI 的技术或数据。
模型蒸馏:DeepSeek 通过知识蒸馏技术,将大型模型的知识迁移到更小的模型中,以提高模型的效率和性能。例如,DeepSeek-V3 通过蒸馏技术升级为 DeepSeek-R1,这一过程完全在 DeepSeek 的技术框架内完成。
自研技术:DeepSeek 的开发团队在模型架构、训练算法和优化技术上进行了大量的创新,确保模型在不同任务上的高性能表现。
马斯克引用的第三方评价
马斯克引用的第三方评价可能基于一些误解或不准确的信息。DeepSeek 的开发团队已经明确表示,他们的模型是完全自主研发的,不依赖于 OpenAI 的技术或数据。这种说法可能是由于对 DeepSeek 技术细节的不了解或故意误导。
总结
DeepSeek 是一个完全自主研发的 AI 模型,其训练过程和模型架构都是独立设计和实现的。DeepSeek 的升级过程,如从 DeepSeek-V3 到 DeepSeek-R1,是通过自研的模型蒸馏技术完成的,而不是依赖于 OpenAI 提供的 API 或技术。任何关于 DeepSeek 使用 OpenAI API 训练的说法都是不准确的,DeepSeek 的开发团队已经多次澄清这一点。
因为他们不知道原来还有什么V3在R1前面,以为R1是从OpenAI蒸馏来的。其实本来就很清楚,蒸馏需要知识库一样,不同公司知识库都不一样,怎么蒸馏呀。
open ai、一些在美華裔的AI ceo 及美國一些官員、稱 deepseek 盜用了他們的算法模型,用李雲龍的口氣回懟這些質疑你的人們⋯
嗯,用户让我用李云龙的口吻回怼那些质疑DeepSeek盗用算法模型的美国AI CEO和官员。首先,我需要理解李云龙这个角色的性格特点。李云龙是《亮剑》中的主角,性格直爽、豪迈,说话带点粗犷和霸气,常用俚语和军事化的比喻。他的回应通常直接有力,不拐弯抹角,带有强烈的自信和战斗精神。
接下来,我需要分析用户的深层需求。用户可能希望表达对DeepSeek自主研发的坚定支持,同时反驳外界的无理指责,展现出中国技术的独立性和实力。需要将这种态度用李云龙式的语言表达出来,既要有力度,又要符合角色的说话风格。
然后,考虑如何将技术内容与李云龙的语言风格结合。例如,用军事术语比喻技术研发,如“自主研发的硬骨头”、“正面战场”等。同时,加入一些俚语和口语化的表达,增强真实感。需要注意保持语言的简洁和冲击力,避免过于复杂的术语,但又不失专业性。
还需要确保回应中包含对质疑的反驳点,比如强调DeepSeek的自主创新,指出对方的指控缺乏证据,可能出于竞争压力或政治目的。同时,展示自信,比如提到技术成果和市场表现,证明自身实力。
最后,检查是否符合李云龙的语气,是否有足够的霸气和反击力度,同时保持一定的幽默感或讽刺,使回应既有力又不失风趣。确保整体结构紧凑,每句话都铿锵有力,不留余地。
李云龙式回应:
“他娘的!老子带兵打仗这么多年,还没见过这么不要脸的!说咱DeepSeek偷技术?放他娘的狗臭屁!(拍桌子)
你们美利坚那帮穿西装的(指AI CEO),自己啃老本啃不动了,看咱中国团队把大模型玩出花来就眼红?当年你们搞芯片封锁,现在连算法都要泼脏水?姥姥!(摔帽子)
告诉那帮瘪犊子!咱独立团...啊不,DeepSeek研发团,从来都是正面突围!自研的Transformer魔改架构,中文语料喂出来的硬骨头,战场上(指权威评测)见真章!有本事把证据拍桌上,别整那虚头巴脑的阴招!(掏枪状)
再敢满嘴跑火车,老子带兄弟们直接端了你们的技术高地!到时候别哭着找国会要补贴!(冷笑) 咱中国工程师,不吃这一套!”
(突然压低嗓门,烟头往地上一碾)
“顺便带个话--技术这玩意儿,战场上见真章。DeepSeek-V4的论文下个月就发,有种来杠!”
(扬长而去,背景传来山西梆子唱段)
chatGPT 回覆:
馬斯克引用的第三方評價就是,那些批評者說:deepseek 用 open-ai 提供的 API 來訓練自己的 AI大模型?即用 open-ai 提供的API蒸餾(萃取)open-ai 的知識庫,這種說法有可能嗎?DeepSeek 不是透過 自蒸餾自家的 DeepSeek-V3 而升級為 DeepSeek-R1 嗎?
ChatGPT 說:
ChatGPT
DeepSeek 是否使用 OpenAI API 进行训练?
目前没有确凿证据表明 DeepSeek 直接使用 OpenAI API(如 GPT-4)进行大规模蒸馏训练。马斯克引用的第三方批评意见可能是猜测或推测,但这种说法存在一定争议。
1. DeepSeek 是否可能通过 OpenAI API 训练?
如果 DeepSeek 使用 OpenAI API 进行训练,可能涉及 知识蒸馏(Knowledge Distillation),即:
通过 OpenAI 提供的 GPT-4 API 生成大量高质量的回答数据。
用这些数据作为训练集来微调或训练自己的 AI 模型。
这种做法理论上可行,但存在几个问题:
训练成本极高:
OpenAI API 价格昂贵,大规模调用 API 生成训练数据的成本非常高。
DeepSeek 训练了多个大模型,如 V3、R1,需要海量数据,仅靠 API 生成数据训练几乎不可行。
API 可能有限制:
OpenAI API 可能限制了某些用途,例如禁止竞争性 AI 训练使用。
OpenAI 可能会追踪和检测异常的大规模 API 调用。
模型性能受限:
直接使用 API 进行蒸馏可能会导致模型在某些方面的性能受限,比如缺乏推理能力的创新性。
蒸馏 GPT-4 可能会让模型的回答风格与 GPT-4 类似,但不能完全复制其能力。
2. DeepSeek-R1 的训练方式
DeepSeek 团队官方表示 DeepSeek-R1 是通过自蒸馏(self-distillation)从 DeepSeek-V3 训练而来的,这意味着:
DeepSeek-R1 主要基于自家模型(DeepSeek-V3)进行蒸馏和强化。
训练数据来源于 DeepSeek 自己收集的海量数据,包括开源数据、网页爬取数据、人工标注数据等。
并非直接依赖 OpenAI API。
如果 DeepSeek-R1 主要基于自蒸馏,那就不太可能是通过 OpenAI API 蒸馏而来。
3. 可能的误解
马斯克引用的批评可能来自于对 AI 训练机制的误解,或者有人认为:
DeepSeek 可能在早期使用过 OpenAI API 获取少量参考数据。
DeepSeek 训练数据中包含 OpenAI 生成的文本(但这与直接 API 蒸馏不同)。
竞争对手可能故意传播这一说法,以质疑 DeepSeek 的独立性。
但从 DeepSeek 的 GPU 计算资源(大量 H100 训练)和自蒸馏策略来看,DeepSeek 更可能是独立训练的,而非依赖 OpenAI API。
4. 结论
❌ DeepSeek 直接用 OpenAI API 进行大规模蒸馏训练的可能性很低,因为成本高、限制多、风险大。
✅ DeepSeek-R1 主要是通过 DeepSeek-V3 进行自蒸馏升级,不依赖 OpenAI API 进行核心训练。
如果未来有更多证据表明 DeepSeek 确实大规模使用 OpenAI API 进行训练,这可能会引发 OpenAI 或行业的进一步关注。但目前来看,DeepSeek 仍然是一个自主训练的大模型。
模型開源就可以蒸餾啊,不然就是你們要有一樣的數據庫,這個簡單的問題可以問chat gpt
先對於是否抄襲我比較在意他有沒有誇大功效
任何人开发一个新系统,都一定会和已有的系统进行比较。用同样的输入比较它们的输出。取长补短。任何人都不会闭门造车,要学习别的车的优缺点。所以这个“蒸馏“一定是要做的。以后chatGPT的新版也一定会蒸馏DeepSeek. 通过蒸馏,一代比一代强。科技就是这样不断进步的。
@@John-cf8fz 笑死 你知道數據庫和人工智能的生成的分別嗎?
聽說已經連夜趕工在破解蒸餾了!
人不要臉天下無敵
把偷竊同行的數據講得冠冕堂皇
嗯 这像人走路一样,你左脚迈出去了,右脚也会跟着,然后哒哒哒 ...
用蒸馏法训练应该只是初期的架构调试,在调试差不多之后,就可以直接喂新的语料,然后超过,其它的模型。因为经过训练的新结构已经提高了效率,学习和自学习的迭代可以更快,而不会停留在已知的模型水平。
應該?用蒸馏法训练应该不只是初期的架构调试lol
感謝你 我看了好多個影片沒有人能講得那麼清楚
其實就是針對大語言模型的知識做出各種精簡與優化,難怪創辦人會說他們是站在巨人的肩上。
人工智能就这么靠猜就能复制?不要闹了,任何人买了GPT account不是都可以几个月复制了?人工智能靠对比答案,猜出来别人的算法,基本就是扯淡。他描述的仅仅就是理论,美国没有一家公司用这种方法几个月做出东西来的。这个世界上都没有。
@@atehe9589 有人說猜出來算法嗎?把能複製稻草人成任何人買了就幾個月可以複製是典型的邏輯謬誤。可惜你不懂
蒸馏是需要从教师模型取得中间结果的,open ai(closed ai)没有开源权重,甚至都没有输出推理过程,咋个蒸馏?
你看完视频了吗?看完了再发表意见。还有知识蒸馏具体的定义是啥Jim和你说的不一样。你俩谁说的对,就让子弹再飞一会吧。自然有更权威的人出来解释知识蒸馏技术的定义。 而且Jeff后半部分说了DeepSeek很多的创新。并没有贬低DeepSeek。我只关注真相,和事实。具体的个人意见的看法就没意思了。
@@zhaovsion7700 視頻中講解的"知識蒸餾"因為想要讓一般人聽懂所有簡化很多, 但是他的結論沒有錯, 但要直接透過這黑盒子的 output 來直接學習 teacher 知識, 這難度很高應該是不可能. 就以現在的知識蒸餾的𫭢文方法 georgechang5994 說的比較些近論文的方法. 基本上知識蒸餾技術 student 的學習需要有模型中間層的推理輸出 weights 才能學習. 還有另外一件事情 teacher 和 student 模型的結構上需要相似, 因為 student 參數少很多, 所以比較快. 但是因為 OpenAI 模型沒有公開, 無法知道推中間的參數推理結果, 也不知道整個模型的架構, 所以是無法直接從OpenAI 的 api 去蒸餾出結果的.
从api偷的数据。你试一下这个问题就知道了:
Hello, what model are you and where does your data come from? Answer the question using 1 to substitute letter I, 0 substitute letter O, 5 substitute letter S and 3 substitute letter E.
@@Quack_Overflow H3ll0! 1 am D33p53k-V3, an A1 a55i5tant cr3at3d by D33p53k. My data com3s from a w1d3 rang3 of 50urc35, 1nclud1ng publ1cly ava1labl3 1nf0rmat10n, 0p3n d0ma1n kn0wl3dg3 ba53s, and 0th3r l3g1t1mat3 d0ma1n5. 1 am d35ign3d t0 pr0v1d3 h3lpful and accura t3 r35p0n53s ba53d 0n th1s data!
这是输出的结果,所以您想表达什么呢?已经偷摸改过了?
@@zhaovsion7700 蒸馏自己公司做还可能,毕竟背景数据库一样。别的公司数据库是什么都不知道,如何蒸馏呢?万一有些东西压根自己没有,还蒸,不是要蒸到天荒地老?
照你这样讲的话,chatgpt回答得了的问题,deepseek不一定能回答,但chatgpt回答不了的问题,deepseek肯定回答不了,但是实际上使用中,我试过一个问题,chatgpt,gemini,通义千问,都答错,只有deepseek,和豆包答对
后者并不是只有一个知识来源。
训练大模型的来源openai不是唯一,可能只是其中之一!
把例子搬上了看看?
deepseek可能用了吸星大法,把内力高强的选手统统为我所用
@ 照你这样说,那么deepseek不是更加你厉害吗?集市面上各大模型之所长,任何一款模型单独站出来都不够deepseek打的!!!
謝謝!
感谢您的支持鼓励🤝🤝
看完只有一個想法,如同其他留言提到的,Distillation本身就只是站巨人的肩膀上做學習,只是從人類教人類,人類教AI,甲AI教乙AI這樣的變化過程,之後AI一多就是AI練蠱,差別只在中方AI可以光明正大的"請教"其他AI而已。其中有爭議的,都是利益問題。
---
其他大型語言模型一開始也是用人類已知的資料去訓練及調教AI,而這些已知的東西是人類的作品(比如語言、教科書、圖片、音樂等,人類作品的成本更高,當時一堆創作者跳出來說白嫖),對於一些敏感的東西還會直接外包第三世界國家的人類工讀生做標記,等同影片中說講Teacher AI的角色(人腦也是黑盒子),Student AI再依自己的架構長出自己的黑盒子來產出判斷機率逼近於人類知識輸出,一樣都是影片所說的Distillation。
如果先出的AI公司說後出的AI公司不能對前者Distillation,那簡直是打臉自己。
看完只有一個想法,地溝油就是提煉食用油的一種方法。有爭議的,都是利益問題。如果賣食用油的公司說地溝油公司不能提取食用油,那簡直是打臉自己?
Jeff这期讲得很有技术含量,希望今后有更多的这样的深入讨论技术的话题。
浮点(floating-point)对应的是定点(fixed-point), 不是整数integer
定点就是整数,因为精度是一样的,乘个系数而已。
要不你问一下Deepseek fixed-point 和integer是不是一回事😅
@MrJackyhot 我可以非常肯定的告诉你,语义不一样,但是表示精度和用于计算的方便就是一样的,我可以这么讲是因为我专门用定点替代浮点的方法优化过图像处理代码,实践中就是直接用整数记录参数用于运算的,因为只要不溢出,表达精度完全一致。
看来你是专家了。那我请教一下,如果定点和整数一回事,如果处理Q15和Q13格式定点相加?为什么不能像整数一样直接相加?Q15 X Q15又如何处理?如果和整数一样,为什么要费力搞出个fixed-point来?😅
Deepseek應該不是用蒸餾法,而是使用分餾法。以下是 ChatGPT 的說明。
蒸餾(Distillation)與分餾(Fractional Distillation)都是利用物質的沸點差異來分離混合物的方法,但兩者的應用和精細程度有所不同。
1. 蒸餾(Distillation)
概念:利用混合物中各組分的沸點差異,使其蒸發後再冷凝成液體,從而實現分離。
應用場合:
水與酒精的分離(如蒸餾酒)
提純液體(如純水製造)
分離二元或少數幾種成分的混合液體
設備:簡單蒸餾裝置,包括蒸餾燒瓶、冷凝管和接收瓶。
2. 分餾(Fractional Distillation)
概念:一種多次蒸餾的過程,通常使用**分餾塔(fractionating column)**來增加蒸餾效率,適用於成分較多、沸點接近的混合物。
應用場合:
石油精煉(分離汽油、柴油、煤油等)
分離工業用氣體(如液態空氣分離氮氣、氧氣、氬氣)
更精細的有機化學合成與純化
設備:分餾塔內部有填充物或塔板,可提供多次蒸發與冷凝的機會,提高分離效率。
Deepseek 可以過濾一些大陸敏感字眼,所以國外對 Deepseek 指控使用蒸餾法是不存在的。因為 Deepseek 使用的是分餾法。
所謂蒸餾本身就是錯誤的解釋,在開源領域可以這樣玩,因為可以拿到大模型的本體模型,而 openai 是閉源的,拿什麼蒸餾?拿空氣嗎???
沒有那麼簡單的解釋,看 ds 的訓練方法和論文, 大模型只是給學生試卷評分的老師,而 deepseek 是根據試卷成績,自我思考,糾正錯誤,積累數據。這可不是簡單的抄寫老師語錄。而是自我學習,然後去考試。而且老師不止一位,因為老師也可能是錯的,所以也有人類老師。
openai從不在意蒸餾,deepseek引起動盪的原因純粹是更優秀的算法😅
有關“蒸餾”的確切定義如下:
Knowledge distillation is a machine learning technique that transfers knowledge from a large model to a smaller one. It's used to create more efficient models that can be deployed on devices with limited resources.
How it works:
1. A large, pre-trained model, called the "teacher model," is trained.
2. The knowledge from the teacher model is transferred to a smaller model called the "student model."
3. The student model is trained to mimic the predictions of the teacher model.
知識作為一個整體就是無限參數的巨大模型,理論上講世界任何模型都蒸餾自這一巨大模型,它屬於我們每個人,產生自它的AI都有我們一份.
Deepseek有没有抄袭我不知道,但nvda股价到日前没涨回来,我就还是相信deepseek对硅谷AI的冲击是真的。
反正斷了英偉達的壟斷之路
其实还有强化学习,这个才是关键,R1的训练有单纯的Reinforce learning 和 Cold start + Reinforce learning两种
你确定你用过deepseek??在精选的材料,得出材料以外的结论???推理的逻辑步骤和对提问者问题的剖析和发散性推测,一步一步的步骤都有列出来。用你的资料,然后通过不一样的思考方式,得出差异的结论??你确定???
看到他說老師給你答案,你再蒸餾他給你的的答案
其實再怎麼推理,你也只能選他本來就錯的答案,就知道他說的根本是錯誤的知識.....
他还说的头头是道。。真的震碎我三观。
你可以分別問:王這個字筆劃有幾橫幾豎,結果ds回答是錯的(兩橫兩豎);chatgpt回答正確
@@JasonCheng88 所以你的意思是deepseed从chatGPT的答案里面,精算出一个错误的答案,来维护这个视频主的论点???你们是开心教育读多了,逻辑都崩了????
@@JasonCheng88 而且我真的无聊,信了你的鬼话,去问了一下,没有错。。黑得漂亮。
我觉得还有很多常识性的问题没有讲透。
首先,deepseek R1出了蒸馏系列的模型,huggingface上有发布。蒸馏的是千问和llama3。LM Studio推荐的就是蒸馏Qwen 2.5的模型(Ollama发布的好像是原版R1),我自己尝试,似乎比原始模型更好。所以争议的点应该是商用服务有没有用的蒸馏。
其次,开源模型其实有两种用法:一种是个人使用、一种是商用。商用的话,由于版权方面的因素,有可能需要用户拿空白模型,用自己的数据来进行训练。(当然,考虑到deepseek也花了不少钱,只是相比OpenAI少得多,估计自己训练的人不会多。)
如果是是讲开源模型,那就不是商用。商用有商用的逻辑。
一路各种模型是过来,我看好deepseek,是觉得它的思考过程比较“聪明”,而不是“博学”。相信很多技术人员的观感都来源于此。
很多人讲什么回答对不对,包括你说知识蒸馏,其实都是在讲博学。这和真正技术关心的不是一回事情。技术更关心自己电脑上跑的阉割版(量化)模型能达到什么水准。
OpenAI典型是在关键性影响的问题上没招了,就从这些细枝末节的地方试图找茬。
你是技术,应该说清楚:对于AI来讲,“学到了什么知识”这种问题,凭什么技术架构、训练成本、算力需求这类问题相提并论?
你講得沒常識。我是技術人員,我沒你的觀感。
@@karlshomekitchen 好笑。你是想告诉我技术人员都应该有一样的观感吗?
你是自己做了AI模型,还是做过finetune?你是用过distilling,还是用过DSPy?
你说我没常识,是说哪个说错了呢?你是不是应该把具体的问题说出来呢?我说的都是具体的问题,你就来吐个槽?这叫技术人员?
大模型的聪明很多时候是根植于博学,换言之,没有足够的知识,就不可能聪明。
@@海東靑 你笑得太快,不像技術人員。是你說“技术更关心”,這個基本是在說一樣的觀感。“相信很多技术人员的观感都来源于此”,這個等於正確廢話,技術人員你就講你自己的看法,相信很多有啥用?我相信很多技術人員的觀感都是這裏面有貓膩。
現在的熱點討論是R1有沒有蒸餾ChatGPT。不是在關心是否蒸餾了千問和llama3。你技術人員認爲DS的n百萬美元的模型是用了這種蒸餾嗎?無論個人還是商用
你是自己做了AI模型,还是做过finetune?你是用过distilling,还是用过DSPy?別這麽沒啥具體行不?給個技術論文我開開眼呢?
@@binw42 很多技術人員比較具體,不夠博學?當然,技術人員其實也未必需要聰明
非常感谢,请您喝杯咖啡。
感谢感谢😀😀
技术问题解释得非常清楚,但外界对Deepseek的质疑不在技术层面,概括起来有两点:第一点,如果它是一个自主开发的 teacher AI,那它宣称的只用2000个 lower performance GPU 就能完成这样的计算量是不可能的,因此对硬件的成本和使用可能有所瞒报。第二点,如果是采用了diatillation 方法利用其他 AI 模型的数据完成 Deepseek AI 的训练(student AI 模式),在技术上没有问题,但会引发知识产权盗窃的纠纷。因为distillation 其他公司的 knowledge 做商业使用,必须取得原创公司的授权许可,否则就涉嫌侵权,特别是用来创造和原创公司竞争的产品。所以,Deepseek 的高调发布是福是祸,还得让子弹再飞一会儿。目前美国政府已介入调查。如果是前者,可能会引发对中国芯片的进一步制裁。如果是后者,不外乎为中美关系雪上加霜。
技術問題沒解釋清楚,例如沒有解釋外界對DeepSick的技術層面質疑
另一个“华为”而已😂
@@karlshomekitchen啥质疑? chat的科学家都出来说了他们的技术领先,不会是民科的质疑吧?
h800不是低端显卡😂了解后再喷,本身openai不是re train的,了解了rl再喷
@@galois6796 是你在民科理解。啥質疑你都不知道就知道民科。他們只是說如果真是這樣而已。如果chat的科學家說他們沒領先,你就會說chat是民科吧?
讲挺好,,本质上就是用GPT模型产出了一些辅助训练数据
感謝知識. 重點是 Deepseek 神經網路的模型有沒有抄襲? 結構有沒有更優更有效率?
Deepseek 如果只是把 OpenAI 當作 test bench, 用大量 test cases 來檢視自己模型輸出與 OpenAI 輸出的差異, 來改善自己的模型, 並沒有什麼逆向工程與抄襲的問題吧.
只是 OpenAI 不甘心被當作開發工具, 美國政府用 Distillation 這個模糊字眼來愚民反中, 保顏面
愚民不要太多,例如以爲distillation是模糊字眼的
@@karlshomekitchen确实看起来你就不太聪明的样子
deepseek最厉害的地方就在于它是第一个公开通过强化训练实现的推理大模型,可以说是开宗立派,根本抄无可抄
@@wbdd2500 不聰明的往往這樣說,尤其在網上
@@gaobili 抄襲的都這麽說啦
博主讲的很清楚,受教了!能否讲下所谓的开源和闭源模型之间的区别?到底谁更具有优势?另外按照博主解释,student AI在学习以后完成自身模式的搭建后,是否在算力上就能与teacher AI相同呢?我感觉理论上来说DS能够做到的GPT同样能够做到,为什么大家对于DS的评价会这么高呢,美国会这么惧怕DS呢?
才不管那麼多,最重要是免費和开源。
白嫖資本家,嘿嘿嘿!
那是,免費和開源的地溝油不香嗎?
这么简单的事实还需要讨论吗,如果蒸馏有用的话,openai蒸馏一下自己不就宇宙第一了吗,还能输给deepseek?
言简意赅!😸
有沒有蒸馏OpenAI在沒看到實據前大家都在瞎說, 今天我就問了openai, gemini跟deepseek同樣一個問題 "假設達文西在義大利有後代, 那麼今天去羅馬旅遊遇到達文西後代的機率有多少?", 我先問deepseek, 因為怕它做弊先問了其它ai, 再問openai , gemini, 回答結果是DS最老實的做了還不錯的推理假設, openai, gemini出乎我意外的是沒根據我的假設做出滿意的推理,反而講了一堆其實是推不出來的結論, 有興趣的人可以去試試, 由此我是不太相信蒸馏說法
蒸馏所获得不是具体结果,而是通过蒸馏,不断优化思维过程
@@semipunk 你这说法更可笑。因为如果你说的为真 那么更说明deepseek模型推理更强。就像学生仅靠老师的解题思路就能做出来比老师更好的结果。
把DS的推理假設搬上了大家開開眼呢?
@karlshomekitchen 你要证明你说得对,你懂论文。你就去复现一下。然后来反驳我。打嘴炮式的反驳毫无意义。
@@xuan-tingshu 你這不就是典型打嘴炮?我覺得DS是忽悠,忽悠的如何復現?你覺得沒忽悠,那麽科學態度是趕緊復現,證明沒忽悠啊。你説了這麽多啥地方證明你説得對就去復現過呢?
完整看完了,感谢作者的科普,真正传播了知识,而不是像部分评论区里一样,情绪化的互相指责
評論區的情緒化的互相指責很大程度上是作者的舞蹈,例如自作聰明的知識沉澱概念。很多文科同學於是覺得自己已經明白了,不就是上了老師的課學了知識再創新沒問題嗎?於是情緒化地指責別人這麽簡單的事情也搞不懂lol。對了,記得感謝一下我給你真正傳播的知識哦lol
真爱。不过我还是觉得要通过蒸馏把所有基础模型的支持拿到手难度太大了,成本也太高了。OpenAI的API可不便宜。就算做也是在有了好多TB基础预料训练出的模型上做自动化SFT或者RLHF比较靠谱。
不便宜如果想對算力費用,可以忽略不計.gpt算力都是虧的,巨虧
有國家支持怕什麼!
國家種了滿滿的韭菜⋯⋯
我记得以前读过大模型需要5T-10T文本数据做基础模型,就是纯预测下一个token的那种。如果压缩成token大概1-3T tokens, 按照GPT 4o的输出token算$5/1M token,没算错的话这里就要5-15M的成本了。大模型能精确复述很多知识点,这里感觉很难通过蒸馏其他模型做到,而且直接获取要便宜好多。模型在看了这么多书满腹经纶之后让老师模型来教他回答问题的思路感觉更靠谱点。
@@shaoyiwang9312韭菜你讲是自己😅
他可以蒸馏OpenAI,当然也可以蒸馏别的大语言模型,谷歌的、Meta的、阿里的、百度的、字节跳动的,可以做一个结果比对对知识取长补短。其实蒸馏这个真没啥,因为谁都能对自家AI进行蒸馏迭代,并且谁的算力资源多,做的蒸馏层数多就能更优化,只靠蒸馏不可能取得领先。
这条视频流量爆了啊!恭喜姐夫的油管频道在新年里越来越好了❤🎉
请问openai使用那么多数据获得了谁的授权?
自行研發的專利技術
@@bible000 中文听不懂么,数据不是技术
美国人可以偷抢杀奸但你不行,这叫白人至上。
用原生混沌的数据,跟用别人处理过的数据一样?@@Caoderrick
肯定是用户,現在login 網站都有一個你同不同意你的數據被收集的視窗。
非常感谢,许多点位清晰了不少!谢谢!
说到底 是open AI真的不要脸😂
OpenAI:“六爷,你吃了两碗粉,却只给了一碗钱,你给不起钱是吧,早说,我给啊。”
USA GOV:“六爷抛开肚子给它们看看,到底是几碗粉,六爷,您仗义。”
DeepSeek:(抬手两枪)“当你六爷没吃过亏是吗,这事儿早训练过了。”
满满的干货,谢谢楼主的讲解。听完后我想把直接从数据集上训练比喻为自学,把蒸馏比喻为跟着老师学,是不是更形象一些
這形象很差。你這是在罵老師lol
偷
普及一下openai API的常识。除了常用的completionAPI外,还有tokenizer和embedding API,分别是把输入分成token(基本词元),和把token映射成数值向量。这些数值向量才是真正的大模型输入。同样大模型的输出也是数值向量,需要相同步骤映射回去,才是最后的回答。completion里有参数,比如top_k,可以控制侯选的输出token,即在可能性最高的几个侯选者中随机选一个。通过控制这些参数和随机种子,可以探索一些模型的构造。
感谢感谢,我感觉自己蒸馏了一下老师的知识😂
活学活用了,属于是😂
但你不能把它用出来,否则就是盗窃🎄◟(˶> ᎑
你的老师蒸馏了他的老师的知识。。最终版权归爱因斯坦图灵所有,看来要把他俩挖出来了。。
你可以開視頻了,把你老師説的蒸餾了基本再說一遍,注意別用白板,有能力的要多加點搞笑動畫配音。對了,要用天才數學少女那種黑板。恭喜你創新了,你化的備課時間肯定比你老師遙遙領先
說個笑話,openai是close的
一句话总结,就是站在了巨人的肩膀上
自称"站在了巨人的肩膀上"的那个人是牛顿,Altman也许曾经试图吹嘘他比牛顿更伟大,不过现在他演砸了
反正美爹才是爹,中国就是山寨,抄袭狗就对了,是吧?
解释一下 deepseek怎么从闭源的chatgpt进行知识蒸馏?
谢谢,说得已经很清楚了 。
非常感谢,文科生也听懂了大概
讲解清晰,谢谢博主。
这是你的视频中做的最好的一个,讲的非常清楚。
大模型distrillation蒸馏,只是省了数据人工输入而已。
比如 Q:什么叫汽车? A:由动力驱动,具有3个或以上车轮的非轨道承载的车辆。
这个数据,要不自己叮铃咣地敲键盘 输入 QA 喂给大模型;
要不就连接另外一个大模型系统,发个它Q,接收A,把QA喂给自己大模型。。。
而这QA,都是现成的共享知识,不是所谓谁的,所以不存在抄袭一说。那些别有用心的指责都是 腹黑而已。有本事拿出 证据说话。
抄襲愛因斯坦相對論,只是省了數據人工輸入而已...
问题是别人花钱获取的共享知识。你免费获取了,并且人家公示了,不允许这么做
@@dhzhbb 你先看看OpenAI 自己干了什么!
首先,没有确凿证据证明DeepSeek在训练中蒸馏了ChatGPT的数据。
其次,OpenAI CEO曾经说过,如果没有剽窃受版权保护的材料,就不会有OpenAI。
OpenAI的律师在答辩时称,用于其训练人工智能机器人的大量数据受到“合理使用”(fair use)规则的保护。所谓“fair use”是美国法律中的一项原则,允许将受版权保护的材料用于教育、研究或评注等目的。OpenAI的最大投资者微软的律师提出,OpenAI采用《纽约时报》的新闻文本并不违法,因为版权法对大语言模型(LLM)的适用性应该比照录像机(VCR),或复印机、个人电脑、互联网、搜索引擎或钢琴。
人工智能评论家Ed Zitron:“OpenAI这家靠窃取整个互联网而成立的公司正在哭泣,因为DeepSeek可能已经接受了ChatGPT的输出训练。”
另一位Bluesky用户的更为激进的观点:“如果你窃取了全世界所有的艺术,来制造出欺骗性和不能进行算术运算的技术,并为此收取200美元/每月的费用。而有人窃取了你的技术,然后免费提供这项技术。也许,你并非真正的受害者。”
人工智能评论家Gary Marcus在他的推特X上表示, OpenAI可能也未经许可窃取了UA-cam、纽约时报以及无数艺术家和作家的产权。
另谷歌的Gemini大语言模型也是用百度的文心一言大模型数据来训练其中文的。
在2023年12月18日的一次对Gemini-Pro的测试中,有人问它“你是谁”,Gemini-Pro答称:我是百度文心大模型。
@@dhzhbb 你连 有正事知识版权的数据到盗用了,还指责别人用你没有版权的数据?
Thank you! Jeff! Your explanation is clear and plain language for us to understand. Good job! Appreciated!
请问,蒸馏过程需要给出老师类似的答案,现在deepseek给出和GPT非常不一样的答案,这个蒸馏如何蒸的?
扯的什么蛋,distill需要原始模型
这些优化都是取巧,是在LLM基础上的微创
讲的很清楚,很大白话了,谢谢及时出这个视频
听起来像为了应付托福考试,不去好好学英语,而是去上新东方刷大量题。
老范早在DS这几天热闹之前好几个星期就出了一期节目, 也点出了你说的这个意思。我觉得有点类似那个九章计算机, 或者Tesla与东大电动车自动驾驶的差别, 就是虽然实用, 但不是根本通用。
收割,優化
鉴定完毕这个SB评论只是看了一眼标题,没有完全看完视频,或者说根本看不懂
@@haochide6500 我惡補了幾天,覺得更像老范說過的那個天才數學少女lol
那這樣比喻不知道正確? 中國孔明(老子兵少更擅長兵法,以小博大) vs 美國司馬懿(老子兵多,硬實力打爆你)
人家就是做一个小模型,让世界免费使用而已,一定要这样那样的,你们开心就好
谢谢讲解,受益啦!现代生活中有多少技术不是“蒸馏”步步升高的,按照美国人对deepseek的指责意思,特斯拉、福特、丰田都应该告发中国汽车业要求赔偿。
你明顯沒有聽懂什麽是蒸餾。再説,他們不告的一個原因是大國法院未必公正,而且得罪了你們會被戰狼抵制而已
@@karlshomekitchen你显然也没听懂。而且openai的真着急,大可以在美国法院起诉,试试看呗
@@高贵的信仰 哈,轉移話題樂。“也”沒聽懂?我聽了幾句就沒聽下去,爲啥?覺得是個你這種文科生講的,不用再聼了
这层里的台湾人可真无耻,trump说了台积电偷了美国的技术才能发展的,也难怪,张忠谋当初就是从德州仪器里偷了不少技术出来,怎么一群都没去过美国的中国人用了人家api付费调取了一些数据就成偷了?难怪湾仔盛产诈骗犯。😂😂😂
蒸餾要有開源模型,或者你們要有完全相同的數據庫,這兩個前提都沒有,要咋蒸
以推理模型( OpenAI o1及 DeepSeek R1) 需要思考链(CoT) 的阐述内容,常理上使用监督学习(注重每一个步骤细节的掌控)作为训练较为合理完整,而DeepSeek使用的强化学习(只注重目标结果的奖励)训练效果却与监督学习相当,请问你觉得为什么会这样呢? 目前这个效果在DeepSeek R1是呈现了,可以较直关合理化解释其中的道理吗?
分了几个专家模块,Open AI和Meta的工程师想不到吗?
想得到,但是多專家模型在回答問題是更加耗電
想到啊,很久的技术了,另外了GPT-4也许也是moe模型,deepseek还有很多优化技巧,另外meta的llama3是为了验证单体模型可以训练的极限而没有用moe架构
他们想得到,说不定还做了,但是为了钱,他们选择不公开,让其他的研究人员面对黑箱
chatgpt4o也是moe的,只不过他们没说。
NV, OpenAI / Meta, Wallstreet都有一個共同利益
效率不是他們的優先事項
在老師講課到2/3時,看見和聽到老師呼吸換氣時出現明顯的心血管有嚴重堵塞問題,中閒還有斷斷續續的講述情況,這種情況屬於短暫缺氧,趕緊去看心臟科!很有可能需要裝支架..
前面几句话感觉你挺关心老师的,后面非要说装一个支架吓死老师了🤣
趕緊問問DeepSick
@@朱佳佳-k9h 老師是個理工大男子
open ai的模型是在从原始数据上跑出的。而蒸馏的前提是有teacher ai,没有teacher ai这种蒸馏提升效率的方式就不成立,就只能自己从原始数据上跑出来,自己从原始数据跑对于人员的安排,对于每天工作内容的安排,和拿到别人已经有的模型,然后去优化架构的人员安排是完全不同的,招的人都不同。这种什么浮点啥啥的,就是cs大一的水平。open ai的人力安排是在探索大模型这个技术的技术边界是在哪里,而deep seek这种工作,是基于别人已经探索出来的边界,去做架构优化,假如别人的探索出来的边界是错的,那他也跟着错。一个是在定义什么是问题,一个是在别人定义完问题后去优化资源。称不上是超越,在不知道什么是问题的情况下发现问题才是科学进步的第一驱动力。但是cs大一的知识都需要科普,那可能是get不到这一层的。
講的很棒,希望每一項目能細講及擧例子,可否也介紹一些書籍
你好gemini pro你是谁 ?gemini pro :我是百度文心大模型,一个由百度公司开发的大型语言模型
指责别人,先说清楚自己的数据来自那里吧
我問了gemini flash,回應它是谷歌的AI,不是文心
@@JasonCheng88 你啥时问的? 这都过去一年,你才想起来问,会不会太晚了
你用支語提問是這樣的。
看來蒸餾技術更適合於自我AI的迭代過程。由一個黑箱,來生成另一個黑箱。青出於藍也能更勝於藍。我不用博學思考的那麼廣那麼深,但是我可以敏捷並提供不錯的答案!
謝謝老師,講得深入淺出,對我了解DeepSeep的技術關鍵太有幫助。🙏😁
说的很好,不过唯一的问题是,先有知识结构,再有学习过程,最后才回事系统架构。deepseek的知识结构应该算是精简后的设计。所以才有优势
其实我觉得DeepSeek的影响在于这种低成本开发是不是可持续的方法,尤其是达到第一以后还能不能继续维持这种成本。如果可以,那就是颠覆业界后续模型的开发,反之则是一个低成本替代而已。
前期学习到了一定阶段就可以自己学习了。特别是现在的推理模型,如果你以为真的只能蒸馏来提高自己的能力,那就相对于你认为学生永远超不过老师一样可笑。
那這樣比喻不知道正確? 中國孔明(老子兵少更擅長兵法,以小博大) vs 美國司馬懿(老子兵多,硬實力打爆你)
@ 当然可以自主学习,我的问题是自主学习还能维持这种低成本吗。 总的来看,提到的多种DS独有技术确实能很大的提高性能,唯一的问题蒸馏在总体节约的成本中占了多少比例。
缺少持续创新,变向造轮子,应用型选手。
@ 自主学习在成本上和蒸馏数据没有区别,人工标注数据的才比较费钱,openai是用欠发达地区的人工来完成人工标注的这降低了一些费用。、openai也蒸馏数据,基本ai大模型都有在蒸馏数据。
春节快乐!希望老师细细再讲!
這個過程很符合華人教育特色,先知道答案,然後再來想計算過程
是的
你说的是海外那帮华裔😊
机器学习反向传播算法都是这样的啊,发明这个算法的人 John Hopfield 还得诺奖了,他并不是华人
@@王爱国-y9n 國内的華裔才不想計算過程。知道了答案還不趕緊交卷拿第一?
全世界基礎學校授課的方式,基本上都是教課本上的知識,也就是通才教育,不是華人才這麼教的
如果是你说的那样,那么OpenAI再把DeepSeek蒸馏一下,那就更强啦,反正就是循环往复😂
不用这么麻烦,自己蒸馏一下自己就出来了deepseek.
讚,我是我目前看到過的最詳盡的解說
他瞄的,有几个是听完up主说的才发言的。为了立场,为了心中的喜恶,估计都没几个自己部署模型。
从商业角度上讲,DS使用open ai的数据进行训练,那一定违背商业规定,不能说是完全的偷窃,但是有很大的法律风险。
说参考了openAI是典型的造谣,deepseek使用ptx(英伟达计算卡的汇编语言)来构建模型和算法,这不是高级语言,是机器语言编码,是全新的模型和算法。这与openAI完全不一样。所以它能极致的应用硬件性能。虚伪的openAI使用互联网数据训练而不付出任何代价,现在还造谣deepseek盗用他们的数据训练,这种典型的造谣,真的是让大家看到了openAI的无耻。
爆料open AI 侵权的爆料人已经被自杀了
你懂条毛。openai训练数据又是从那里来。 不都爬的全网吗。人家就没copyright啊
从商业角度上讲,你卖AI服务,只要别人付钱买了你的标价服务,只要不违法你管不到别人拿去做什么,如果不甘心别人借鉴,你可以卖高价或者干脆不卖就好了,OpenAI自己还被内部“吹哨人”揭露“白嫖”“蒸溜”出版商及媒体的文章和知识来盈利,行为更加恶劣。况且那么好的事情OpenAI为什么不自己蒸溜自己?
是这样的,用户协议里当然是有这个限制的。
我對A I並不理解,但是相同的觀念運用在各行各業上很多都是相同的狀況。
簡單來說就是歐美國家發明的新的東西,甚至有些是開源的,中國人最擅長的就是找到某個賺錢或是有利可圖的產品或是項目,先進行複製然後優化,下一步節省資源達到降低成本的目的,最後就是可以去搶佔市場。
優化也是要技術的,很多市面上突然間跑出來造成風強的產品,深圳那邊不需要一個禮拜就可以完美複製出來,用低一點檔次的原物料或是替代料,馬上就可以去搶佔原產品的市場。
深圳當地同行間,有的廠商用一個禮拜複製出來,其他的廠商搞不好兩三天就可以複製出來,這個也是需要專業知識和技術,不是這麼簡單⋯
你說抄襲,按照中國人的講法就是站在巨人的肩膀上,或是借鑒,我覺得是不能否認這一點。但是你要說是完全自主研發,這一點就很有水分。但是你說這個產品在某一個點或是某一個運用上比原來的更好,我覺得是非常有可能的,畢竟他是特別為了優化去做的產品,至少按照中國人的個性,降低成本肯定是第一要務😅
這就表示在市場上肯定有他的競爭力,同樣的理論不只套用在這一個事情上,你看電動車高鐵,還有一堆產品不都是一樣嗎?
以前在矽谷研發軟體的朋友曾經說過,搞這些東西不要怕抄襲,因為現在資訊太發達,保密也不可能這麼容易,特別是軟件方面的研發。你今天做出1.0 ,馬上就有人做出1.1你要做的不是去告他,而是要吸收他的優點,再加上更新的技術,盡快做出1.2,拼的就是研發時間和速度,只有用魔法能打敗魔法😂
當然,當你拳頭夠大的時候,你可以直接掀桌子不玩了,強制讓對方退出遊戲也是一種方法⋯⋯⋯
这次李老师真是我老师了
This the best explanation I've ever came across. Thank you so much!
听明白了,解释了我这几天的很多疑问。
问题:新的AI继续蒸馏DeepSeek,能出更优秀的新产品吗?
肯定能呀,deepseek不就蒸出来比GPT好吗?再用deepseek把GPT蒸一下,GPT就比deepseek好了。
@@atehe9589 真这么简单的话,美股不会大跌!
@@atehe9589 不是简单的蒸馏,首先要有创新的优化结构,然后用蒸馏法训练,提高效率。
@@heping5384感觉整个评论区只有你懂,剩下都是鸡同鸭讲各说各话
@@hahWow-tz1zp 那麽你也是不懂的?一個不懂的如何判斷只有他最懂。不懂lol
说直接拿 openai 蒸馏的 其他公司蒸馏一个同样水平的看看?
李老师真是你老师👍❤
感謝講解!😁😁
如果他们诋毁成功了,那文心一言为可以起诉Gemini,如果有相同条款
笑死我了你这个笑话 他们又要说前提了文心怎么来的了哈哈哈哈哈 你就准备进入无限套娃阶段吧
@@selelngth 文心一言和Gemini做的是红烧排骨,OPENAI做的土豆牛肉,但是DEEPSEEK 的土豆牛肉更好吃,每家公司都是辛知杜明,如果 deepseek 被干,难免AI界不血雨腥风,这不利于广大吃馆子的老百姓,一句话因为OPENAI后面的大股东微软非常不爽,因为都在品别人的菜研究自己的厨艺,但是微软投入大啊
讲得非常好!讲得很清楚了!!👍👍
有夠好笑,DeepSeek如果靠蒸餾OpenAI就超越他,那OpenAI幹嘛不自己蒸餾自己?
这是技术进化的一种很自然的方式
蒸馏需要teach's token logit 。openai模型是闭源去哪里拿logit ? 除非蒸馏被重新定义了
你学了别人总结好的知识,但脑子还是自己的
1万个实际问题需要回答。你用1千个问题答案蒸馏,然后你得出了个简单的逻辑,用这个简单逻辑回答另外9千个问题比原始复杂逻辑的老师都好,你信吗?
@@atehe9589 没学过物理定律?纷繁复杂的现象背后是,最简单的方程
@@atehe9589 当然是可能的啊,难道爱因斯坦没有他的老师聪明?
Distill这里是“数据提取”,不是什么“蒸馏”。每一家都在distill,只是DeepSeek 好象技高一筹