【人工智能】使用递归合成数据训练AI模型会崩溃？| 《Nature》封面论文解读 | 模型退化 | 误差来源 | 困惑度样本 | AI数据污染 | 能否突破数据荒

Best Partners TV

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 8 вер 2024
6月24号，一篇名为《使用递归生成的数据进行训练，人工智能模型会崩溃》（AI models collapse when trained on recursively generated data）的论文，登上了学术顶刊nature的封面。文章只有短短五页纸，却给我们带来了一个足以动摇人工智能行业的结论，如果不加节制地使用合成数据，放任大模型用自动生成的数据来训练自己，那么AI 可能会在短时间内迅速的自我退化，在短短几代内，将原始内容迭代成无法挽回的胡言乱语。今天大飞就来带大家读读这篇论文。
#人工智能 #syntheticdata #llm #nature #collapse
成为此频道的会员，即可享受提前一天，观看频道最新发布视频的福利：
/ @bestpartners

КОМЕНТАРІ • 78

@feifeishuishui Місяць тому ⁺¹²
我一直觉得这是个常识性问题，AI生成的数据怎么能够用于产生预测真实世界的模型呢。我觉得很多人是脑子里灌了浆糊，以为都可以像AlphaGo那样，ai 左右互搏生成越来越厉害的模型，但其实围棋生成数据是可以把所有的变量都考虑进去的，因为围棋规则非常简单，但对于任何一个真实世界的问题，对结果有影响的变量几乎都是无穷多的，不可能把这些变量都编入 ai 里，那用AI生成的数据，忽略的变量必然是非常多的，就像大飞讲的，长尾都会被丢掉。AI要脱离人类生成真实数据，也可以，那就是要像特斯拉自动驾驶一样，Ai 自己到真实世界里面去开车然后收集数据，也就是做湿实验，那样收集的数据才是真实的数据。学理工科的都知道，如果谁一直只依赖干实验不做湿实验，结果的准确性要求只要稍微高一点，干实验不用多久都会完蛋
@motizuki1275 Місяць тому
不知道谁脑子里面灌了浆糊，你自己去查一查围棋一共有多少走法，并且用目前全球最快的超算24小时不间断计算要多久才能算完。围棋可以把所有变量都考虑进去这种逼话都能讲出来，一般真正脑子里面有浆糊的会认为那些科学家们脑子里面是浆糊😂
@SyuAsyou Місяць тому ⁺⁹
以前就想過數據荒會發生。要確保訓練資料的品質，最好的方法是由自己主動掌握高品質數據的來源，並且改良訓練方法。爬蟲抓取的資料只能放在相對較低的次序，何況現在網上的資料是越來越難爬了。
@ccbill2852 Місяць тому ⁺³
Great sharing and interesting topic, thanks
@user-wr6cn5pf4s Місяць тому ⁺⁵
这么看Tesla更有优势了，虽然他也采取一些拟合数据，去训练极端情况，总体来说，他采用了更多的原始高质量数据，并且这些数据都是没有污染的一手货。
@YetEthanOnly Місяць тому ⁺⁸
就是一個概率相乘的問題，越乘越不像越崩潰😂
@mysticracoon7284 Місяць тому ⁺³
不妨从人类自身寻找参考：
1.可以相互印证的知识体系在学习与实践中优于离散的知识点，那么对于ai的训练数据，应进行归纳整理，封装为“知识群”，并对其进行置信度评估
2.人脑由多种处理不同类型任务的脑区组成，那么采用专家系统，由若干不同知识领域的模型协作处理问题
这些应该已经是在进行了，各种大语言模型不约而同纷纷开始瘦身，协作型ai应该只是时间问题
@Liadu7788 Місяць тому ⁺¹⁴
此题无解. OpenAI迟迟拿不出GPT5肯定跟这个有关系. 这样,其他大模型追平至GPT4o后,也就到头了.
@bttfish Місяць тому
@@Liadu7788 后面只能靠RAG、graphRAG提升回答精确度了吧
@jasonjuan4768 Місяць тому ⁺¹
這不只是生成數據問題，是過度訓練重複的資料，生成內容基本上已經是過度重複的內容了，再訓練，能生成的範疇只會越來越集中，對極度狹窄的應用有可能是好處，但大多數應用的狀況不是，也可能會浪費模型的大小，因為只收斂到極小範圍的生成內容。
@user-9527-v9x Місяць тому ⁺⁶
因為網絡充滿虛假訊息，任由電腦自行學習不去糾正。
只會訓練出一個瘋子
@zgbns Місяць тому ⁺⁴
感觉人类的历史也有点像这个, 一代一代史料记载, 估计早已不是原来的剧本.
@gjlmotea Місяць тому ⁺¹
預言一下
問題出在於"惰性偷懶、通融腐敗"身上，由於當前的賞罰規則確立導致在這明確框架下所衍伸出的腐敗案例腐敗再腐敗延續下去
這是目前過擬合模型導致的問題，當未來AI架構變得像生物一樣無時無刻都在觀察生活、現實反饋、並修正的時候，就沒有這類問題了
@gjlmotea Місяць тому ⁺¹
同樣現象發生在人類身上，若只是抄襲仿製同一篇文章
用其他意思描述輸出出來，若不參考真實情況或數據
過幾代就開始喪失精確、胡言亂語，再過個幾百年就變成神話了
@singasong2864 Місяць тому ⁺⁴
AI生成的文本，需要加入某种水印，供机器和普通人识别
@ShawshankLam Місяць тому
沒辦法做到
@user-yi4hy7zw8e Місяць тому ⁺⁵
我記得Model Collapse 好像是去年的論文，應該是推上Nature才上了熱搜。目前在業界的實驗如果是兩個不同的模型或是一大一小模型暫時還不太需要擔心Model Collapse，反而小模型還可以類似蒸餾一樣受惠於大模型，最早那篇就有說明主要還是在於統計上誤差跟誤差累進的問題。不過像llama跟GPT4o都有一定人工數據跟人工介入調教基準而非全然模型生成，所以理論上不會像論文那樣極端。
@FusionC Місяць тому
Gan的时代基本上也都有model collapse的问题
@wghost4737 Місяць тому ⁺⁷
10年以后个人可以将自己日常生活中的所有数据出售给AI公司, 包括每天的对话语言数据/视觉图像数据/大脑皮层活动数据.
@Howard-de1gs Місяць тому
问题是人的认知也是garbage in garbage out.
@Kl20025 Місяць тому ⁺⁸
這是不是很像生物老化啊😅細胞一直分裂一直學習，學習遞歸過程中錯誤被放大，然後生物就會死亡,所以生物必需有新生和死亡😅😅😅😅😅
@369258147qwertyuiop Місяць тому ⁺²
很精闢
@MayTamWONG Місяць тому ⁺²
保住端粒應該就不一樣了。不知算法中的PQQ與NMN是怎樣一種存在。
@ericguo9974 Місяць тому ⁺²
混沌也出现了，人工智能越来越像天气预报了。
@smoggysmoky3009 Місяць тому ⁺⁴
这也能发Nature
@zxwxz Місяць тому ⁺⁴
我覺得這篇論文的描述實在是水份太多，目前LLm的訓練如果要進行合成數據的話一定會有更多的框架可以來協作生成，透過rag加上Multi agent的確認框架來製造所謂的合成數據一定不會是這種結果。open AI也有製作所謂的critic GPT看起來也不是這樣
@feifeishuishui Місяць тому ⁺¹
我一直觉得这是个常识性问题，AI生成的数据怎么能够无穷逼近预测真实世界的模型呢。我觉得很多人是脑子里灌了浆糊，以为都可以像AlphaGo那样，ai 左右互搏生成越来越厉害的模型，但其实围棋生成数据是可以把所有的变量都考虑进去的，因为围棋规则非常简单，但对于任何一个真实世界的问题，对结果有影响的变量几乎都是无穷多的，不可能把这些变量都编入 ai 里，那用AI生成的数据，忽略的变量必然是非常多的，就像大飞讲的，长尾都会被丢掉。AI要脱离人类生成真实数据，也可以，那就是要像特斯拉自动驾驶一样，Ai 自己到真实世界里面去开车然后收集数据，也就是做湿实验，那样收集的数据才是真实的数据。学理工科的都知道，如果谁一直只依赖干实验不做湿实验，结果的准确性要求只要稍微高一点，干实验不用多久都会完蛋
@zxwxz Місяць тому ⁺²
@feifeishuishui 強化學習已經是正在研究中的議題了，現在不明顯是因為對獎勵條件的設立不像圍棋單純，你無法在抽象的問答上面有很好的獎勵機制，且現在LLM的基準是設定在one shot，所有知識連結已經被硬編碼至transformer 內部。我預期之後的LLM會以meta learning方式建構知識體系，會在排除先驗知識庫狀況下訓練找出solution的機制，我認為coding會是非常好的訓練場域，至少結果會有確定性驗證，第一個實踐強化學習的LLM可能是coding。至於現實世界，我不認為一定要實體數據才能做訓練，參考一下NV做的這篇論文，ua-cam.com/video/86FCHBxqZZ8/v-deo.htmlsi=xvrK8dUFZU4euSA1。
目前連機器狗平衡訓練的都已經是靠虛擬環境+gpt4寫loss function，重點是還能zero finetune直接套用現實世界環境，之後robot相關的訓練一定非常大程度是在物理引擎內做強化學習。總而言之，我個人是認為不會只能依賴現實數據完成AGI，現實數據更多的只是導引大方向
@walkinmud3306 Місяць тому ⁺²
ai是一种有损压缩，想象一下把一个jpg以70%精度压缩十次。
@deter3 Місяць тому ⁺³
都不知道那些发论文说用合成数据可以大大提高模型的能力的研究者，有没有经过仔细思考。
@Guavaava Місяць тому ⁺¹²
正规新闻媒体的价值会越来越高。哪怕这些媒体收不到广告费也没有订阅收入，但只要坚持新闻和观点写作的质量，就可以靠给语言模型制造者提供内容活下去。
@feifeishuishui Місяць тому ⁺¹
可能是能活下去，但是恐怕会活的比较惨
@user-li-yu-jie Місяць тому ⁺²
在輸出的同時不斷的回頭審視先前的內容是否會有幫助？
@user-eu3bs5vu9w Місяць тому ⁺¹
很正常，这是反向传播梯度下降训练法的缺陷，反向传播本质是提取统计模式，样本中模式出现的频率越高，模型则更容易学习到模式。但是现实世界是，一些低频率模式有很高的价值，目前所有模型都无法反应这一现象。其实这是信息论的常识，低频的数据包含更多的信息量，高频的数据含有的信息量更少。这和反向传播的梯度下降法是一对矛盾的观点。
gpt模型无法实现通用AI ，原因就是无法提取高价值的低频模式
@patrickxu9645 Місяць тому ⁺³
我们人类社会都不知道男女怎么定义了，只要在近亲数据下，都会产生这样的荒诞。
@motizuki1275 Місяць тому
为什么要定义？这个世界本来就不是非黑即白，本来就是一堆不准确的元素组合起来的
@patrickxu9645 Місяць тому
@@motizuki1275 那你为什么要定义这个世界“非黑即白”？就像量子态一样，这个世界很可能是有明确定义的，比如某一个碳原子不可能拥有12.38个原子，要么12个要么14个，染色体要么XX要么XY，哪有中间态？你对世界的非黑即白也是一种定义不是么？
@ryanminato1735 25 днів тому
感觉这个结论虽然可能是对的，但是实验有点不够solid吧。只用了125m的模型，不scale up的话不能直接假定同样的现象会发生在更大的模型上。
实验本身小到这个规模会出现模型饱和的问题，和大模型普遍的过参数化情况不同。
@sujasper7881 Місяць тому ⁺²
沙发沙发
@hiucollo2402 Місяць тому ⁺²
Thank you 大飞 ☘ 😄 ✍ 😇 🀄 😃 ☕ 😁 🌸 😀 🧧
@YudanGu Місяць тому ⁺⁴
这个好像无解啊……最近就看到很多网站在抱怨各大模型制造者疯狂的爬取互联网内容来训练新模型
@Guavaava Місяць тому ⁺²
应该是厂商的爬虫写的有问题，没必要每天狂爬，一个网站每隔十天半个月爬一爬其实就够了
@YudanGu Місяць тому ⁺¹
@@Guavaava 是说那些每天有大量内容差生的社区和BBS啦，好像是那个最大的拆机社区在投诉Claud
@MayTamWONG Місяць тому ⁺²
@@Guavaava
有錢能使貘痾夢，誇張點說，也許一天爬十遍的心思都有了。現在是百貘大戰喔…畢竟很多都是動態網頁，而數據庫每秒都有增量…當然也許小網站可能好些還是用靜態頁面的，就算用數據庫，也沒變得那麼誇張。十五天或是經驗之談，但免不了仍是腦補一番。覺得抱怨與爬蟲出錯這對活寶未必不是搭子：若成雙的話，抱怨就或是擲出的，而非發出的，而出錯也就或是策略性的，而非信息差所致的。
@iammakimadog Місяць тому ⁺¹
生成式AI本來就是一個潘朵拉魔盒
AI生成的圖片影片音樂文字只會指數形式越來越多直到摧毀互聯網
可悲的是人們還在為生成式AI狂歡
殊不知我們只是不停加速駛向懸崖
@BianJunShenYin Місяць тому ⁺¹
在线搜集对话数据
@awesomegmg956 23 дні тому
如果加上Monte Carlo Dropout，另外训练一个独立的ranker做PRL，会怎样？
@peterchang3998 Місяць тому ⁺²
神經網絡模擬得到的功能其實是條件反射，而不是主觀意識。很多現在的到的結果和思維智能模型搭不上界的。
@chia-linwang9238 Місяць тому ⁺³
找一萬個人，付他們薪水，讓他們每天跟其他人隨便聊天，即時收音，將語音轉為文字，應該就是訓練數據的理想來源了吧？
@Howard-de1gs Місяць тому ⁺¹
筛选数据源的成本变得越来越高
@zhaoboxu833 21 день тому
生成式的范式居然这么快就走到头了呃。。。我一直认为人类智能最重要的一环就是抽象+演绎，这也是AGI的必经之路。生成式的训练目标是“找到最像的”，也就是完全剥离了抽象加演绎的结构，是条死路。
@user-yb2kd7gr1b Місяць тому ⁺¹
@@ ai也是會發瘋的
@user-qu2jf8mc5b Місяць тому ⁺²
從一開始就是拉箕，吃多了就更拉箕 😂😂😂
@30abaw 27 днів тому
就像现在问chatgpt任何问题，只要一直问下去，图像就会宇宙化。合理，但是无用。
@trainlooper Місяць тому ⁺¹
👽餵人工合成資料給🤖AI吃, AI模型會崩潰.....應證了..... 天然的🐻好這句話 ............, 現在AI普及越來越多網路內容都是AI生成撰編的, 未來AI找新鮮天然的訓練資料將是大問題 ........ , 也就是說拿到天然資料的第一代AI廠商佔了天然資料絕對優勢 , 至於如何解決天然數據荒 ...... 免費的🐻好 , 就像🍯能吸引🐝 , 弄一些看起來像是免費的網路服務, 天然數據就會自動上門...., 或是AI刻意地出現bug吸引使用者使用又不會得罪付費客戶, 某大語言模型的變成付費版咒語刻意洩漏 😁
@yinyiwang Місяць тому ⁺¹
梯云纵
@nonambition Місяць тому ⁺³
生成的数据一定要像真实世界一样是有边界的数据。不然就会出现真实世界不存在的无边界的物体。
@pensularnaseeare9531 Місяць тому ⁺²
问题不大，训练专门筛查合成数据的模型不就行了？
@mengmeng4312 Місяць тому ⁺²
不要说大模型了，人也会被洗脑吧
@tessxu8367 Місяць тому
不是每个人都会被洗脑，但每个大模型都会被洗脑。
@kangcc912 Місяць тому ⁺¹
不經會想到八股文、言論審查、1984
@eckhartmeister0e1acc Місяць тому ⁺⁴
用中国公安部的监控数据，保证真实有效。
@roseblack6089 Місяць тому ⁺²
不行说假话太多
@Howard-de1gs Місяць тому ⁺¹
没办法，如果人变成了整个优化过程中被优化的一环，奔溃是不可避免的
@user-so3mm5fb8t Місяць тому ⁺²
哈
@TommyWhite-fz5bz Місяць тому ⁺²
如果这个世界本身就是虚拟的。也就是由一个超级AI生成的。那么我们拿着“现实”中的数据去训练我们自己的AI，是不是也会遇到无法训练出强人工智能AI的问题。
@jarodtang Місяць тому ⁺²
所以“如果这个世界本身就是虚拟的”
@Howard-de1gs Місяць тому ⁺¹
1984的真理部出现了
@yefifi8576 Місяць тому ⁺²
那该如何是好……. 所以你龙马是可呼吁对AI模型发展的管理和控制，不是耸人听闻的！！！！！

Наступне

Автоматичне відтворення

The moment we stopped understanding AI [AlexNet]