GPT，GPT-2，GPT-3 论文精读【论文精读】

跟李沐学AI

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 15 лис 2024

КОМЕНТАРІ • 120

@GooCarlos Рік тому ⁺¹⁶²
谢谢播主。我整理了这篇视频中的一些术语表：
[ ] 预训练模型（Pre-trained Model）：指在大规模的数据集上，通过无监督学习方法，训练好了一个通用的模型，可供后续的任务微调和迁移学习使用。
[ ] 微调模型（Fine-tuned Model）：指使用预训练模型作为初始权重，再使用与任务相关的数据集对其进行调整和优化，以适应特定的任务需求，这个过程叫做微调。
[ ] 数据集（Dataset）：是指用于机器学习的数据集合，其中包含了一组样本和其对应的标签（如果是监督学习）。
[ ] 与任务相关的数据集[ ] 标签（Label）：是数据集中的一个元素，它是用来标记样本类别的标识符。
[ ] 多任务学习（Multi-Task Learning）：指一个模型可以同时处理多个相关的任务，从而提高模型的泛化能力。
[ ] 子任务（Subtask）：指任务中的一个子问题或一个相对独立的小任务。
[ ] 半监督学习（Semi-Supervised Learning）和自监督学习（Self-Supervised Learning）：都是无监督学习的一种，半监督学习使用带有标签的和未标记的数据来训练模型，而自监督学习则通过对未标记的数据进行一些预测任务来进行学习。
[ ] 超参数（Hyperparameter）：指在训练模型时需要手动设置的参数，如学习率、批量大小、迭代次数等。
[ ] Transformer，是一种基于注意力机制的深度神经网络模型，被广泛应用于自然语言处理任务。
[ ] 解码器，使用掩码
[ ] 编码器，使用整个序列
[ ] BERT：是一种基于Transformer的预训练模型，它通过无监督学习的方式预训练了一个双向语言模型，是一种常用的自然语言处理技术。
[ ] BERT Base
[ ] BERT Large
[ ] 模型层数和模型宽度：指模型中的神经网络层数和每层神经元的个数，这些参数会影响模型的复杂度和性能。
[ ] Zero Shot、One Shot和Few Shot：这是几种模型可以处理的不同问题类型。Zero Shot指模型能够在没有接触到任何有关问题的数据时，对给定问题进行推理。One Shot指模型能够在只有一个数据示例的情况下完成任务。Few Shot指模型能够在只有很少的数据示例的情况下完成任务。
[ ] Prompt及分隔符：在自然语言生成任务中，可以使用一些预定义的关键词和短语来帮助模型更好地理解和生成文本。Prompt指的是这些预定义的关键词和短语，分隔符则指的是在输入中用于分隔Prompt和要生成的文本的特殊符号。
[ ] 信噪比（Signal-to-Noise Ratio）：指信号与噪声的比率，用来描述在数据中信号所占的比例，越高表示信号对噪声的影响越大。
[ ] 可学习参数（Learnable Parameters）：是指神经网络中需要通过训练学习到的参数，如权重和偏置等。
[ ] 注意力机制（Attention Mechanism）：是一种用于机器学习和自然语言处理中的技术，它允许模型集中注意力于与当前任务相关的部分，以便更好地进行处理
@haohanshi4377 Рік тому ⁺⁸
看来很多外行人来看这个视频？但我感觉沐神的论文讲解视频不适合外行人看啊，很难看懂，最起码要有点DL/NLP的基础。
@geliangzhu9146 Рік тому ⁺¹
都可以让ChatGPT来解释概念
@traderchow Рік тому ⁺³
@@haohanshi4377 这种术语单是文字理解太浅
@did28 Рік тому ⁺⁷
你這個回復像是chatgpt風格
@haohanshi4377 Рік тому ⁺²
@@traderchow 懂的人不用看，看的人还是看不懂
@dongxuwang9096 Рік тому ⁺⁷
本人小白，看完您的视频，大概理解度为40%，氮仍然坚持看完。时至今天chatgpt火爆全网，您的视频仿佛让人看到了参天大树是怎么从小树苗成长起来的。
@123321allstar Рік тому ⁺⁶
感谢讲解，深入浅出，通俗易懂。在ChatGPT大火的现在再回味有更多的理解了。
@田中-p6n Рік тому ⁺¹²
多谢讲解。我虽然算是比较了解这一块的，但是也只是对transformer和BERT有所深入，对于GPT一直都是只知道一个大概。尤其是GPT的Zero-shot，one-shot和Few-shot居然是在不重新训练模型的情况下，通过改变输入序列来实现这一点真的是非常的佩服。必须支持
@rchenandrews2850 6 місяців тому
讲得挺好，沐哥深入浅出，很有帮助
@albertwang5974 2 роки тому ⁺⁵⁹
大神就是大神，能把这种看来高不可攀的论文解说得通俗易懂！
@dakadoja2547 Рік тому ⁺²
纠正下20:56左右的读音问题，Θ这个希腊字母念theta不念phi，phi是字母Φ的读音哈
@legolas4722 Рік тому ⁺¹
非常精彩的解读，感谢分享！
@snowaIker 7 місяців тому ⁺²
Tom brown 没有接受过学术训练，也没有什么理论基础，其实他就是一个实验员。文章写成这样不奇怪。deep learning的门槛实在太低。kaiming he的文章10年被应用200k次，就是加了个残差链接，纯是个工程trick。反过来，一个诺贝尔物理学奖的教授一辈子的引用率可能才100k次。所以DL虽然热，但它实在不能算科学，只能算实验。因为难的活儿全交给计算机糊里糊涂就做了。
@Fat_Cat_Fly Рік тому ⁺³
高屋建瓴的解读，感谢！
@tildarusso Рік тому ⁺²
感谢这么清晰易懂的解释。这些（老）大模型的横向比较使得梳理技术路线改进容易很多。
@grhaonan Рік тому
非常好的讲解大神就是大神
@spacecat609 Рік тому ⁺³
ai需要一个极大的数据集才能“暴力出奇迹”，这点和人的触类旁通、衍生泛化能力不一样啊，难怪ai经常出现一些很明显的问题，感觉可能还得等未来量子计算机以及对应新算法结合ai才能解决这些问题了
@kururuhuang3829 7 місяців тому
感谢大神解读
@b95109028 Рік тому
感謝哥。神就是神
@sun_ke Рік тому ⁺²
希望你可以继续做下去，太棒了
@perfect1513 Рік тому ⁺⁷
很是惊讶，大佬这是一年前的视频了！也就是说“GPT”这名称一年前就有了。一年前居然都没听说过，自己太孤陋寡闻！
@menkiguo7805 Рік тому ⁺¹
2017就有了
@tongwu3039 Рік тому
不在这个学术方向，不知道也正常啦；chatgpt把rlhf的llm带到公众面前，看起来好像特突然一样，其实是学术界和工业界数年的迭代成果
@Edward-un2ej Рік тому
感谢老师的讲解
@zhaozheng2426 Рік тому
感谢分享非常有帮助
@yangkewen Рік тому
经典中的经典，膜拜木神
@serendipity0306 Рік тому
请问沐神，GPT如何处理数字？尤其是浮点数。数字是infinite，感觉很难直接加入token。以前传统NLP模型就用一个[NUM]代表数字，但就肯定无法处理数学加减运算。不知道GPT的数学运算是如何形成的。
@luckxn Рік тому ⁺¹
谢谢李博，希望有机会能开个ESL的课程，特别是数学方面的讲解
@dorisfang8636 2 роки тому
听你解读非常有意思
@paralellun8485 2 місяці тому
19:08~23"00 3.1 Unsupervised pre-training
20:30 為什麼要相加 ??
24:52 看不懂式(3)(4)
@pingwu9631 Рік тому ⁺³
讲讲ChatGPT 啊，坐等❤
@kioly_ah Рік тому
已经讲了，还是你理解有问题
@pingwu9631 Рік тому
从头到尾看完了，太好了🎉
@zhaoc033 Рік тому
老板讲的太好了吧能不能把领域稍微广一点？比如除了各大tech厂都是ads赚钱，可以讲讲ads这边的system的paper。
@liwenchang3260 5 місяців тому
請問P (u) = softmax(hn WeT )， hn WeT 應該是和U一樣大的矩陣，而P應該是一個數值而不是向量或矩陣，如何做softmax，得到概率P？
@wangzhiqiang3693 Рік тому ⁺²
那么把Bert 模型往大了做，会不会有类似的效果或者甚至更好呢
@AbbyOAO Місяць тому
不是有 BERT-Large了嗎🤔
@janchangchou777 7 місяців тому
Part 1):
任何一條神經網路也是一個多變數廻歸分析，也是統計學迴歸分析的一環。我在40年前攻讀數理統計就涉及這些人工智能及多變量（含時間變量）的廻歸分析（向量/ 矩陣/ 線性代數/ 機率/ 取様….）, 以便對一些事件做出精准智能的預測。
所謂自我學習或機器學習也只是用後面收集或模擬出的更新的資料去修正原先迥歸分析的杈重或係數參數而已。
而深度學習也只是處理巨量變數時，為了避免僅用單層機器學習進行巨量變數而需要解大矩陣導致對巨量平行計算的需求，進而變換設計成每層適量變數，建立多層次的機器學習修正。
40 年前人工智慧就是數理統計的一大課題。馬斯克說得一點都沒錯-目前的人工智慧全部建立在數理統計的基礎上。從那時開始就不斷有各行各業的數據分析專業人士來我們數理統計這參與並學習迥歸分析。他們回去後就不斷建立了屬於他們行業內的多條神經網絡（行業內的迥歸模型）。
在那時從事這類研究工作的數理統計的博士生全部被限制在晚上12 時過後才能使用國家級的超級計算機，否則我們兩三𠆤人一上線全部就大當機。我們那時也發展出一套類似挖礦機的方式，利用所有大量閒置的𠆤人電腦來提供其微小的算力，進而整合這些龐大的所謂分散型算力，但受限那時網路的不發達，很難把規模擴大。
近幾十年隨計算機能力不斷提升，目前市面AI 所謂大模型，主要是著力於面對”服務大衆需要”的所謂生成式/ 語言等等的智能協作服務。就是把百行百業各個領域等等數以千萬千億計資料進行迥歸模型的建立及修正（所謂自我深度學習）而形成龐大的神經網絡。
因此也不用太誇大眼下的AI , 這些早在40 年以前都已建構了理論基礎，而智能恊作早在各專業領域都已發展的非常完善，只是因過去算力不足只能在各自專業領域進行中小規模（變量數較少）的神經網絡建構。例如氣象預報就是早期最明顯的利用氣象專用超高速大電腦發展為成熟預測能力（AI)的例子，股票買賣決策也是智能恊作(AI/CIC)的典型。
”把簡單數學上使用即存的規模資料或電腦模擬資料進行所謂的㢠歸分析/模型建構並藉此模型做可行的智能預判或恊作，包裝成醫學上複雜尚未完全掌握的神經網路的機制及作用原理”，不但瓢竊了數理統計在AI 發展的絕對地位，實在也是在誤導整𠆤AI 的發展。也會造成眼下一般人的過度期待和焦慮。應將AI 改稱作” CIC:Computer Intelligent Collaboration , 電腦智能恊作，更為恰當。
何謂知識？由經驗總結後（抽象具體化），就形成知識（用數字分析的表達方式就是去建構知識模型）。形成知識後就可複製/ 傳承/ 預測/ 擴展。因此目前的AI 發展，就是在循人類文明發展至為重要的其中的一𠆤過程-只是採用了數位化的方式，將經驗知識化了。
目前的AI 只是以數理統計為手段及方法論，以資訊及計算機工程為工具，進行數位型的經驗知識化的過程。
人類有許多其他不同型態非常複雜的智慧，這種僅止於知識數位化的智慧，其實離人類多型態的智慧還有非常巨大的距離。
另外，眼下AI 服務於大衆的大模型的各種數學理論及所謂的機器學習（參數修正）及深度學習（參數及變數的多層次增加及修正）。早在40 年前相應的數學理論都已完備（但落實到實際應用上，如何解1 億 by 1 億的聯立方程組( 行列式計算），這需要極其龐大的平行計算能力，在那時期是完全不可能的）。
其實AI 最重要最關鍵的是各行各業各領域的專家組，而不是這些AI 編程的公司（他們只是依需求用已完善的數學統計理論加以電腦編程後，利用巨大算力去幫忙找出合適的模型並不斷予以完善）。
只有各行各業各領域的專家組才知道在茫茫大海中的資料及訊息中，那些因素才是其所涉領域的関鍵變數，那些變數資料才是可做為他們收集分析建立模型的。例如氣象學/經濟學/股票買賣智能決策/ 醫學/ 藥學/ 農業生產/ 基因工程/ 化學工程/自動駕駛/飛彈防空系統/圖像識別及處理/ 建築結構力學/小樣品模擬模型（核爆/飛機失事）………..等等。
此外服務大衆的語言學也是極度複雜的一門學課，其可能的變量變因會高達幾千萬𠆤，再加上多層級過濾學習修正的模式，因此其涉及的變數算力就以億計，所以才稱做大模型。要取那些因素進行那一層分析，主要都是語言學家在主導。
而這些眼下的AI 應用的公司，只是利用已發展完備的數學統計理論在不同領域專家組的指導下，去有效的進行數拈收集整理分析並進而建立一個特定領域的模型，作為該特定領域的電腦智能恊作工具。
@TL-fe9si Рік тому ⁺³
这片tech report很多细节语焉不详，大概率和公司的技术保密有关吧，以前读IBM早期的database论文，也碰到过类似问题。不一定是写作水平的问题，而是不能写
@linzhi9510 Рік тому
你好，这篇论文可以放一下链接吗？
@JiancongXie Рік тому
generative pre-trained model应该翻译成生成式预训练模型？
@MindStation0755 Рік тому
感谢分享
@zerome4007 Рік тому
字幕中多次出现的“标号”是什么意思呢
@paralellun8485 2 місяці тому
33:11 GPT2
@xianglee6863 Рік тому
generative 翻译成通用性的还是生成式的更恰当呢
@just-a-trash-can Рік тому
謝謝你的講解
@alexmahkgo Рік тому
好視頻。。。。快速輸入了。。。
@yuxuanjiang2749 Рік тому
酣畅淋漓！
@henern-wayn Рік тому
175B个参数orz，单词inference的成本是多少？
@Harry_Hugh Рік тому ⁺¹
小白问个问题：既然prompt engineering不涉及对原有模型的新training, 那 one-shot, few-shot中的example input有何意义呢？
@Edward-un2ej Рік тому ⁺¹
给模型提示，你要他干什么。就跟很多考试一样，开始给个例子，告诉该怎样回答。
@RRCapa-zg7cd Рік тому
karma是业力，果报，中性词。好的业力是功德。
@mekuayaakwaba5076 Рік тому
generative应该是生成的意思
@nuobaba 8 місяців тому
题外话，其实reddit和贴吧挺像的，质量高点
@Ricky-vz6xe 2 роки тому
沐神B站的课看来更新更勤呢😁
@trunwayqu5574 2 роки тому ⁺¹
GPT2的损失函数是啥？是怎么训练的？还是直接按照GPT的方法做的吗？
@fay227 Рік тому
21:00 encoder decoder
@汤金瓯 2 роки тому
听起来很轻松
@ericcosmic3143 Рік тому
感谢老师的讲解，但对于gpt2的zeroshot的训练还是不太了解
@jijie133 2 роки тому
Great video!
@reb947 Рік тому
Mu Li你好我想了解一下chatgpt的一些技术细节我不是技术专业的几年前因为工作的原因接触过一些人工智能的项目但是主要还是集中在计算机视觉领域当时一些从业者和我说过自然语言处理进展很慢你视频里提到近两年NLP领域有了一定的突破对于这方面我很感兴趣但是因为本身并不是这方面的专业所以知道的少理解能力也有限视频我还没有看完我在想视频看完以后有没有可能我整理一些问题然后联系到你向你请教？
@reb947 Рік тому
@@linfengzhang9119 我看了好像是个很厉害的科学家就是说普通人就联系不到他呗
@reb947 Рік тому
@@linfengzhang9119 或者您了解chatgpt或者自然语言处理近几年的发展吗可以的话我向您请教
@reb947 Рік тому
@@linfengzhang9119 没事不过还是谢谢啦
@did28 Рік тому
Amazon首席科學家應該不會很閒，不過你應該可以試試給他發郵件
@reb947 Рік тому
@@did28 好的谢谢提醒
@whuyland Рік тому
太棒了！感谢！
@vootanical5512 Рік тому ⁺¹
飞机也是大力出奇迹，不由得让人反思那些高深复杂的分析理论的意义在哪
@tycoonbig1776 Рік тому
一个是插值，另一个是外推
@JL-zw7er Рік тому
1:04中提到的，在few-shot learning中，上次抓取的信息，不能被存到模型中。为什么？是因为Attention也不能处理很多prompt的数据吗？
@yuewang3110 Рік тому ⁺¹
不是？few shot的意思是有了预训练模型以后不再train模型，而是在每一次预测的时候加一些东西到输入里面。被存到模型 = 改变了模型的参数
@JL-dr1du Рік тому
@@yuewang3110谢谢你的回答。
请让我再加深一下对于您说的train的理解。
few shot learning不是fine tune里面加进去的，而是predict时才加进去的？
按照我的理解，finetune也要不断训练。
要是之前的结果不能被保存到后面的train中去。那么只有丢进去一些数据，直接输出一次model，predict了。
是这样子吗？
@yuewang3110 Рік тому
@@JL-dr1du 我理解的是：之所以叫zero shot，就是因为不需要finetune，那么问题来了：为什么没有finetune，model依然可以在新的子任务上work呢？是因为每次predict的时候你都要给giudance（是的，就是每次都要给），这同时也就是不做finetune的代价
@eroo2271 Рік тому
reddit刚出的时候叫做英文版百度贴吧，现在强调数字安全中文环境已经变成信息荒漠了
@zxz9041 Рік тому
本地玩gpt需要什么gpu
@MSEEchen Рік тому ⁺¹
generative 是生成的，不是通用的10:11
@chaixubin9192 Рік тому
真不错
@Xrey56Cheyz Рік тому
sure its great content, but how did it get into my recommendations, i don't even know chinese
@leejack8496 Рік тому
really nice!
@richardhandsome9039 Рік тому
有个不懂得地方就是，子任务不做微调，那子任务训练有啥用？是不是可以理解可以不要子任务？
@liwang7817 Рік тому
所以人类是在互相较劲的过程中，研发了打败人类的技术😂
@jacobishao3773 Рік тому
大佬确实牛逼
@Arcadio4795 Рік тому
关注了！
@hailuyin9915 Рік тому
学习了
@Cat.the.Roblox.girl. Рік тому ⁺¹
總結：$$出奇蹟!!
@yiding4838 Рік тому
Reddit -> 天涯论坛
@gossipGirlMegan Рік тому
2倍速刚刚好。速率低了睡着了。
@djlslinet Рік тому
计算机视觉领先采用深度学习是必然的，小孩都是先看图后说话。大家自行体会。
@djlslinet Рік тому
这也是创新度这个词的另一种诠释，如果简单的组合而出去人工意识，这种创新很可能不具备资产化的能力。
@li-pingho1441 Рік тому
awesome!!!!!!
@RuiAn-vw3xc Рік тому
gpt3属于21世纪人类之光了
@jamesmina7258 5 місяців тому
沐神是华人AI之光啊
@LuckyGooseYA Рік тому ⁺¹
不是 phi 是 theta 😂
@章仔-m6h Рік тому
karma: 因果
@tildarusso Рік тому ⁺¹
karma翻译成因果是佛学概念容易让人混淆（实际含义是积累德行以获得因果报应），因为统计学习里面也有Bayes因果概念。在reddit场景不妨理解成“贡献值”或“赞同”更贴切。
@pab4588 Рік тому ⁺¹
最近的更新太慢了
@albertwang5974 2 роки тому ⁺²
在人工智能方面投入大量的精力学习后让我感到沮丧的一点就是：最后大家拼的还是谁有钱(算力)!
@汤金瓯 2 роки тому
你的场景需要这么多算力么
@汤金瓯 2 роки тому ⁺¹
应该还是拼有效数据
@Fat_Cat_Fly Рік тому
科研本身就需要硬件的投入，生物化学的实验室，物理的对撞机，哪一个不是价格高昂。
@yongkailiu1448 Рік тому
@@Fat_Cat_Fly 这种事情算科研？
@mak6969 Рік тому
Can you do English translation please
@momentos5599 Рік тому
pay pls
@wenzhengshan5103 Рік тому
prompt: 翻译下面单词’受益匪浅'
@jizhiguo Рік тому
摇人，快，摇人干死哪个模型
@johnliu4161 Рік тому
大神
@TaiwanGeek Рік тому
跪
@Donclion911 Рік тому
这些帮人写代码的ai都是用来忽悠门外汉的。生成那破玩意。。。。。没啥能用的
@whitebai6367 Рік тому ⁺³
其实应该这么想，只要不是0，那么到1，只是时间问题。毕竟以前没有生成代码的模型，这多少算有点进步
@zshikingjone2166 Рік тому
我完全是编程的门外汉，但用chat gpt生成了可用的python计算器程序，尽管gpt经过了几次修改
@Donclion911 Рік тому ⁺¹
@@zshikingjone2166 个人的建议，仅供参考。初学编程千万别用这种辅助工具。会成为工具的奴隶。等到有一定基础的时候，可以用来提升效率。
@羽·書 Рік тому
用了一个多月后，ai的代码质量比手底下那些混吃等死的人高得多
@xiao_wu Рік тому
再准备一点钱

Наступне

Автоматичне відтворення