从编解码和词嵌入开始，一步一步理解Transformer，注意力机制(Attention)的本质是卷积神经网络(CNN)

王木头学科学

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 6 кві 2024
Наука та технологія

КОМЕНТАРІ • 138

@fengjieli5099 3 місяці тому ⁺⁷⁷
作为一个有博士学位的ML的专业从业者，我也从王木头的视频中学到了很多内容。讲解十分清晰，并注重直观上的理解，很有价值。辛苦了！把视频放在youtube上也是很好的想法。要不然，在国外国外的人是不容易发现的。这里要感谢一下youtube的recommendation algorithms。
@hbb21st 2 місяці тому ⁺³
确实，这哥们讲得老少皆宜😂
@user-vb5et9co3d 2 місяці тому ⁺²
謙遜的老師我覺得超級棒，讓我想到台大的傲慢與不知天高地厚
@user-bm5ge1cr2l Місяць тому
谦虚使人更加牛逼。哈哈哈哈
@YingleiZhang 4 дні тому
看完了。再次赞一下。通俗易懂，脉络清晰，深表感谢！
@chengchen1591 2 місяці тому ⁺⁴
厉害，不仅理解的透彻而且表达的清晰。能把复杂的数学问题形象的表达出来，非常佩服。
@user-dd8rp2kq1p 3 місяці тому
谢谢老师，讲的非常好，可以感受到老师的专业，用心，与付出。
@hercules1943 3 місяці тому ⁺²
謝謝老師，專業，有料，表達能力超棒！
@kuchi13579 3 місяці тому ⁺¹²
致敬王老师！满满干货，我头一回慢速去看youtube视频。。。线性代数教学那个吐槽，太有同感了。。我学线性代数时候就总想直观去理解它的几何意义，可惜没琢磨这么透彻。。老师照本宣科，学生稀里糊涂。。
@user-mm9yt1yl2b 3 місяці тому ⁺⁸
其实第二部分老师不用去特别的去强调割裂空间和向量之间的关系，二者本来就是一体的，空间是客观的，但是对于空间的具体描述总是需要在一个具体的坐标系中进行的，也就是说我们总是习惯于使用一组标准的单位向量去描述一个空间，这组向量一般称之为基向量，矩阵代表着对空间的变换，是针对空间中的每一个向量进行的变换，自然也包括对充当这个空间的坐标系的基向量进行的变化，二者是一回事
@kenlu2014 3 місяці тому
这个视频是在太经典了，多谢王木头分享！！！
@yugio5991 3 місяці тому ⁺²
不知不覺直接看完整個影片，講的真好，也填補了當初不解的地方。
@allen-lee 20 днів тому ⁺¹
感谢博主细致专业的讲解，这个视频值得多刷好多遍了
@ponychen7750 3 місяці тому ⁺⁷
目前只看了这一集（多头注意力还没有细看），几点感受：
1，从word2vec讲起来能够让大家在短时间里面抓住Transformer的脉络，实际上Transformer在生成翻译的时候也借鉴了RNN的思想。宏观上对同学们理解Transformer的发展特别有好处。
2，对Transformer的几点细节，比如为什么要自己乘以自己，为什么不直接用A*w，为什么除以\sqrt{D_{out}}来进行训练（从概率的角度比较新颖），为什么要分成三个矩阵实际上是包含了自己的思考，对Transformer老手有一定的启发。为什么要分成三个矩阵呢，这个作者的解释有点形而上了，感觉不是很习惯，对数学思维的培养没有好处。
3，在视频制作上很明显借鉴了3blue1brown的风格，但是前后风格很不统一，前面用动画，后面开始自己用PPT演板了。
推荐同学们在对深度学习有一定了解之后再看下这个Transformer视频。可以继续关注王木头学科学的后面视频，可以期待一下。
@missoonable7883 3 місяці тому
感謝老師，講得很清楚很容易理解。在不同情景下用不同理解去看待矩陣相乘這種思考方式也很受用。平常總是習慣用同一種理解去看待不同問題，有時候反而走進了死衚衕。
@pogenonexist 3 місяці тому ⁺⁶
实在是讲的太好了！讲attention原理比1blue3brown讲的还好
@cnalexander9268 3 місяці тому ⁺³
哥你真的太强了，说真的，我现在只是有点基础，但是看了你的视频，我对面试深度学习方向更有信心了，非常感谢您
@hqm666 3 місяці тому ⁺²
信息量非常大,可以看出花了很大的时间精力来准备内容,非常感谢
@user-vb5et9co3d 3 місяці тому ⁺¹
看到一個多小時，馬上興奮，謝謝分享辛苦付出
@jerryyang7011 2 місяці тому ⁺¹
One of the well articulated tutorials with deep yet unique insights that spans across multiple related papers - thank you 王木头.
@eve2533 3 місяці тому ⁺¹
铁粉支持
@jamesmina7258 Місяць тому
感谢木头老师，受益匪浅。
@terryliu3635 2 місяці тому
Thanks for the excellent explanation on the topic!!
@fengbenming1819 3 місяці тому
这么好的视频，应该要点赞上去，让更多人受惠！
@charleswang412 3 місяці тому
谢谢老师！讲解的非常好
@flyisland2009 Місяць тому
最好的Transformer解释！
@user-zk5yh8xr8s 3 місяці тому
雖然我還沒看，但是先感謝老師。
@dianshili2294 10 днів тому
非常深入浅出！
@jshq8818 3 місяці тому ⁺¹
讲的真是太好了，尤其是向量和空间变化那一段，当初学线性代数就只会算题目了，根本不理解用来干啥的
@wffett 3 місяці тому
终于更新了
@daniel-ej5bp 2 місяці тому ⁺³
博主提到教材的问题，我有幸跟国内高校教授交流过，跟你说的如同原话，也是吐槽线性代数的教材，也同样举例- 为什么第一节是行列式-完全让学生们不知道线性代数核心精髓是什么。
@user-gd5kc3bc1q 3 місяці тому
讲得真好！！希望以后线性代数和几何的融合课程！！
@enochx7964 21 день тому
谢谢！讲的太好了。解了很久的困惑！
@hongjunbai6876 2 місяці тому
讲得好，谢谢！
@user-ju1qd9ek2m Місяць тому
清晰易懂
@yubichun4928 3 місяці тому ⁺⁴
谢谢！
@guiguangruanjian 18 днів тому
谢谢老师，讲的很好果断关注
@chrisyzz 12 днів тому
谢谢！真的很厉害！
@chenzhan4321 3 місяці тому ⁺⁷
Thanks!
@bingdiexu Місяць тому
感谢太棒了虽然我没有完全理解我明天再详细多看几遍
@buliaoqing 3 місяці тому
卖力气！赞一个
@LeviCheng 3 місяці тому ⁺¹
謝謝！
@lindama2151 2 місяці тому
讲的好！
期待线性代数和几何的融合课程！
@PRED122 5 днів тому ⁺¹
看到一半的时候插一嘴。王木头说机器翻译需要统一潜空间，要将两个语言的潜空间给统一起来，就能完成机器翻译。这让我联想到多模态模型的编码器，这玩意的目的也是要将语言的潜空间和图像的潜空间联系起来。所以说在现在的大模型任务里，很多东西是在做潜空间的统一
@TowkbsgsusbMwpwksbuedn 2 місяці тому
讲的很不错
@3a146 6 днів тому
行列式的理论意义主要是作为矩阵到实数的同态, 这样在代数意义下有一个可以进行分析的基础. 在抽象代数的语境里考虑, 就可以开始问, 为什么矩阵的相乘操作不交换, 然后你就可以去试矩阵的各种性质, 也就是关于“数”的“学”, 至于学出来的结果, 是几何性质. 这估计是苏联人写教材的时候的想法. 不过时代早变了, 几何结构也可以是直接的数, 拿来学.
@cppiodchen7304 3 місяці тому
对线性代数的吐槽太有共鸣了
@AZ-hj8ym 3 місяці тому
55：51是不错的观察，这么说还能增加更多变换
@cicerochen313 2 місяці тому ⁺¹
真的很精彩，尤其是很多[為什麼]的解釋，很令人佩服！不過，行列的說法，和英文有點出入。行==column, 列==row。我們說火車是一列，而不是一行。因此，初聽時，有些困惑。看完這講，推薦繼續看 Umar Jamil [Transformer from Scratch]，會更理解底層原理。
@simonrochester2559 2 місяці тому
早点统一吧。 zh.wikipedia.org/wiki/Topic:U3b8ags204w4rqvy
@PoolsharkTang 3 місяці тому
楼主说的有道理，确实线性代数课本的知识顺序应该重新编排一下。行列式这个东西，其实是后面矩阵求逆的时候有用。但是上来就学行列式，好多人都被行列式复杂的计算直接吓到了，3x3的行列式就得且在纸上算一会了。这要是拿给美国人，算数能力不行，直接全军覆没，嘿嘿
@thomasyang7523 3 місяці тому
我就是一开始行列式，然后天天就算行列式的结果。直到上次看了某个讲解线性代数的视频后才知道行列式（Determinant）的几何意义是向量的面积或者体积，用于表示更加底层的矩阵信息
@haemonyang6278 2 місяці тому ⁺¹
期待線性代數的視頻
@allanyang4458 3 місяці тому
看完了～真的很棒，把Transformer的精髓講的很清楚，請問你是計算機專業或是念數學的嗎？
@oliverwang1560 Місяць тому
王木头辛苦了
@KeZhang-sd6rl Місяць тому
学习了
@user-nb2iq1ec1k 3 місяці тому ⁺¹
干货满满，比大学里的老师讲得好
@kl5855 2 місяці тому
谢谢老师，讲的真实深入浅出啊，能出一集关于 RNN 相关的视频么？
@user-il9vo4dj4e 3 місяці тому
每一期都是精华版
@yoshiyuki1732ify 2 місяці тому ⁺¹
木头，有时间讲一下广义线性模型么。比较疑惑最后层激活函数的必要性的概率解释有些多余。比如说变形的tanh也可以做二分类，但是tanh并不一定对应指数族的伯努利分布，似乎有其他的族可以建模伯努利。
@user-ih2ue4bw5q 3 місяці тому
終於想起了頻道帳號的密碼。
@mixshare 3 місяці тому
哈哈行列式这个真的是干扰😂
@ims3312 3 місяці тому
王老师能出一期KNN吗
@RayGuo-bo6nr 3 місяці тому
Thanks a lt!
@huangshine5715 3 місяці тому
神
@liyusen6358 3 місяці тому
wood 博士，您用的示意图能发一下吗
@foodfootfool 21 день тому
讲得非常nb
@user-te2nf4bj1v 3 місяці тому
感謝老師
@user-dd8rp2kq1p 3 місяці тому
最后mask multi-head attention 的mask 没有理解，推理的时候是一个一个推理的，未来的单词还没有生成，如何能影响到当前正在推理的过程呢？
@LUIPT888 3 місяці тому ⁺²
終於有人和我的想法一樣
@kimberlyjill 3 місяці тому
不是很懂，本文科生😭
@MrCelestial2 3 місяці тому
牛逼
@yangliu5049 3 місяці тому
我大学的线代要是你教就好了，20年弯路呀，欲哭无泪
@zh08720949 2 місяці тому ⁺¹
王老师有没有课件
@dingjiesu5354 3 місяці тому ⁺²
非常优秀的讲解。关于为什么要Wk Wq两个矩阵的问题，还有一个从更容易做optimization 的角度的解释。下面这个视频45分一个同学提出了和题主一样的问题ua-cam.com/video/Vs85VCzug0I/v-deo.htmlsi=lLIJmjhb_C5lTry1
@znsoftm 2 місяці тому
确实不错，数学基础比较好
@yoshiyuki1732ify 2 місяці тому ⁺¹
注意力和cnn的矩阵乘有本质区别。矩阵乘是没法实现输入的多项式操作的，而是piecewise逼近。而attention本身kqv引入了多项式。虽然多项式这个说法不准确。
@ypc2746 3 місяці тому ⁺¹
同意 18''59 对国内线性代数的吐槽, 以前上学时候学的同济版的线性代数和后来看的Gilbert Strang的线性代数，完全不是一个东西。
@wkaing 3 місяці тому ⁺²
修正：56:20秒B:=1/2(Wq·Wk^T+Wk^T·Wq)
@hangzhang9592 3 місяці тому
修正之后也不对吧，除非W_q和W_k本身就是对称矩阵，否则是推不出来56:20下面的那个恒等式的
@diegosun2052 3 місяці тому ⁺¹
我理解的Q与K相乘与图神经网络中的邻接矩阵形似，但还是没明白为什么要用Q、K、V三个矩阵
@ruru9433 2 місяці тому ⁺¹
請問這些內容有ppt能下載嗎？因為方便上班時閱讀
@azurewang 2 місяці тому
如果你当教育部主任，中国的未来就有救了。说真的，一开始说线性代数说的太好了！在描述空间中找了非常棒的两个直觉角度！
@yoyooversea 28 днів тому
11:33 精彩
@haolee630 3 місяці тому
请收下我的膝盖！
@nickinsiliconvalley1777 Місяць тому ⁺¹
我看完了论文其实都没有懂，是看完了这个视频才真正明白了
@user-xb7mo9ll5i 15 днів тому ⁺¹
我要0.75速才聽到，說太快，平時聽其他都要1.5倍速😂
@ccuuttww 3 місяці тому
支持支持要不要講一下抽樣這個都好重要
@user-fm8sb6gb3g 2 місяці тому
如果矩阵不是满秩的话，那可就不是一对一的啰😜
@kunmike Місяць тому
突然相信我们是高维世界的投影
@zhuqixiang3923 3 місяці тому
大哥应该去写论文
@ivanwang6728 3 місяці тому
失踪人口回归啊、这是多久没更了😂
@bardplus 2 місяці тому
你长治类？
@chuizitech 4 дні тому
梨是pear
@michaelwtreww 3 місяці тому
木头不木😂
@3a146 6 днів тому
中文还能不能事偏旁部首和字源啊.
@user-pv7fm9ep5e 2 місяці тому
好强大，我有些看不懂呢
@simonrochester2559 2 місяці тому ⁺¹
矩阵读作举阵而不是巨阵
@michaelwtreww 3 місяці тому ⁺⁴
wood，有一个困惑，听你这么一说似乎llm的原理是听清楚的，但是又经常看到有人说llm里面是个黑盒子，似乎挺矛盾的，你如何解释这个困惑？
@ericapple2408 3 місяці тому ⁺¹
對於無法分析的人，一切都是黑盒子
@michaelwtreww 3 місяці тому ⁺²
@@ericapple2408 不能这么说，这是MIT tech reviews一些最新的文章和其他一些有影响的文章和人说的。木头博士，我们知道LLM的性能的一个方面取决于size（目前最常用parameters来衡量），那从具体内核基本机制上看，why？第二个问题：我们知道prompt对于一个固定的LLM会产生很大的差别，那么从编码器讲不同的prompt进行编码然后内部的运作机制的角度看，why again？也许不需要非常精确的解释，但是作为一名医生，我也不满足于仅仅知道如何拟定prompt的一些现在的常用techniques，我想知道点原理，just working knowledge for how it works，Thx a lot
@dediver832 3 місяці тому ⁺²
原理是推测出来的, 认为网络应该能学习到某些知识点, 并且通过可视化注意力的方式大概验证了这些推测. 但是并不是每一个注意力头学习到的东西都能很好的解释, 我的经验有一些注意力头关注的点就很奇怪, 所以这就又增加了一丝神秘性. 并且 llm 的层和注意力头非常多, 叠加在一起数据在其中到底被怎么处理了, 被哪些注意力重点处理了就很难追踪了. 所以黑盒是因为 1. 参数太多, 几百亿的参数很难用人脑去追踪, 2. 原理理解的不充分, 理解一些, 但不是全部.
@user-bl1rg6me7g 3 місяці тому
⁠@@michaelwtreww這就像我們知道腦子是一堆神經組成的網絡，知道神經細胞微觀下的運作，甚至知道一些腦區與某些生理或思維活動的關係，甚至透過光遺傳來控制小鼠的行為。但我們不可能知道在特定的某一時刻下，某個人的腦子內是具體是經由那些神經活動形成某個決策，這樣的複雜度是就算有辦法測量人也無法理解的。
具體來說我們能觀測（或主動給予）外部刺激（如食物的氣味、或是給LLM的prompt）與某個行為（小鼠開始尋找食物，LLM給出一個output）之間的關係。但他具體是怎麼形成，又為什麼是這樣形成這種行為的，是人類就算可觀測也無法理解的。
@user-bl1rg6me7g 3 місяці тому
⁠@@michaelwtrewwprompt的部分沒什麼複雜的，本質上就是訓練材料裡不可避免的蘊含著某些bias。如果你的prompt剛好符合這些bias的方向的話就能表現的很好，反之就會表現的比較差
@invinciblejia11 3 місяці тому
Transformer, 是图神经网络的特例。。。
@3a146 6 днів тому
手册是元语言的啊, 谁告诉你生成的结构就是可数的了.
@qaqpiano1298 Місяць тому
位置编码完全看不懂
@annasuperjump 3 місяці тому ⁺¹
语速怎么这么快？
@ZhouJi 2 місяці тому
我用慢速看就自然多了😀
@user-zk1qj4pc1r 3 місяці тому
太高看自己了，告辞，打搅了
@YingleiZhang 4 дні тому
你做一个视频，我们来学学
@3a146 6 днів тому
老哥你从计算经验来的直觉还可以, 但理论水平有点低了.
@user-yf6vm4rz5g 3 місяці тому ⁺¹
没有数学基础的人好可怜😂
@user-bl1rg6me7g 3 місяці тому ⁺²
看完3b1b的linear algebra系列就夠用了

Наступне

Автоматичне відтворення