从编解码和词嵌入开始,一步一步理解Transformer,注意力机制(Attention)的本质是卷积神经网络(CNN)

Поділитися
Вставка

КОМЕНТАРІ • 138

  • @fengjieli5099
    @fengjieli5099 3 місяці тому +77

    作为一个有博士学位的ML的专业从业者,我也从王木头的视频中学到了很多内容。讲解十分清晰,并注重直观上的理解,很有价值。辛苦了!把视频放在youtube上也是很好的想法。要不然,在国外国外的人是不容易发现的。这里要感谢一下youtube的recommendation algorithms。

    • @hbb21st
      @hbb21st 2 місяці тому +3

      确实,这哥们讲得老少皆宜😂

    • @user-vb5et9co3d
      @user-vb5et9co3d 2 місяці тому +2

      謙遜的老師我覺得超級棒,讓我想到台大的傲慢與不知天高地厚

    • @user-bm5ge1cr2l
      @user-bm5ge1cr2l Місяць тому

      谦虚使人更加牛逼。哈哈哈哈

  • @YingleiZhang
    @YingleiZhang 4 дні тому

    看完了。再次赞一下。通俗易懂,脉络清晰,深表感谢!

  • @chengchen1591
    @chengchen1591 2 місяці тому +4

    厉害,不仅理解的透彻而且表达的清晰。能把复杂的数学问题形象的表达出来,非常佩服。

  • @user-dd8rp2kq1p
    @user-dd8rp2kq1p 3 місяці тому

    谢谢老师,讲的非常好,可以感受到 老师的专业,用心,与付出。

  • @hercules1943
    @hercules1943 3 місяці тому +2

    謝謝老師,專業,有料,表達能力超棒!

  • @kuchi13579
    @kuchi13579 3 місяці тому +12

    致敬王老师!满满干货,我头一回慢速去看youtube视频。。。线性代数教学那个吐槽,太有同感了。。我学线性代数时候就总想直观去理解它的几何意义,可惜没琢磨这么透彻。。老师照本宣科,学生稀里糊涂。。

  • @user-mm9yt1yl2b
    @user-mm9yt1yl2b 3 місяці тому +8

    其实第二部分老师不用去特别的去强调割裂空间和向量之间的关系,二者本来就是一体的,空间是客观的,但是对于空间的具体描述总是需要在一个具体的坐标系中进行的,也就是说我们总是习惯于使用一组标准的单位向量去描述一个空间,这组向量一般称之为基向量,矩阵代表着对空间的变换,是针对空间中的每一个向量进行的变换,自然也包括对充当这个空间的坐标系的基向量进行的变化,二者是一回事

  • @kenlu2014
    @kenlu2014 3 місяці тому

    这个视频是在太经典了,多谢王木头分享!!!

  • @yugio5991
    @yugio5991 3 місяці тому +2

    不知不覺直接看完整個影片,講的真好,也填補了當初不解的地方。

  • @allen-lee
    @allen-lee 20 днів тому +1

    感谢博主细致专业的讲解,这个视频值得多刷好多遍了

  • @ponychen7750
    @ponychen7750 3 місяці тому +7

    目前只看了这一集(多头注意力还没有细看),几点感受:
    1,从word2vec讲起来能够让大家在短时间里面抓住Transformer的脉络,实际上Transformer在生成翻译的时候也借鉴了RNN的思想。宏观上对同学们理解Transformer的发展特别有好处。
    2,对Transformer的几点细节,比如为什么要自己乘以自己,为什么不直接用A*w,为什么除以\sqrt{D_{out}}来进行训练(从概率的角度比较新颖),为什么要分成三个矩阵实际上是包含了自己的思考,对Transformer老手有一定的启发。为什么要分成三个矩阵呢,这个作者的解释有点形而上了,感觉不是很习惯,对数学思维的培养没有好处。
    3,在视频制作上很明显借鉴了3blue1brown的风格,但是前后风格很不统一,前面用动画,后面开始自己用PPT演板了。
    推荐同学们在对深度学习有一定了解之后再看下这个Transformer视频。可以继续关注王木头学科学的后面视频,可以期待一下。

  • @missoonable7883
    @missoonable7883 3 місяці тому

    感謝老師,講得很清楚很容易理解。在不同情景下用不同理解去看待矩陣相乘這種思考方式也很受用。平常總是習慣用同一種理解去看待不同問題,有時候反而走進了死衚衕。

  • @pogenonexist
    @pogenonexist 3 місяці тому +6

    实在是讲的太好了!讲attention原理比1blue3brown讲的还好

  • @cnalexander9268
    @cnalexander9268 3 місяці тому +3

    哥你真的太强了,说真的,我现在只是有点基础,但是看了你的视频,我对面试深度学习方向更有信心了,非常感谢您

  • @hqm666
    @hqm666 3 місяці тому +2

    信息量非常大,可以看出花了很大的时间精力来准备内容,非常感谢

  • @user-vb5et9co3d
    @user-vb5et9co3d 3 місяці тому +1

    看到一個多小時,馬上興奮,謝謝分享辛苦付出

  • @jerryyang7011
    @jerryyang7011 2 місяці тому +1

    One of the well articulated tutorials with deep yet unique insights that spans across multiple related papers - thank you 王木头.

  • @eve2533
    @eve2533 3 місяці тому +1

    铁粉支持

  • @jamesmina7258
    @jamesmina7258 Місяць тому

    感谢木头老师,受益匪浅。

  • @terryliu3635
    @terryliu3635 2 місяці тому

    Thanks for the excellent explanation on the topic!!

  • @fengbenming1819
    @fengbenming1819 3 місяці тому

    这么好的视频,应该要点赞上去,让更多人受惠!

  • @charleswang412
    @charleswang412 3 місяці тому

    谢谢老师!讲解的非常好

  • @flyisland2009
    @flyisland2009 Місяць тому

    最好的Transformer解释!

  • @user-zk5yh8xr8s
    @user-zk5yh8xr8s 3 місяці тому

    雖然我還沒看,但是先感謝老師。

  • @dianshili2294
    @dianshili2294 10 днів тому

    非常深入浅出!

  • @jshq8818
    @jshq8818 3 місяці тому +1

    讲的真是太好了,尤其是向量和空间变化那一段,当初学线性代数就只会算题目了,根本不理解用来干啥的

  • @wffett
    @wffett 3 місяці тому

    终于更新了

  • @daniel-ej5bp
    @daniel-ej5bp 2 місяці тому +3

    博主提到教材的问题,我有幸跟国内高校教授交流过,跟你说的如同原话,也是吐槽线性代数的教材,也同样举例- 为什么第一节是行列式-完全让学生们不知道线性代数核心精髓是什么。

  • @user-gd5kc3bc1q
    @user-gd5kc3bc1q 3 місяці тому

    讲得真好!!希望以后线性代数和几何的融合课程!!

  • @enochx7964
    @enochx7964 21 день тому

    谢谢!讲的太好了。解了很久的困惑!

  • @hongjunbai6876
    @hongjunbai6876 2 місяці тому

    讲得好,谢谢!

  • @user-ju1qd9ek2m
    @user-ju1qd9ek2m Місяць тому

    清晰易懂

  • @yubichun4928
    @yubichun4928 3 місяці тому +4

    谢谢!

  • @guiguangruanjian
    @guiguangruanjian 18 днів тому

    谢谢老师,讲的很好果断关注

  • @chrisyzz
    @chrisyzz 12 днів тому

    谢谢!真的很厉害!

  • @chenzhan4321
    @chenzhan4321 3 місяці тому +7

    Thanks!

  • @bingdiexu
    @bingdiexu Місяць тому

    感谢 太棒了 虽然我没有完全理解 我明天再详细多看几遍

  • @buliaoqing
    @buliaoqing 3 місяці тому

    卖力气!赞一个

  • @LeviCheng
    @LeviCheng 3 місяці тому +1

    謝謝!

  • @lindama2151
    @lindama2151 2 місяці тому

    讲的好!
    期待线性代数和几何的融合课程!

  • @PRED122
    @PRED122 5 днів тому +1

    看到一半的时候插一嘴。王木头说机器翻译需要统一潜空间,要将两个语言的潜空间给统一起来,就能完成机器翻译。这让我联想到多模态模型的编码器,这玩意的目的也是要将语言的潜空间和图像的潜空间联系起来。所以说在现在的大模型任务里,很多东西是在做潜空间的统一

  • @TowkbsgsusbMwpwksbuedn
    @TowkbsgsusbMwpwksbuedn 2 місяці тому

    讲的很不错

  • @3a146
    @3a146 6 днів тому

    行列式的理论意义主要是作为矩阵到实数的同态, 这样在代数意义下有一个可以进行分析的基础. 在抽象代数的语境里考虑, 就可以开始问, 为什么矩阵的相乘操作不交换, 然后你就可以去试矩阵的各种性质, 也就是关于“数”的“学”, 至于学出来的结果, 是几何性质. 这估计是苏联人写教材的时候的想法. 不过时代早变了, 几何结构也可以是直接的数, 拿来学.

  • @cppiodchen7304
    @cppiodchen7304 3 місяці тому

    对线性代数的吐槽太有共鸣了

  • @AZ-hj8ym
    @AZ-hj8ym 3 місяці тому

    55:51是不错的观察,这么说还能增加更多变换

  • @cicerochen313
    @cicerochen313 2 місяці тому +1

    真的很精彩,尤其是很多[為什麼]的解釋,很令人佩服!不過,行列的說法,和英文有點出入。行==column, 列==row。我們說火車是一列,而不是一行。因此,初聽時,有些困惑。看完這講,推薦繼續看 Umar Jamil [Transformer from Scratch],會更理解底層原理。

    • @simonrochester2559
      @simonrochester2559 2 місяці тому

      早点统一吧。 zh.wikipedia.org/wiki/Topic:U3b8ags204w4rqvy

  • @PoolsharkTang
    @PoolsharkTang 3 місяці тому

    楼主说的有道理,确实线性代数课本的知识顺序应该重新编排一下。行列式这个东西,其实是后面矩阵求逆的时候有用。但是上来就学行列式,好多人都被行列式复杂的计算直接吓到了,3x3的行列式就得且在纸上算一会了。这要是拿给美国人,算数能力不行,直接全军覆没,嘿嘿

  • @thomasyang7523
    @thomasyang7523 3 місяці тому

    我就是一开始行列式,然后天天就算行列式的结果。直到上次看了某个讲解线性代数的视频后才知道行列式(Determinant)的几何意义是向量的面积或者体积,用于表示更加底层的矩阵信息

  • @haemonyang6278
    @haemonyang6278 2 місяці тому +1

    期待線性代數的視頻

  • @allanyang4458
    @allanyang4458 3 місяці тому

    看完了~真的很棒,把Transformer的精髓講的很清楚,請問你是計算機專業或是念數學的嗎?

  • @oliverwang1560
    @oliverwang1560 Місяць тому

    王木头辛苦了

  • @KeZhang-sd6rl
    @KeZhang-sd6rl Місяць тому

    学习了

  • @user-nb2iq1ec1k
    @user-nb2iq1ec1k 3 місяці тому +1

    干货满满,比大学里的老师讲得好

  • @kl5855
    @kl5855 2 місяці тому

    谢谢老师,讲的真实深入浅出啊,能出一集关于 RNN 相关的视频么?

  • @user-il9vo4dj4e
    @user-il9vo4dj4e 3 місяці тому

    每一期都是精华版

  • @yoshiyuki1732ify
    @yoshiyuki1732ify 2 місяці тому +1

    木头,有时间讲一下广义线性模型么。比较疑惑最后层激活函数的必要性的概率解释有些多余。比如说变形的tanh也可以做二分类,但是tanh并不一定对应指数族的伯努利分布,似乎有其他的族可以建模伯努利。

  • @user-ih2ue4bw5q
    @user-ih2ue4bw5q 3 місяці тому

    終於想起了頻道帳號的密碼。

  • @mixshare
    @mixshare 3 місяці тому

    哈哈 行列式这个真的是干扰😂

  • @ims3312
    @ims3312 3 місяці тому

    王老师能出一期KNN吗

  • @RayGuo-bo6nr
    @RayGuo-bo6nr 3 місяці тому

    Thanks a lt!

  • @huangshine5715
    @huangshine5715 3 місяці тому

  • @liyusen6358
    @liyusen6358 3 місяці тому

    wood 博士,您用的示意图能发一下吗

  • @foodfootfool
    @foodfootfool 21 день тому

    讲得非常nb

  • @user-te2nf4bj1v
    @user-te2nf4bj1v 3 місяці тому

    感謝老師

  • @user-dd8rp2kq1p
    @user-dd8rp2kq1p 3 місяці тому

    最后mask multi-head attention 的mask 没有理解,推理的时候是一个一个推理的,未来的单词还没有生成,如何能影响到当前正在推理的过程呢?

  • @LUIPT888
    @LUIPT888 3 місяці тому +2

    終於有人和我的想法一樣

    • @kimberlyjill
      @kimberlyjill 3 місяці тому

      不是很懂,本文科生😭

  • @MrCelestial2
    @MrCelestial2 3 місяці тому

    牛逼

  • @yangliu5049
    @yangliu5049 3 місяці тому

    我大学的线代要是你教就好了,20年弯路呀,欲哭无泪

  • @zh08720949
    @zh08720949 2 місяці тому +1

    王老师有没有课件

  • @dingjiesu5354
    @dingjiesu5354 3 місяці тому +2

    非常优秀的讲解。关于为什么要Wk Wq两个矩阵的问题,还有一个从更容易做optimization 的角度的解释。下面这个视频45分一个同学提出了和题主一样的问题ua-cam.com/video/Vs85VCzug0I/v-deo.htmlsi=lLIJmjhb_C5lTry1

  • @znsoftm
    @znsoftm 2 місяці тому

    确实不错,数学基础比较好

  • @yoshiyuki1732ify
    @yoshiyuki1732ify 2 місяці тому +1

    注意力和cnn的矩阵乘有本质区别。矩阵乘是没法实现输入的多项式操作的,而是piecewise逼近。而attention本身kqv引入了多项式。虽然多项式这个说法不准确。

  • @ypc2746
    @ypc2746 3 місяці тому +1

    同意 18''59 对国内线性代数的吐槽, 以前上学时候学的同济版的线性代数 和后来看的Gilbert Strang的线性代数, 完全不是一个东西。

  • @wkaing
    @wkaing  3 місяці тому +2

    修正:56:20秒B:=1/2(Wq·Wk^T+Wk^T·Wq)

    • @hangzhang9592
      @hangzhang9592 3 місяці тому

      修正之后也不对吧,除非W_q和W_k本身就是对称矩阵,否则是推不出来56:20下面的那个恒等式的

  • @diegosun2052
    @diegosun2052 3 місяці тому +1

    我理解的Q与K相乘与图神经网络中的邻接矩阵形似,但还是没明白为什么要用Q、K、V三个矩阵

  • @ruru9433
    @ruru9433 2 місяці тому +1

    請問這些內容有ppt能下載嗎?因為方便上班時閱讀

  • @azurewang
    @azurewang 2 місяці тому

    如果你当教育部主任,中国的未来就有救了。说真的,一开始说线性代数说的太好了!在描述空间中找了非常棒的两个直觉角度!

  • @yoyooversea
    @yoyooversea 28 днів тому

    11:33 精彩

  • @haolee630
    @haolee630 3 місяці тому

    请收下我的膝盖!

  • @nickinsiliconvalley1777
    @nickinsiliconvalley1777 Місяць тому +1

    我看完了论文其实都没有懂,是看完了这个视频才真正明白了

  • @user-xb7mo9ll5i
    @user-xb7mo9ll5i 15 днів тому +1

    我要0.75速才聽到,說太快,平時聽其他都要1.5倍速😂

  • @ccuuttww
    @ccuuttww 3 місяці тому

    支持支持 要不要講一下抽樣 這個都好重要

  • @user-fm8sb6gb3g
    @user-fm8sb6gb3g 2 місяці тому

    如果矩阵不是满秩的话,那可就不是一对一的啰😜

  • @kunmike
    @kunmike Місяць тому

    突然相信我们是高维世界的投影

  • @zhuqixiang3923
    @zhuqixiang3923 3 місяці тому

    大哥应该去写论文

  • @ivanwang6728
    @ivanwang6728 3 місяці тому

    失踪人口回归啊、这是多久没更了😂

  • @bardplus
    @bardplus 2 місяці тому

    你长治类?

  • @chuizitech
    @chuizitech 4 дні тому

    梨是pear

  • @michaelwtreww
    @michaelwtreww 3 місяці тому

    木头不木😂

  • @3a146
    @3a146 6 днів тому

    中文还能不能事偏旁部首和字源啊.

  • @user-pv7fm9ep5e
    @user-pv7fm9ep5e 2 місяці тому

    好强大,我有些看不懂呢

  • @simonrochester2559
    @simonrochester2559 2 місяці тому +1

    矩阵读作举阵而不是巨阵

  • @michaelwtreww
    @michaelwtreww 3 місяці тому +4

    wood,有一个困惑,听你这么一说似乎llm的原理是听清楚的,但是又经常看到有人说llm里面是个黑盒子,似乎挺矛盾的,你如何解释这个困惑?

    • @ericapple2408
      @ericapple2408 3 місяці тому +1

      對於無法分析的人,一切都是黑盒子

    • @michaelwtreww
      @michaelwtreww 3 місяці тому +2

      @@ericapple2408 不能这么说,这是MIT tech reviews一些最新的文章和其他一些有影响的文章和人说的。木头博士,我们知道LLM的性能的一个方面取决于size(目前最常用parameters来衡量),那从具体内核基本机制上看,why?第二个问题:我们知道prompt对于一个固定的LLM会产生很大的差别,那么从编码器讲不同的prompt进行编码然后内部的运作机制的角度看,why again?也许不需要非常精确的解释,但是作为一名医生,我也不满足于仅仅知道如何拟定prompt的一些现在的常用techniques,我想知道点原理,just working knowledge for how it works,Thx a lot

    • @dediver832
      @dediver832 3 місяці тому +2

      原理是推测出来的, 认为网络应该能学习到某些知识点, 并且通过可视化注意力的方式大概验证了这些推测. 但是并不是每一个注意力头学习到的东西都能很好的解释, 我的经验有一些注意力头关注的点就很奇怪, 所以这就又增加了一丝神秘性. 并且 llm 的层和注意力头非常多, 叠加在一起数据在其中到底被怎么处理了, 被哪些注意力重点处理了就很难追踪了. 所以黑盒是因为 1. 参数太多, 几百亿的参数很难用人脑去追踪, 2. 原理理解的不充分, 理解一些, 但不是全部.

    • @user-bl1rg6me7g
      @user-bl1rg6me7g 3 місяці тому

      ⁠@@michaelwtreww這就像我們知道腦子是一堆神經組成的網絡,知道神經細胞微觀下的運作,甚至知道一些腦區與某些生理或思維活動的關係,甚至透過光遺傳來控制小鼠的行為。但我們不可能知道在特定的某一時刻下,某個人的腦子內是具體是經由那些神經活動形成某個決策,這樣的複雜度是就算有辦法測量人也無法理解的。
      具體來說我們能觀測(或主動給予)外部刺激(如食物的氣味、或是給LLM的prompt)與某個行為(小鼠開始尋找食物,LLM給出一個output)之間的關係。但他具體是怎麼形成,又為什麼是這樣形成這種行為的,是人類就算可觀測也無法理解的。

    • @user-bl1rg6me7g
      @user-bl1rg6me7g 3 місяці тому

      ⁠@@michaelwtrewwprompt的部分沒什麼複雜的,本質上就是訓練材料裡不可避免的蘊含著某些bias。如果你的prompt剛好符合這些bias的方向的話就能表現的很好,反之就會表現的比較差

  • @invinciblejia11
    @invinciblejia11 3 місяці тому

    Transformer, 是图神经网络的特例。。。

  • @3a146
    @3a146 6 днів тому

    手册是元语言的啊, 谁告诉你生成的结构就是可数的了.

  • @qaqpiano1298
    @qaqpiano1298 Місяць тому

    位置编码完全看不懂

  • @annasuperjump
    @annasuperjump 3 місяці тому +1

    语速怎么这么快?

    • @ZhouJi
      @ZhouJi 2 місяці тому

      我用慢速看就自然多了😀

  • @user-zk1qj4pc1r
    @user-zk1qj4pc1r 3 місяці тому

    太高看自己了,告辞,打搅了

    • @YingleiZhang
      @YingleiZhang 4 дні тому

      你做一个视频,我们来学学

  • @3a146
    @3a146 6 днів тому

    老哥你从计算经验来的直觉还可以, 但理论水平有点低了.

  • @user-yf6vm4rz5g
    @user-yf6vm4rz5g 3 місяці тому +1

    没有数学基础的人好可怜😂

    • @user-bl1rg6me7g
      @user-bl1rg6me7g 3 місяці тому +2

      看完3b1b的linear algebra系列就夠用了