ViT论文逐段精读【论文精读】

AI時代，你跟上了嗎？｜李宏毅｜人文講堂｜完整版 20231209

ФИЛЬМ! НЕВИНОВНЫЙ ГОТОВИТ ДЕРЗКИЙ ПОБЕГ С НЕПРИСТУПНОГО ОСТРОВА-ТЮРЬМЫ! Мотылёк! Русский фильм

Правильный подход к детям

🤔Можно ли спастись от Ядерки в Холодильнике ? #shorts

Transformer论文逐段精读

跟李沐学AI

Переглядів 441 836

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 4 лют 2025

КОМЕНТАРІ • 220

@hw5622 10 місяців тому ⁺⁸
讲得真好，我反复读了好多遍了听你讲还能温故知新太棒了！谢谢李老师！
@LinnaDu 2 роки тому ⁺⁸¹
大神讲的真是浅显易懂，切中要害，听了那么多版本的attenion，就您这版最好理解。感觉自己听懂了，明白了。非常感谢您的分享。
@senx8758 Рік тому ⁺⁷
李宏毅的更细节一些。
@熊琦松 Рік тому ⁺¹⁷
感谢大佬的分享，非常的浅显易懂，能够很好的将以往的技术和论文中的架构设计结合起来去讲解，让听众能够明白为什么这样设计，以前是怎么设计，以前和现在的设计各自的优点和缺点是什么，视频中还有许多很直观的比喻，之前看原文真实看的一头雾水、不体系，正式因为看到一小段就需要去深入挖掘一些额外的知识才能继续阅读，这可能也是信息密度高的文章比较晦涩难懂的原因，还好有您的视频才让更多对AI、对模型感兴趣的人能够更好的学习这个领域的知识，感谢~^_^
@jasperlin1996 2 роки тому ⁺⁶⁸
謝謝大佬深入淺出又補充了不少相關知識真的是造福後進
@g1y5x3 8 місяців тому ⁺⁷
57:00 感觉是整个精读的精髓，谢谢老师！
@muxingg 10 місяців тому
非常棒！没有完全听懂，因为不是搞AI计算的，但是几十年前搞过并行算法的科学计算，很多东西是类比的。还是很有收获。大概需要多看几遍
@samchan4818 6 місяців тому ⁺⁴
这种看了一个小时，知识进不了脑子的感觉太奇妙了😍
@misspanda5717 Рік тому ⁺¹
在encoder中的自注意力可以计算所有的score（Q*K),encode中的mask是为了防止对输入序列中padding的数据计算分数。
在decoder中mask是为了屏蔽“未来“的数据。
@allandogreat Рік тому ⁺¹³
非常好，大学没有这么好的课程。沐神，身体健康
@bulingwen Рік тому ⁺³
你在黑你大学的教学质量哈哈
@yunqin3407 7 місяців тому ⁺¹
感谢精讲！挑个小毛病。4:52 褒（音同包）义词
@zhengqingpei7136 10 місяців тому
讲的太好了。我 AI 完全不懂，都可以理解你讲的。感谢！
@meiriweixin Рік тому ⁺²
局外人发言。不小心搜到这个视频。视频看了一大半，觉得博主讲得好，心想这人一定自己懂很多，纳闷他会是哪个大学的计算机老师。原来是传说中的人物:)
@xiaominsong Рік тому
3.3节55:04，在attention之后，经过norm后的feed forward MLP 是“position”-wise，不是“point”-wise。不过大佬的讲解没问题，估计是口误。MLP只对embedded features内部维度做线性变化，position之间是没有交互的，并且是weight是shared。也可以认为每一个position是一个point。
@ryanwang7160 10 місяців тому
lz讲得真好，视频做得也很上心！一部视频tshirt换了好几次
@ShuoWang-d7b 6 днів тому
太厉害了讲的浅显易懂！！！
@cici4148 3 роки тому ⁺²¹
最近刚好在学transformers有点疑惑老师讲得非常清晰问题迎刃而解感谢！
@alexsuen3506 Рік тому ⁺²
Thank you very much for you work, Dr. Li!
@海涛张-m1u 5 місяців тому
大佬的讲解真是入木三分，对大模型的学习太有帮助了
@rikkatakanashi9703 Рік тому ⁺⁹
讲的非常清楚，非常感谢老师的讲解！！❤
@Veda_RIKO 6 місяців тому
感谢老师的详细讲解和无私分享！小白学到了很多🌹
@kennys4100 10 місяців тому
在LLM大规模发展应用的今天再回头来看这个，感叹核心技术对行业发展的强大推动力，还有就是大道至简
@testyoutubetest5910 Рік тому ⁺¹³
理解透彻，讲解深入浅出，还肯花时间录制视频，收下我的膝盖
@jiesu2575 5 місяців тому
讲的太好了，感谢老师，感谢互联网！！！！！！
@jinhuizhang702 3 роки тому ⁺⁹
太棒了，很喜欢精读论文系列
@haoranding3324 Рік тому ⁺²
感谢大佬，真的是深入浅出！支持老师出更多视频！
@clementtw Рік тому ⁺¹
聽了好幾遍，講得實在太好了！
@DakerTT Рік тому ⁺²
谢谢老师，很有价值的分享。褒奖的褒，念Bao（同保）。
@karlshomekitchen 7 місяців тому ⁺¹
感謝指點我們的注意力
@duomingbian6305 23 дні тому
谢谢李老师！讲得太棒了。
@hasszhao 10 місяців тому
目前全网最优论文“解毒”保姆，小白这里佩服你。
@jamesmina7258 8 місяців тому
感谢李沐老师，常读常新。
@knightleung Рік тому ⁺¹
非常好! 唯一有一点没讲太清楚的时候就是训练和预测的时候outputs sequence是具体怎么用的
@samuelleung9930 Рік тому ⁺¹
这个视频还有前两集，它们在visualize上做得挺好的。
@balabalabalabalabala 5 місяців тому
我认真听了的。褒义词和裹义词。
@leixu7993 6 місяців тому
老师讲的真的很好，常看常新
@rchenandrews2850 9 місяців тому
非常赞，讲得很清楚
@shl9336 10 місяців тому
视频真的非常好
@cancui1192 9 місяців тому
感谢，多年之后回来看还是有所收获。
@jiahangsu7100 Рік тому ⁺¹
谢谢大佬的讲解，详细易懂～感谢感谢！
@BaccaratKingmaker 9 місяців тому ⁺¹
了不起的成就與貢獻❤❤❤😂😂😂
@brycegu2245 Рік тому ⁺¹
讲的是真的好
@tokyoaflowertokyo8300 Рік тому ⁺¹
真有耐心啊，谢谢主播分享
@zhaohaiding9220 10 місяців тому
再来看李老师的讲解，终于看懂了（差不多）
@zyw2134 Рік тому
感谢大神无私分享，拜谢~！
@rampagetam9042 2 роки тому ⁺²
解释得非常好，Thanks
@turing-code Рік тому
33:40处，绿色的权重应该只与自身高度相关，与中间的向量应该不一定相关。
@pengyiliao7240 3 місяці тому
讲解得太棒了！感谢！！
@Shyan68 Рік тому
你的解說讓我的眼界更進一步了…
@XinPan-j3w Рік тому
讲的太好了！非常适合我这样的小白学习。
@xiaoxucao470 Рік тому
谢谢老师，感谢大佬带我入门Transformer
@sephiroth0733 Рік тому
感谢分享层层深入
@uThank 7 місяців тому
可以这样理解吗？norm是为了让传感器的输出稳定，bn处理的卷积核影响的是通道维度，多头注意力是对特征重新加权，影响的是句子维度。
@dan9898 2 роки тому ⁺⁸⁸
再生父母啊！！！！！！！！呜呜呜呜谢谢老师！！！
@fk304shimizu7 Рік тому ⁺⁵
哈哈这么夸张😅😅😅
@stevinwang2488 Рік тому
恰到好处的表达了感谢之情
@ostensibly531 Рік тому ⁺²
父就可以了父母也。。。
@csctbadi Рік тому
真的不错！大神就是大神！
@loganyang 3 роки тому ⁺⁴
膜拜大神，认真学习！
@tuoli7266 Рік тому ⁺¹
万分感谢! 期待您更多的作品
@jonathanwan5519 Рік тому
真的太好了宝藏频道
@m13253 Рік тому ⁺⁵
哇，竟然有一个半小时的全程字幕。辛苦了。
@wenwenzhang635 Рік тому
宝藏博主！谢谢您的分享。想跟着博主学习更多ML的知识。
@greenshadowooo Рік тому
Thanks for detail explanation
@jinhuizhang702 3 роки тому ⁺¹
太棒了受益匪浅
@UTE2 Рік тому
非常感谢您的分享！
@jx92haha Рік тому ⁺¹
讲的太棒了！！必须点赞
@zz_home Рік тому
非常有用,感謝大老
@lilllllllllllll Рік тому
受益良多，期待更多分享。
@yshliu4434 4 місяці тому
讲得太好了，牛
@changken 2 роки тому ⁺²
老師太神了
@蕭穎隆-d5h Рік тому ⁺⁴
講的太好了，痛哭流涕啊
@yian4589 Рік тому
谢谢很有裨益
@fanyang2061 3 роки тому ⁺¹
谢谢，讲得清晰明了
@show_timemagic7030 Рік тому
感谢老师分享
@钱文龙-z9f Рік тому ⁺¹
4:53 褒（bao）义词
@chinese-good-news 4 місяці тому
Transformer把序列信息抽取出来，加工成我们想要的语义空间。
@xwyangjshb2 Рік тому
感谢🙏
@derek142 11 місяців тому
未看先感谢沐神~
@yewenli Рік тому
老师讲的太好了！深入浅出！
@ilpreterosso Рік тому
太感谢啦！
@zesenzhao3712 Рік тому
每一个搞深度学习科研的人最终都逃不过这一期视频😅
@bennyzhao6577 2 роки тому ⁺¹
讲的太好了老师，谢谢！
@paralellun8485 4 місяці тому
23:35 殘差連接 ??
51:41 第三個注意力層??
@amymu2731 Рік тому ⁺¹
Very impressive! Thank you!
@kolibre-zhou Рік тому
感谢分享！
@williamlee4215 Рік тому ⁺¹
Very good
@jazlynlin9995 2 роки тому ⁺¹
讲得好细啊！超棒！
@terryliu3635 8 місяців тому
THE BEST!!!
@b95109028 Рік тому
大老恕我爆粗口但是給予敬意：他媽的這種視頻都有。謝謝了
@noonehere238 Рік тому
讲的真好
@markzhang1866 10 місяців тому ⁺¹
感想：Transformer 听起来也不复杂（很多听起来高深算法甚至觉得理解起来并不复杂）。有时候甚至觉得人类怎么才走到这里？不过不就是这样：我相信那种聪明的人很多，这样的人可能解决这种难题是很快就搞定的。但是现实中，能有机会坐到那个位置，动用资源，能免于饥荒、灾祸、糊口、疾病、收入、家庭琐事，以至于还有心情，有着内心追求去做点努力，还要付出大量的金钱获得结果，可能迎接他的还是大量的失败，他必须耐心到最后，还需要幸运，最后能得到结果这样的人是少数。Transformer 的出现也是一个随机幸运。而且一定是出现在资源大量溢出的国家。徘徊在糊口附近的国家，人思维受限的国家，无法产生这样的东西。即使回过头来看起来很简单。
@kururuhuang3829 10 місяців тому
感谢大佬
@can0tthis473 27 днів тому
三年后再看 o1 pro都出来了，人类距离agi越来越近了
@zy5522 2 роки тому
感謝
@gc7017 Рік тому ⁺¹
1:18:30 左右，label smoothing应该是讲反了？应该是正确的category减0.1，然后其他category+原来正确的category分这0.1吧？
@weihuang743 Рік тому ⁺¹
火出圈的Transformer催生了ChatGPT
@user-sk3dr8nl9u Рік тому ⁺¹
一輪簽! 謝謝大大，讓我知識完備很多
@yingguo4174 Рік тому
大神❤
@jiyuanan6927 9 місяців тому
太清楚了，谢谢，能问一下数据训练是在哪个阶段做的？
@hangchen Рік тому
7:49, 想问下GBT是什么？是Gradient Boosted Trees吗？还是说应是GPT？
@lunxun-b2l Рік тому ⁺¹
这简直是种享受，大佬教学确实不一样
@otrees Рік тому
谢谢，老师，太帅了
@DanielDD4889 Рік тому ⁺²
Thanks so much! One question to ask: 3.5 Positional Encoding
---
where pos is the position and i is the dimension, i is in the range of 1-512, right? If this is true, how to understand PE(pos,2i)? 2i will be in the range of 2-1024?
Thanks
@intrepidkangaroo4745 8 місяців тому
i is in the range of 0 - 256.
@TJVideoChannelUTube Рік тому ⁺²
In Transformer model, only these layer types are involved in the deep learning/containing trainable parameters, and (3) with activation functions:
(1). Word Embedding Layer;
(2). Weighted matrices for K, V, Q;
(3). Feed Forward Layer or Fully Connected Layer.
Correct?

Наступне

Автоматичне відтворення

ViT论文逐段精读【论文精读】

ViT论文逐段精读【论文精读】

AI時代，你跟上了嗎？｜李宏毅｜人文講堂｜完整版 20231209

AI時代，你跟上了嗎？｜李宏毅｜人文講堂｜完整版 20231209

ФИЛЬМ! НЕВИНОВНЫЙ ГОТОВИТ ДЕРЗКИЙ ПОБЕГ С НЕПРИСТУПНОГО ОСТРОВА-ТЮРЬМЫ! Мотылёк! Русский фильм

ФИЛЬМ! НЕВИНОВНЫЙ ГОТОВИТ ДЕРЗКИЙ ПОБЕГ С НЕПРИСТУПНОГО ОСТРОВА-ТЮРЬМЫ! Мотылёк! Русский фильм

Правильный подход к детям

Правильный подход к детям

🤔Можно ли спастись от Ядерки в Холодильнике ? #shorts

🤔Можно ли спастись от Ядерки в Холодильнике ? #shorts

ПРАНК НАД БОЯРСКИМ | КОНФЛИКТ НА ДОРОГЕ

ПРАНК НАД БОЯРСКИМ | КОНФЛИКТ НА ДОРОГЕ

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

【生成式AI導論 2024】第10講：今日的語言模型是如何做文字接龍的 - 淺談Transformer (已經熟悉 Transformer 的同學可略過本講)

【生成式AI導論 2024】第10講：今日的語言模型是如何做文字接龍的 — 淺談Transformer (已經熟悉 Transformer 的同學可略過本講)

Attention in transformers, step-by-step | DL6

Attention in transformers, step-by-step | DL6

Transformer Neural Networks - EXPLAINED! (Attention is all you need)

Transformer Neural Networks - EXPLAINED! (Attention is all you need)

Transformers (how LLMs work) explained visually | DL5

Transformers (how LLMs work) explained visually | DL5

【機器學習2021】自注意力機制 (Self-attention) (上)

【機器學習2021】自注意力機制 (Self-attention) (上)

Attention Is All You Need

Attention Is All You Need

Illustrated Guide to Transformers Neural Network: A step by step explanation

Illustrated Guide to Transformers Neural Network: A step by step explanation

Attention is all you need (Transformer) - Model explanation (including math), Inference and Training

Attention is all you need (Transformer) - Model explanation (including math), Inference and Training

УКРАЇНСЬКИЙ ДЕТЕКТИВ | Стоматолог. ТОП СЕРІАЛ. 1,2 серія

УКРАЇНСЬКИЙ ДЕТЕКТИВ | Стоматолог. ТОП СЕРІАЛ. 1,2 серія

КТО НЕ ДВИНЕТСЯ, ПОЛУЧИТ МАШИНУ!

КТО НЕ ДВИНЕТСЯ, ПОЛУЧИТ МАШИНУ!

Прочистка шлюзов

Прочистка шлюзов

🔥"СВОшник" РОЗНОСИТЬ шоу путіністів! Ведучий ШОКОВАНИЙ від цих СЛІВ #shorts

🔥"СВОшник" РОЗНОСИТЬ шоу путіністів! Ведучий ШОКОВАНИЙ від цих СЛІВ #shorts

"ВСЯ УЛИЦА полетела" - курянка про обстріли рф

"ВСЯ УЛИЦА полетела" — курянка про обстріли рф

人是不能做到吗？#火影忍者 #家人 #佐助

人是不能做到吗？#火影忍者 #家人 #佐助

To Brawl AND BEYOND!

To Brawl AND BEYOND!

#JasonDeruloTV // Funny #GotPermissionToPost From @SofiManassyan #SlowLow

#JasonDeruloTV // Funny #GotPermissionToPost From @SofiManassyan #SlowLow