Розмір відео: 1280 X 720853 X 480640 X 360
Показувати елементи керування програвачем
Автоматичне відтворення
Автоповтор
这个哥们讲的内容很喜欢!👍
讲得太好了,清晰明了,幽默风趣,全程无尿点!
讲得太棒了!非常感谢!!
謝謝老師講解 非常清楚 很受用
感谢老师!B站看完了来这里再来点赞
所以長話短說先用CNN(或其他方法)得到足夠小的feature map,再用transformer跑
Zhu老师讲的很棒,感谢
请问老师叫什么名字?
感謝大神細心講解
感谢老师精彩的讲解和清楚的分析!
cnn和transformer基本上是同一件事情,只不过cnn更先进在特征就是tags,trasformer先进在不用一个单位一个单位滑动,但是实际上特征层和tags是一件事情的话特征层比tags的attention内积更高效,这类似于用所有basis和前几个特征函数近似,trasformer低效在要标注和attention本身,高效在不需要一个单位一个单位摞
这个人的水平至少是国内优青水平~!
謝謝 講解得非常清楚
谢谢作者分享!
谢谢讲解!
讲得太仔细了,非常感谢!!
来龙去脉,前因后果, 讲的太好了
讲的很清透!点赞
讲的真的好
讲得非常好👍学习了
Great presentation!
What is the name of the speaker?
怎么找不到 老师的 VITS 解读了呢?
老師整容了?
这是另外一个人!
讲的太好了
视频中PPT+前置摄像头是通过什么工具实现的呢?
真棒!
感谢感谢!!!
為什麼是224/16=14然後input = 14*14為何不是input = 16*16input 是一個一個patch 的意思嗎?
我的理解和你一样。一张图类比一句话。所以一个patch类比于一个词。如果word embedding 是512, 那ViT里对应的就是16x16。
你理解的是对的,所以文章标题是 An Image is Worth 16x16 words🤣
@@huachengli1786 哈哈我還沒有發現
44:15处,应该是√d而不是d/2
论文里面是 d/2。而且我个人认为也是用d/2比较合适。 横向和纵向都是用 d/2 长度的向量表示,然后把这两个向量拼起来,得到长度为d的向量。
Transformer base 的head 数目好像是8吧
消融实验结果差不多是因为加是完全不对的,加所带来的特征在动力系统里面全都平均掉了
位置信息如何加进去是个编码问题,要尽可能的保证信息无损的同时占用空间小,f(attention(x),position)应该比直接把位置信息加在x里面好
这位帅哥是谁?
嘿嘿 来了
哈哈
沐神呢
44分30秒不应该是根号D嘛
你是说 44分07 秒 吗?视频里面提的 “纵坐标是 d/2”,是没错的。
请问你是指哪个地方应该是 根号D呢?
大神
-------------------------------Pretty good, done.-------------------------------
ViT-FRCNN and SETR
Transformer论文逐段精读: ua-cam.com/video/nzqlFIcCSWQ/v-deo.html
这个哥们讲的内容很喜欢!👍
讲得太好了,清晰明了,幽默风趣,全程无尿点!
讲得太棒了!非常感谢!!
謝謝老師講解 非常清楚 很受用
感谢老师!B站看完了来这里再来点赞
所以長話短說
先用CNN(或其他方法)得到足夠小的feature map,再用transformer跑
Zhu老师讲的很棒,感谢
请问老师叫什么名字?
感謝大神細心講解
感谢老师精彩的讲解和清楚的分析!
cnn和transformer基本上是同一件事情,只不过cnn更先进在特征就是tags,trasformer先进在不用一个单位一个单位滑动,但是实际上特征层和tags是一件事情的话特征层比tags的attention内积更高效,这类似于用所有basis和前几个特征函数近似,trasformer低效在要标注和attention本身,高效在不需要一个单位一个单位摞
这个人的水平至少是国内优青水平~!
謝謝 講解得非常清楚
谢谢作者分享!
谢谢讲解!
讲得太仔细了,非常感谢!!
来龙去脉,前因后果, 讲的太好了
讲的很清透!点赞
讲的真的好
讲得非常好👍学习了
Great presentation!
What is the name of the speaker?
怎么找不到 老师的 VITS 解读了呢?
老師整容了?
这是另外一个人!
请问老师叫什么名字?
讲的太好了
视频中PPT+前置摄像头是通过什么工具实现的呢?
真棒!
感谢感谢!!!
為什麼是224/16=14
然後input = 14*14
為何不是input = 16*16
input 是一個一個patch 的意思嗎?
我的理解和你一样。一张图类比一句话。所以一个patch类比于一个词。如果word embedding 是512, 那ViT里对应的就是16x16。
你理解的是对的,所以文章标题是 An Image is Worth 16x16 words🤣
@@huachengli1786 哈哈我還沒有發現
44:15处,应该是√d而不是d/2
论文里面是 d/2。
而且我个人认为也是用d/2比较合适。
横向和纵向都是用 d/2 长度的向量表示,然后把这两个向量拼起来,得到长度为d的向量。
Transformer base 的head 数目好像是8吧
消融实验结果差不多是因为加是完全不对的,加所带来的特征在动力系统里面全都平均掉了
位置信息如何加进去是个编码问题,要尽可能的保证信息无损的同时占用空间小,f(attention(x),position)应该比直接把位置信息加在x里面好
这位帅哥是谁?
嘿嘿 来了
哈哈
沐神呢
44分30秒不应该是根号D嘛
你是说 44分07 秒 吗?视频里面提的 “纵坐标是 d/2”,是没错的。
请问你是指哪个地方应该是 根号D呢?
大神
-------------------------------
Pretty good, done.
-------------------------------
ViT-FRCNN and SETR
Transformer论文逐段精读: ua-cam.com/video/nzqlFIcCSWQ/v-deo.html