ViT论文逐段精读【论文精读】

Поділитися
Вставка
  • Опубліковано 18 лис 2024

КОМЕНТАРІ • 50

  • @patrickzhang-b3j
    @patrickzhang-b3j Рік тому +6

    这个哥们讲的内容很喜欢!👍

  • @morningstar618z8
    @morningstar618z8 Рік тому +5

    讲得太好了,清晰明了,幽默风趣,全程无尿点!

  • @xuzhang2431
    @xuzhang2431 3 роки тому +12

    讲得太棒了!非常感谢!!

  • @chrischen6
    @chrischen6 Рік тому +2

    謝謝老師講解 非常清楚 很受用

  • @pantan4206
    @pantan4206 3 роки тому +4

    感谢老师!B站看完了来这里再来点赞

  • @huangjames8130
    @huangjames8130 Рік тому +8

    所以長話短說
    先用CNN(或其他方法)得到足夠小的feature map,再用transformer跑

  • @yifanbai3072
    @yifanbai3072 2 роки тому +5

    Zhu老师讲的很棒,感谢

  • @越程越香
    @越程越香 Рік тому +5

    感謝大神細心講解

  • @louisyuliu7200
    @louisyuliu7200 2 роки тому +2

    感谢老师精彩的讲解和清楚的分析!

  • @xyh6552
    @xyh6552 10 місяців тому +1

    cnn和transformer基本上是同一件事情,只不过cnn更先进在特征就是tags,trasformer先进在不用一个单位一个单位滑动,但是实际上特征层和tags是一件事情的话特征层比tags的attention内积更高效,这类似于用所有basis和前几个特征函数近似,trasformer低效在要标注和attention本身,高效在不需要一个单位一个单位摞

  • @tedmsxu
    @tedmsxu Рік тому +3

    这个人的水平至少是国内优青水平~!

  • @twyunghui
    @twyunghui 2 роки тому +1

    謝謝 講解得非常清楚

  • @Rocky-px8jg
    @Rocky-px8jg 2 роки тому +1

    谢谢作者分享!

  • @lionhuang9209
    @lionhuang9209 2 роки тому +2

    谢谢讲解!

  • @geesehoward8838
    @geesehoward8838 Рік тому

    讲得太仔细了,非常感谢!!

  • @alphaprofold5707
    @alphaprofold5707 3 роки тому +2

    来龙去脉,前因后果, 讲的太好了

  • @Zhichaodeng2023
    @Zhichaodeng2023 Рік тому

    讲的很清透!点赞

  • @muyuanliu3175
    @muyuanliu3175 8 місяців тому

    讲的真的好

  • @zeweichu550
    @zeweichu550 2 роки тому

    讲得非常好👍学习了

  • @lionhuang9209
    @lionhuang9209 2 роки тому +2

    Great presentation!

  • @incameet
    @incameet Рік тому +2

    What is the name of the speaker?

  • @量化作手
    @量化作手 2 роки тому +1

    怎么找不到 老师的 VITS 解读了呢?

  • @x7lwavuj976
    @x7lwavuj976 3 роки тому +11

    老師整容了?

  • @yafengyang1099
    @yafengyang1099 Рік тому

    讲的太好了

  • @weizhang6537
    @weizhang6537 Місяць тому

    视频中PPT+前置摄像头是通过什么工具实现的呢?

  • @mingzhaochina
    @mingzhaochina Рік тому

    真棒!

  • @zhanlucas935
    @zhanlucas935 2 роки тому

    感谢感谢!!!

  • @Kane-s2e
    @Kane-s2e Рік тому +2

    為什麼是224/16=14
    然後input = 14*14
    為何不是input = 16*16
    input 是一個一個patch 的意思嗎?

    • @huachengli1786
      @huachengli1786 11 місяців тому +1

      我的理解和你一样。一张图类比一句话。所以一个patch类比于一个词。如果word embedding 是512, 那ViT里对应的就是16x16。

    • @huachengli1786
      @huachengli1786 11 місяців тому +1

      你理解的是对的,所以文章标题是 An Image is Worth 16x16 words🤣

    • @Kane-s2e
      @Kane-s2e 11 місяців тому +1

      @@huachengli1786 哈哈我還沒有發現

  • @turing-code
    @turing-code 10 місяців тому +1

    44:15处,应该是√d而不是d/2

    • @ShifangXuCN
      @ShifangXuCN 2 дні тому

      论文里面是 d/2。
      而且我个人认为也是用d/2比较合适。
      横向和纵向都是用 d/2 长度的向量表示,然后把这两个向量拼起来,得到长度为d的向量。

  • @grhaonan
    @grhaonan Рік тому

    Transformer base 的head 数目好像是8吧

  • @xyh6552
    @xyh6552 10 місяців тому

    消融实验结果差不多是因为加是完全不对的,加所带来的特征在动力系统里面全都平均掉了

    • @xyh6552
      @xyh6552 10 місяців тому

      位置信息如何加进去是个编码问题,要尽可能的保证信息无损的同时占用空间小,f(attention(x),position)应该比直接把位置信息加在x里面好

  • @dayeye2011
    @dayeye2011 8 місяців тому +1

    这位帅哥是谁?

  • @xufenghu3063
    @xufenghu3063 3 роки тому +1

    嘿嘿 来了

  • @扶墙种冬瓜
    @扶墙种冬瓜 2 роки тому

    哈哈

  • @jinhuizhang702
    @jinhuizhang702 2 роки тому +1

    沐神呢

  • @liqiushui2427
    @liqiushui2427 2 роки тому

    44分30秒不应该是根号D嘛

    • @ShifangXuCN
      @ShifangXuCN 3 дні тому

      你是说 44分07 秒 吗?视频里面提的 “纵坐标是 d/2”,是没错的。

    • @ShifangXuCN
      @ShifangXuCN 3 дні тому

      请问你是指哪个地方应该是 根号D呢?

  • @hailuyin9915
    @hailuyin9915 Рік тому

    大神

  • @jeffreyhao1343
    @jeffreyhao1343 2 роки тому

    -------------------------------
    Pretty good, done.
    -------------------------------

    • @jeffreyhao1343
      @jeffreyhao1343 2 роки тому

      ViT-FRCNN and SETR

    • @jeffreyhao1343
      @jeffreyhao1343 2 роки тому

      Transformer论文逐段精读: ua-cam.com/video/nzqlFIcCSWQ/v-deo.html