ViLT 论文精读【论文精读】

Поділитися
Вставка
  • Опубліковано 17 лис 2024

КОМЕНТАРІ • 7

  • @XiaoZhao-d4j
    @XiaoZhao-d4j Рік тому +1

    讲的太好了,细节清楚,motivation更是画龙点睛

  • @incendioraven4269
    @incendioraven4269 Рік тому

    确实多模态这四个结构图简洁又有表达力

  • @incendioraven4269
    @incendioraven4269 Рік тому

    不太懂为什么说48:45" Caching visual features restrains region-feature-based VLP models from using image augmentation"。 顶多是这类VLP做image aug会比较expensive吧

  • @jiezhang1532
    @jiezhang1532 Рік тому

    讲的真好!!!!

  • @何品潔-y5r
    @何品潔-y5r Рік тому +2

    請問想多了解多模態或跨模態相關的知識,要用什麼關鍵字找會比較好呢

    • @TL-fe9si
      @TL-fe9si Рік тому +2

      可以试试在arXiv 上搜一篇比较火的multi-modality文章,然后在页面下方的 related papers 里选 connected papers, arXiv 会生成一个可视化的图,里面有围绕这这片论文的各种相关的论文,还有他们的引用次数等,比较直观的看哪些工作比较有影响力

    • @zhuoranlu3858
      @zhuoranlu3858 2 місяці тому

      @@TL-fe9si thanks!