Розмір відео: 1280 X 720853 X 480640 X 360
Показувати елементи керування програвачем
Автоматичне відтворення
Автоповтор
讲的太好了,细节清楚,motivation更是画龙点睛
确实多模态这四个结构图简洁又有表达力
不太懂为什么说48:45" Caching visual features restrains region-feature-based VLP models from using image augmentation"。 顶多是这类VLP做image aug会比较expensive吧
讲的真好!!!!
請問想多了解多模態或跨模態相關的知識,要用什麼關鍵字找會比較好呢
可以试试在arXiv 上搜一篇比较火的multi-modality文章,然后在页面下方的 related papers 里选 connected papers, arXiv 会生成一个可视化的图,里面有围绕这这片论文的各种相关的论文,还有他们的引用次数等,比较直观的看哪些工作比较有影响力
@@TL-fe9si thanks!
讲的太好了,细节清楚,motivation更是画龙点睛
确实多模态这四个结构图简洁又有表达力
不太懂为什么说48:45" Caching visual features restrains region-feature-based VLP models from using image augmentation"。 顶多是这类VLP做image aug会比较expensive吧
讲的真好!!!!
請問想多了解多模態或跨模態相關的知識,要用什麼關鍵字找會比較好呢
可以试试在arXiv 上搜一篇比较火的multi-modality文章,然后在页面下方的 related papers 里选 connected papers, arXiv 会生成一个可视化的图,里面有围绕这这片论文的各种相关的论文,还有他们的引用次数等,比较直观的看哪些工作比较有影响力
@@TL-fe9si thanks!