【生成式AI導論 2024】第17講:有關影像的生成式AI (上) - AI 如何產生圖片和影片 (Sora 背後可能用的原理)
Вставка
- Опубліковано 30 тра 2024
- 投影片:drive.google.com/file/d/1_Xuk...
延伸閱讀:
An Introduction to Vision-Language Modeling
arxiv.org/abs/2405.17247
Video Diffusion Models: A Survey
arxiv.org/abs/2405.03150
10:50 然後再過幾個月,會有一些 VTuber 背後看起來像是語言模型操控,但其實是人類的中之人在假扮 AI ...... "假扮 AI" 成為潮流,最終難以分辨 VTuber 背後是人類還是語言模型
18:00 在深度學習技術蓬勃發展之前,影像處理往往需要按照人為制定的特徵抽取方式,先將影像轉換成特徵,再以這些特徵作為模型的輸入。這種處理方式需要將影像處理拆解成多個步驟。隨著深度學習的興起,類神經網路可以直接使用最原始的像素作為輸入,無需再將影像處理切分成多個步驟。但是,為了生成更高清、更細緻的影像,在 "patch" 上進行處理又成為了必要的步驟,這種做法似乎讓我們重新回到了過去需要抽取特徵的框架中,然而,與傳統方法不同的是,這次的 "patch" 特徵是由另一個類神經網路自動學習和提取的,而非依賴人工設計。
26:30 上上週的課程連結: • 【生成式AI導論 2024】第15講:為什麼...
30:50 語言模型評量的課程連結: • 【生成式AI導論 2024】第12講:淺談檢... - Наука та технологія
下一段課程錄影會講 Diffusion 等經典的圖像生成方法,晚點再上傳
謝謝老師,繼續上課!
謝謝老師!上年您講解Diffusion Model的數學已經令我很受用!這次又可以學新東西了!
謝謝老師🎉🎉🎉
老师帅⛈
謝謝老師
Impressive, tks
同學,上課囉
🎉🎉🎉
老師講得很生動有趣🤣😆
我上個月也有稍微研究一下 Sora
我推薦也可以看一下OpenAI員工Head of Safety Systems--Lilian Weng
她4/24 那篇部落格文章Diffusion Models for Video Generation
講得也很詳細(但有點硬就是了)
老師是配合老黃嗎 上片時間從美國時間變台灣時間
谢谢老师的课程👍。想问一个问题,在文字生影片时,能不能patch只和它空间和时间上相邻进的patch 做attention呢?这样是不是可以更加大大减少attention的次数呢?
当然可以 有这种改进的paper 但是主流不这样做 因为用transformer本身就是追求non local的interaction,这样做相当于开倒车
只要不讲 就不会被告😂😂
氣球人那個已經被揭露是人工後製的😂
Spatial 和 Temporal attention 像极了视频编解码里的intra frame 和 inter frame。
第5
Neuro-sama
第一