从零开始学习大语言模型（二）

林亦LYi

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 25 вер 2024
从零开始学习大语言模型（二）：AI如何学会讲人话？
我们在telegram创建了一个AI、科技的讨论频道，大家感兴趣的可以加进来一起交流: t.me/linyidiscuss

КОМЕНТАРІ • 90

@shih-binshih9889 3 місяці тому ⁺⁵
對於一個小白來說，我對您的分享只有滿滿的感謝，透過您的影片，我能夠看到一些些我原本這輩子都不可能理解的理論!
@weihua44 3 місяці тому ⁺⁴⁶
林毅的课让我知道了神里绫华是谁😂
@sungkyungchoi 3 місяці тому ⁺¹
博主是，抖m😅😅
@puzhaotang479 14 днів тому
博主二次元粉，功能已废
@35likaikou 3 місяці тому ⁺²⁴
lollipop換成popillol好像沒錯丫?
@Elon66688 3 місяці тому ⁺⁵
同问
@FuxiHuoxi 3 місяці тому ⁺¹
视频里没错林哥说的是有些ai可能出错是按lol li pop 为词粒度倒过来
@wizist 3 місяці тому ⁺⁴
@@FuxiHuoxi 這牽強了，為什麼不用其他 AI 演示呢？
@sy-ej7ms 3 місяці тому ⁺¹
應該問何謂倒過來 qoqillol loll!bob 這兩算不算倒過來
@hankdonald7812 3 місяці тому ⁺⁵
lollipop，如果按照字粒度划分，并倒过来写，就是popillol，这样是正确的。如果按照lol，li，pop这样的子词粒度划分，然后再倒过来写，就是poplilol，这样就是错误的。
@leonardoy5088 2 місяці тому
4:13 这么说Interestelar (星际穿越) 里碰那本书格局小了，直接控制电流用晶体管打字格局打开。
@AS-wx1pm 3 місяці тому ⁺⁶
谢谢。期待下期！
@hongzeng6081 Місяць тому ⁺¹
等第三期👏
@cyshall 3 місяці тому ⁺¹
林哥可以把大模型相关的教程单独放一个播放列表吗，省得翻找了可以随时复习
@SeanChay Місяць тому ⁺¹
幾時上第三集？🙈
@harryying4507 3 місяці тому ⁺⁴
非常易懂！希望坚持
@趙軒磊-q7z 3 місяці тому ⁺³
省流：我是神里綾華的狗
@許哲豪-v4m 3 місяці тому
11:11不過確實這種解法也是最符合人類邏輯的，正常人應該也不會去數一個字裡有幾個字母，叫我把lolipop反過來我第一個想到的也是poplilo😂
@Henry-pj6gz 3 місяці тому ⁺¹
希望之後的影片會是dark mode
@puzhaotang479 2 місяці тому
几个月后，终于看到了（二）
@ZechWu 3 місяці тому ⁺⁵
聽到一半好像快懂了，聽到最後全矇了😂
@艾菜雞 3 місяці тому ⁺¹
可以先学语言模型演算法会更好懂
@CoraYe-n3h 3 місяці тому
结尾这里我没太听明白。。。就是词袋编码和向量相似度这里😂😂
@TheLucky368368 2 місяці тому
@@CoraYe-n3h @user-yf6vm4rz5g 詞袋編碼是為了解決每個字的位置都用向量表達，導致訊息密度低還有計算困難的問題。
詞袋編碼捨棄用位置作為向量的訊息紀錄方式，而是計算每一個token在句子中出現的次數，增加訊息密度的同時還能解決計算困難的問題。
訊息密度要想像一下，如果我有一篇文章，裡面有十萬個「我喜歡貓」的句子，那位置向量的維度就會是4*10萬，就是40萬個維度。但改用詞袋編碼的話，向量維度直接縮減至4個維度，若以token計算更可能因為「喜歡」被視為一個token而把詞袋縮減至3個維度。考慮最極端的情況，即便一篇文章中的字跟標點符號完全不重複，使用詞袋編碼的維度也絕對小於等於使用位置向量的維度。
由前述可以知道，詞袋編碼的目的是為了縮減維度，除了提升訊息密度外，同時也能減少計算難度，因為如果向量維度太高，矩陣乘法會超級慢，因為矩陣乘法的計算速度以指數級成長。
也不能只單看詞袋編碼，要跟n-gram一起看才會懂，如果只有詞袋，那麼「我吃了漢堡」跟「漢堡吃了我」會因為token數量一致而使模型誤判成兩個句子是等價的，因為token數量一致，所以需要有n-gram這個滑塊(sliding window)一次滑過n個token來確定token的先後順序。
再來說說向量相似度，這是一種評估兩個向量相不相似的方式，影片中的用途比較像是評估兩個句子的相似程度。
舉例來說，我們判斷任意兩個人相不相似可以透過選定某幾項指標來判定，像是身高、體重與年齡等。把兩個人的身高、體重與年齡取差值後相加，數值小的代表兩個人相似。
向量也是一樣的，需要有幾個指標才能判斷任意兩個向量的相似程度，像是可以選擇向量的長度與兩向量夾角作為判斷相似度的依據。
簡單的幾何想像是，在空間中有兩條具有指向性的直線，判斷兩條直線相不相似只要根據他們的長度跟夾角就可以了，像是可以定義長度差距越小、夾角越小代表兩向量的相似程度越高。
BTW，有興趣的話可以去看看線性代數中的向量空間與內積空間，這兩部分很完整的定義了什麼是向量的長度與夾角，因為只要符合規範就可以形成空間，所以長度與夾角不是只有唯一一種計算方式。
@hello松子 Місяць тому
期待下一集~
@kenshinhu2823 3 місяці тому ⁺¹
这集看起来是引出下一集Bert和GPT内容了
@guguwarcheif1123 3 місяці тому ⁺³
大佬，请问没有好的电脑，不过有10几台老电脑，有没有方案可以来跑ai。
@brionl9377 Місяць тому
把10台卖了买台好的吧
@stevencaulfield6042 3 місяці тому ⁺¹
线代是机器学习的基础之一
@tonyqin6737 2 місяці тому
第三集什么时候出来？
@郝赫-r3s 2 місяці тому
啥时候出第三期？
@nandychen 2 місяці тому
干脆利落，棒！
@zhenhongxue 2 місяці тому
谢谢您的分享
@loltou1 2 місяці тому
可以做個AI克隆人的教學
@feifeishuishui 3 місяці тому
13:55 n-gram 这个地方没看懂，”我是“ 或者“是神里绫华”像这个两个在自然语言里不一定经常出现的向量怎么做到简单地用第一位和第二位的1 来表示的，
@sy-ej7ms 3 місяці тому
編碼把(我+是)這兩個變成一組表示為1 (是+神里)也表示為1 當出現(神里+是)(狗+是)這種組合時就會是0
@feifeishuishui 3 місяці тому
@@sy-ej7ms 这个理解，但是要让电脑知道这类组合每一种分别是什么意思，你才能用1或者0来替代。那你得要有个多大的词库来装这么多组合
@sy-ej7ms 3 місяці тому
@@feifeishuishui 不需要新的詞庫兩個一組是人為定義的，也可以三個一組，額外再多發出一段位置編碼，有文字編碼跟位置編碼，而位置編碼是不用詞庫的，必須同時符合兩種編碼才是正確輸出
@feifeishuishui 3 місяці тому
@@sy-ej7ms 有道理，学习了
@meowalien4160 3 місяці тому
@@feifeishuishui Term frequency (TF)
@alexhuang3965 3 місяці тому ⁺²
为什么整个视频看完我，我脑海里就只有一句话：好想被神里小姐踩在脚下啊。请问我是看了一期假的AI学习视频吗🤣
@强国学习 3 місяці тому
大模型不适合个体，你要是能开发一个框架，教AI怎么玩游戏，我觉得更有钱景~
@s010860s 3 місяці тому ⁺²
深入淺出牛啤
@chenzhi-th2oy 3 місяці тому
先赞后看，持续追更
@cashbbq5064 3 місяці тому
認真聽完後學到了，你是那個誰誰誰的狗。😂我的學習能力趨近於零⋯⋯
@pgmsia2516 3 місяці тому ⁺¹
加油 👏👏👏
@rogetsun3656 3 місяці тому ⁺¹
终于有第二集了哈哈
@lyeeonardolll2672 2 місяці тому
什么时候有3啊，急需，老板要我给他解释LLM
@bon_come 3 місяці тому
好希望有一個AI可以完全取代我做事
@stevencurry995 2 місяці тому
谢谢谢谢谢谢
@劉聖龍 3 місяці тому
不知道是不是我的耳機問題，一直感覺背後有回音像是待在一個空房間的角落講話一樣
@youjunliu8463 3 місяці тому
林哥出現啦！
@晏波-k6d 2 місяці тому
意思人类语言对于计算机来说是狗叫😂
@justinmoh_ 3 місяці тому
啊，下一集不会是 GPT5 都已经出了吧
@CoraYe-n3h 3 місяці тому
艾玛你终于来填坑了
@张生-u2r 3 місяці тому
成功的抢到了沙发啦
@yougikou 3 місяці тому
岂不是中文用单个字做训练的话，就没有子词的优势了。因为中文是依赖部首比较大的语言啊
@Yiliu 3 місяці тому ⁺¹
实在不行，你就割我一波儿吧，199换你做视频有点儿压力😂
@sidega5397 3 місяці тому
追更ing
@JianWang-q8j 3 місяці тому
桌子和房间一样宽，你是怎么进去的？
@cxpjamescxp 3 місяці тому
这期的麦克风是不是有点问题
@j8ge 3 місяці тому
期待已久
@jerryjerry666 3 місяці тому
接下来就是word2vec了
@fff-zg1kr 3 місяці тому
上了一堂免費的課
@ciciy-wm5ik Місяць тому
林亦应该是个m没跑了
@Lyn19820327 3 місяці тому
好视频
@duanlang119 3 місяці тому
答辩啥意思
@bearfish1999 3 місяці тому ⁺¹
依託答辯
@weihua44 3 місяці тому
@@bearfish1999我说我孩子怎么最近总在说拉答辩😅
@TimCook-mh6bt 3 місяці тому
就是大便😂
@PIKA_Ox1 3 місяці тому
我最近要在教授面前答辯論文了，有什麼要注意的嗎
@hongjic 3 місяці тому
深入浅出，膜
@杨直刚 3 місяці тому ⁺¹
居然不让我坐，就因为我不好看
@MrCoffeerify 3 місяці тому
还是这学习高清呀
@weichen6451 3 місяці тому
本期目标：我是狗
@muyuanliu3175 3 місяці тому
这个学习速度实在是不能算快
@leonz2484 3 місяці тому
好像只是了解性知识，本人比较愚钝没有看出更深一层的玄机。
@蔡翔宇-k1b 3 місяці тому
汪汪
@syr1145 3 місяці тому
看完了，恩，玩原神去
@lyz3581 3 місяці тому
我是女友的狗
@Jack-Y-J 3 місяці тому ⁺¹
我的学习总结：你想被神里绫华踩在脚下。你是LSP

Наступне

Автоматичне відтворення