Розмір відео: 1280 X 720853 X 480640 X 360
Показувати елементи керування програвачем
Автоматичне відтворення
Автоповтор
對於一個小白來說,我對您的分享只有滿滿的感謝,透過您的影片,我能夠看到一些些我原本這輩子都不可能理解的理論!
林毅的课让我知道了神里绫华是谁😂
博主是,抖m😅😅
博主二次元粉,功能已废
lollipop換成popillol好像沒錯丫?
同问
视频里没错 林哥说的是有些ai可能出错是按lol li pop 为词粒度倒过来
@@FuxiHuoxi 這牽強了,為什麼不用其他 AI 演示呢?
應該問何謂倒過來 qoqillol loll!bob 這兩算不算倒過來
lollipop,如果按照字粒度划分,并倒过来写,就是popillol,这样是正确的。如果按照lol,li,pop这样的子词粒度划分,然后再倒过来写,就是poplilol,这样就是错误的。
4:13 这么说Interestelar (星际穿越) 里碰那本书格局小了,直接控制电流用晶体管打字格局打开。
谢谢。期待下期!
等第三期👏
林哥可以把大模型相关的教程单独放一个播放列表吗,省得翻找了可以随时复习
幾時上第三集?🙈
非常易懂!希望坚持
省流:我是神里綾華的狗
11:11不過確實這種解法也是最符合人類邏輯的,正常人應該也不會去數一個字裡有幾個字母,叫我把lolipop反過來我第一個想到的也是poplilo😂
希望之後的影片會是dark mode
几个月后,终于看到了(二)
聽到一半好像快懂了,聽到最後全矇了😂
可以先学语言模型演算法 会更好懂
结尾这里我没太听明白。。。就是词袋编码和向量相似度这里😂😂
@@CoraYe-n3h @user-yf6vm4rz5g 詞袋編碼是為了解決每個字的位置都用向量表達,導致訊息密度低還有計算困難的問題。詞袋編碼捨棄用位置作為向量的訊息紀錄方式,而是計算每一個token在句子中出現的次數,增加訊息密度的同時還能解決計算困難的問題。訊息密度要想像一下,如果我有一篇文章,裡面有十萬個「我喜歡貓」的句子,那位置向量的維度就會是4*10萬,就是40萬個維度。但改用詞袋編碼的話,向量維度直接縮減至4個維度,若以token計算更可能因為「喜歡」被視為一個token而把詞袋縮減至3個維度。考慮最極端的情況,即便一篇文章中的字跟標點符號完全不重複,使用詞袋編碼的維度也絕對小於等於使用位置向量的維度。由前述可以知道,詞袋編碼的目的是為了縮減維度,除了提升訊息密度外,同時也能減少計算難度,因為如果向量維度太高,矩陣乘法會超級慢,因為矩陣乘法的計算速度以指數級成長。也不能只單看詞袋編碼,要跟n-gram一起看才會懂,如果只有詞袋,那麼「我吃了漢堡」跟「漢堡吃了我」會因為token數量一致而使模型誤判成兩個句子是等價的,因為token數量一致,所以需要有n-gram這個滑塊(sliding window)一次滑過n個token來確定token的先後順序。再來說說向量相似度,這是一種評估兩個向量相不相似的方式,影片中的用途比較像是評估兩個句子的相似程度。舉例來說,我們判斷任意兩個人相不相似可以透過選定某幾項指標來判定,像是身高、體重與年齡等。把兩個人的身高、體重與年齡取差值後相加,數值小的代表兩個人相似。向量也是一樣的,需要有幾個指標才能判斷任意兩個向量的相似程度,像是可以選擇向量的長度與兩向量夾角作為判斷相似度的依據。簡單的幾何想像是,在空間中有兩條具有指向性的直線,判斷兩條直線相不相似只要根據他們的長度跟夾角就可以了,像是可以定義長度差距越小、夾角越小代表兩向量的相似程度越高。BTW,有興趣的話可以去看看線性代數中的向量空間與內積空間,這兩部分很完整的定義了什麼是向量的長度與夾角,因為只要符合規範就可以形成空間,所以長度與夾角不是只有唯一一種計算方式。
期待下一集~
这集看起来是引出下一集Bert和GPT内容了
大佬,请问没有好的电脑,不过有10几台老电脑,有没有方案可以来跑ai。
把10台卖了买台好的吧
线代是机器学习的基础之一
第三集什么时候出来?
啥时候出第三期?
干脆利落,棒!
谢谢您的分享
可以做個AI克隆人的教學
13:55 n-gram 这个地方没看懂,”我是“ 或者“是神里绫华”像 这个两个在自然语言里不一定经常出现的向量怎么做到简单地用第一位和第二位的1 来表示的,
編碼把(我+是)這兩個變成一組 表示為1 (是+神里)也表示為1 當出現(神里+是)(狗+是)這種組合時就會是0
@@sy-ej7ms 这个理解,但是要让电脑知道这类组合每一种分别是什么意思,你才能用1或者0来替代。那你得要有个多大的词库来装这么多组合
@@feifeishuishui 不需要新的詞庫兩個一組是人為定義的,也可以三個一組,額外再多發出一段位置編碼,有文字編碼跟位置編碼,而位置編碼是不用詞庫的,必須同時符合兩種編碼才是正確輸出
@@sy-ej7ms 有道理,学习了
@@feifeishuishui Term frequency (TF)
为什么整个视频看完我,我脑海里就只有一句话:好想被神里小姐踩在脚下啊。请问我是看了一期假的AI学习视频吗🤣
大模型不适合个体,你要是能开发一个框架,教AI怎么玩游戏,我觉得更有钱景~
深入淺出 牛啤
先赞后看,持续追更
認真聽完後學到了,你是那個誰誰誰的狗。😂我的學習能力趨近於零⋯⋯
加油 👏👏👏
终于有第二集了 哈哈
什么时候有3啊,急需,老板要我给他解释LLM
好希望有一個AI可以完全取代我做事
谢谢谢谢谢谢
不知道是不是我的耳機問題,一直感覺背後有回音像是待在一個空房間的角落講話一樣
林哥出現啦!
意思人类语言对于计算机来说是狗叫😂
啊,下一集不会是 GPT5 都已经出了吧
艾玛你终于来填坑了
成功的抢到了沙发啦
岂不是中文用单个字做训练的话,就没有子词的优势了。因为中文是依赖部首比较大的语言啊
实在不行,你就割我一波儿吧,199换你做视频有点儿压力😂
追更ing
桌子和房间一样宽,你是怎么进去的?
这期的麦克风是不是有点问题
期待已久
接下来就是word2vec了
上了一堂免費的課
林亦应该是个m没跑了
好视频
答辩啥意思
依託答辯
@@bearfish1999我说我孩子怎么最近总在说拉答辩😅
就是大便😂
我最近要在教授面前答辯 論文了,有什麼要注意的嗎
深入浅出,膜
居然不让我坐,就因为我不好看
还是这学习高清呀
本期目标:我是狗
这个学习速度实在是不能算快
好像只是了解性知识,本人比较愚钝没有看出更深一层的玄机。
汪汪
看完了,恩,玩原神去
我是女友的狗
我的学习总结:你想被神里绫华踩在脚下。 你是LSP
對於一個小白來說,我對您的分享只有滿滿的感謝,透過您的影片,我能夠看到一些些我原本這輩子都不可能理解的理論!
林毅的课让我知道了神里绫华是谁😂
博主是,抖m😅😅
博主二次元粉,功能已废
lollipop換成popillol好像沒錯丫?
同问
视频里没错 林哥说的是有些ai可能出错是按lol li pop 为词粒度倒过来
@@FuxiHuoxi 這牽強了,為什麼不用其他 AI 演示呢?
應該問何謂倒過來 qoqillol loll!bob 這兩算不算倒過來
lollipop,如果按照字粒度划分,并倒过来写,就是popillol,这样是正确的。如果按照lol,li,pop这样的子词粒度划分,然后再倒过来写,就是poplilol,这样就是错误的。
4:13 这么说Interestelar (星际穿越) 里碰那本书格局小了,直接控制电流用晶体管打字格局打开。
谢谢。期待下期!
等第三期👏
林哥可以把大模型相关的教程单独放一个播放列表吗,省得翻找了可以随时复习
幾時上第三集?🙈
非常易懂!希望坚持
省流:我是神里綾華的狗
11:11不過確實這種解法也是最符合人類邏輯的,正常人應該也不會去數一個字裡有幾個字母,叫我把lolipop反過來我第一個想到的也是poplilo😂
希望之後的影片會是dark mode
几个月后,终于看到了(二)
聽到一半好像快懂了,聽到最後全矇了😂
可以先学语言模型演算法 会更好懂
结尾这里我没太听明白。。。就是词袋编码和向量相似度这里😂😂
@@CoraYe-n3h @user-yf6vm4rz5g 詞袋編碼是為了解決每個字的位置都用向量表達,導致訊息密度低還有計算困難的問題。
詞袋編碼捨棄用位置作為向量的訊息紀錄方式,而是計算每一個token在句子中出現的次數,增加訊息密度的同時還能解決計算困難的問題。
訊息密度要想像一下,如果我有一篇文章,裡面有十萬個「我喜歡貓」的句子,那位置向量的維度就會是4*10萬,就是40萬個維度。但改用詞袋編碼的話,向量維度直接縮減至4個維度,若以token計算更可能因為「喜歡」被視為一個token而把詞袋縮減至3個維度。考慮最極端的情況,即便一篇文章中的字跟標點符號完全不重複,使用詞袋編碼的維度也絕對小於等於使用位置向量的維度。
由前述可以知道,詞袋編碼的目的是為了縮減維度,除了提升訊息密度外,同時也能減少計算難度,因為如果向量維度太高,矩陣乘法會超級慢,因為矩陣乘法的計算速度以指數級成長。
也不能只單看詞袋編碼,要跟n-gram一起看才會懂,如果只有詞袋,那麼「我吃了漢堡」跟「漢堡吃了我」會因為token數量一致而使模型誤判成兩個句子是等價的,因為token數量一致,所以需要有n-gram這個滑塊(sliding window)一次滑過n個token來確定token的先後順序。
再來說說向量相似度,這是一種評估兩個向量相不相似的方式,影片中的用途比較像是評估兩個句子的相似程度。
舉例來說,我們判斷任意兩個人相不相似可以透過選定某幾項指標來判定,像是身高、體重與年齡等。把兩個人的身高、體重與年齡取差值後相加,數值小的代表兩個人相似。
向量也是一樣的,需要有幾個指標才能判斷任意兩個向量的相似程度,像是可以選擇向量的長度與兩向量夾角作為判斷相似度的依據。
簡單的幾何想像是,在空間中有兩條具有指向性的直線,判斷兩條直線相不相似只要根據他們的長度跟夾角就可以了,像是可以定義長度差距越小、夾角越小代表兩向量的相似程度越高。
BTW,有興趣的話可以去看看線性代數中的向量空間與內積空間,這兩部分很完整的定義了什麼是向量的長度與夾角,因為只要符合規範就可以形成空間,所以長度與夾角不是只有唯一一種計算方式。
期待下一集~
这集看起来是引出下一集Bert和GPT内容了
大佬,请问没有好的电脑,不过有10几台老电脑,有没有方案可以来跑ai。
把10台卖了买台好的吧
线代是机器学习的基础之一
第三集什么时候出来?
啥时候出第三期?
干脆利落,棒!
谢谢您的分享
可以做個AI克隆人的教學
13:55 n-gram 这个地方没看懂,”我是“ 或者“是神里绫华”像 这个两个在自然语言里不一定经常出现的向量怎么做到简单地用第一位和第二位的1 来表示的,
編碼把(我+是)這兩個變成一組 表示為1 (是+神里)也表示為1 當出現(神里+是)(狗+是)這種組合時就會是0
@@sy-ej7ms 这个理解,但是要让电脑知道这类组合每一种分别是什么意思,你才能用1或者0来替代。那你得要有个多大的词库来装这么多组合
@@feifeishuishui 不需要新的詞庫兩個一組是人為定義的,也可以三個一組,額外再多發出一段位置編碼,有文字編碼跟位置編碼,而位置編碼是不用詞庫的,必須同時符合兩種編碼才是正確輸出
@@sy-ej7ms 有道理,学习了
@@feifeishuishui Term frequency (TF)
为什么整个视频看完我,我脑海里就只有一句话:好想被神里小姐踩在脚下啊。请问我是看了一期假的AI学习视频吗🤣
大模型不适合个体,你要是能开发一个框架,教AI怎么玩游戏,我觉得更有钱景~
深入淺出 牛啤
先赞后看,持续追更
認真聽完後學到了,你是那個誰誰誰的狗。😂我的學習能力趨近於零⋯⋯
加油 👏👏👏
终于有第二集了 哈哈
什么时候有3啊,急需,老板要我给他解释LLM
好希望有一個AI可以完全取代我做事
谢谢谢谢谢谢
不知道是不是我的耳機問題,一直感覺背後有回音像是待在一個空房間的角落講話一樣
林哥出現啦!
意思人类语言对于计算机来说是狗叫😂
啊,下一集不会是 GPT5 都已经出了吧
艾玛你终于来填坑了
成功的抢到了沙发啦
岂不是中文用单个字做训练的话,就没有子词的优势了。因为中文是依赖部首比较大的语言啊
实在不行,你就割我一波儿吧,199换你做视频有点儿压力😂
追更ing
桌子和房间一样宽,你是怎么进去的?
这期的麦克风是不是有点问题
期待已久
接下来就是word2vec了
上了一堂免費的課
林亦应该是个m没跑了
好视频
答辩啥意思
依託答辯
@@bearfish1999我说我孩子怎么最近总在说拉答辩😅
就是大便😂
我最近要在教授面前答辯 論文了,有什麼要注意的嗎
深入浅出,膜
居然不让我坐,就因为我不好看
还是这学习高清呀
本期目标:我是狗
这个学习速度实在是不能算快
好像只是了解性知识,本人比较愚钝没有看出更深一层的玄机。
汪汪
看完了,恩,玩原神去
我是女友的狗
我的学习总结:你想被神里绫华踩在脚下。 你是LSP