ML Lecture 4: Classification

Поділитися
Вставка
  • Опубліковано 10 лют 2025

КОМЕНТАРІ • 119

  • @唐波-s9j
    @唐波-s9j 7 років тому +62

    讲真,这是目前唯一一个因为讲的太好而自私的舍不得向别人推荐的课。
    李老师解释的很好,尤其是Probability Generative Model 和Logistic Regression 两节课之间的过度非常的棒,眼前一亮,原来他们之间还可以这么推导。

    • @zes7215
      @zes7215 6 років тому

      不存在hbh

    • @sang7713
      @sang7713 6 років тому +1

      就你事多

    • @myworldAI
      @myworldAI 2 роки тому

      唐波 自私的人,loss function 大过一

  • @timtseng2278
    @timtseng2278 5 років тому +74

    宏毅
    教授是我最喜歡的神奇寶貝

  • @evanw9970
    @evanw9970 5 місяців тому +2

    李老师讲的是真的好,从简单的例子一步步进行推导,最后看到sigmoid function的时候,我恍然大悟。。。

  • @charleszhan6269
    @charleszhan6269 4 роки тому +3

    Normally we go directly to learn logistic regression when learning classification. Very very interesting explanation this way.

  • @joezhao2543
    @joezhao2543 7 років тому +4

    看到后面的推导,被感动到了~ 原来如此!多谢!

  • @MrQazedctgbujmol
    @MrQazedctgbujmol Рік тому +2

    看了五分鐘,還沒有看懂
    但看到寶可夢當例子,我直接先推

  • @mengjiaoguo4636
    @mengjiaoguo4636 2 роки тому +1

    醍醐灌顶,真是个好老师

  • @zhij8225
    @zhij8225 7 років тому +41

    发现了新大陆,肯本停不下来,一怒刷完所有视频

  • @HandledHandleog
    @HandledHandleog 4 роки тому +5

    From zhihu:
    机器学习从解决问题的方式上大致分为频率派和贝叶斯派。
    频率派又可以称为统计机器学习,svm,dnn,pca等算法都属于这一类,李航有本书写的算法,大致属于这一派。
    贝叶斯派也可以叫概率图模型,有高斯混合模型,条件随机场,玻尔兹曼机,隐马尔科夫模型都属于这一类算法。
    coursera吴恩达,李宏毅,讲解的机器学习主要是从直觉上去理解,数学公式推导较少,讲解的以统计学习方法为主,可以作为初始者的学习。
    哔哩哩哔的白板推导,徐义达,讲解的主要是概率图模型,需要较强的数学推导,对于提高非常有用。虽然概率图模型现在已经不常用了,但是里面的很多解题方法思路,都会被用到统计学习中,比如变分推断,importance sampling,EM等。
    比较出名的花书前两部分讲解的就是统计机器学习方法,第三部分就是概率图模型

    • @wtdrm-on3kd
      @wtdrm-on3kd Рік тому +1

      又收获了一点知识,了解的维度更高了点

  • @hsiasean
    @hsiasean 7 років тому

    老師不好意思,請問17:14秒右手邊的機率是不是P(Blue | B2) = 2 / 5、P(Green | B2) = 3/5呢?

    • @nick_ccc
      @nick_ccc 7 років тому +2

      我覺得老師可能打錯了。不過意思懂就好了 ^^

    • @hudsonvan4322
      @hudsonvan4322 3 роки тому

      我也發現了 ppt 沒有被更正

  • @yanghaoming221
    @yanghaoming221 4 роки тому

    教授太可爱了,不断为这个宝可梦属性分类研究找意义。

  • @周拂晓
    @周拂晓 7 років тому +2

    感谢老师,讲的非常棒,通俗易懂!

  • @zcxowwww
    @zcxowwww 6 років тому +2

    想檢驗Generative Model一個問題,麻煩大家幫我看我有沒有搞錯
    影片 37:47
    提到P(c1)是所有c1被挑中的機率,所以是79/(79+61)
    就是 [樣本c1] 除以 [所有的樣本]
    影片 16:43
    做了個舉例,P(x)代表之後的P(c1)
    P(x)應該是6/10吧?! 不能以假如說就定義他是2/3
    是這樣嗎?
    雖然我覺得兩者都對,因為挑球可以隨自己心意偏好挑哪個箱子

    • @羽-c9z
      @羽-c9z 6 років тому +1

      16:43那里P(x)的概率是自己先定的,你也可以假设为1/2和1/2.这是别人自己先定的。37:47那里是明确可以求出来的。

    • @zhangbo0037
      @zhangbo0037 Рік тому

      刚开始也没搞懂 2/3 和 1/3 。。。后来觉得这里只是随便举了个例子

  • @hudsonvan4322
    @hudsonvan4322 3 роки тому +1

    把丙紳老師的機率課看完終於知道這在講什麼了!高中的貝氏定理根本不是這樣教的,難怪我之前看不懂。其實 Generation Model 就是切麵包定理

  • @guangxzhu4019
    @guangxzhu4019 5 років тому +7

    有字幕真的太棒了。。。

  • @kunhongyu5053
    @kunhongyu5053 4 роки тому

    第一个感觉比NG说GDA更好的视频,李老师还把CS229后面的作业连起来说,很棒

  • @薛丁特的錢
    @薛丁特的錢 3 роки тому

    想請問,雖然 z = wx+b 是線性的我可以理解,但是 P(C1|X) = σ(z),則 P(C1|X) 應該不是線性的吧? 為甚麼 50:58 的右圖是線性切割,請高手解惑~

    • @薛丁特的錢
      @薛丁特的錢 3 роки тому

      我悟了,sigmoid 前的等高線就是 linear,只不過套上 sigmoid 後是讓等高線的數值被 normalize 到 [0, 1]

    • @tianzeyu9566
      @tianzeyu9566 2 роки тому

      其实也可以这样想,最后画决策边界的时候是说P大于0.5就是class 1,小于0.5就是class 2,相当于就是z大于0就是class 1,小于0就是class 2,套不套sigmoid是不影响的

  • @leedavid5214
    @leedavid5214 Рік тому

    28:42 右边那个sigma矩阵写错了。应该是:
    2 -1
    -1 6
    视频中的那个方差矩阵画出来的分布,应该是和上一页那样的一个正圆,而不是椭圆。

  • @TJ-hj8xp
    @TJ-hj8xp 3 роки тому

    20:00 generative model

  • @HandledHandleog
    @HandledHandleog 4 роки тому +2

    1:03:29 老師說這兩項其實是一樣的。容我補充一句,這個地方一樣的原因是covariance matrix ∑是對稱的。

    • @deadfire7973
      @deadfire7973 2 роки тому

      应该是因为这两项结果都是scalar,scalar的转置等于其本身的原因吧?

  • @蒋志强-d3h
    @蒋志强-d3h 5 років тому +3

    厉害!直接将概率模型与线性模型相关联。
    求W,b,就可以使用梯度下降方法了!

  • @sappy5678
    @sappy5678 7 років тому

    老師你好,想請問一下,您講義第二版的 ppt 的第六頁是不是放錯位置了?
    以及 第 21 頁投影片,應該是 54 而不是64?

  • @zao1696
    @zao1696 6 років тому +4

    還有是基於什麼假設可以直接使用Gaussian distribution作為機率模型

    • @tianfenghu9961
      @tianfenghu9961 4 роки тому

      高斯分布一般都被作为最常见的连续随机变量的概率分布(来源于中心极限定理),就像是最常见的离散随机变量的概率分布是泊松分布(来源于二项分布)

    • @hudsonvan4322
      @hudsonvan4322 3 роки тому

      @@tianfenghu9961 最常見得離散分布不是白努力嗎?

  • @hudsonvan4322
    @hudsonvan4322 3 роки тому

    1:00:40 什麼! 原來貝氏定理就是 Sigmoid Function 我太訝異了,原來如此貝氏定理居然能夠變成 Linear Model 太厲害了

  • @陳宜昌-l4x
    @陳宜昌-l4x 5 років тому

    請問一下,如果今天我使用的分布不是高斯分布(例如:白努力分布),是不是仍然可以推倒出類似於sigmoid這樣的形式,只是w和b會不一樣而已? 還是說sigmoid是專屬於高斯分布的,而其他分布想寫成 f(wx+b) 就得有不同於sigmoid的其他 f (例如:tanh)?

  • @milescoca8768
    @milescoca8768 2 роки тому

    听到第四遍的时候,差不多都明白了!

  • @simonhuang5067
    @simonhuang5067 6 років тому +2

    29:30處,sigma 為何是一個 2x2 的 matrix ? 請問有人可以回答嗎 ? 謝謝。

    • @L哦呵嗯哼
      @L哦呵嗯哼 6 років тому +2

      Simon Huang 因为有两个variable,所以需要covariance matrix

  • @jinny6874
    @jinny6874 6 років тому

    关于概率分布的模型选取这部分,是否应该根据training data的分布来选择是否用高斯分布呢,如果不同feature服从不同的分布,是否可以考虑将所有feature全部normalize为高斯分布?影片 55:30

  • @proty1623
    @proty1623 7 років тому +2

    老師您好,我在maximum likelihood 共用一個covariance的概念還不是很懂,不同的covariance為什麼model的參數就會比較多?feature不是都是Defense和SP Defense嗎,這樣參數不就都是這兩個嗎? 麻煩老師了,謝謝。

    • @yijunliu9607
      @yijunliu9607 7 років тому +2

      model 是由 covariance 和 mean 描述的,所以要求的参数其实是 mean 和 covariance,feature 是固定住的,所以共用 covariance 自然比两个 covariance 少了一半的参数啊

    • @CalvinJKu
      @CalvinJKu 5 років тому +1

      Features 不是參數,是數據。參數是指控制模型變化的數值。以這邊為例,我們使用高斯模型,所以參數是 mean 跟 covariance。如果我們假設不同的 class 會有不同的 covariance,那我們就需要兩個 covariance matrices,模型參數量也就變成了兩倍。

  • @mingming7826
    @mingming7826 10 місяців тому

    概率论里的极大似然估计,从独立同分布的样本的点属性来估计总体分布的特增

  • @matlov1024
    @matlov1024 6 років тому +2

    字幕有誤,老師講的是prior probability,字幕誤植為required probability

  • @JizhengWan
    @JizhengWan 7 років тому

    确定共用covariance所得到的结果更好么?根据前面讲的在private testing data上面将error rate降低其实并不能真正代表在public testing data上面也会取得同样的效果。 由于所需参数减少,唯一可以肯定的是运算速度会得到优化。但是在有充足public testing data的情况下,每个class有自己独立的covariance不一定就会overfitting吧?

  • @edkung7563
    @edkung7563 8 років тому

    清楚地講解,感謝!

  • @nearchan5184
    @nearchan5184 7 років тому

    56:33附近感觉有点问题,如果事件都是独立的,彼此之间没关系的话,概率应该加起来才对而不是乘法,乘法应该是事件相关,这边感觉比较奇怪。。

    • @mtx2001251
      @mtx2001251 7 років тому

      你搞混了,你說的獨立事件是指每個類別C會是P(x)=P(x|C1)+P(x|C2)+... 課程那段是在算P(x|C1)而已指x內每個屬性是獨立,你在1~10隨機取一個數取7次取到 7777777的機率是多少?

    • @andy1213aa
      @andy1213aa 5 років тому +1

      樓主說的應該是指"互斥",老師這邊說的是"獨立" 。

    • @hudsonvan4322
      @hudsonvan4322 3 роки тому

      獨立事件的交集的機率是相乘沒錯喔

  • @龚世泽
    @龚世泽 4 роки тому

    有点疑问,function set这里只写了贝叶斯公式,实际上高斯分布应该也是function set里面的一步假设吧?

  • @bjliao1349
    @bjliao1349 6 років тому +1

    共同的變異矩陣能用資料整體來算而不是兩類加權來算嗎

  • @xiaoyingchu5676
    @xiaoyingchu5676 8 років тому +5

    根據這節課的知識,是不是可以理解為:用於訓練的樣本庫必須是精心準備的佔比分佈(或者就是從真實世界裡採集到的真實數據);如果樣本庫裡P(C1)、P(C2)嚴重背離事實,就會干擾訓練的目標?
    在我當前實驗的場景裡,目標是根據機器設備的狀態數據判斷設備是否需要檢修。 現實中需要檢修的概率是很低的,這是否意味著我在準備訓練樣本時也要讓健康樣本遠多於需要檢修的樣本?

    • @HungyiLeeNTU
      @HungyiLeeNTU  8 років тому +5

      沒錯

    • @alanyoung7045
      @alanyoung7045 7 років тому +1

      是不是可以进一步假设,如果训练数据足够多,且随机,那它们就可以认为是符合Gaussian分布的,而不用专门“精心”准备数据,因为这违背机器学习的精神?谢谢

    • @evanw9970
      @evanw9970 5 місяців тому

      @@alanyoung7045 是这样的,不过你的回复已经6年前了,估计你现在已经成为一名专家了😂

  • @weiwang2293
    @weiwang2293 7 років тому +3

    共用同一个covariance,那两类的协方差不就改变了吗,那么判定的概率分布岂不是变化了。这样不就不符合实际情况了吗?

    • @Maybelov
      @Maybelov 5 років тому

      有時候不符合樣本的情況,反而更能fit真實狀況

    • @CalvinJKu
      @CalvinJKu 5 років тому +4

      問題在於,你並不知道實際情況是怎麼樣。你手上的數據只是對真實數據分佈的一些觀測,當你數據量很少的時候,可以說是一切皆有可能。而且就真實數據來說,X 分佈是相同的機會其實很多。你可以想像是同一個寶可夢上帝在創造寶可夢。Mu 的位置是完美寶可夢,但是上帝會手賤手抖之類的,就造出了千奇百怪的寶可夢。但是不管上帝是造一般寶可夢還是水系寶可夢,都是同一個上帝,也就是說他手賤手抖的程度是一樣的,所以我們要 share covariance matrix。如果假設 covariance matrices 不一樣,那比較像是假設有兩個寶可夢上帝,一個負責造普通寶可夢,一個負責造水系寶可夢,所以他們的 covariance matrices 會不一樣。
      所以重點就是,你不知道寶可夢上帝有幾個,所以你可以隨便假設。在這個例子裡面,假設只有一個寶可夢上帝效果比較好,就只是這樣。

  • @林人傑-t7i
    @林人傑-t7i 8 місяців тому

    真的很想知道P(C1lX)跟P(XlC1)的差別?

  • @KevinKuei
    @KevinKuei 7 років тому

    感謝老師!! 受益良多

  • @Hugo_Musk
    @Hugo_Musk Рік тому

    我只想說老師我愛你 你是我的天 我碩士論文的明燈 我博士論文的綠洲

  • @kantyu3347
    @kantyu3347 6 років тому

    Σ相同的方法不是一个合适的方法吧。建议使用GMM,使用EM算法来获得各个类别的高斯分布。

  • @yukaichen2816
    @yukaichen2816 4 роки тому +1

    大家好,我發現在這堂課中,不像前面的課程有最佳化的過程(梯度下降),而是直接代公式就可以找到maximum likelihood的μ、Σ,之後就可以找到最佳模型了。那是不是代表分類問題不需要很長時間的訓練過程呢?

    • @yifanjiang7246
      @yifanjiang7246 3 роки тому +1

      这里我也有点疑惑,但是 44:52 里面老师提到用相同的Σ来防止模型参数过多继而避免overfitting,感觉分类问题应该还是需要长时间训练的。

  • @卢亮-h1c
    @卢亮-h1c 7 років тому

    老师您好,那个海龟从79的水性神奇宝贝中抽取的概率,不是1/79嘛?从所拥有的神奇宝贝中(79个水性和61个普通)抽取的概率是1/(79+61)?是不是这样?

    • @HungyiLeeNTU
      @HungyiLeeNTU  7 років тому +6

      訓練用的水系神奇寶貝有 79 隻,但海龜是測試用的,它不在 79 隻內,所以從 79 隻神奇寶貝中永遠沒有辦法抽出那隻海龜

    • @JizhengWan
      @JizhengWan 7 років тому +2

      假设的是海龟不在training data里面。

  • @yuchengli8009
    @yuchengli8009 4 роки тому

    想問各位關於 1:01:19 ln 是不是少一個負號

  • @阿保-h8n
    @阿保-h8n 7 років тому +24

    鄉民都叫我大金XD

    • @denniswen5115
      @denniswen5115 5 років тому +1

      ua-cam.com/video/Ga1Cas6etf0/v-deo.htmlm27s

    • @hudsonvan4322
      @hudsonvan4322 3 роки тому

      @@denniswen5115 還是不太懂 比數學還難

  • @miku3920
    @miku3920 4 роки тому

    如果有一個特徵是冪律分布怎麼辦?

  • @GAINxGAIN
    @GAINxGAIN 6 років тому +3

    類別: 各類交通工具 XDDD

  • @尤广崟
    @尤广崟 6 років тому

    老师你好,那个朴素贝叶斯模型最好是各项独立,或许去掉total项会更好吗?

  • @boxu4948
    @boxu4948 5 років тому

    老师太幽默了

  • @wtnan
    @wtnan 8 років тому

    感谢老师

  • @鄦洬
    @鄦洬 4 роки тому

    “我又不是大木博士”我笑死了哈哈哈

  • @geezer2867
    @geezer2867 4 роки тому

    42:30

  • @huanhuanchen1498
    @huanhuanchen1498 4 роки тому

    感谢

  • @续陆
    @续陆 4 роки тому +1

    XD我怀疑你就是大木博士诶,不仅要预测宝可梦的cp值,还要做宝可梦图鉴的分类功能。

  • @louisking1436
    @louisking1436 4 роки тому +1

    李宏毅:
    台湾大学教授 ×
    宝可梦培训师 √

  • @zelotom6726
    @zelotom6726 4 роки тому

    我感觉我看完这节课学到好多单词啊,看到字幕不懂的单次都会查一下QAQ

  • @CalvinJKu
    @CalvinJKu 5 років тому

    上過老師課的同學應該都知道寶可夢原來叫做神奇寶貝了

  • @visualge
    @visualge 4 роки тому +1

    講義第9頁 (Two Boxes),右邊是否應為 P(Blue|B2) = 2/5, P(Green|B2) = 3/5?謝謝

  • @cyc3516
    @cyc3516 4 роки тому

    文科生表示聽得懂 感謝老師

  • @xiaoweidu4667
    @xiaoweidu4667 5 років тому

    logistic regression 说的最明白的

  • @linFrankLin
    @linFrankLin 7 років тому

    太好了。

  • @zao1696
    @zao1696 6 років тому

    Sigma*的公式有沒有推導

  • @jianxiongji2578
    @jianxiongji2578 6 років тому

    老师你好强

  • @jingyang6623
    @jingyang6623 7 років тому

    请问有没有课程的sldes可以download

  • @Levi-mz9fm
    @Levi-mz9fm 5 років тому

    我永远爱李宏毅教授

  • @bennybenbenw
    @bennybenbenw 3 роки тому

    bayes theorem 應該不是小學 是高中

  • @jump6m13
    @jump6m13 8 місяців тому

    6:50 糾正一下,現在是1025隻

  • @v40540503
    @v40540503 8 років тому

    2016 ppt @7 上面b+w1x1+w2x2=0 (不是b+w1x1+w1x1)

  • @li-pingho1441
    @li-pingho1441 5 років тому +1

    我來了

  • @dent1808
    @dent1808 6 років тому +1

    鄉民都叫我大金XDDDD

  • @laokkkwww
    @laokkkwww 6 років тому +2

    這章用神奇寶貝的例子感覺很難懂

    • @hudsonvan4322
      @hudsonvan4322 3 роки тому +1

      我覺得是兩個Class的圖沒畫好反而誤導,其實應該把藍色綠色長方形畫成同一個才對

    • @puffvayne
      @puffvayne 2 роки тому

      @@hudsonvan4322 同感! prior 到了寶可夢那邊跟前面的藍球綠球已經不太一樣, Water 跟 Normal 應該畫在同一個 set 中 (training set)

  • @xinshang112
    @xinshang112 7 років тому

    讲到后面全是数学, 心累! 唉!

    • @vis0933
      @vis0933 7 років тому

      这节课我听了两天了,中间去重新听了下其他的线性代数和高斯分布;真的忘光了 QAQ

  • @zes7215
    @zes7215 6 років тому

    不存在不能,或者有无,知不知道,所以,怎么,不好等x说,解释等或不好讲x等,不管怎么说,可,可用任何说解释讲任何都OK。不紧张,不存在好坏,no紧张,担心for such or any,做事不忧事x