RNN模型与NLP应用(4/9):LSTM模型

Поділитися
Вставка
  • Опубліковано 17 лис 2024

КОМЕНТАРІ • 66

  • @harrylee27
    @harrylee27 2 роки тому +12

    OMG,10分钟就搞懂LSTM了,之前上了几个小时的课也云里雾里的,这10分钟基本就搞懂了,厉害厉害!我觉得这个讲解好的地方是,不说虚的,不来公式,从问题出发;用带颜色的矩阵块来表示数据shape,其实这些一旦搞明白了,那些形而上的东西(输入门,遗忘门,输出门)就不用费力解释了;最后还有代码实现,一以贯之的测试用例和直观的性能比较。传道授业的至高境界,祛魅!

  • @deerbeau
    @deerbeau 3 роки тому +4

    讲得真好,一句废话没有,全是干货!华人之光。

  • @jarorkwong8042
    @jarorkwong8042 3 роки тому +4

    发现了宝藏UP主,讲解太牛逼了!别看讲得慢条斯理,但是却十分细致!短短的十分钟里不光详细介绍了模型内部的计算过程,而且有keras的实现~

  • @chia-hengsun7381
    @chia-hengsun7381 3 роки тому +13

    超級乾貨呀! 懇請老師永遠上影片在架上! 造福廣大的學生及工程師

  • @meolalittlewild5176
    @meolalittlewild5176 4 роки тому +7

    很棒!快速入门和了解特别合适。看完去看paper也有一定基础,不至于啥也不懂。

  • @haemonyang6278
    @haemonyang6278 5 місяців тому

    講得真棒 真幸運能在台灣看到您的視頻

  • @dongni1106
    @dongni1106 2 роки тому

    王老师,讲课高手。简洁,有逻辑。

  • @JeremyZ1036
    @JeremyZ1036 3 роки тому

    干货满满!还没有广告,太良心了

  • @赵勇-u4n
    @赵勇-u4n Рік тому

    碰到好的讲解我从来不溢美之词。但是这个视频真觉得一般,博主只告诉如何操作和实现,至于LSTM深层次的原理和为什么实现长短起记忆都没有讲解,希望博主继续努力呀

  • @coco-il4gr
    @coco-il4gr 2 роки тому +1

    宝藏老师

  • @shenshen4402
    @shenshen4402 3 роки тому +1

    不知道为什么最近不更新了,希望看到更多视频。可以说一些paper和经典方法。希望多一些强化和graph的讲解

  • @rayshezzy436
    @rayshezzy436 2 роки тому

    感谢分享,非常不错的教程
    Thanks for sharing. Nice tutorial!

  • @shirleyyu3482
    @shirleyyu3482 2 роки тому

    卧槽讲得好好,发现宝藏了

  • @mflow502
    @mflow502 2 роки тому

    学习了,教学节奏特别好

  • @wangrichard2140
    @wangrichard2140 4 роки тому +1

    太好了!我要把老师的视频都学完

  • @amyzhang8155
    @amyzhang8155 2 роки тому

    难怪是又严格,难拿A,但是学生又选你的课🎉

  • @jiazhenhu5959
    @jiazhenhu5959 3 роки тому

    比大部分视频和教程讲得清晰也好理解。感觉可以增加一些更intuitive的讲解,就更清楚啦

  • @tomleo6390
    @tomleo6390 4 роки тому

    讲解得非常清晰!感谢!

  • @lmnefg121
    @lmnefg121 3 роки тому +1

    我补充一点,forget,input和output除了乘系数矩阵外,有可能加偏移量。

  • @BC-gi4ty
    @BC-gi4ty 3 роки тому

    very clean explanation

  • @fzzying
    @fzzying 4 роки тому

    期待下一课

  • @principwty0520
    @principwty0520 Рік тому

    讲得真好!

  • @bnglr
    @bnglr 2 роки тому

    RNN、LSTM里的input x,hidden state,output,所有的这些东西,都必须是1维的向量吗?不能是矩阵?

  • @lusen9719
    @lusen9719 4 роки тому

    感谢老师,讲的太好了!

  • @xiaoyuyan6359
    @xiaoyuyan6359 4 роки тому

    谢谢老师!讲的很详细

  • @TV-vu9fg
    @TV-vu9fg 3 роки тому +1

    老师,我有个问题,lstm层的output shape是(None, 32), 为什么说是一个向量而不是矩阵呢?shape的第一个None指的是?

    • @ShusenWang
      @ShusenWang  3 роки тому

      输出是矩阵还是向量,取决于return_sequence是true还是false。

  • @yichaohou5406
    @yichaohou5406 4 роки тому

    课件做的太好啦,讲的也清晰!这些都是官方课件吗,还是您自己做的,感觉用tex做这些课件也是很费功夫的,非常感谢!

    • @ShusenWang
      @ShusenWang  4 роки тому

      课件是我自己做的。有些图是别人的,我都表明出处了。

    • @yichaohou5406
      @yichaohou5406 4 роки тому

      @@ShusenWang 前辈辛苦,视频做的这么好,建议直接发国内B站,UA-cam 对于国内人来说还是用的少,另外在B站看到有人转发你的视频,不知是否有授权

    • @ShusenWang
      @ShusenWang  4 роки тому +9

      @@yichaohou5406 多谢~ 谁都可以转发,我不反对。我自己不想往B站发。

  • @ngrokdocker2945
    @ngrokdocker2945 7 місяців тому

    太棒了!

  • @ericwang5504
    @ericwang5504 3 роки тому

    非常感谢!

  • @xinliu4785
    @xinliu4785 2 роки тому

    讲得太好了!!!!!

  • @ximingdong503
    @ximingdong503 3 роки тому

    老师 打扰一下 两个问题, 1,Ct 是不是 要复制2次呀 一个是 給下一个 state 用的 还有一个是 用在这个时态的 output? 2, 我不太理解 tanh用在 ct 那地方 就是 output gate 那地方 为什么 还要 用 tanh 是为了 让 output 的值确保在 -1 和 1 之间吗 ? 就是视频 7.45那地方? 谢谢

  • @xinglinli9874
    @xinglinli9874 2 роки тому

    讲的是真的细

  • @yuanyao1774
    @yuanyao1774 4 роки тому

    老师,我是看完RNN的视频后看的LSTM,然后我想咨询一下LSTM中的Ct-1是什么信息呢?为什么RNN中没有用到Ct-1,LSTM中却多了个Ct-1呢?

  • @bnglr
    @bnglr 4 роки тому

    h(t-1)都是被上一个cell的tanh映射到了-1到+1之间,那么x(t)应该也是在embedding后同样缩放吧,否则拼接起来有点奇怪

  • @DED_Search
    @DED_Search 4 роки тому +1

    还有一个naive问题,视频最后说到在lstm层用到dropout 并没有提升performance,解决overfitting。
    • Training Accuracy: 91.8%
    • Validation Accuracy: 88.7%
    • Test Accuracy: 88.6%
    请问根据这组数据,如何判断overfitting?谢谢

    • @ShusenWang
      @ShusenWang  4 роки тому +3

      从这看不出overfitting。要把模型参数变大和变小,看validiation变好还是变坏。如果模型变小,validation 变好,就知道之前发生了overfitting。

    • @DED_Search
      @DED_Search 4 роки тому

      @@ShusenWang 老师你是指比如 x 和 h 的dimension么?我记得你讲过几次 他们的dimension是需要 cross validation 来确定的。他们的大小决定模型参数的数量。参数越多模型越复杂越容易over fit. 不知道我理解的对不对 谢谢

    • @ShusenWang
      @ShusenWang  4 роки тому

      @@DED_Search 对的

  • @renesmt6423
    @renesmt6423 3 роки тому

    感谢分享!

  • @liangxu208
    @liangxu208 4 роки тому

    谢谢王老师

  • @weibovey1238
    @weibovey1238 4 роки тому

    请问一下,Output Gate那部分,我们计算得到的Ot是为了决定从Ct更新到ht的值呢?还是决定从Ct-1更新到ht的值呢???感觉在上一步Ct已经完成了更新,后续就和Ct-1没什么关系了???

    • @ShusenWang
      @ShusenWang  4 роки тому

      Ouput Gate的结果作为输出。在机器翻译或者文本生成的应用里,output gate输出的向量要用于预测下一个字符

    • @weibovey1238
      @weibovey1238 4 роки тому

      @@ShusenWang 哦哦!那这个Output Gate也会随着Ct一起更新最新的ht,对么???

  • @DED_Search
    @DED_Search 4 роки тому

    王老师你好,我有个关于output dimension的问题,在视频9:55分。embedding层的输出是(none, 500, 32).也就是说 每个电影评论 (我们只保留最后500个单词,当然如果不够就用zero padding) 的每一个单词都用一个32 dimension的vector来表示。我记得training数据是20000个,那也就是说我们有20000个电影评论。那实际上embedding的输出是20000个50by32的矩阵么?不好意识,问题可能比较naive。谢谢

    • @ShusenWang
      @ShusenWang  4 роки тому +1

      实现的时候不用管 20000。训练和测试的时候都是用mini-batch。如果batch size = 8,那么每次输出的就是 8x500x32 的tensor. 由于batch size到了训练和测试时候才知道,所以用 none 。

    • @DED_Search
      @DED_Search 4 роки тому

      @@ShusenWang 明白了 非常感谢!

  • @zhiweisong4617
    @zhiweisong4617 3 роки тому

    老师您好,我直观上没有理解为什么LSTM 相比与simple RNN 多了一个C传输效果就变好了。按理说h_t = outputGate * tanh(c_t), 也没有额外的信息啊。老师能稍微给一些intuitive 的理解嘛?

    • @ShusenWang
      @ShusenWang  3 роки тому

      记忆力变长了。每做一次矩阵乘法+激活函数,信息就会丢一些。LSTM的c不做矩阵乘法,只有elementwise乘法。

    • @pingzhang2084
      @pingzhang2084 3 роки тому

      @@ShusenWang 从h_{t-1}和x_t计算\tilde{C_t}不是要做矩阵乘法吗。C是过往\tilde{C_t}的加权吧,不也要经过矩阵乘法吗

    • @ShusenWang
      @ShusenWang  3 роки тому

      @@pingzhang2084 你说的是新的元素\tilde{C_t}是如何计算出来的。我的意思是从旧的 C 到新的 C 没有经过矩阵乘法,这样旧的信息损失很少,可以到达很多步之后,记忆变长。

    • @pingzhang2084
      @pingzhang2084 3 роки тому

      @@ShusenWang 谢谢

  • @石海军-y3l
    @石海军-y3l Рік тому

    想问问Ct到底是什么呀

  • @caiyu538
    @caiyu538 Рік тому

    👍

  • @chushao
    @chushao 3 роки тому +2

    字正腔圆,字字珠玑

  • @AGI.Trainer
    @AGI.Trainer Рік тому

    lstm的参数也太少了

  • @sciab3674
    @sciab3674 3 місяці тому

    牛掰

  • @zddroy1025
    @zddroy1025 3 роки тому

    我想做你的小弟

  • @DangZijian
    @DangZijian 11 місяців тому

    感谢老师,讲的真好!!

  • @xiangwang4462
    @xiangwang4462 4 роки тому

    谢谢老师!