【深層学習】SCDV - 文章ベクトルをソフトクラスタとスパース化で精度アップ!【ディープラーニングの世界 vol. 27】

Поділитися
Вставка
  • Опубліковано 30 вер 2024
  • ☆お知らせ☆
    AIcia Solid Project 公式HPが出来ました!!!
    sites.google.c...
    HPでは私たちや動画コンテンツの紹介、板書データの公開などをしています。是非ご活用ください!!
    ▼テーマ
    SCDV の中身と、なぜ強いかを解説します!
    soft clustering によるクラスタ別重みつき和と、sparse 化による単語の文脈依存性の表現がすごいなと思います:eyes:
    ▼関連動画
    Deep Learning の世界 • Deep Learning の世界
    自然言語処理シリーズ • 自然言語処理シリーズ
    ▼目次
    公開後追加予定!
    ▼参考文献
    [1612.06778] SCDV : Sparse Composite Document Vectors using soft clustering over distributional representations
    arxiv.org/abs/...
    原論文!
    【2019年版】自然言語処理の代表的なモデル・アルゴリズム時系列まとめ - Qiita qiita.com/Left...
    いろいろこれを参考にして動画を作っています
    ▼終わりに
    ご視聴ありがとうございました!
    面白かったら高評価、チャンネル登録お願いします。
    動画の質問、感想などは、コメント欄やTwitterにどうぞ!
    お仕事、コラボのご依頼は、TwitterのDMからお願い致します。
    動画生成:AIcia Solid (Twitter: / aicia_solid )
    動画編集:AIris Solid (妹) (Twitter: / airis_solid )
    =======
    Logo: TEICAさん ( / t_e_i_c_a )
    Model: 3d.nicovideo.jp...
    Model by: W01fa さん ( / w01fa )

КОМЕНТАРІ • 26

  • @堀江啓-h4x
    @堀江啓-h4x 3 роки тому +5

    全くついてけないけど、
    かわいいです。

    • @AIcia_Solid
      @AIcia_Solid  3 роки тому +1

      よく言われます😍😍😍
      シリーズものなので、気が向いたら1から見てみてください(^o^)

    • @なまのも
      @なまのも 3 роки тому +1

      かわいいですよね

  • @ぽぽ-h7p5m
    @ぽぽ-h7p5m 3 роки тому +1

    最近見始めて、deep learningに対する理解が一気に進みました!ありがとうございます(^^)
    今度normalizing flowについても動画出してほしいです!!!!

    • @AIcia_Solid
      @AIcia_Solid  3 роки тому +1

      ご視聴コメントありがとうございます😊
      normalizing flow は私もいつか撮りたいんですよねー。
      しばしお待ちを!😍🎉

  • @kazu_2499
    @kazu_2499 3 роки тому +2

    T-SNEでの可視化も説明していただきたくなりますね😊

    • @AIcia_Solid
      @AIcia_Solid  3 роки тому +2

      たしかにー!
      そのうちやりますね!(^o^)

    • @kazu_2499
      @kazu_2499 3 роки тому +1

      @@AIcia_Solid 楽しみにしてます!!

  • @manbodama
    @manbodama 3 роки тому +1

    閾値は本来「いき値」で、慣用的には「しきい値」もあって分野によって読み方は異なるけど、機械学習の分野では正しい「いき値」で読まれる、と聞いたことがあります。間違ってたらすいません。

    • @AIcia_Solid
      @AIcia_Solid  3 роки тому

      ほえー、そうなんですね😮
      勉強になります、ありがとうございます😍😍😍🎉

    • @manbodama
      @manbodama 3 роки тому

      @@AIcia_Solid すいません、調べてみたら工学系分野では「しきい値」で生物系分野では「いき値」が一般的みたいです。ここではしきい値でも良さそうです。

    • @AIcia_Solid
      @AIcia_Solid  3 роки тому

      そうなんですね!
      お調べいただきありがとうございます(^o^)

  • @NISHI000d
    @NISHI000d 3 роки тому +1

    動画乙、凄くわかりやすいです。simple is bestですね

    • @AIcia_Solid
      @AIcia_Solid  3 роки тому

      でっしょー!😍
      この simple さにこの機能を持たせるのはすごい🤩

  • @shorttimecamping_freak
    @shorttimecamping_freak 2 роки тому

    2018年頃,文章ベクトル作るに単語ベクトルから文章を再構成すればよいのじゃない?と思ってクラスタリングしスパースに変換し・・・としていた後にSCDVを知り,何だ視点は違うけれどやっていることおなじじゃない,とガックリきた記憶が蘇ってくるなぁ.

    • @shorttimecamping_freak
      @shorttimecamping_freak 2 роки тому

      文章群が似た単一性を示すのであれば,それぞれの文章はある特定の単語数からなる文章として再構成できるはず,と言う発想でした.

    • @AIcia_Solid
      @AIcia_Solid  2 роки тому

      なるほど、それもなかなか面白そうな発想ですね!👀

  • @TamuraNaoki-j9b
    @TamuraNaoki-j9b 3 роки тому

    SCDVを研究(ユーザのペルソナモデリング)に用いたいと考えている学生です。
    SCDVの本質的な意味について(なぜ良いのか)の部分非常に分かり易かったです!ありがとうございます!
    質問なのですが、現在ユーザのペルソナベクトル(ユーザごとの埋め込み)にSCDVによる文書ベクトルを利用したいと考えております(前提としてユーザの時系列データがあり、時間帯ごとの値をword2vecでベクトル化することで、ユーザごとのベクトル遷移が得られています)。この場合ユーザの時系列データが各クラスタを行き来するようなもの(C1→C2→C1など)だとSCDVではユーザごとにトピック(クラスタ)が統一されていないため不適切でしょうか?最終的に足し算する際に少ないクラスタのベクトルは潰されて亡くなってしまうように思えます。もしそうだとするとユーザのベクトル化(文書内でトピックを行き来するような時系列データ)として他のどんなモデルが適切かご助言いただけると助かります。
    長文失礼しました。

    • @AIcia_Solid
      @AIcia_Solid  3 роки тому +1

      ご視聴コメントありがとうございます!
      なんとなく、そういう事をするなら、 Hidden Markov Model などのほうが直感的に良さそうな感じがしますが、いかがでしょうか?
      なにか SCDV が良いと感じているの理由ってあったりしますか??

    • @TamuraNaoki-j9b
      @TamuraNaoki-j9b 3 роки тому

      @@AIcia_Solid
      返信ありがとうございます!(何度も長文すみません)
      SCDVを含むNLP系のモデルに惹かれている理由としてはWord2vecによるデータのモデル化が上手くいっていて、単純にこれの拡張でその連続データのEmbedding(+分類)をうまくしたいっていうモチベーションがあるからです。
      時系列データのモデル化としてHMMは検討しており、特に入出力隠れマルコフモデルについては検討しているんですが、埋め込み化して分類するみたいなことには不向きなのかなという印象でした。
      他のNLPモデルとして流行りに乗ってBERT系のモデルやAttention, Transformerなども使ってみたいと思っているんですが、難しそうでしょうか?感触としてご教授いただきたいです、、

    • @TamuraNaoki-j9b
      @TamuraNaoki-j9b 3 роки тому

      @@AIcia_Solid
      返信ありがとうございます!(何度も長文すみません)
      SCDVを含むNLP系のモデルに惹かれている理由としてはWord2vecによるデータのモデル化が上手くいっていて、単純にこれの拡張でその連続データのEmbedding(+分類)をうまくしたいっていうモチベーションがあるからです。
      時系列データのモデル化としてHMMは検討しており、特に入出力隠れマルコフモデルについては検討しているんですが、埋め込み化して分類するみたいなことには不向きなのかなという印象でした。
      他のNLPモデルとして流行りに乗ってBERT系のモデルやAttention, Transformerなども使ってみたいと思っているんですが、難しそうでしょうか?感触としてご教授いただきたいです、、

    • @AIcia_Solid
      @AIcia_Solid  3 роки тому +1

      分類や遷移なら HMM が得意な気もしますが、たぶん、ドメイン的な事情などもあるのかなと推察します。
      ベクトル列から全体のベクトルを入手するということであれば、基本的に NLP 系の手法は使えると思いますよ!
      最近の流れは、なんでも Transformer というのがあるので、 BERT を利用してみるのもありかもですね!

    • @AIcia_Solid
      @AIcia_Solid  3 роки тому +1

      後はもうやってみないと分からないかと!