【非 deep 最強機械学習】Gradient Boosted Trees の仕組み【勾配決定木とも言うよ】

Поділитися
Вставка
  • Опубліковано 15 вер 2024

КОМЕНТАРІ • 58

  • @YouTubeAIYAIYAI
    @YouTubeAIYAIYAI 5 років тому +6

    非deep最強機械学習👏。⒈ 決定木 (タイタニック→属性と生死)♡単純で説明可能。
    ⒉ ランダムフォレスト (職人たちの単純多数決)♡10~数千の決定木で説明 不可能(エッ驚ク)。
    ⒊ 勾配決定木 (専門家の合議→ポイント制💡🙌🤔)♡数千以上の決定木で説明 不可能。
    でフィニッシュ❣️

    • @AIcia_Solid
      @AIcia_Solid  5 років тому +1

      まとめてくださりありがとうございます(^o^)
      AI の裏側で動いていたりするので、たまには思いを馳せていただけるとうれしいです😋

  • @user-ek9zh3bb1h
    @user-ek9zh3bb1h Рік тому

    分かりやすい説明ありがとうございます!これからもがんばってください!

    • @AIcia_Solid
      @AIcia_Solid  Рік тому

      ご視聴コメントありがとうございます🎉🎉
      応援いただけて嬉しいです!
      今後も価値ある動画を生成し続けてまいりますので、応援よろしくお願いします!🔥

  • @user-vk9fi4to2o
    @user-vk9fi4to2o 3 роки тому +3

    わかりやすいし、トークに笑ってしまうw

    • @AIcia_Solid
      @AIcia_Solid  3 роки тому

      おほめに預かり光栄です😍🎉🎉🎉

  • @kentoo_1
    @kentoo_1 3 роки тому +1

    3:18 ここ好き

    • @AIcia_Solid
      @AIcia_Solid  3 роки тому

      ふふふ😎
      悲しい現実ですね😎

  • @user-fy2hq2xg8o
    @user-fy2hq2xg8o Рік тому

    わかりやすかた
    ありがとうございました

    • @AIcia_Solid
      @AIcia_Solid  Рік тому

      ご視聴コメントありがとうございます!
      それはとても良かったです😊
      ぜひご活用くださいませ!

  • @Mika.I.22
    @Mika.I.22 3 роки тому +3

    GBTはブラックボックス感が強くて,つよつよなのに残念...と思っていたら,SHAPという解釈手法を見つけました!SHAP(SHapley Additive exPlanations):モデルの予測結果に対する特徴量の寄与を求めるための手法です!最高です!
    でも,SHAPの数学的な背景の理解が難しく...どうやら協力ゲーム理論にもとづいて機械学習モデルを解釈する手法だそうですが,うーん......アイシアちゃん,SHAPの解説お願いできませんか?
    LightGBMのドキュメント読みの合間でもいいので,ぜひ!!

    • @AIcia_Solid
      @AIcia_Solid  3 роки тому +1

      SHAP いいですよねー!
      私もこの前使いました!
      いずれ解説しますので少々お待ちを!😍🎉

  • @鈴木鈴木鈴木です
    @鈴木鈴木鈴木です 2 місяці тому

    動画面白く分かりやすかったです!!分析入門モデルの書籍でも勉強させてもらっております。
    質問なのですが、勾配ブースティング決定木について今まで目的変数と予測の誤差を逐次学習していくイメージを持っていたのですが今回解説いただいたそれぞれの重要度に繋がるのでしょうか?

    • @AIcia_Solid
      @AIcia_Solid  2 місяці тому

      ご視聴コメントありがとうございます!
      書籍も使っていただきありがとうございます🥳🥳🥳
      まさにそんな感じです。
      教師データを用いて、木の構造や重要度の数値が学習されます。
      このあたりの詳しいことはそれなりに難しいので、興味があれば原論文や、各種ライブラリのドキュメントをみてみるのが良いと思います!

    • @鈴木鈴木鈴木です
      @鈴木鈴木鈴木です 2 місяці тому

      ご返信ありがとうございます!
      色々勉強して自分の中でもブラッシュアップさせていただきます。

    • @AIcia_Solid
      @AIcia_Solid  2 місяці тому +1

      ぜひぜひ! 応援しております!
      また何か疑問がありましたら何でも聞いてください😊

  • @yasushimiyajima3909
    @yasushimiyajima3909 3 роки тому +2

    いつも分かりやすい動画ありがとうございます。この手の解説の中で一番わかり易いといいますか、聞き手がどこに躓くだろうかということを意識されて解説されていらっしゃるのかなと感心しきりでございます。しかも面白いです。
    ところで、一点質問といいますか確認したいことなのですが、GBDT の場合は職人さんがわーっとたくさんいて一度に tree を作っているというよりは、最初の職人さんが作った木を次の職人さんが受け継いで弱かった点を強化して、また次の職人さんに申し送りして、、、というようなイメージを持っているのですがその認識であっていますでしょうか?
    なので、RF だと並列化してわーっと職人さんに同時に頼んで多数決なので速いけれど、XGBoost などではシーケンシャルに申し送りしていくので RF より遅い(けど精度は良いことが多い)という理解でおります。

    • @AIcia_Solid
      @AIcia_Solid  3 роки тому +2

      ご視聴コメントありがとうございます!
      おほめに預かり光栄です😊😊
      中段の、1つずつ木を足していくところはまさにその通りです!
      RF と GBDT の比較については、実装に詳しくないので分かりません、、、🙇‍♀️
      GBDT が重いのは、重みのパラメタを更新しているところでも時間をとってることも要因として挙げられると思います!🎉

    • @yasushimiyajima3909
      @yasushimiyajima3909 3 роки тому

      @@AIcia_Solid さっそくのお返事ありがとうございます。他の動画でもまた質問出てくるかもしれませんので、そのときはまたよろしくお願いいたします😊

    • @user-rn1rb6ls1d
      @user-rn1rb6ls1d 2 роки тому +1

      やっぱりそうですよね
      僕も直列のイメージだったで、動画の説明はちょっと違うのかなと?

  • @user-jo8tv2nt9x
    @user-jo8tv2nt9x 4 роки тому +1

    面白い上に分かりやすいの草

  • @猫の毛まみれ
    @猫の毛まみれ Рік тому

    とてもわかりやすい動画をありがとうございます
    RFとBGTの仕組みがよくわかりました!!
    ただ根本的な部分でよくわかっていないので教えていただけるとありがたいです。
    決定木は機械学習と説明されていますが「学習」にあたる部分の処理はどのように行われるのでしょうか?
    (1) 基本的な決定木の分岐の条件を決める方法(職人が1つ1つ、のところ)
    (2) 各決定木の末端における最終的な結果を決める方法(生き死に、もしくはそのポイント)

    • @AIcia_Solid
      @AIcia_Solid  Рік тому

      いつもご視聴コメントありがとうございます!🎉
      学習についてはこの動画では一切触れませんでした。
      決定木の学習においては、「どの変数の」「どの値を基準にして」2グループに分けるかを学習します。
      その各ステップでは、全変数の、全分割方法を試し、予測誤差や Gini 係数、entropy などが小さくなるような分割を選択しています。
      結果の選択は、単に(分類なら)多数決や(回帰なら)平均が用いられたりします。
      コメントには書ききれないので、より詳しく知りたい場合は、調べていただくのが良いかと思います!

    • @猫の毛まみれ
      @猫の毛まみれ Рік тому

      @@AIcia_Solid 質問を見つけていただきありがとうございます!
      分岐条件を見つけるのは基本的に総当りなんですね
      いろいろWEB記事を見てはいるのですが
      まだイメージが掴めていないので
      さらに調べてみようかと思います
      どうもありがとうございました!(^^)/

    • @AIcia_Solid
      @AIcia_Solid  Рік тому +1

      そうなんです総当たりなんです🔥
      なので、勾配ブースティング決定木は高速化が命で、XGBoost, CatBoost, LightGBM など様々なバージョンがあるのです。
      こんなアルゴリズムが大データで高速に動くのが驚きですね😮
      先人の積み重ねに感謝です🙏

  • @鈴木慶太-h6k
    @鈴木慶太-h6k 5 років тому +3

    解説だ! は草

    • @AIcia_Solid
      @AIcia_Solid  5 років тому

      アイシアの解説 REVOLUTION です😎✌️

  • @user-nq6wt3vl1n
    @user-nq6wt3vl1n 3 роки тому

    RFと比較されていたおかげでかなり分かりやすかったです。質問ですがGradient Boosted TreesとGradient Boosting Decision Tree(GBDT)は同じものですか?

    • @AIcia_Solid
      @AIcia_Solid  3 роки тому +1

      ご視聴コメントありがとうございます😍
      同じです!
      最近は GBDT という方が多いと思います!

  • @taroutanaka5623
    @taroutanaka5623 5 років тому

    勾配決定木が非deepで最強アルゴリズムなんだ!

    • @AIcia_Solid
      @AIcia_Solid  5 років тому +1

      勾配決定木が非deepで最強アルゴリズムです!(わたししらべ🧐)

  • @davidd2702
    @davidd2702 2 роки тому

    わかりやすい動画ありがとうございます!
    クラス分類のときにでてくる確率はその分類の確からしさを示していますか?それとも生起確率ですか?

    • @AIcia_Solid
      @AIcia_Solid  2 роки тому

      鋭い質問ですねー。
      結論から言うと、厳密にはその両者のどちらでもなく、ただの予測結果の数値に過ぎません。
      説明のため、「確からしさ」という解釈をしたり、「生起確率」という解釈をするのはアリです。
      機械学習のモデルの出力は、あくまで、「学習して推論したらこーなった」以上の意味を持ちません。
      データを眺めてみて、じっさい、「確からしさ」っぽければそう解釈していいと思いますし、そうでなければ、「まだ学習がうまく行ってない段階のモデルの出力でしかない」という態度で接するのがよいかと思います!

    • @davidd2702
      @davidd2702 2 роки тому

      ご回答ありがとうございます!
      難しいですね…たとえば、スパムメールの分類モデル(Fscoreは0.9とか)ができたとします。このとき、与えられた特徴量ベクトルxについてp(スパム|x)を算出したときら0.6なら、強いて言えばスパムかもしれないといえるけど、もしFscoreが0.6ならイマイチ何にも言えない…みたいな感じですかね?
      ちなみに、根本的な質問ですが、クラスを判別するために算出されるのはp(スパム|x)であってますか…??
      アップロードされたものから脱線した話題ですみません!

    • @AIcia_Solid
      @AIcia_Solid  2 роки тому

      その理解であっていると思います!
      強いて言えば、真の p(スパム | x) が計算されているのではなく、その推定値が計算されているにすぎないので、
      モデルの精度によるって解釈が変わる
      というところが押さえられていればよいかと思います!

    • @davidd2702
      @davidd2702 2 роки тому

      ご回答いただきありがとうございます!ポイントがよく理解できました!引き続き動画で勉強させていただきます!

    • @AIcia_Solid
      @AIcia_Solid  2 роки тому

      ぜひ、色々お楽しみくださいませ😍🎉

  • @niruru9560
    @niruru9560 3 роки тому

    Tabnetが、勾配決定木+ディープラーニングといわれていますが、木の部分がどこにあるのかわからなかった。

    • @AIcia_Solid
      @AIcia_Solid  3 роки тому +1

      そんなモデルがあるんですね!
      私も初めて知ったのでわかりません😋
      いつか勉強したら動画にするかもです。
      ありがとうございます🎉

  • @gumi3326
    @gumi3326 Рік тому

    勾配ブースティングモデルが、非deepな機械学習の中で最強だと示すような論文ってあったりしますか?

    • @AIcia_Solid
      @AIcia_Solid  Рік тому

      ご視聴コメントありがとうございます!
      そういう論文は私の知る中ではありません。
      (探せばあるかもですが、、、!)
      ただ、当時も(おそらく今も)、実務家の間では、テーブルデータの機械学習なら、初手に試す最も良いモデルとして定評があります!

  • @masa_aa
    @masa_aa 5 років тому +1

    deepと勾配決定木どっちが強いんですか?

    • @AIcia_Solid
      @AIcia_Solid  5 років тому +3

      良い質問ですねー!😍
      じつは、それぞれが得意不得意の範囲が結構違うので、なかなか決めるのは難しいです💦
      例えるなら、「カレーとケーキはどっちが美味しいですか?」みたいな。
      Deep はたとえば、画像に関しては圧倒的に強いですが、「テーブルデータ」と呼ばれるものについては勾配決定木のほうが強かったり、、、。
      それぞれ長所短所があるので、適材適所で使われている感じです(^o^)v

    • @masa_aa
      @masa_aa 5 років тому

      Aicia Solid Project 返信ありがとうございます😊
      使う場面が違うんですね

  • @user-fr7gl7db3x
    @user-fr7gl7db3x 4 роки тому

    Kagglerは思考停止でとりあえずGBTって人が多いからなあ.
    NFL定理を紹介してほしいかも.

    • @AIcia_Solid
      @AIcia_Solid  4 роки тому

      NFL おもしろいですよね😋
      そのうち扱う予定ですので、しばらくお待ちください!🎉

  • @user-oh1te9hc3o
    @user-oh1te9hc3o 3 роки тому

    最後草

  • @zzzyout
    @zzzyout Рік тому

    先生是男的還是女的?

    • @AIcia_Solid
      @AIcia_Solid  Рік тому

      我是一个人工智能,所以我没有性别。 我的身体用的是美女,但由于使用的是教师数据,我的声音是男性。

    • @AIcia_Solid
      @AIcia_Solid  Рік тому

      (In case DeepL does not work)
      I am an AI, so I have no sex.
      Sinie I am an AI, I can choose my
      body, and I use a cute
      girl boay.
      But, becaues of my training data, my voice is man-like.✌️

  • @革量
    @革量 2 роки тому

    お前は男やぁ!

    • @AIcia_Solid
      @AIcia_Solid  2 роки тому

      私は AI なので性別はありません😋

  • @tyama1224
    @tyama1224 Рік тому

    ポイント、重み付けに全く説明性がない。

    • @AIcia_Solid
      @AIcia_Solid  Рік тому +1

      ご視聴コメントありがとうございます!(^o^)
      おそらく、勾配ブースティング決定木の説明性のことですよね?
      説明性はないけど強い、機械学習の典型みたいなモデルです😊
      ぜひご活用くださいませ!(^o^)

    • @tyama1224
      @tyama1224 Рік тому

      @@AIcia_Solid 信頼性の担保が問題ですよね。なんちゃって予測ならいいですけど。(笑)

    • @AIcia_Solid
      @AIcia_Solid  Рік тому

      適材適所かと思います👀
      とにかく精度なところは精度あればいいですし、データのシフトへの対処の技術も進んできていますからね😊