K_DM
K_DM
  • 76
  • 137 390
ファイルパスの操作はpathlibに任せてしまおう!
python3.5以降標準ライブラリとなっているpathlibについて使用頻度が高いものを紹介します。今日の動画では os.makedirs など os以下の機能は使用しません!
※動画の内容はpython3.10以降推奨です, また3.12~13でrglobなどに引数が追加されているのでドキュメントもご確認ください。
☆動画で使用したコード➪drive.google.com/file/d/1i5Qb1dvIQsuREw8NHN-9kydBQuA3izJJ/view?usp=sharing
☆pathlib
docs.python.org/ja/3/library/pathlib.html
-----------------------------
★目次
0:00 タイトル
2:09 Pathオブジェクト
2:28 カレントディレクトリ・親ディレクトリ
2:50 ディレクトリの作成
3:27 パスの連結
3:46 ファイルの存在チェック・ファイルかどうかの判定
4:03 ファイル名・拡張子などの取得
4:58 ファイルとディレクトリの削除
5:21 ファイルの読み書き
5:30 ディレクトリ内の再帰的な検索
6:27 相対パス↔絶対パスの変換
6:52 ホームディレクトリの取得
7:06 更新日時やファイルサイズの取得
7:32 ファイル名のみを変えたパス(with_name)
8:07 最後に更新されたファイルのパスを取得
-----------------------------
★SNS
twitter: intent/follow?screen_name=_K_DM
コード置き場: k-dm.work/ja/
-----------------------------
★BGM
KyattoWorks様 kyattoworks.com/
-----------------------------
★このチャンネルについて
週に一回ペースで機械学習・データサイエンスに関する情報を発信します!よろしければチャンネル登録お願いします。大変励みになります。
#機械学習 #データ分析 #Python
Переглядів: 99

Відео

データのドリフトを意識して予測モデルの性能劣化を回避しよう!
Переглядів 1992 місяці тому
予測モデルを運用する上でぶつかりがちな課題のひとつである、データ分布の変化について動画にしました。 どのような変化が発生するのか、3つに分けて簡単に説明してみます! ★SNS twitter: intent/follow?screen_name=_K_DM コード置き場: k-dm.work/ja/ ★BGM Flower Field (by FLASH☆BEAT様) dova-s.jp/bgm/play13492.html ★このチャンネルについて 週に一回ペースで機械学習・データサイエンスに関する情報を発信します!よろしければチャンネル登録お願いします。大変励みになります。 #機械学習 #データ分析 #Python
pythonでパワーポイント資料作成を自動化しよう!
Переглядів 3512 місяці тому
pythonを使ってパワーポイント資料を作ります! 画像・表・テキストの配置の仕方について説明します。 動画で使用したコード:github.com/nanjakorewa/python-pptx-example/blob/main/00-create-pptx.ipynb 参考資料 ●研究発表スライドがサクサク作れるPowerPointテンプレート(2022版) note.com/hisashi_is/n/n05e0e64e06bf ●python-pptx v1.0.0 python-pptx.readthedocs.io/en/latest/ ★目次 0:00 タイトル 0:35 動画で使用するパワポテンプレート 1:06 スライドのレイアウトとプレイスホルダー 2:32 スライドを構成している要素 3:06 スライドへのテキストや表の足し方 4:40 コードを動かしてみる モデ...
PLS回帰を使って多重共線性のあるデータでも回帰モデルを作成しよう!
Переглядів 8515 місяців тому
PLS回帰(部分的最小二乗回帰)を使って回帰モデルを作成する仕組みについて概要を説明してみます! 動画で動作しているPLS回帰モデルは以下でも試せます→linearreg.streamlit.app/PLSR ★目次 00:00 タイトル 00:41 多重共線性とは 01:58 多重共線性があるときに発生する問題のイメージ図 04:30 多重共線性に対応するには 05:05 PLS回帰 07:13 PLS回帰を使う上での注意点 08:15 人工データで挙動を確かめる ★SNS twitter: intent/follow?screen_name=_K_DM コード置き場: k-dm.work/ja/ ★BGM KYATTOWORKS『KAGURA』 kyattoworks.com/kagura/ ★このチャンネルについて 週に一回ペースで機械学習・データサイエン...
残差を見て回帰モデルの精度改善のヒントを探そう! #python #機械学習
Переглядів 4335 місяців тому
回帰モデルを作成する上で残差を見ることで見つけられるヒントについて説明します! 動画で使用しているアプリのurl:linearreg.streamlit.app/線形回帰 ■関連動画 ・ua-cam.com/video/ZgssfFWQbZ8/v-deo.html ★SNS twitter: intent/follow?screen_name=_K_DM コード置き場: k-dm.work/ja/ ★BGM KYATTOWORKS『KAGURA』 kyattoworks.com/kagura/ ★このチャンネルについて 週に一回ペースで機械学習・データサイエンスに関する情報を発信します!よろしければチャンネル登録お願いします。大変励みになります。 #機械学習 #データ分析 #Python
streamlitでデータ分析アプリを作ってみよう! #python #データ分析
Переглядів 6525 місяців тому
streamlitを使ってテーブルデータを分析するアプリを1から作ってみようと思います! ☆実際の動作例→kdm-st-example.streamlit.app/ (ボタンが表示される場合はそれをクリックすると動作します) ☆コードのリポジトリ→github.com/nanjakorewa/streamlit-example streamlit公式 streamlit.io/ ★目次 0:00 タイトル 1:14 基本 2:53 ファイルをアップロードするフォームを作る 4:22 ファイルの中身を表示する 5:45 列を選択するフォームを作る 7:18 アップロードしたファイルで決定木を学習する 8:02 ボタンによる分岐を作る 8:35 matplotlib/seabornのグラフを表示する 9:41 session_stateで状態を保持する 12:05 マルチページ機能を使う...
borutaを使って特徴選択をしてみよう! #python #機械学習
Переглядів 4495 місяців тому
分類・回帰モデルの次元削減ができる手法Borutaについて説明します! コード:k-dm.work/ja/basic/feature_selection/boruta/ ★参考文献 boruta_py github.com/scikit-learn-contrib/boruta_py ★SNS twitter: intent/follow?screen_name=_K_DM コード置き場: k-dm.work/ja/ ★BGM エミャージェンシー kyattoworks.com/emyaagency/ ★このチャンネルについて 週に一回ペースで機械学習・データサイエンスに関する情報を発信します!よろしければチャンネル登録お願いします。大変励みになります。 #機械学習 #データ分析 #Python
Pythonで決算の内容をChatGPTで質問できるようにしよう
Переглядів 3927 місяців тому
Pythonで決算の内容をChatGPTで質問できるようにしよう
PythonでJ-Quants APIを使いEPSを比較しよう!
Переглядів 8857 місяців тому
PythonでJ-Quants APIを使いEPSを比較しよう!
Isolation Forestを使いPythonで異常値を検出しよう!
Переглядів 5547 місяців тому
Isolation Forestを使いPythonで異常値を検出しよう!
pythonで日本企業のIR情報を取得しよう!
Переглядів 1,2 тис.7 місяців тому
pythonで日本企業のIR情報を取得しよう!
pythonで四半期報告書のデータを取得してみよう!
Переглядів 1,7 тис.7 місяців тому
pythonで四半期報告書のデータを取得してみよう!
複数の時系列データに対して変化点を検出しよう! #python #データ分析
Переглядів 9638 місяців тому
複数の時系列データに対して変化点を検出しよう! #python #データ分析
KLダイバージェンスで分布の差を見よう! #python #データ分析
Переглядів 6408 місяців тому
KLダイバージェンスで分布の差を見よう! #python #データ分析
whisper・ChatGPT・VOICEVOXを組合わせて会話できるエージェントを作ってみよう #python #ずんだもん
Переглядів 1,9 тис.Рік тому
whisper・ChatGPT・VOICEVOXを組合わせて会話できるエージェントを作ってみよう #python #ずんだもん
pythonで音声からの文字起こしと翻訳をしてみよう!#python #ずんだもん
Переглядів 2 тис.Рік тому
pythonで音声からの文字起こしと翻訳をしてみよう!#python #ずんだもん
pythonを使ってテキストの感情分類をしてみよう!
Переглядів 1,4 тис.Рік тому
pythonを使ってテキストの感情分類をしてみよう!
Xmeansでクラスタ数を自動で決定してデータをいい感じにまとめよう!
Переглядів 1,1 тис.Рік тому
Xmeansでクラスタ数を自動で決定してデータをいい感じにまとめよう!
時系列データから様々な特徴量を作成してみよう!
Переглядів 6 тис.Рік тому
時系列データから様々な特徴量を作成してみよう!
【NovelAI】画像生成、どんな指定に対応できるか試してみる
Переглядів 11 тис.2 роки тому
【NovelAI】画像生成、どんな指定に対応できるか試してみる
機械学習はターゲットリーケッジ(情報漏れ)に気を付けよう!
Переглядів 5272 роки тому
機械学習はターゲットリーケッジ(情報漏れ)に気を付けよう!
Quantstatsを使ってポートフォリオのパフォーマンスを分析しよう!
Переглядів 6572 роки тому
Quantstatsを使ってポートフォリオのパフォーマンスを分析しよう!
AR過程とMA過程で時系列データを生成しよう!
Переглядів 2,2 тис.2 роки тому
AR過程とMA過程で時系列データを生成しよう!
pythonを使って外れ値を検出してみよう!
Переглядів 1,3 тис.2 роки тому
pythonを使って外れ値を検出してみよう!
pythonで経済データの季節調整をしてみよう!
Переглядів 6842 роки тому
pythonで経済データの季節調整をしてみよう!
pythonでデータの変化点を検出してみよう!
Переглядів 1,3 тис.2 роки тому
pythonでデータの変化点を検出してみよう!
米国株の指数のピークをpythonで検出してみよう!
Переглядів 9282 роки тому
米国株の指数のピークをpythonで検出してみよう!
pythonでFREDの経済データを分析してみよう!
Переглядів 1,3 тис.2 роки тому
pythonでFREDの経済データを分析してみよう!
pandasを使って時系列データの前処理をしよう!
Переглядів 8532 роки тому
pandasを使って時系列データの前処理をしよう!
Box-Cox変換でデータを正規分布に近づけてみよう
Переглядів 1,7 тис.2 роки тому
Box-Cox変換でデータを正規分布に近づけてみよう

КОМЕНТАРІ

  • @atoy__1
    @atoy__1 13 годин тому

    字幕でコードが全然見えない...

  • @ryo-dc4wy
    @ryo-dc4wy 2 дні тому

    お世話になります。 xgboost回帰の予測値とバージョンについて質問があります。 (数時間、検索をしましたが解決策が見つかってません) 【確認した動作】 あるデータセットをxgboostで学習させ回帰モデルを生成。 そのモデルの決定木の中身を以下のプログラムで画像で確認してます。 従来からxgboost1.6.1を使用しており、その場合、最終的な予測値は 各決定木のleafの合算値となり、シンプルで理解しやすい構造でした。 ところが、別の環境でxgboost2.1.1をインストールし、同じプログラム(学習データも同じ)を実行したところ 個々のleafの値が明らかに小さく、leafの合算値とテストした予測値が同じ値になりません。 なお、バージョン1.6.1、2.1.1それぞれのモデルに同じテストデータを入力すると、予測値は同じ結果になります。 【質問】 xgboost2.1.1において、各決定木のleafの値から、予測値を取得することは可能でしょうか。 【以下プログラム】 ------------------------------------------------------------------------------------------ #以下、単独木の画像出力用プログラム import matplotlib.pyplot as plt from matplotlib import rcParams import xgboost as xgb plt.rcParams["font.family"] = "MS Gothic" # 可視化する決定木のインデックス(1本目、2本目。。。) index_tree =0 # 可視化設定 tree_plot = xgb.plot_tree(model_XGB, # モデル num_trees=index_tree, # 可視化する決定木のインデックス figsize=(30, 1), fontname = 'MS Gothic'# 画像サイズ ) # グラフ表示 plt.show() picture = xgb.to_graphviz(model_XGB, # モデル num_trees=index_tree, # 可視化する決定木のインデックス figsize=(100, 100) # 画像サイズ ) picture.render("xgb_tree_plot",view=True,format='png') -----------------------------------------------------------------------------------------------------

    • @ryo-dc4wy
      @ryo-dc4wy 12 годин тому

      追加調査の結果 xgboostのパラメータの「base_score」が xgb1.6.1の場合 0.5 xgb2.1.1の場合 Noneで それぞれのバージョンで指定なしでモデルを生成すると、上記のleafの差が出るようでした。 base_scoreの意味は正直まだちゃんと理解できてませんが、取り急ぎ目の前の課題は解決できそうです。 勝手に質問して勝手に解決してすいません。

  • @flashnewlight1075
    @flashnewlight1075 8 днів тому

    データ分析、難しいね。 データの前処理、本当に大事ですね。

  • @有休の旅人
    @有休の旅人 19 днів тому

    超球の中心にあるデータ点の近傍が外殻に集中しているということですが、超球の体積が外殻に分布しているなら中心にデータ点は存在できない気がします。 あくまで極限を取るだけなので、完全に超球内殻に体積が存在しないわけではない、なら納得はできます。 外殻に存在するデータ同士で近傍点を考えるだけなら、造作もないような???

  • @roi7589
    @roi7589 28 днів тому

    とてもわかりやすい動画をありがとうございます! 1つ質問させていただきたいです. 手計算でおこなったところ,最終的なDTW距離は2.0という結果が出ていますが, Rのdtwパッケージのdtw()関数を用いて計算をしたところ,2.8という結果が出ました. これはdtw()関数の引数の設定と何か関係があるのでしょうか.

    • @K_DM
      @K_DM 27 днів тому

      動画を見ていただいてありがとうございます。 Rのドキュメントを確認したところ dtw( x, y = NULL, dist.method = "Euclidean", step.pattern = symmetric2, window.type = "none", keep.internals = FALSE, distance.only = FALSE, open.end = FALSE, open.begin = FALSE, ... ) cran.r-project.org/web/packages/dtw/dtw.pdf というパラメタになっていると思います。 このうち、 dist.methodとwindow.sizeの値によっては異なる値になる可能性があります。 他のパラメタも数値に影響ある可能性ありますが自分は詳しくありません、申し訳ありません。 --- 動画では単純な絶対値(式で表すとlambda a, b:np.abs(a-b))をふたつの点の差の指標として使用していました。これをpythonで実行してみると確かに2.0になることが確認できると思います。 コード↓ from fastdtw import fastdtw import matplotlib.pyplot as plt import numpy as np a = [0, -0.5, -0.5, 0, 1, 1, -1, -1.2] b = [1, 0, -1, -0.3, 0.1, 1, -1] distance, path = fastdtw(a, b, dist=lambda a, b:np.abs(a-b)) print(distance) --> 2.0

    • @roi7589
      @roi7589 27 днів тому

      @@K_DM 急な質問に対応していただきありがとうございます.参考にさせていただきたいと思います. これからも頑張ってください.

  • @wtr3110
    @wtr3110 2 місяці тому

    勉強になりました。Pythonコードや検出ツールなどの後続動画も待ってます!

  • @ParaGate999
    @ParaGate999 2 місяці тому

    ×直行 → 〇直交

  • @ganbajal
    @ganbajal 2 місяці тому

    4:01あたりでExcelファイルを開いておられますが、どこにあるファイルを開いておられるのか教えていただけませんでしょうか?

    • @K_DM
      @K_DM 2 місяці тому

      返信遅くなり申し訳ありません www.fsa.go.jp/search/20231211.html のタクソノミ要素リスト.xlsxで確認できると思います。

  • @yx5503
    @yx5503 2 місяці тому

    わかりやすいです! 余力があればシンプルな例で「目的変数との共分散が最大となるように主成分を決定していく」例を計算や数式で教えて頂きたいです

  • @geromanist
    @geromanist 2 місяці тому

    あれ、コード見つからないのですが貼って頂くこと出来ませんか…?

    • @K_DM
      @K_DM 2 місяці тому

      動画見ていただいてありがとうございます! ↓がコードになっています(APIキーを環境変数に設定していただく必要があり、Colab上では動かないので注意してください)。 colab.research.google.com/github/nanjakorewa/kdm-notebooks/blob/main/finance/misc/edinet2.ipynb

  • @shoosh1258
    @shoosh1258 3 місяці тому

    すごく分かりやすかったです。

  • @なつめぐ-n1w
    @なつめぐ-n1w 4 місяці тому

    ありがとう!分かりやすかったです!

  • @TheRavenTonsler
    @TheRavenTonsler 4 місяці тому

    これまでは、どのページをwebスクレイピングするか等色々と考えなければならない事はたくさんありましたけど、公式がAPI出してくれた事で大分楽になりましたね。 マジでこういうのありがたいですわ😁

  • @wenshulee6713
    @wenshulee6713 4 місяці тому

    ブロガーさん、こんにちは、英語の字幕を追加していただけませんか。

  • @peworks9340
    @peworks9340 4 місяці тому

    EDINETAPI解説の中で一番理解しやすくとても重宝しております。ありがとうございます。 1点ご質問なのですが、「業績予想」項目の「1株当たり当期純利益」をpythonで取得できるのでしょうか? 現在、企業の決算短信にある「業績予想」項目の「1株当たり当期純利益」をpythonで取得できないか模索しております。タクソノミをみたところ業績予想の項目が見つけられず、XBRLファイルから取得する方法が必要なのかなと考えております。 そもそも「業績予想」項目の「1株当たり当期純利益」をpythonで取得できるのでしょうか? 素人質問で恐縮ですがお時間あるときにご回答いただけますと幸いです。

  • @Bee_King419
    @Bee_King419 4 місяці тому

    日本語でここまで丁寧に解説されてる動画が見つからなかったので助かりました!ありがとうございます!!

  • @杉井宏次
    @杉井宏次 4 місяці тому

    大変参考になりました。ありがとうございます😊

  • @td4872
    @td4872 5 місяців тому

    ものすごく分かりやすいのと、Webアプリ?で実装しているがすごいなと思いました!

  • @とり-h2i
    @とり-h2i 5 місяців тому

    3:18 の右下の式の[ ]の右下のf=fm-1 とはどういう意味なのでしょうか?

  • @ryo-dc4wy
    @ryo-dc4wy 5 місяців тому

    いつも拝見してます。 回帰モデルについて質問があります。 説明変数が5つほどあるデータセットにおいて、モデリングをしています。 まず重回帰でモデリングしましたが、決定係数が0.7程度でした。 ひとつ分かっているのが、説明変数の1つが目的変数に対して、指数関数的な関係です。 そのため、重回帰と指数関数のモデリングの合わせ技のようなことがしたいです。 非線形回帰のカーネルリッジ回帰は試しましたが結果はイマイチでした。 ネットで情報収集してますが、解決策が見つかりません。 何かオススメの手法はあるでしょうか。

    • @K_DM
      @K_DM 5 місяців тому

      動画見ていただきありがとうございます! カーネルリッジ回帰は素晴らしいアプローチだと思います。 既に指数関数のような関係が見られるならば、指数を適用した特徴(x1^2など)を明示的に追加するのが確実だと思います。 が、それは既に試されていると思ったので明示的に特徴を追加する以外で精度が上がる方法が無いか簡単に試してみました。 ▽書いてみたコード github.com/nanjakorewa/linear-regression/blob/main/example.ipynb y = x1**2 + 2 * x2 - 1.5 * x3 + 1.4* x4 - 0.3 * x5 のyを予測させています。 カーネルリッジ回帰・線形回帰共にxが大きくなるほど誤差の幅が広がるというパターンが見られたので、スタッキングをして『カーネルリッジ回帰・線形回帰の予測がAだったら最終的な予測をBにする』というモデルを作ってみました。誤差の乗り方にパターンがある場合、スタッキングはかなり有効に働くことが多いです。 ただ、スタッキングを複雑にするとモデルの解釈も当然複雑になるため、モデルの解釈もするならばやはり明示的に指数を適用した特徴を追加した方がいいと思います。 回答になっていたら幸いです。

    • @ryo-dc4wy
      @ryo-dc4wy 5 місяців тому

      @@K_DM ご丁寧にコードまで書いて頂きありがとうございます。 今現在は、指数関数的な曲線を領域毎で複数の直線にし、それをつなぎ合わせるという手法(?)で検証してます。 モデル対象の物理法則や取得してい る限定的な学習データ。その他、要求される予測精度等を考慮し、自分なりに良さそうと思ったので検証しています。 ただ、この手の検証はトライアンドエラーで、検証結果が十分でない場合、他の手法を探索する必要があります。 今現在の手法で詰んでしまった場合、アドバイス頂いたコードをベースに検証させて頂くかもしれません。 多項式の重回帰はやってみましたが、事前に関数を指定したモデリングはまだ未実施でした。 私は、Python経験2年程度のエンジニアです。まだまだ未熟な点が多いです。up主さんの動画コンテンツは私の実務に役立ってます。XGboostの解説動画など。私はコメントで御礼を伝えることしかできませんが、非常に感謝しております。

  • @ぶきようくん
    @ぶきようくん 5 місяців тому

    最高です。ありがとうございます!

  • @やまさん-k9o
    @やまさん-k9o 6 місяців тому

    ありがとうございます。 丁度ルール決定について調べようと思っていたところなので非常に助かります。

  • @kona-fr3um
    @kona-fr3um 7 місяців тому

    他の動画もすごくわかりやすかったです、ありがとうございます!

  • @R-qu9cl
    @R-qu9cl 7 місяців тому

    定常性を満たさない場合に具体的にどんな不都合があるのかこの動画でようやく腹落ちしました!ありがとうございます!

  • @寝言職人
    @寝言職人 7 місяців тому

    質問です。 zigzagで2つの山の差をグラフにするには、どのようなスクリプトを書けば良いものでしょうか?

    • @K_DM
      @K_DM 7 місяців тому

      コメント・ご視聴ありがとうございます。 k-dm.work/ja/finance/visualize/zigzag/ こちらの方でzigzagのプロットを作成してみました。 以下のライブラリをインストールして使用しています。 github.com/jbn/ZigZag

  • @tonebizi
    @tonebizi 8 місяців тому

    大変勉強になります。海外のアナリストがある期間の決算で「AI」と発言した企業とその株価の関係を分析していたレポートを見て印象に残っていましたが、それと似たようなものを感じました。

  • @tonebizi
    @tonebizi 8 місяців тому

    Xから来ました。めちゃくちゃ勉強になりました📚

    • @K_DM
      @K_DM 8 місяців тому

      わざわざツイッターから見ていただいてありがとうございます! 本当に励みになります!

  • @dui2292
    @dui2292 8 місяців тому

    変化点を特徴量としたら精度が上がるんですか?

    • @K_DM
      @K_DM 8 місяців тому

      ご視聴・コメントありがとうございます。 精度が向上するかは変化点をもとに何を予測するかによります。 また、変化点をもとに何かを予測するよりも、変化点の前後で何が起こったのかを分析することの方が実務上は多いと思います。

  • @kuritaro2006
    @kuritaro2006 8 місяців тому

    とても分かり易い解説をして下さったことに感謝します. 8×7のマス目に計算結果を書き込んでいますが,最上段の右から2番目の数値は,5.0でなく,6.0だと思います. また,2.0のマス目を左上と呼んでいらっしゃいますが,“右上”の誤りだと思います. 以上2点,念のためにおしらせ申し上げます.

  • @sato_takumi
    @sato_takumi 9 місяців тому

    最高

  • @昼畑瑞季
    @昼畑瑞季 9 місяців тому

    棒グラフと区別がつかないようなヒストグラムの説明が多い中、たいへん的確に説明されていて分かり易いです。また、階級の幅が一定でない例も取り上げられていて理解が深まりました。ただ、1点、動画で用いられたヒストグラムについて、JISの定義では「底辺の長さが級の幅(1.58)に等しく,その面積が級の度数に比例する近接する長方形からなる度数分布(1.60)のグラフ表現」となっているので、度数を表す長方形が「近接」している(長方形と長方形がくっついている)ほうが、より正確だと思いました。

  • @suteaso4109
    @suteaso4109 11 місяців тому

    非常に丁寧な解説をありがとうございます。一見、AUCは二値分類の評価指標として万能に見えますが、何か欠点はあるのでしょうか? 例えば、クラスのデータ数が不均衡な場合や外れ値がある場合でも適切に評価できるのでしょうか?

  • @suteaso4109
    @suteaso4109 11 місяців тому

    非常に丁寧な解説をありがとうございます。一見、AUCは二値分類の評価指標として万能に見えますが、何か欠点はあるのでしょうか? 例えば、クラスのデータ数が不均衡な場合や外れ値がある場合でも適切に評価できるのでしょうか?

  • @セパ拓郎-q8z
    @セパ拓郎-q8z 11 місяців тому

    どの部分で勾配降下法が用いられているのですか?

    • @K_DM
      @K_DM 11 місяців тому

      コメントありがとうございます 勾配降下法では『誤差の勾配を用いて誤差関数が最も小さくなるように係数を探索』しています。 一方、勾配ブースティングでは『誤差の勾配を用いて誤差が最も小さくなるように木の分岐を追加』します。勾配は分岐を追加する際にどれくらい数値を修正すれば誤差が小さくできるかを求める際に使用します。 勾配の大きさは損失関数によって異なりますが、通常は二乗誤差が使用されます。もちろん他の損失関数も使用でき、xgboostの場合はobjectiveパラメタを通じて他の損失関数も指定できます。 xgboost.readthedocs.io/en/stable/parameter.html#learning-task-parameters

    • @セパ拓郎-q8z
      @セパ拓郎-q8z 11 місяців тому

      @@K_DM 返信ありがとうございます。 勾配ブースティングにおける「勾配」とは、勾配降下法のことではなく、誤差の「勾配」のことを指していたのですね。 大変参考になりました。 立て続けに質問申し訳ないのですが、誤差の勾配とは、損失関数の微分のことですか?

  • @shm2219
    @shm2219 11 місяців тому

    今まで見た、Decision Tree系のハイパーパラメータ調整の話で一番わかりやすかったです。大変参考になりました。ありがとうございました。

  • @road_to_x0
    @road_to_x0 Рік тому

    これは時系列データが定常性を持つ場合、非定常性(単位根)を持つ場合においても使えるんですか? 定常性であれば時間変化によって統計的性質が変化しないと仮定されるので、変化点は存在しないと思われるので、非定常限定ですかね?

    • @K_DM
      @K_DM 11 місяців тому

      > 定常性であれば時間変化によって統計的性質が変化しない この動画での『変化点』の定義が少し曖昧だったのですが、この動画で使用しているライブラリの実装としては一定期間の平均値や分散などを見て変化しているか見ている感じなので 定常なデータ(平均・分散・自己相関が時間によらず一定)に対しては使うことは難しいと思います。 返信遅くなり申し訳ありません。

    • @road_to_x0
      @road_to_x0 11 місяців тому

      御返信ありがとうございます。時系列データを分析する際は、adf検定で定常性を仮定できるか調べるのですが、定常性ありと判断できる系列にも、変化点検知を実装すると変化点が得られたので疑問に感じた次第でした!自分は尤度比検定で変化点を調べたのですが、検定なもんでただの確率論なのでどっちが正しいのか悩んでまし(-_-;)

  • @あかぽん-s3e
    @あかぽん-s3e Рік тому

    概要欄にこちらのコードをアップしてほしいです。お願いいたします。

  • @やす-w4n
    @やす-w4n Рік тому

    わかりやすい動画ありがとうございます。 現在、私もpythonでrupturesを使用しています。質問なのですが、rupturesでデータの変化点を見つける処理は機械学習にあたるのでしょうか? なお、検知した変化点は予測に使用します。

    • @K_DM
      @K_DM Рік тому

      コメントありがとうございます。 一般に、データから何かを学習(train)し、新たなデータに対して学習結果を使って判断をする問題はすべて機械学習と呼ばれていると思います。 rupturesの場合、手元のデータを使ってハイパーパラメータを調整し、これから来るデータに対して変化点を判断することができます。また、変化点の正解データを使わずに変化点を決定することができます。そのため教師なし学習に該当すると思います。

    • @やす-w4n
      @やす-w4n Рік тому

      @@K_DM 質問に回答いただきありがとうございます。勉強になります。 rupturesを使った変化点検出は、機械学習でありAIといえるという認識でよろしいでしょうか? 知り合いからAIもどきと言われたもので...真相がしりたいです。

    • @K_DM
      @K_DM 7 місяців тому

      すいません、こちら返信忘れていました。 大変申し訳ありません。 私もrupturesを使ってみて、動画を出しましたのでぜひこちらもご覧ください。 ua-cam.com/video/Szx5HXkui6I/v-deo.html 「機械学習」という言葉を「データだけから何かを判断するアルゴリズム」というニュアンスで使っているのでしたら、rupturesも機械学習に該当すると思います。 実態としてはデータを一定区間ごとに分割しデータに変動が無いか調べたりすることで変化点がどこであるか決定しています。 ご参考になれば幸いです

  • @sai__hikag
    @sai__hikag Рік тому

    はじめまして。素晴らしい動画に感謝申し上げます。K_DMさんの動画を参考にして、Anacondaを使用してプログラムを実行してみたのですが、私自身がプログラミングにあまり詳しくなく、うまく進めることができませんでした。お手数をおかけしまして恐縮ですが、お時間が許す範囲で、以下のエラーの原因について教えていただけると幸いです。私はMacを使用しております。 まずAnacondaインストールして、macのターミナルを開き[pythonコード前半に書かれている、仮想環境の作成のコード]を実行してみた結果、jupyterのサイト?みたいなのが開きました。 そのサイトから『新規』→『Python3』の順にクリックしました。試しにネット上にあったサンプル音声を文字起こししてみようと思い、サンプル音声をダウンロードしそのあと以下のコード import warnings import whisper from transformers import pipeline model = whisper.load_model("base") result = model.transcribe("ここにサンプル音声ファイルをコピーしてペーストしました") print(result["text"]) を実行した結果、エラーが発生し詰んでしまいました(´・_・`) エラーは以下のように出てました ※エラーの内容を書いたところコメントが削除されてしまうため削除しました! どこにコードを書くかなど、どのようにmacに保存されている映像ファイルをアップロードすれば良いのかなども分かりません😭ウィスパーで文字起こしをし、日本語に翻訳して字幕を入れるやり方を紹介してる日本人は調べた中では、K _DMさんしかいなくてもしよかったら力を貸して欲しいです。長々と失礼しました🙇

    • @K_DM
      @K_DM Рік тому

      返信おそくなり申し訳ありません。こちら解決もう解決いたしましたか? 解決できない場合、以下のgithub issueにエラー内容を貼り付けていただけますか? github.com/nanjakorewa/K_DM_book/issues/10 よろしくお願いいたします

    • @sai__hikag
      @sai__hikag 5 місяців тому

      @@K_DM すいません。返信遅れました🙇試行錯誤の末、解決できました!!K_DMさんの動画も助けになりました。ありがとうございます!また有益な動画楽しみにしています!

  • @shu7641
    @shu7641 Рік тому

    この1ヶ月探し求めていたものが見つかりました! (本旨の前段として紹介されていた3つの性質とガウスマルコフ定理です) ありがとうございますm(_ _)m もし差し支えなければ、ご紹介いただいたように体系的に説明されている書籍を教えていただけないでしょうか? 統計検定準一級の公式ワークブックを使っているのですが、文脈がわかりにくく、補完できる書籍を探しております。

    • @K_DM
      @K_DM Рік тому

      大学で先生方に教えていただいたノートを振り返りながらやっているので、一冊に全部詰め込まれている本は少ないと思います。 『統計的学習の基礎』という本にすべて載っているはずですが、一冊1万5000円もするので個人購入はしづらいかもしれません。

  • @土方歳三-t2s
    @土方歳三-t2s Рік тому

    理解が進みました!ありがとうございます!

  • @InterRick
    @InterRick Рік тому

    わかりやすいです!

  • @Asam-fb5yk
    @Asam-fb5yk Рік тому

    本動画を含め色々なわかりやすい動画ありがとうございます。本動画中のccp_alphaの値はどのようにして決めるのが一般的なのでしょうか。色々なアルファを試してみることも考えられますが、何をやっているのかわからなくなってきそうです。

    • @K_DM
      @K_DM Рік тому

      コメントありがとうございます。 自分の回答としては ・実務ではほぼ調整する必要がない ・調整するとしたら、決定木の作成したルールを確認して、実際に不用そうなルールが削除されているかどうか確認しながら値を調整する ---- 少なくとも自分の経験ではccp_alphaを調整してモデルを調整することはほぼないです。自分が分析をする場合は常にデフォルトの値(ccp_alpha=0.0、つまり指定なし)にしています。 コメントに書いていただいている通り、ccp_alphaは直感的には何が起こるかわかりにくいためです。 決定木を作る前ならば ●シンプルなルールの集まりでいい→木の最大深さmax_depthを小さくする ●なるべくルールの数を少なくする→min_samples_splitやmin_samples_leafの値を大きくして、細かいルールを作られにくくする といった調整ができます。 一方でccp_alphaは木を作った後でルールを取り除いていく手法なので、事前にどんなルールが取り除かれるかは木を作るまでわかりません。そのため適切な値も指定しづらいです。 調整するとしたら、決定木の作成した分岐に明らかに直感的に正しくない複雑なルールがいくつか含まれていて、しかもそれが精度に寄与していない場面などが考えられます。ccp_alphaを少しずつ大きくしながら不用なルールが取り除かれているかチェックしつつパラメタを決める感じです。 参考になれば幸いです。

  • @muu436
    @muu436 Рік тому

    とても理解しやすい動画をありがとうざいます! 質問させていただきます。 3:47〜あたりで、行列の2列目まで計算が終わった後すべての行列がうまるシーンになる際、1列目の値が更新されていますが、これはどのような操作を行っているのでしょうか?

    • @K_DM
      @K_DM Рік тому

      コメントありがとうございます、返信遅れてしまい申し訳ありません。 動画確認しましたが、こちら動画のミスです。 動的計画法を用いて計算をしており、左下側から右上に向かって順番に最短経路が決まるのが正しいです。そのため、あとの計算結果によって上書きされたり更新されることはありません。 ご指摘ありがとうございます🙇

    • @muu436
      @muu436 Рік тому

      @@K_DM お礼が遅くなりましたが、ありがとうございます。そこだけ気になったので、実際は更新されないということでスッキリしました。これからも頑張ってください。

  • @ken3669
    @ken3669 Рік тому

    ということは、ウミガメのスープと似たような考え方ですね!

  • @YO-pd4lq
    @YO-pd4lq Рік тому

    非常に分かりやすい説明で大変助かります!AUCは0~1の間を取り、0.5の時は悪いモデルとの説明ありましたが、AUCが0.1や0.2のモデルもあるし、そのようなモデルがあったとしたら、AUC0.5のモデルよりも精度が悪いモデルということでしょうか。

    • @K_DM
      @K_DM Рік тому

      コメントありがとうございます。 > AUCが0.1や0.2のモデルもあるし はい、そのようなモデルはあり得ます。 > そのようなモデルがあったとしたら、AUC0.5のモデルよりも精度が悪いモデルということでしょうか AUCが0.5を下回るケースというのは、正解とは逆の予想をしているケースです。つまり、AUC=0.0ならば常に正解と反対の答えを出していることになります。 そのためAUCが仮に0.1とすると、それはほとんどのケースで正解とは反対の予測をしていることになり、むしろ当たっているとも言えます。 もちろん、通常はAUCが0.1や0.0になることは稀です。あるとすれば ・評価データが少なく、たまたま逆の予測をしたデータが多かった ・評価データと訓練データでデータセットの分布が変化していて(いわゆる共変量シフトのような状態)、訓練データから作成されたモデルが評価時にうまく機能しなかった ・コードがおかしい ・正解データの付け方にミスがあった など、少し特殊なケースが該当すると思います。 参考になれば幸いです。

    • @YO-pd4lq
      @YO-pd4lq Рік тому

      @@K_DM 有難うございます!いま「python3エンジニア認定データ分析試験」の資格取得のために勉強しているのですが、非常に有益な説明動画でした!他の動画もまた見させていただきます!

  • @user-hf1vd1dx9p
    @user-hf1vd1dx9p Рік тому

    こんにちは!私もデータサイエンティストをしていて、動画を拝見しました。DTWや局所回帰など、少しマニアックだが数理的に有用な内容を説明していて、とても有意義な動画だと思います!応援しています!

  • @yusuke335
    @yusuke335 Рік тому

    発想が素晴らしいですね!

  • @taka2007tomo
    @taka2007tomo Рік тому

    大変わかりやすいご説明をありがとうございました!

  • @qchan7
    @qchan7 Рік тому

    大変勉強になりました。ありがとうございました!