【Excel統計】ダミー変数を使った回帰分析！

オデッセイコミュニケーションズ公式YouTubeチャンネル「Odysseymedia」

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 24 гру 2024

КОМЕНТАРІ • 28

@やま-y4g5g 11 місяців тому
分かりやすい動画をご提供いただきありがとうございます。質問があります。
以下のデータで、小→大ほど
値が大きくなることを示すとき、
ダミー変数は小、中、大の項目において設定すればよいのでしょうか。（Noは被験者番号です）
小　　中　　大
No1 0 0.3 0.6
No2 0.3 0.6 0.9
@Odysseymedia 11 місяців тому
コメントありがとうございます！講師の平磯です。
データを見る限り、“小”、“中”、“大”の処置を各被験者に施したときの3つの処置の効果の大きさを比較したいのかと思います。このデータは質的変数ではなく、量的変数のように見えますので、ダミー変数を活用する必要はないかと思います。「効果に差があるのか」を調べるならば分散分析を活用すればよいですが、ご質問のように処置ごとに比較したいとなると分散分析ではカバーできません。その場合は、Excelでできるデータ分析の領域を若干はみ出してしまいますが、テューキーの検定やボンフェローニの検定などを実施する必要が出てきます。このあたりの使い分けは色々と条件があるので、「多重比較検定」などで検索してみてください。
ご質問のデータだと、「各処置を施す順番で効果に影響が出るか」といったことも考える必要も出てきたりしそうな気がします。データの集め方や分析手法の選択など、統計って難しいですよね…。自分もまだまだ勉強中です。
@やま-y4g5g 10 місяців тому
@@Odysseymedia
ご丁寧にご解説いただき、
ありがとうございました。
@rr-iz7qf 2 роки тому ⁺¹
初心者なので頓珍漢な質問だったらすみません。
曜日の結果を見た際に、月曜日の効果も知りたいと思いました。
その場合、月曜日以外の曜日を基準としてダミー変数化して分析し直すと思いますが、以下について教えていただきたいです。
①火水木金はP値が0.05を超えているので次から基準にしなくても良いか否か
②①と同じ理由で再度分析する際は火水木金を項目にも含めなくて良いのか否か
③①の理解が合っている場合、土日のどちらかを基準にするがどちらが好ましいか
④ または、①〜③の理解は正しくなく、全曜日を基準にしてテストを繰り返した方が良いか
長文ですみません。。
動画が非常に参考になりました。資格の勉強をしてみようと思いました。
今後も動画を楽しみにしています！
@Odysseymedia 2 роки тому ⁺²
コメントありがとうございます！講師の平磯です。
回答が少々長くなり申し訳ありません。以下、ご確認ください。
今回は月曜を基準としていますが、基準点を変えるとP値も変化します。そのため、基準点を変えて分析し直す場合には全ての曜日を含めて分析し直す必要があります。
月曜の効果の大きさを知りたいとのことですが、「基準にした＝効果を0と考える」という意味になり、他の曜日の効果（係数）は月曜に対する相対的な効果の大きさを表します。
そのため、30:20あたりの結果で、火曜の係数は「6.398…」となっていますが、これは「月曜に対して火曜は+6.398…大きくなる効果がある」ことを表し、反対に火曜を基準にしたならば、月曜の係数は「-6.398…」となります（月曜は火曜に対して6.398…小さくなるため）。
なお、基準にする項目は分析するデータの特性や分析目的を考えて分析者が決める必要がありますが、1つの例として、今回のデータでは曜日ごとの平均来店者数を求めると月曜が一番小さくなるため、「来店者数を増やしたい」という目的のもと分析を行うのならば、一番低い基準点をもとに考えるのが良いという判断のもと月曜を基準としています。
ぜひビジネス統計スペシャリストの学習をして、資格取得を目指してもらえたらと思います！
ちなみに、今回の内容は「エクセル分析スペシャリスト」という上級科目の中で扱っています。
応援しています！
@rr-iz7qf 2 роки тому ⁺¹
@@Odysseymedia
平磯さんご回答ありがとうございます！
理解する事ができました！
資格取得に向けて頑張ってみます！
ありがとうございましたmm
@すしろう-u2c 3 роки тому ⁺²
ダミー変数を非説明変数にしたときに、出た結果に対しての解釈がわかりません。私の場合、銀行合併を行なった場合1を行ってない場合を0にしています。その時出た結果はどこを見てどう解釈すればいいのでしょうか。グレーテルを使って分析しています
@Odysseymedia 3 роки тому ⁺³
コメントありがとうございます！（返信遅くなり申し訳ありません）
Gretlは経済分野でよく使われるソフトですね。動画ではExcelのみを使用することもあり、線形回帰（OLS）かつ、被説明変数を量的変数（≒ダミー変数化してない変数）としています。被説明変数（結果）をダミー変数化する場合、線形回帰（OLS）よりも、ロジスティック回帰分析（ロジットモデルと呼ばれます）などの方が良いと思います。Gretlだと「Nonlinear Models」の中に「Logit」とあるようです。この場合、出てきた結果（予測値）を確率と考えてもらえば大丈夫です（予測値は0から1の間の値をとります）。予測値の計算はGretlで出力できるならそれを参照して、できないなら出力された係数とロジスティック関数を用いて計算する必要があります。予測値は、いくつかの説明変数に対して「銀行合併が行われる/行われている確率」と出力できるので、1に近いほど銀行合併が行われやすい説明変数の組み合わせとなります。説明変数の影響の大きさを調べるならオッズ比なども求めると良いと思います（詳細はお調べください）。Gretlを扱った経験はないため、詳細な操作手順などはお伝え出来ませんが、理論としては上記の分析を行ってみると良いと思います。
@yukioyamazaki1744 Рік тому
お世話になります。
1点ご質問させてください。
〇ご質問
　模擬ABCでテスト対策をしています。
　回帰分析に関する問題で「決定係数」「R2」を問われた場合です。
　原因系が複数の場合ですが、回帰分析シートの「重決定 R2」を答えればいいのか、
　「補正 R2」を答えればいいかわからなくなりました。
　何が正解でしょうか。
〇本講義のコメント
　動画で解説いただくと、操作がわかりやすく緑本のテキストを何回も読み返すよりもわかりやすいです。
　（まさに百聞は一見に如かずでしょうか）
　また、後半ですがＡＩの作りが新鮮でした。
　→　回帰分析で有意確率よりも高い（Ｐ値が0.05より大きいもの）を、プログラムで自動削除して再計算を繰り返す。
@Odysseymedia Рік тому ⁺¹
コメントありがとうございます！
講師の平磯です。
模擬テストにおいては、「決定係数」「R2」は「重決定R2」を指しています。本番試験に関しては、問題や解答に関わることはお答えできませんが、模擬テストでしっかりと問題演習を重ねれば合格に近づくと思います。
また、動画へのコメントもありがとうございます。内容がお役に立てば幸いです。ぜひ他の動画もご覧ください。
ビジネス統計スペシャリストへの挑戦頑張ってください！
@肺胞-f5o 2 роки тому
わかりやすい講義ありがとうございます。
質問です。ダミー変数を重回帰分析に投入する際に講義内ではくもりを基準にされていましたが、雨を基準にした場合に重回帰分析の結果内の天気に関わる因子の有意確率が変わったり、有意となる因子が変わることはあり得るのでしょうか。また、そのようなことが起きている場合、どのような点を確認すべきでしょうか。
@Odysseymedia 2 роки тому
コメントありがとうございます！講師の平磯です。
基準を変えた場合には、有意確率などは変化します。これはP値などが、”基準にした項目”と”他の項目”の影響の大きさの差異が有意（意味のある差）かどうかという考え方によるためです。くもりに対して晴れの影響はあまり変化がないかもしれませんが、雨に対しては、晴れの影響は大きいというような感じです（例えば、くもりでも晴れでも外出すると思いますが、雨だとちょっと気おくれしますよね…）。
そのため、基準にする項目は「他の項目との差異を見たいもの」にすると、分析結果がわかりやすくなると思います。
ただ、矛盾するようですが、基準の選択で分析結果が大きく変わってしまうということもないと思います。例えば、「くもり」を基準にしたときの「晴れ」の影響力に比べて、「雨」を基準にしたときの「晴れ」の影響力の方が大きいというように、基準点が変わるだけで、各項目の影響力の大きさは大きく変わらないからです。
@肺胞-f5o 2 роки тому
@@Odysseymedia
似たような質問になり、申し訳ないですがもう一点質問させてください。
雨に対して晴れの影響度をみたもの（雨ダミーを基準にして晴れダミーと曇ダミーを重回帰に投入した場合）と、晴れに対して雨の影響度をみたもの（晴れを基準にして曇ダミーと雨ダミーを投入した場合）、偏回帰係数の正負は逆になると思いますがP値は変わるのでしょうか。
@Odysseymedia 2 роки тому
@@肺胞-f5o 質問ありがとうございます。
おっしゃる通り、基準を逆にした場合、偏回帰係数の正負は逆になります。P値は、基準を逆にしても同じ値が出力されます。また、回帰分析出力の「標準誤差」は同じ値になり、「t」は正負が逆の値になります。
P値はt値をもとに算出される値のため、t値の絶対値が等しいならば、P値は同じ値になります。基準に対しての影響の差が「係数」なので、基準が逆になれば係数の正負が逆になることはわかりやすいと思います。標準誤差（標準偏差をデータ件数の平方根で割ったもの）については、2つのデータの差のばらつき自体は、基準を逆にしたとしても視点が変わるだけですので変わらず（標準偏差が変わらず）、データ件数も同じことから、同じ値が出力されることがわかります。そして、t値は係数を標準誤差で割った値ですので、係数の符号が逆になる分、t値の正負の逆になりますが、t値の絶対値をもとに求められたP値は変わらないという理由です。
長々と理由まで説明してしまいましたが、結論として、基準を逆にしてもP値は変わらないということです。
@nao-nm5it 2 роки тому ⁺¹
説明変数と非説明変数が両方とも名義尺度である場合（0か1）のときの単変量はどうすればいいですか？
@Odysseymedia 2 роки тому ⁺¹
コメントありがとうございます！講師の平磯です。
説明変数が単変量である単回帰分析かと思いますが、両方とも質的変数ならば、変数の程度にグラデーションがないため、回帰分析というよりは、クロス集計表で独立性の検定（カイ二乗検定）などの分析かと思います。また、質的変数の選択肢数にもよりますが、オッズ比やリスク比などを確かめる分析もあると思います。
@nao-nm5it 2 роки тому
返信ありがとうございます。
説明変数が0,1で、従属変数が量的データと質的データ（ありなし）が混ざっている場合の多変量として二項ロジスティック回帰分析をエキセル統計ソフトを用いてやりたいのですが、実際にはどのように両者の変数を入れるといいのでしょうか？
@nao3560 2 роки тому
わかりやすい解説頂きありがとうございます。今月末にエクセルデータ分析
スペシャリスト試験にチャレンジします。
1点、公式テキストや解説頂いた中で不明な点がございます。
例2021年の1月から2022年12月までの
月次データがある。それぞれの月に
ビールの売り上げ(金額)あり、結果係数をビールの売り上げ説明係数を月で重回帰分析した際に1月を基準月として、連番化した
2021年の月次名には1から12
2022年の月次名は1から12
でしょうか。
または1から順に24とダミー変数化するのでしょうか。となりますと、2022年の1月は13、2月は14となると思います。
月によりがビールの売り上げに影響を与えているかを分析したい場合2月ダミーは2とならずに行に表示される値は0となると思います。そうした際には2021年2月と2022年2月は同じ月と判定されずに分断に不具合が出てしまうと考えますが、如何でしょうか。
長文失礼いたしました。
@Odysseymedia 2 роки тому
コメントありがとうございます！講師の平磯です。
時系列データをダミー変数化することによる重回帰分析では、連番化した月次名は連続した通し番号にします。
つまり、「2022年の1月は13、2月は14」とする方法です。エクセル分析スペシャリスト公式テキストP203の図10.20を参照していただけたらと思います。他にも不明点などあればご質問ください。
エクセル分析スペシャリスト試験頑張ってください！良い結果を期待しております！
@09j108016 2 роки тому
変数選択（削除）を行う際に３つ一度に削除しておりますが、本来は1項目づつ削除し補正R^2値とP値を参考にしながら変数選択を行う認識でよろしいでしょうか。
@Odysseymedia 2 роки тому
コメントありがとうございます！講師の平磯です。
1項目ずつ確認していった方が丁寧だと思います。今回は、セミナー準備段階で事前に1項目ずつ確認し、削除した3つが最終的に削除される変数と確認してありました。ただ、セミナー内では、3つの変数のP値が非有意だったため、まとめて変数削除を行っています。
変数選択にはステップワイズ法などいくつかの方法がありますので、本格的に多変量解析を行っていくならば、学習しておくとよいかもしれません。
@user-nx6or5qd8h 2 роки тому
銃決定R2ではなくて補正R2で結果に与えている影響を判断される理由を知りたいです。
オデッセイさんの他の動画の回帰分析では銃決定R2で影響を見られてたので
どうしてかなぁと質問です。
@Odysseymedia 2 роки тому ⁺¹
コメントありがとうございます！講師の平磯です。
重決定R2と補正R2の使い分けですが、単回帰（1つの原因系変数で1つの結果系変数を説明する）の場合には、重決定R2を用い、重回帰（複数の原因系変数で1つの結果系変数を説明する）場合には補正R2を用いています。決定係数（R2）の意味は動画の中で説明している通りですが、重回帰分析の場合、原因系変数の数が多くなるほど、重決定R2もどんどん大きくなるという問題が生じます。項目を増やせばそれだけ結果に影響する要因が増えていくことになるためです。そうなると、片っ端から原因系変数を増やしていけばよいとなってしまうため、分析も煩雑になり、より良い精度の結果が得られなくなってしまいます。補正R2は上記の問題を回避するために補正された決定係数ですので、冒頭の使い分けをすることになります。
@user-nx6or5qd8h 2 роки тому
@@Odysseymedia スッキリ×∞　ありがとうございます！！！！！！
@flashnewlight1075 Рік тому
MBAの講義とそん色なし！
@Odysseymedia Рік тому ⁺¹
コメントありがとうございます！講師の平磯です。
動画の内容がお役に立てば嬉しく思います。
他にもいろいろとアップしているので、ぜひご覧ください！
@人間だもの-h8r 2 роки тому
目的変数が2値の場合エクセルの回帰分析で分析を行い、ダミー変数を使う際は特別な処理は必要ですか？
@Odysseymedia 2 роки тому
コメントありがとうございます！講師の平磯です。
目的変数が2値の場合には、ロジスティック回帰分析という手法を用いることができます。
ただし、Excelではロジスティック回帰分析が実装されておらず、いくつかの関数とソルバー機能を使って少々複雑な手順をとる必要があります。
ロジスティック回帰分析ではなく、通常の回帰分析を目的変数2値のデータに適用することもできます。その際、ダミー変数化以外に特別な処理は必要なく、動画で解説している流れで分析してもらって大丈夫です。この場合、結果が0、1以外の値になったり、0～1の範囲を超える予測値が出力されるという問題がありますが、本格的な分析というより、ビジネス上のヒントを得る意味で行う分析としては十分ではないかと思います。目的変数が2値の場合の分析の流れや結果の解釈の仕方はビジネス統計スペシャリストの「エクセル分析スペシャリスト」という科目で学習することができます（ロジスティック回帰分析は扱っていません）。ぜひ挑戦してみてください！
●ビジネス統計スペシャリスト　公式サイト
stat.odyssey-com.co.jp/

Наступне

Автоматичне відтворення