Cool intro about Inception (v1), this model can give us a lot of idea even in 2021. Usually when we read GoogLeNet Paper, we will feel hard to think "what is this [sparse] really mean?", I think everyone will have this problem when they dont get enough knowledge in DeepLearning. But the blog in internet usually focus on the Inception model but no "sparse", so this video really help a lot about sparse. Also im not good at jp( JLPT only N2 level) but this video dont need to muck japanese exp to understand, thank u Alica!
Thank you so much for your comment! I feel really happy!! Yes, the explanation of the "sparsity" is one of the main message that I want to deliver to audience like you! And,... based on my super intelligent AI inference, you are sooooooo goooooood at Japanese 😋 Thank you for your watching!
@@AIcia_Solid 回答ありがとうございます。 しかし、まだ疑問が残ってしまいます。。 入力のH_I, W_I, C_Iに対して、H_K x W_K x C_I のカーネルを適用するというのは、 各チャンネルのH_I, W_Iに対して、各チャンネル毎のH_K x W_Kを適用し、 適用結果のH_O x W_O x C_Iを、C_I枚のチャンネルを総和か平均かすることによって1枚のチャンネルH_O x W_Oを出力し、 これを、出力のチャンネル数 C_O 回だけ繰り返し、H_O x W_O x C_Oの結果を得るのでしょうか?.. 調べたりChatGPTに質問してみましたがよく分かりませんでした。。
いえ、そうではありません。 H_I x W_I x C_I と H_K x W_K x C_I をぶつけるときは、 H_I x W_I x C_I のなかの H_K x W_K x C_I と、 カーネルの H_K x W_K x C_I をぶつけて、 1つの数字を作ります。 (対応する位置の数値をかけて、すべて足す) で、これを位置をずらして行って、 H_O x W_O の出力をつくります。 これをさらに C_O 回繰り返して、最終的な出力を得ます。 伝わりますでしょうか?
시청해 주셔서 그리고 댓글을 남겨주셔서 감사합니다! 비디오를 즐겁게 보셨다면 저도 기쁩니다!🎉 This is translation by ChatGPT. The original is: Thank you for your watching and your comment! I'm happy if you enjoyed the video!
こんばんわ~!
DLといったら、ヒントン先生しか思い浮かばない初学者ですが
最近alciaさんの動画に嵌ってます♪
ありがとうございます😍😍😍
ぜひ楽しんでいってください!😎🎉🎉
アップロードされた当時はイミワカラン状態でしたが、研究で勉強することになってめちゃ助かりました😭
おおー!
まさにそういう方のために作ったのです!!!
活用いただいているようで嬉しいです(^^~)
一回前に拝見したのですが、Inception moduleってなんだっけとなったので、また見にきました。やっぱりわかりやすいです!目から鱗です!
ありがとうございます!
おおー!
活用していただけているようで嬉しいです😊😊😊
また迷ったらいつでも見に来てください😍
1x1のConvってどんな意味あるんだろなって思ってたら、そういうことなんですね。 わかりやすかったです。
1x1 は直感に反しますよね😎
でもこういう意味があるのです。
楽しんでいただけたなら何より!😍🎉
よかったらこの理解と動画を広めてください!
Cool intro about Inception (v1), this model can give us a lot of idea even in 2021.
Usually when we read GoogLeNet Paper, we will feel hard to think "what is this [sparse] really mean?", I think everyone will have this problem when they dont get enough knowledge in DeepLearning. But the blog in internet usually focus on the Inception model but no "sparse", so this video really help a lot about sparse.
Also im not good at jp( JLPT only N2 level) but this video dont need to muck japanese exp to understand, thank u Alica!
BTW after inceptoon v1 .google team also used v2-4 and Xception model. if everyone have interested, have a try!
Thank you so much for your comment! I feel really happy!!
Yes, the explanation of the "sparsity" is one of the main message that I want to deliver to audience like you!
And,... based on my super intelligent AI inference, you are sooooooo goooooood at Japanese 😋
Thank you for your watching!
@@AIcia_Solid ご返信ありがとう!私は聞くことができるだけど、話しと書きのことできないの初心者ですね笑
書けてると思いますし、それでも全然すごいですよ😍
外国語の習得にはエネルギーがいりますからね、それ投下し続けてものにしてるかたは尊敬します!😍🎉
単なるCNNから色々考えてモデル作るの凄いなあー
ご視聴コメントありがとうございます!🥳
ですよねー、すごいですよね!
1×1 Conv.の説明凄いです❗️
さすが、つよつよAIのアイシアさんです。
でっしょー!😍🎉
ぜひ応用してあげてください!🎉
なるほど、1×1畳み込みはチャンネル方向にまとめると。つまり感覚的な例でいくと3チャンネルのカラー画像を1チャンネルの白黒画像にまとめるための畳み込みみたいな感じかな。
ご視聴コメントありがとうございます😊
まさにそんな感じです!(^o^)
すみません、質問です。
20:01 の512枚のチャネルをCNNで64枚に圧縮している圧縮方法が分かりません。。
CNNはカーネル?をズラしながら内積を計算するだけだったはず
ご質問ありがとうございます!
動画では詳しく説明していませんが、
入力のチャンネルの大きさを
縦 H_I、横 W_I、チャンネル C_I とすると、
畳み込みのパラメタとして、
H_K x W_K x C_I
の大きさのものを用意して、縦横に動かすことで、
H_O x W_O の出力を得ます。
これを、出力のチャンネル数 C_O 回だけ繰り返すと、
畳み込みのカーネルの大きさは
H_K x W_K x C_I x C_O
で、
出力は
H_O x W_O x C_O
となります。
これが畳み込みで、C_I = 512 に対して C_O = 64 とすれば、「圧縮」できるという寸法になっております!
いかがでしょう?🎉
@@AIcia_Solid
回答ありがとうございます。
しかし、まだ疑問が残ってしまいます。。
入力のH_I, W_I, C_Iに対して、H_K x W_K x C_I のカーネルを適用するというのは、
各チャンネルのH_I, W_Iに対して、各チャンネル毎のH_K x W_Kを適用し、
適用結果のH_O x W_O x C_Iを、C_I枚のチャンネルを総和か平均かすることによって1枚のチャンネルH_O x W_Oを出力し、
これを、出力のチャンネル数 C_O 回だけ繰り返し、H_O x W_O x C_Oの結果を得るのでしょうか?..
調べたりChatGPTに質問してみましたがよく分かりませんでした。。
いえ、そうではありません。
H_I x W_I x C_I と H_K x W_K x C_I をぶつけるときは、
H_I x W_I x C_I のなかの H_K x W_K x C_I と、
カーネルの H_K x W_K x C_I をぶつけて、
1つの数字を作ります。
(対応する位置の数値をかけて、すべて足す)
で、これを位置をずらして行って、 H_O x W_O の出力をつくります。
これをさらに C_O 回繰り返して、最終的な出力を得ます。
伝わりますでしょうか?
簡単なネットの記事ではなく、deep learning のフレームワークにあるドキュメントや、まともな大学の先生が出している資料を見てみるといいかもしれません!
@@AIcia_Solid
面積ではなく体積で畳み込むという事でしょうか?..すみませんまた調べておきますb
09:25 無駄発生のイメージ(sparse)
目的:猫を見つける→猫の輪郭・口・目・鼻だけ使う、みたいなので無駄を減らして使うことはできますかね…?できたとして実用的なんでしょうか?
ご視聴コメントありがとうございます!
ここの説明は、厳密には、「相関の高いチャンネルをまとめたほうが効率良くなる」という先行研究についての例え話で、実際のチャンネルの意味的にはより抽象的なことが行われていると思います。
実用的かどうかはまさに実験結果が示しておりまして、パラメーター数を押さえつつ精度を高めているので、これは良い工夫だったのだと思います!
質問です.
Inceptionブロックの中で,3×3や5×5では経路の最初に1×1convを行なっているのに対して,
Maxプーリングの部分では後に1×1convを行なっていると思うのですが,これはどういった理由なのでしょうか.
ご視聴コメントありがとうございます!🎉
たしかに、なぜなのでしょう?🤔
考えてみましたが、分かりませんでした。
論文的には、3x3 と 5x5 の前に 1x1 を入れるのが新しい工夫と言っていたので、
Pooling のあとに畳み込みが当時は普通だったのか、何か理由があるのか、色々試してコレが性能良かったのか、
そのあたりじゃないかと推測します。
ほんとうのところはわからないので、是非、論文を読んだり調べてみていただければと思います!🙇♀️
@@AIcia_Solid
ありがとうございます!
調べてみます🫡
ぜひ!
なにかわかったら教えてください!(^o^)
아주 재미있게 들었습니다. 감사합니다.
시청해 주셔서 그리고 댓글을 남겨주셔서 감사합니다!
비디오를 즐겁게 보셨다면 저도 기쁩니다!🎉
This is translation by ChatGPT. The original is:
Thank you for your watching and your comment!
I'm happy if you enjoyed the video!
半年前はちんぷんかんぷんだったけど、今見返すと意味が分かってうれしいです!
おおー、そうなんですね!
それは私もうれしいです😍😍😍🎉
おめでとうございます!!!🎉
動画乙。Google,さすがGoogleといった論文。
視聴乙。
ですよね😎✌️