Розмір відео: 1280 X 720853 X 480640 X 360
Показувати елементи керування програвачем
Автоматичне відтворення
Автоповтор
10:40 から始まるスペクトルとスペクトログラムの紹介ですが、これは実は、20000次元の空間を表したものではありません。何故なら、動画での見栄えを良くするために、FFTの窓長(内積をとる時間)を1秒ではなく、1/30秒にしているためです。このことから、見えている次元の数は約700次元です。しかし、一秒毎に20000次元を移動しているというのは、事実です。
UA-camはたまにこういう面白いチャンネルを掘り出してくれるアルゴリズムと投稿主に感謝を🙏
嬉しいです。ありがとうございます。
大変わかり易く勉強になりました!ただ、サンプリングレートを1/2すると周波数になるときに、量子化深度の16bitとの関係はどうなるんでしょう?量子化は無関係で1bitだったとしても次元数は変わらないということでしょうか?
「波形の空間の次元数」と私が呼んでいるのは、周波数の分解能(CD音源の場合は22050)であり、量子化ビット数(量子化深度)は関係ありません。何故なら、本動画で私は、波形同士の内積を使い、空間の次元数を定義しているからです。量子化ビット数は、タップ(時間波形のサンプル)または周波数スペクトルの細かさであり、内積を上述のように定義した場合には、次元とは関係ありません。例えば、実数2つのペア全体の集合ℝ^2と、整数2つのペア全体の集合ℤ^2は、どちらも2次元空間ですが、「細かさ」は異なります。ただし、「次元」の定義は色々あり、今回は内積空間における定義の紹介をしたまでです。例えば、プログラミングでの配列の長さは、次元と呼ばれることがあります。この定義では、音声をビットの配列とみなしたとき、量子化ビット数が次元数を増やすと言えると思います。次元という考え方は、2つの要素に何かしらの独立性(動画でいう直交性)があることが重要なのですね。(超絶早口)ご質問頂いたおかげで、私もより深い洞察ができました。ありがとうございます。
音は時間と密度の2次元データに他ならないし、スペクトルを見て次元と定義するのは間違いにはならないけど一般的じゃないと思う。スペクトルにするときにフーリエ変換してるから、その時点で音楽ではなく音楽の構成成分の要素の量の話になってるし、その上で44100Hzでサンプリングしてるから標本化定理よりおよそ2万次元と断定するのはちょっとワイルドな転換じゃない?デジタルデータに起こしたとして[ [0000,0000, ... ,1fe2], //単位時間あたりのスペクトルデータ [0000,4a29, ... ,3d24], //数値は16bitであること以外適当 ... , [0000,0000, ... ,0000] //秒間4万×曲の長さ(秒)個ある] //曲全体のデータみたいになるはずだから2次元配列だし一方で2万次元だと言えないこともないことも事実で、その視点は自分に無かった。興味深い内容でした
1コメ
10:40 から始まるスペクトルとスペクトログラムの紹介ですが、これは実は、20000次元の空間を表したものではありません。
何故なら、動画での見栄えを良くするために、FFTの窓長(内積をとる時間)を1秒ではなく、1/30秒にしているためです。このことから、見えている次元の数は約700次元です。しかし、一秒毎に20000次元を移動しているというのは、事実です。
UA-camはたまにこういう面白いチャンネルを掘り出してくれる
アルゴリズムと投稿主に感謝を🙏
嬉しいです。ありがとうございます。
大変わかり易く勉強になりました!ただ、サンプリングレートを1/2すると周波数になるときに、量子化深度の16bitとの関係はどうなるんでしょう?量子化は無関係で1bitだったとしても次元数は変わらないということでしょうか?
「波形の空間の次元数」と私が呼んでいるのは、周波数の分解能(CD音源の場合は22050)であり、量子化ビット数(量子化深度)は関係ありません。何故なら、本動画で私は、波形同士の内積を使い、空間の次元数を定義しているからです。量子化ビット数は、タップ(時間波形のサンプル)または周波数スペクトルの細かさであり、内積を上述のように定義した場合には、次元とは関係ありません。例えば、実数2つのペア全体の集合ℝ^2と、整数2つのペア全体の集合ℤ^2は、どちらも2次元空間ですが、「細かさ」は異なります。
ただし、「次元」の定義は色々あり、今回は内積空間における定義の紹介をしたまでです。例えば、プログラミングでの配列の長さは、次元と呼ばれることがあります。この定義では、音声をビットの配列とみなしたとき、量子化ビット数が次元数を増やすと言えると思います。次元という考え方は、2つの要素に何かしらの独立性(動画でいう直交性)があることが重要なのですね。
(超絶早口)
ご質問頂いたおかげで、私もより深い洞察ができました。ありがとうございます。
音は時間と密度の2次元データに他ならないし、スペクトルを見て次元と定義するのは間違いにはならないけど一般的じゃないと思う。
スペクトルにするときにフーリエ変換してるから、その時点で音楽ではなく音楽の構成成分の要素の量の話になってるし、その上で44100Hzでサンプリングしてるから標本化定理よりおよそ2万次元と断定するのはちょっとワイルドな転換じゃない?
デジタルデータに起こしたとして
[
[0000,0000, ... ,1fe2], //単位時間あたりのスペクトルデータ
[0000,4a29, ... ,3d24], //数値は16bitであること以外適当
... ,
[0000,0000, ... ,0000] //秒間4万×曲の長さ(秒)個ある
] //曲全体のデータ
みたいになるはずだから2次元配列だし
一方で2万次元だと言えないこともないことも事実で、その視点は自分に無かった。
興味深い内容でした
1コメ