Розмір відео: 1280 X 720853 X 480640 X 360
Показувати елементи керування програвачем
Автоматичне відтворення
Автоповтор
Udemy始めました!(宣伝)ChatGPTAPIの使い方講座も作成しているので興味があれば是非!(クーポン発行してます!)linktr.ee/nyanta_youtuber
音声認識の卒研やってて。googleのAPI使おうと思ってたんだけど設定がどうにもうまくいかなくてフラストレーションMAXなところにこの動画!試してみたらあら簡単。しかも高精度もうこれでいこう....
簡単ですよね! Whisperもおすすめです😊卒研頑張ってください😆
v.2.0が出てかなり高速くなってるみたいなのでそっちの動画も見たいです!
情報ありがとうございます!!ちょっとチェックしてみて良さそうなら動画にしてみます😆
いつも素晴らしい情報をくださいましてありがとうございます!早速使用させて頂いて、気が付いた事をまとめさせていただきました。whisperのWebアプリ版を幾度か使用させて頂いた上での比較感想になります。(同日、GPU使用/T4にて計測)・音声ファイルのアップロードが大分時間が掛かる感覚があります。 >whisperのWebアプリ版では1分程度でアップ出来るファイルが、ReazonSpeechでは30分程掛かりました。・字幕出力では、whisperでは8分のファイルが、ReazonSpeechおおよそ25分程度かかりました。・字幕の精度はReazonSpeechの方が大きく劣るようです。特に、背景にノイズや環境音があるシーンでの字幕拾い損ねや、ズレが激しかったように感じます。序盤ごく一部を拾えた以降はほぼ使い物にならないレベルでした。ラジオ配信のようなはっきりとした発音のアナウンス的な会話には強いのかもしれないのですが、雑音や早口または雑音の中など、強弱が激しいタイプの配信では中々本来の力が発揮できないのかもしれないですね。
報告ありがとうございます!!公表されている結果と違って、Whisperの方が精度が良くて速度も速いのですね…!またノイズや環境音があるシーンだと精度が悪化するというのも、ちょっとまだ実用性に問題ありますね…!貴重な感想ありがとうございます!
ReazonSpeechがバージョンアップしたのでてっきりWhisperを超えたのかと思いましたがそういうわけではなさそうですね。情報ありがとうございます。文字起こしはもうしばらくはWhisper→vrew→Premiere Proのコンボが続きそうですね。
そうですね!私も日本語特化させることで超えられるのかと思っていましたが、実情は違うようですね…!
れアゾンスピーチのダウンロードの方法を教えてください
会議議事録を効率化したく、動画を参考に勉強させて頂いております!同じ30分程度の録音データを使って今回のreazonspeechと以前のwhisper largev2で比較したところ、個人的にはwhisperの方が精度がいいと感じました。しかしwhisperの25MB制限を考えると実務上の使い勝手としてはreazonspeechに軍配があがると感じてます。25MBに達したら勝手に次の新規録音データを作ってくれるような録音アプリでもあればwhisper一択ですがw
コメントありがとうございます!whisperの方が精度が良いのですね…貴重な感想教えていただきまして、ありがとうございます!whisperに関してはAPIを使用しなければ、上限の25MBを気にせずlarge-v2も使えるはず…です!(ご存じでしたらすみません…!)ただマシンリソースが必要になってくるので、比較的軽いreazonspeechに軍配が上がるケースもあるかもしれませんね!日本のAIモデルを作成している企業は珍しいので是非頑張って欲しいですね😄
いつも有益な情報をありがとうございます。質問なのですが、テキストデータの時間表記を表示しない事は可能でしょうか?
ありがとうございます!関数の中の下記コードをf.write(f'{index+1}{s_h:02}:{s_m:02}:{s_s:02},000 --> {e_h:02}:{e_m:02}:{e_s:02},000{text}')下記のように書いて実行すれば、テキストのみ記載されるかと思います!f.write(f'{text}')
@@aivtuber2866 出来ました!しかし、個人的にはfaster whisperの方が精度にムラがないように感じます。もう一つ質問なのですが、faster whisperの方は文章の長さを調節する事は可能なのでしょうか?
感想ありがとうございます!なるほど…Whisperの方が精度にムラがないのですね…!今後に期待ですね!faster whisperの方は、出力に影響しそうなパラメタがいくつかあるのですが私が試した感じでは、これらをいじってもうまく文字調整はできなかったです…!github.com/guillaumekln/faster-whisper/blob/358d373691c95205021bd4bbf28cde7ce4d10030/faster_whisper/transcribe.py#L185
@@aivtuber2866 そうなのですね。今後出来るようになる事を期待しています。ご丁寧にありがとうございます!
whisperのコラボのコードは何度も使用させていただいてます!質問なのですが、これは日本語のみの対応でしょうか?whisperの中国語の誤認率が若干心配だったのですが中国語の精度がwhisperよりも高いものとかってご存じですか?
いつもありがとうございます!ちょっと他の言語は試せていませんが、基本的に日本語データを学習させているのが特徴なので他の言語に関してはwhisperの方が精度が良いのではないかと予想しています!中国語の音声認識AIですが、私が調べた範囲ではReazonSpeechのようにwhisperより高精度であることを主張しているモデルは見つけられませんでした。中国の音声認識AIでは下記のモデルがgithubでstarが多く有名みたいですが、whisperとの比較実験の結果などは探してもみつかりませんでした…すみません…!github.com/nl8590687/ASRT_SpeechRecognition/blob/master/README_EN.md
結構苦労していますが、0,10,16000 この数値完璧です。ま、AI系、完璧はあっちゃおかしいと思いますが。。(^^;当然まだテスト足りないと思いますが、今のところ精度・速度とも良いです。'''''def speech_to_text(input_sound, output_text): batch_size: int = 0 beam_size: int = 10 device = "cuda" if torch.cuda.is_available() else "cpu" # 音声認識モデル speech2text = Speech2Text.from_pretrained( "reazon-research/reazonspeech-espnet-next", batch_size=batch_size, beam_size=beam_size, device=device ) sr: int = 16000 speech, rate = librosa.load(input_sound, sr=sr) with open(output_text, mode="w", encoding="utf-8") as f: for index, _dict in enumerate(rzs.transcribe(speech, speech2text)): f.write(f'{_dict.text}') return output_text
beam_sizeなどのパラメータはいじったことなかったんですが精度上がるんですね😲貴重な結果の共有ありがとうございます!😊
Udemy始めました!(宣伝)
ChatGPTAPIの使い方講座も作成しているので興味があれば是非!(クーポン発行してます!)
linktr.ee/nyanta_youtuber
音声認識の卒研やってて。googleのAPI使おうと思ってたんだけど設定がどうにもうまくいかなくてフラストレーションMAXなところにこの動画!
試してみたらあら簡単。しかも高精度
もうこれでいこう....
簡単ですよね! Whisperもおすすめです😊
卒研頑張ってください😆
v.2.0が出てかなり高速くなってるみたいなのでそっちの動画も見たいです!
情報ありがとうございます!!
ちょっとチェックしてみて良さそうなら動画にしてみます😆
いつも素晴らしい情報をくださいましてありがとうございます!
早速使用させて頂いて、気が付いた事をまとめさせていただきました。
whisperのWebアプリ版を幾度か使用させて頂いた上での比較感想になります。(同日、GPU使用/T4にて計測)
・音声ファイルのアップロードが大分時間が掛かる感覚があります。
>whisperのWebアプリ版では1分程度でアップ出来るファイルが、ReazonSpeechでは30分程掛かりました。
・字幕出力では、whisperでは8分のファイルが、ReazonSpeechおおよそ25分程度かかりました。
・字幕の精度はReazonSpeechの方が大きく劣るようです。特に、背景にノイズや環境音があるシーンでの字幕拾い損ねや、ズレが激しかったように感じます。序盤ごく一部を拾えた以降はほぼ使い物にならないレベルでした。
ラジオ配信のようなはっきりとした発音のアナウンス的な会話には強いのかもしれないのですが、雑音や早口または雑音の中など、強弱が激しいタイプの配信では中々本来の力が発揮できないのかもしれないですね。
報告ありがとうございます!!
公表されている結果と違って、Whisperの方が精度が良くて速度も速いのですね…!
またノイズや環境音があるシーンだと精度が悪化するというのも、
ちょっとまだ実用性に問題ありますね…!
貴重な感想ありがとうございます!
ReazonSpeechがバージョンアップしたので
てっきりWhisperを超えたのかと思いましたが
そういうわけではなさそうですね。
情報ありがとうございます。
文字起こしはもうしばらくはWhisper→vrew→Premiere Proの
コンボが続きそうですね。
そうですね!
私も日本語特化させることで超えられるのかと思っていましたが、
実情は違うようですね…!
れアゾンスピーチのダウンロードの方法を教えてください
会議議事録を効率化したく、動画を参考に勉強させて頂いております!
同じ30分程度の録音データを使って今回のreazonspeechと以前のwhisper largev2で比較したところ、個人的にはwhisperの方が精度がいいと感じました。しかしwhisperの25MB制限を考えると実務上の使い勝手としてはreazonspeechに軍配があがると感じてます。
25MBに達したら勝手に次の新規録音データを作ってくれるような録音アプリでもあればwhisper一択ですがw
コメントありがとうございます!
whisperの方が精度が良いのですね…貴重な感想教えていただきまして、ありがとうございます!
whisperに関してはAPIを使用しなければ、上限の25MBを気にせずlarge-v2も使えるはず…です!
(ご存じでしたらすみません…!)
ただマシンリソースが必要になってくるので、
比較的軽いreazonspeechに軍配が上がるケースもあるかもしれませんね!
日本のAIモデルを作成している企業は珍しいので
是非頑張って欲しいですね😄
いつも有益な情報をありがとうございます。
質問なのですが、テキストデータの時間表記を表示しない事は可能でしょうか?
ありがとうございます!
関数の中の下記コードを
f.write(f'{index+1}
{s_h:02}:{s_m:02}:{s_s:02},000 --> {e_h:02}:{e_m:02}:{e_s:02},000
{text}
')
下記のように書いて実行すれば、テキストのみ記載されるかと思います!
f.write(f'{text}
')
@@aivtuber2866 出来ました!
しかし、個人的にはfaster whisperの方が精度にムラがないように感じます。
もう一つ質問なのですが、faster whisperの方は文章の長さを調節する事は可能なのでしょうか?
感想ありがとうございます!
なるほど…Whisperの方が精度にムラがないのですね…!
今後に期待ですね!
faster whisperの方は、出力に影響しそうなパラメタがいくつかあるのですが
私が試した感じでは、これらをいじってもうまく文字調整はできなかったです…!
github.com/guillaumekln/faster-whisper/blob/358d373691c95205021bd4bbf28cde7ce4d10030/faster_whisper/transcribe.py#L185
@@aivtuber2866
そうなのですね。今後出来るようになる事を期待しています。
ご丁寧にありがとうございます!
whisperのコラボのコードは何度も使用させていただいてます!
質問なのですが、これは日本語のみの対応でしょうか?
whisperの中国語の誤認率が若干心配だったのですが中国語の精度がwhisperよりも高いものとかってご存じですか?
いつもありがとうございます!
ちょっと他の言語は試せていませんが、基本的に日本語データを学習させているのが特徴なので
他の言語に関してはwhisperの方が精度が良いのではないかと予想しています!
中国語の音声認識AIですが、私が調べた範囲ではReazonSpeechのように
whisperより高精度であることを主張しているモデルは見つけられませんでした。
中国の音声認識AIでは下記のモデルがgithubでstarが多く有名みたいですが、
whisperとの比較実験の結果などは探してもみつかりませんでした…すみません…!
github.com/nl8590687/ASRT_SpeechRecognition/blob/master/README_EN.md
結構苦労していますが、
0,10,16000 この数値完璧です。ま、AI系、完璧はあっちゃおかしいと思いますが。。(^^;
当然まだテスト足りないと思いますが、今のところ精度・速度とも良いです。
'''''
def speech_to_text(input_sound, output_text):
batch_size: int = 0
beam_size: int = 10
device = "cuda" if torch.cuda.is_available() else "cpu"
# 音声認識モデル
speech2text = Speech2Text.from_pretrained(
"reazon-research/reazonspeech-espnet-next",
batch_size=batch_size,
beam_size=beam_size,
device=device
)
sr: int = 16000
speech, rate = librosa.load(input_sound, sr=sr)
with open(output_text, mode="w", encoding="utf-8") as f:
for index, _dict in enumerate(rzs.transcribe(speech, speech2text)):
f.write(f'{_dict.text}
')
return output_text
beam_sizeなどのパラメータはいじったことなかったんですが精度上がるんですね😲
貴重な結果の共有ありがとうございます!😊