最新日本語文字起こしAIのReazonSpeechをコード付きで実践解説【Whisperを超えた?】

Поділитися
Вставка
  • Опубліковано 3 лис 2024

КОМЕНТАРІ • 21

  • @aivtuber2866
    @aivtuber2866  Рік тому +1

    Udemy始めました!(宣伝)
    ChatGPTAPIの使い方講座も作成しているので興味があれば是非!(クーポン発行してます!)
    linktr.ee/nyanta_youtuber

  • @あにそんびよりブログ

    音声認識の卒研やってて。googleのAPI使おうと思ってたんだけど設定がどうにもうまくいかなくてフラストレーションMAXなところにこの動画!
    試してみたらあら簡単。しかも高精度
    もうこれでいこう....

    • @aivtuber2866
      @aivtuber2866  Рік тому

      簡単ですよね! Whisperもおすすめです😊
      卒研頑張ってください😆

  • @keimaruO_O
    @keimaruO_O 8 місяців тому +4

    v.2.0が出てかなり高速くなってるみたいなのでそっちの動画も見たいです!

    • @aivtuber2866
      @aivtuber2866  8 місяців тому +1

      情報ありがとうございます!!
      ちょっとチェックしてみて良さそうなら動画にしてみます😆

  • @loneyashikino9596
    @loneyashikino9596 Рік тому +6

    いつも素晴らしい情報をくださいましてありがとうございます!
    早速使用させて頂いて、気が付いた事をまとめさせていただきました。
    whisperのWebアプリ版を幾度か使用させて頂いた上での比較感想になります。(同日、GPU使用/T4にて計測)
    ・音声ファイルのアップロードが大分時間が掛かる感覚があります。
     >whisperのWebアプリ版では1分程度でアップ出来るファイルが、ReazonSpeechでは30分程掛かりました。
    ・字幕出力では、whisperでは8分のファイルが、ReazonSpeechおおよそ25分程度かかりました。
    ・字幕の精度はReazonSpeechの方が大きく劣るようです。特に、背景にノイズや環境音があるシーンでの字幕拾い損ねや、ズレが激しかったように感じます。序盤ごく一部を拾えた以降はほぼ使い物にならないレベルでした。
    ラジオ配信のようなはっきりとした発音のアナウンス的な会話には強いのかもしれないのですが、雑音や早口または雑音の中など、強弱が激しいタイプの配信では中々本来の力が発揮できないのかもしれないですね。

    • @aivtuber2866
      @aivtuber2866  Рік тому +2

      報告ありがとうございます!!
      公表されている結果と違って、Whisperの方が精度が良くて速度も速いのですね…!
      またノイズや環境音があるシーンだと精度が悪化するというのも、
      ちょっとまだ実用性に問題ありますね…!
      貴重な感想ありがとうございます!

    • @akiyagi836
      @akiyagi836 Рік тому +2

      ReazonSpeechがバージョンアップしたので
      てっきりWhisperを超えたのかと思いましたが
      そういうわけではなさそうですね。
      情報ありがとうございます。
      文字起こしはもうしばらくはWhisper→vrew→Premiere Proの
      コンボが続きそうですね。

    • @aivtuber2866
      @aivtuber2866  Рік тому +2

      そうですね!
      私も日本語特化させることで超えられるのかと思っていましたが、
      実情は違うようですね…!

  • @01097362
    @01097362 10 місяців тому +1

    れアゾンスピーチのダウンロードの方法を教えてください

  • @hiros2445
    @hiros2445 Рік тому +1

    会議議事録を効率化したく、動画を参考に勉強させて頂いております!
    同じ30分程度の録音データを使って今回のreazonspeechと以前のwhisper largev2で比較したところ、個人的にはwhisperの方が精度がいいと感じました。しかしwhisperの25MB制限を考えると実務上の使い勝手としてはreazonspeechに軍配があがると感じてます。
    25MBに達したら勝手に次の新規録音データを作ってくれるような録音アプリでもあればwhisper一択ですがw

    • @aivtuber2866
      @aivtuber2866  Рік тому +1

      コメントありがとうございます!
      whisperの方が精度が良いのですね…貴重な感想教えていただきまして、ありがとうございます!
      whisperに関してはAPIを使用しなければ、上限の25MBを気にせずlarge-v2も使えるはず…です!
      (ご存じでしたらすみません…!)
      ただマシンリソースが必要になってくるので、
      比較的軽いreazonspeechに軍配が上がるケースもあるかもしれませんね!
      日本のAIモデルを作成している企業は珍しいので
      是非頑張って欲しいですね😄

  • @btailwind175
    @btailwind175 Рік тому +1

    いつも有益な情報をありがとうございます。
    質問なのですが、テキストデータの時間表記を表示しない事は可能でしょうか?

    • @aivtuber2866
      @aivtuber2866  Рік тому +1

      ありがとうございます!
      関数の中の下記コードを
      f.write(f'{index+1}
      {s_h:02}:{s_m:02}:{s_s:02},000 --> {e_h:02}:{e_m:02}:{e_s:02},000
      {text}

      ')
      下記のように書いて実行すれば、テキストのみ記載されるかと思います!
      f.write(f'{text}
      ')

    • @btailwind175
      @btailwind175 Рік тому

      @@aivtuber2866 出来ました!
      しかし、個人的にはfaster whisperの方が精度にムラがないように感じます。
      もう一つ質問なのですが、faster whisperの方は文章の長さを調節する事は可能なのでしょうか?

    • @aivtuber2866
      @aivtuber2866  Рік тому

      感想ありがとうございます!
      なるほど…Whisperの方が精度にムラがないのですね…!
      今後に期待ですね!
      faster whisperの方は、出力に影響しそうなパラメタがいくつかあるのですが
      私が試した感じでは、これらをいじってもうまく文字調整はできなかったです…!
      github.com/guillaumekln/faster-whisper/blob/358d373691c95205021bd4bbf28cde7ce4d10030/faster_whisper/transcribe.py#L185

    • @btailwind175
      @btailwind175 Рік тому

      @@aivtuber2866
      そうなのですね。今後出来るようになる事を期待しています。
      ご丁寧にありがとうございます!

  • @rei6477
    @rei6477 Рік тому

    whisperのコラボのコードは何度も使用させていただいてます!
    質問なのですが、これは日本語のみの対応でしょうか?
    whisperの中国語の誤認率が若干心配だったのですが中国語の精度がwhisperよりも高いものとかってご存じですか?

    • @aivtuber2866
      @aivtuber2866  Рік тому +1

      いつもありがとうございます!
      ちょっと他の言語は試せていませんが、基本的に日本語データを学習させているのが特徴なので
      他の言語に関してはwhisperの方が精度が良いのではないかと予想しています!
      中国語の音声認識AIですが、私が調べた範囲ではReazonSpeechのように
      whisperより高精度であることを主張しているモデルは見つけられませんでした。
      中国の音声認識AIでは下記のモデルがgithubでstarが多く有名みたいですが、
      whisperとの比較実験の結果などは探してもみつかりませんでした…すみません…!
      github.com/nl8590687/ASRT_SpeechRecognition/blob/master/README_EN.md

  • @pao-jp
    @pao-jp Рік тому +3

    結構苦労していますが、
    0,10,16000 この数値完璧です。ま、AI系、完璧はあっちゃおかしいと思いますが。。(^^;
    当然まだテスト足りないと思いますが、今のところ精度・速度とも良いです。
    '''''
    def speech_to_text(input_sound, output_text):

    batch_size: int = 0
    beam_size: int = 10
    device = "cuda" if torch.cuda.is_available() else "cpu"
    # 音声認識モデル
    speech2text = Speech2Text.from_pretrained(
    "reazon-research/reazonspeech-espnet-next",
    batch_size=batch_size,
    beam_size=beam_size,
    device=device
    )
    sr: int = 16000
    speech, rate = librosa.load(input_sound, sr=sr)
    with open(output_text, mode="w", encoding="utf-8") as f:
    for index, _dict in enumerate(rzs.transcribe(speech, speech2text)):
    f.write(f'{_dict.text}
    ')
    return output_text

    • @aivtuber2866
      @aivtuber2866  Рік тому

      beam_sizeなどのパラメータはいじったことなかったんですが精度上がるんですね😲
      貴重な結果の共有ありがとうございます!😊