【AIで音声をテキストに変換】Whisperの使い方を解説!〜 Pythonを使って無料でSpeech-to-Textを動かそう 〜

Поділитися
Вставка
  • Опубліковано 1 гру 2024

КОМЕНТАРІ • 38

  • @kani2735
    @kani2735 Місяць тому +2

    今回の動画恐ろしく今の僕にぴったりな内容でした。
    今まさに会議時に人の声を聞き分けたり、会議の概要をまとめるアプリを作っています。assemblyaiは話者識別できるし精度も悪くないのでおすすめです!あと復活して嬉しいです!

    • @pythonvtuber9917
      @pythonvtuber9917  Місяць тому +1

      ご視聴いただきありがとうございます!!
      assemblyaiというの初めてしりました✨✨ AIは色々なことができて本当便利ですよねー!!

  • @sora_bean
    @sora_bean Місяць тому

    Docker入門で知り、過去動画を見漁ってます
    素晴らしい解説動画をありがとうございます
    書籍も購入させていただきました!

    • @pythonvtuber9917
      @pythonvtuber9917  Місяць тому +1

      ご視聴いただきありがとうございます!!
      書籍もご購入いただきありがたいです☺️
      動画でも書籍でも何かプログラミング学習のお役に立っていたら嬉しいです✨

  • @AI-tf2ey
    @AI-tf2ey Місяць тому +2

    先月からchatgpt使ってウィスパー作りました。
    職場でかなり重宝してます!

    • @pythonvtuber9917
      @pythonvtuber9917  Місяць тому +2

      わー!!すごいです✨✨
      実際にお仕事でも使えるプログラムが作れると嬉しいですよね!!

  • @トリ-g9q
    @トリ-g9q Місяць тому +1

    おお!これ今日ちょうど使ったところです。パワーのないパソコンだとWhisperのロードに時間がかかるのが玉にキズですか、無料で上手い感じにテキスト化してくれるのは嬉しい!ですよね。僕はlargeモデルだけ使ってます。

    • @pythonvtuber9917
      @pythonvtuber9917  Місяць тому

      おー!!私のPCではLargeモデル動かなかったので羨ましいです!!
      こんなに凄いのに無料なのが嬉しいですね☺️

  • @パル-x3u
    @パル-x3u Місяць тому +2

    pythonで音声解析できるなんて技術の進歩は素晴らしいですね(高校生)
    投稿された動画リスト見てきましが凄いですねこれ見ればpython丸わかりじゃないですか
    ということで次は機械学習についてお願いします

    • @pythonvtuber9917
      @pythonvtuber9917  Місяць тому +1

      AIすごいですよね!!
      機械学習については専門の方とのコラボとかを予定してるので楽しみにしていてください☺️

  • @387
    @387 Місяць тому +3

    音声認識は以前SpeechRecognitionで作ったことがあるよ
    それよりも精度は上がってるんだろうなぁ🙄
    (ところでサプーちゃんは今日もかわいい😇)

    • @pythonvtuber9917
      @pythonvtuber9917  Місяць тому +2

      SpeechRecognitionというのもあるんですね!!AIの進化はすごいですよね😳
      サプーの姿が可愛くてついつい大きく映してしまいます☺️

  • @jpy7362
    @jpy7362 Місяць тому

    ありがとうございます!

    • @pythonvtuber9917
      @pythonvtuber9917  Місяць тому

      super thanks 大変ありがたいです!!!

  • @raba-340
    @raba-340 Місяць тому +1

    faster_whisperに変更して、ローカルのGPU(GTX1660)も使用するようにしたら、large-v3で実時間の23%で変換できました

    • @pythonvtuber9917
      @pythonvtuber9917  Місяць тому

      おー!!速いですね!!
      faster_whisperは動かしたことが無かったので、どの程度速くなるか共有いただけてありがたいです☺️

  • @taimura2126
    @taimura2126 Місяць тому

    8:09のあたりで$32と表示されていますが、GPU動かすとお金かかってしまいますか?

  • @せだ-b5l
    @せだ-b5l Місяць тому

    OpenAIから出たrealtimeAPIについて、使い方などを紹介した動画を作ってくださると嬉しいです。

    • @pythonvtuber9917
      @pythonvtuber9917  Місяць тому +1

      realtimeAPIのリクエストありがとうございます!考えてみますね!

  • @MikuHatsune-np4dj
    @MikuHatsune-np4dj Місяць тому

    同音異義語や駄洒落観たいに人間でも錯覚するような言葉を試してみたくなります

    • @pythonvtuber9917
      @pythonvtuber9917  Місяць тому +1

      確かに人間でも聞き間違えしやすい言葉もありますからね!!

  • @raba-340
    @raba-340 Місяць тому +1

    ffmpegはどこで使われてるんだろう

    • @pythonvtuber9917
      @pythonvtuber9917  Місяць тому +1

      Whisperの中のどの部分か?ということですかね?うーんどこでしょう🤔

    • @toms0910
      @toms0910 Місяць тому

      @@pythonvtuber9917 オーディオファイルを読み込んでデコード、バッファーとして取り込んでndarrayとして扱えるようにする部分で使われてたはずです~

    • @pythonvtuber9917
      @pythonvtuber9917  Місяць тому +1

      わーー!!そうなんですね!!
      教えていただきありがとうございます☺️

  • @人人-d8i
    @人人-d8i Місяць тому +1

    ビデオカード持ってる前提での方法でやって欲しいな

    • @pythonvtuber9917
      @pythonvtuber9917  Місяць тому

      リクエストありがとうございます!

  • @milkman5966
    @milkman5966 Місяць тому

    v3が発表されてからしばらく経つけど次は発表されないのだろうか🤔

    • @pythonvtuber9917
      @pythonvtuber9917  Місяць тому +1

      キャプションにも書いたのですが先週にturboというモデルが追加されていましたね!

    • @milkman5966
      @milkman5966 Місяць тому

      @@pythonvtuber9917
      ありがとうございます!
      ※マーク見逃しておりました😅
      試しに使ってみたら比較にならない程早くなっていて驚きました!!!

  • @YASSHY
    @YASSHY Місяць тому +1

    今日のサプーちゃん、ほっぺがふっくらしている様に見える。

    • @pythonvtuber9917
      @pythonvtuber9917  Місяць тому

      角度によって微妙に見え方が違いますよね!

  • @ptptsoushu
    @ptptsoushu Місяць тому

    今日は前半はすっごい簡単〜(^-^)vと思ったら、後半ついていけませんでした(T . T)
    引き続き修行します.
    リクエストですがLLM+RAGやろうと思うので解説動画あげていただけると嬉しいです。強化学習やファインチューニングとの違いを知りたいです

    • @pythonvtuber9917
      @pythonvtuber9917  Місяць тому +1

      ご視聴ありがとうございます!!
      確かにGoogle Cloudに慣れていないと後半は難しいかもですね😵
      LLM+RAGのリクエストありがとうございます!考えてみますね!

  • @son-o9w
    @son-o9w Місяць тому

    この、「滑舌の問題で文字起こしが変」という要素は、何らかの認証に使えないかとちょっと考えました。それくらい、フェイクやなりすましを恐れる昨今です。
    この手のものは、まだマシンパワーに頼るところですよね。現実がSFを追い抜いたとわずかに思いつつも、まだSFのほうが先を行ってると実感すること多しです。スマホで大きなモデルが難なく動くとこまでが当面のゴールでしょうか。

    • @pythonvtuber9917
      @pythonvtuber9917  Місяць тому +1

      確かに完璧じゃないほうが人間っぽい感じがありますよね!
      スマホで大きなモデルを動かすとなるとハードの方ももっと進化する必要があるかもですね🤔

  • @Unmo1234
    @Unmo1234 Місяць тому

    감사합니다.
    이번에 tensorflow & OCR로 번호인식 프로젝트 하려고합니다. 이 영상으로 약간 도움됬네요