【無料】感情表現も多言語もできる最新音声AI「Bert-VITS2」の導入方法~使い方【2023.12月版】
Вставка
- Опубліковано 6 лип 2024
- 中国コミュニティで生まれたらしい最新音声合成技術「Bert-VITS2」の紹介や使い方などを解説します。AIが文章を理解して感情表現を行い、さらに音声の機械学習やクロスリンガル(日本語音源→英語で生成)まで可能という合成音声界のゲームチェンジャー級な性能です。
2024.1.13追記
先日「Style-Bert-VITS2」という新たなツールが公開されました。導入方法はEasyBertVits2よりも簡単で機能的にも使いやすいのでおすすめです。
github.com/litagin02/Style-Be...
▼Bert-VITS2でずんだもんが喋ってる動画(サブch)
• 最新AI音声「Bert-VITS2」でトリリ...
▼EasyBertVits2(Zuntan様)
github.com/Zuntan03/EasyBertV...
▼音声モデル(litagin様)
※ 動画内では「K」の音声を一部使用してます
■サンプル音声
huggingface.co/litagin/bert_v...
■ファイル
huggingface.co/litagin/bert_v...
▼Bert-Vits2
github.com/fishaudio/Bert-VITS2
▼fish-speech
github.com/fishaudio/fish-speech
▼チャプター(目次)
00:00 OP
00:28 BertVits2の概要
01:30 導入に必要なもの
02:39 導入手順①
03:03 導入手順②
04:41 導入手順③
05:50 音声生成
06:47 音声モデル追加
09:20 複数モデルの使い方
10:11 小ワザなど
11:19 その他情報
12:26 雑談~ED
-------------------------------------------------------
▼ゆうぷろとは?
合成音声関係や動画投稿にまつわる情報をメインに発信しています
▼チャンネル登録もお願いします
※ 新着動画や関連動画が「おすすめ動画」などに表示されやすくなります
ua-cam.com/users/yuupro?sub_...
▼サブチャンネル
/ yuupro2nd
▼再生リスト(全動画)
• 全作品まとめ
▼ゆうぷろの人気動画
■【VOICEVOX】ずんだもんっていったい何者? ~5分でわかりやすく解説
• 【VOICEVOX】ずんだもんっていったい何...
■【初心者向け】ゆっくりとボイスロイドとVOICEVOX(ボイスボックス)は何が違うの?~音声合成ソフトの特徴や性質の違いを解説
• 【初心者向け】ゆっくりとボイスロイドとVOI...
■一番使われているゆっくりの立ち絵ってどれ? ~人気1000チャンネルのリサーチ結果を解説
• 一番使われているゆっくりの立ち絵ってどれ? ...
■【5種類+α】無料の音声合成ソフト&VOICEPEAKを聴き比べ
• 【5種類+α】無料の音声合成ソフト&VOIC...
■【歴史に幕】SofTalkの“ゆっくりボイス”対応終了の件を詳しく解説
• 【歴史に幕】SofTalkの“ゆっくりボイス...
■【レビュー】超リアル音声変換ソフト『SeirenVoice(セイレンボイス)先行版』を解説
• 超リアル音声変換ソフト『SeirenVoic...
■【VOICEVOX】四国めたんとはいったい何者? をわかりやすく解説
• 【VOICEVOX】四国めたんとはいったい何...
■【合成音声の収益化剥奪問題】収益化停止を受けた100チャンネルのリサーチ結果を解説
• 【合成音声の収益化剥奪問題】収益化停止を受け...
■【必見】ゆっくりボイス(AquesTalk)のライセンスを完全解説
• 【必見】ゆっくりボイス(AquesTalk)...
■【必見!】音声合成ソフト『VOICEPEAK(ボイスピーク)』を解説&レビュー【商用・業務利用無料】
• 【必見】音声合成ソフト『VOICEPEAK(...
▼Twitter
/ yuupro_2022
▼BGM
■DOVA-SYNDROME 様:dova-s.jp/
■ポケットサウンド 様:@pocketse
▼動画編集ソフト
■ゆっくりムービーメーカー4 Lite:manjubox.net/ymm4/
■DaVinci Resolve:www.blackmagicdesign.com/jp/p...
▼リクエストやご質問・ご感想などはこちら
• 【限定公開】ゆうぷろへの書き込み用動画(リク...
#コメント歓迎です
#合成音声 - Навчання та стиль
動画内で説明を忘れましたが「EasyBertVits2」を起動する際にウィルスチェックソフトが有効だとインストールに失敗する場合があるようです。もし失敗した場合はインストールのときだけ無効にしてみてください。
あと私も使いはじめたばかりなのでトラブルや技術的なご質問にはお答えできないと思います...
多言語対応してるのはすごい強いですね。
最近の合成音声技術の進化速度がヤバすぎる……!!
本題と関係ないけど、「○○で、○○」の箇所の「で」の部分が可愛すぎない?
惚れそう惚れた
いやぁ素晴らしいですありがとうございます。関西弁と博多弁めっちゃ喋らせてみます
有意義な動画感謝です。中国人に10個くらい中国語のサンプル聞かせたら、驚いたことに、まともなのは1つしかないって言われました。その一つも自然ではないと言われました。もしかしたら日本語が一番クオリティいいかもしれません。英語は言うまでもなく11 labとかのほうが圧倒的に自然でこれは非ネイティブの訛りと発音の間違いがありすぎです。新たな技術の開発のことを動画で触れられていましたが、今後に期待したいです。
アクセントが中国語っぽくになっているのはベースモデルが中国語だからでしょうね。so-vits-svcの初期に色々やってましたが日本語のベースモデルから学習させてる例を見たことがなく、フリーの日本語ベースモデルで試してみてもうまく学習できずと、どうすればいいのやら... にしてもずいぶんと自然になりましたね
なるほど、やはりベースモデルが関係してそうなのですね...!
声調だけではなく翻訳までAIがしてくれるとは
かなり凄いものが出ましたね
あっ、もっと詳しく説明すればよかったですが言語モードを切り替えてその言語のテキストを入力すると読んでくれる感じです
すごく勉強になりました!
ちなみに動画のフォントは何を使用されているのでしょうか?
とても見やすかったです!
なにこれすごすぎない?
凄いシステムっぽいですね
手元には数年前のお古のノートとCATV環境のみなので、現在の導入は現実的ではないかな
(数ヶ月前に動画編集用のPCがローンを残して昇天されましたw→ついでに光回線も解約
環境が復活したら導入してみたいですね
説明動画ありがとうございます
StableDiffusionの声バージョンみたいですね。
にしても文章から感情を察して出力するなんて凄い技術…アメリカが中国に対してGPUの輸出を渋るのが分かった気がします。
どうやらGoogleが作った自然言語処理モデル「Bert」と韓国で研究されている「VITS2」という最新の音声合成技術が融合したものらしいです。
中国のコミュニティを覗きましたがRTX4090やA100がかなり貢献してるようです... 私もほしい...
一度手動で入れようとして諦めてましたけど今度は成功しました。この技術が実用化したら吹き替えやローカライズを元イメージのまま行える可能性がありますね。日本の声優さんは海の向こうでも人気ですし。言語の方でもtext-generation-webuiやKoboldAIという一括セットがありました。ローカル環境だと画像、言語、声が出そろいましたね。
日本語なのに、アクセントが中国語になっている印象を受けました。
中国人が喋っている日本語の印象です。
音声モデルにもよるみたいですね。
仕組みを理解しきれてないですが言語のベースとなる学習モデルのファイルがあったので、それが影響してるのかもしれませんね。
生成にバラツキをだせるので何回かやり直すと自然な感じになったりもします
so-vits-svc-forkも紹介して欲しいです
これ手動でどういう感情か指定できるんじゃなくて「悲しそうなセリフ」「怒ったようなセリフ」入れた時にその感情っぽくなるのね
これだと辛いのに気丈に振る舞ってるとか笑い堪えてるとかそういう感情は無理か
最初の声ホワイトカルに似てるな 0:43
「声」の学習データの権利関係はわかるのですが、「テキスト→音声の読みや抑揚の学習データ」の権利処理を、BertVits2シリーズではどうしているのか気になりました。
BertVits2シリーズは配布物に「テキスト→音声の読みや抑揚」を学習させたものを含めて配布しているように見受けられます
AMDのGPUが認識しないとのことですが、Cudaを使ってるようですので、恐らくNVIDIA以外のGPUはサポート外と思われます。
それにしても18.1GBとは。
ちうごく発ってのが引っかかる…
やはりどこへ行ってもNVIDIA以外のGPUには人権が無いのかなぁ(´・ω・`)
コスパならAMDなんですけどね...
Steamが別のOS(Linux)とかで動くように
CUDAの互換レイヤーが作れればなー。
ドラえもんの「ほんやくコンニャク」みたいですね。
まさにそれですね!さらに発展すればどんな国の言葉でも話すことができるかもですね
すみません意味をちょっと勘違いしてました...
テキストの翻訳まではしてくれないので言語モードを切り替えて対象言語を入力すると喋ってくれる感じです
動画内でもっと詳しくご説明すればよかったです...
@@yuupro
日本語で入力して英語や中国語の音声が合成されたらバケモノソフトだと思ったのですが、英語の音声を合成させるには英語で入力するのですね。
bert-vits2を自環境に導入する前にWeb UIで試したりすることはできますか?
私の知る限りではローカル環境以外で動かすことはできないと思います。
最近では「Style-Bert-VITS2」という新たなツールが公開されて導入がさらに簡単になったので、ローカル環境で使ってみて不要だったら削除するのが早いと思います。
github.com/litagin02/Style-Bert-VITS2
@@yuuproありがとうございます!
ゆうぷろさんの動画は肉声ですか?
言語の壁が崩れる音が聞こえました
既存の話声取り扱い業者はビビらずちゃんと適応してほしいもんですね
ボイボとかボイピとかとは違って画像AIみたいな生成AIって感じかな〜って個人的に思うな〜
ん~現在モデルの公開がされてないのかな?ダウンロードできなくなってますね・・・困った悲しい。
この動画の公開後にいろいろと動きがあり、現在は「Style-Bert-VITS2」というソフトが主流になりつつあります。
導入方法も簡単で4人分の音声もデフォルトで使えるのでご興味があったら試してみてください
▼リリースページ
github.com/litagin02/Style-Bert-VITS2?tab=readme-ov-file
▼開発者さんのチュートリアル動画
ua-cam.com/video/aTUSzgDl1iY/v-deo.html
@@yuupro お返事ありがとうございます。欲しかったのはモデルの方だったので・・💦
動画内で紹介している音声モデルは現在非公開とされていて、現状ではBOOTHでいくつか提供されているのみですね(「VITS2」で検索すれば出てきます)
無料提供されているものもありますが有料がメインとなっているようです
@@yuupro ありがとうございます。
Download-litagin-bert_vits2が見つからないです…
もしうまくできないようでしたら最近「Style-Bert-VITS2」という新たなツールが公開されたのでおためしください。
github.com/litagin02/Style-Bert-VITS2
導入方法はEasyBertVits2とほぼ同じなので説明を見ながら作業すれば簡単にできると思います
@@yuupro
ありがとうございます!試してみます!
起動できました!
しかし今度は、Web UIを一旦閉じた後また次回起動する方法がわからないです…
(初回はもちろん、ダウンロード後の自動アクセス)
配布ページにも書いてありますが「App.bat」をダブルクリックで起動できないでしょうか?
専門知識がないので具体的なアドバイスはできませんが、配布ページにひととおりの方法が書いてあるので参考になると思います