実用的？OpenAIのgpt4o-miniで音声対話ができるようになったので解説してみた

にゃんたのAIチャンネル

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 29 гру 2024

КОМЕНТАРІ • 30

@phono2 2 дні тому ⁺¹⁴
コールセンター関連で10年ほど前仕事をしていた頃、この領域は早晩AIに置き換わるから今から準備をしておこう、と言っていた内容が本当にそろそろ、そろそろ現実になりそうですね。いやはやなんとも面白い時代に生きているものだ。
@aivtuber2866 День тому
技術の発展が本当に早いですよね！
どうなっていくか楽しみですね😊
@健-b5y 2 дні тому ⁺⁷
Azureの公式実装と比べてもシンプルに実装できていて良いですね！
pythonのみで構築できている点も良いと思いました。
参考にさせていただきます！
@aivtuber2866 День тому
ありがとうございます！
Azureの公式実装もあるのですね･･･！
実装少しでも参考になったようで良かったです😊
@SammoHungGambou День тому ⁺²
金融系コールセンタだと本人確認とかに厳しいルールがあったりするので難しそうですが、Slackも買収したSalesforceなどのCRMベンダーではお金がありそうだから、そういったフレーム制御とうまく混ぜ合わせたSaaSとして提供を始めそう
@たらロース 2 дні тому ⁺¹
音声会話ももうこのレベルが当たり前になっちゃってるのすげえですね。エンドユーザー相手に使うのはさすがにまだ逐一チェック必要そうであと一歩足りない感じですが、逆にいえばここまで迫ってると言えるのかも
@aivtuber2866 День тому
確かに数か月前に出たときは喋れるだけで感動したのですが
今はある程度の品質を求めるようになってしまってますね･･･🤔笑
あっという間に実用レベルになるかもですね😊
@salmon54561 2 дні тому ⁺¹
音声会話の裏でツール使用ができるなら、本当にカスタマーセンターの代わりになりそうですね。ここにきて「プロンプトエンジニア、要る・要らない論」が「要る」方に傾いたような気がします🤔
@aivtuber2866 День тому ⁺¹
仕事に使っていこうとすると、プロンプトやツール利用、会話返答タイミングなど
色々エンジニアリングのポイントはありそうですよね！
ただ音声聞きながら、何度もプロンプトチューニングしていくのは
結構大変そうですね･･･🤔笑
@REIA-t1 2 дні тому ⁺²
Amazonは地球の裏側の人まで使って24時間体制のテキストサポートやってるっぽいです。AIはまだ料金がネックになるかな...？
@aivtuber2866 День тому ⁺¹
Amazonでも置き替えは中々進んでいないんですね！
コスト的にも品質的にもまだお客さんと
直接会話させるのは難しそうですもんね🤔
@momochi9790 День тому ⁺¹
すでに自動応答としての性能は十分だろうが、AIと（言った言ってない、聞き間違い、騙された、脅迫・誹謗中傷等の）トラブルになった時の法的な責任を社会問題になる前に明確にする必要があるだろうね。AIからの予約・注文・取引はしないという企業も増えてるしね。
@aivtuber2866 День тому
ありがとうございます！
AIを業務で使う際の責任の所在などは
自動運転車での議論と似たものがあるかもしれませんね🤔
@shinzoabe4777 День тому
根本的に、責任のある業務を生成AIに完全に代替させようなんて考えないほうがいい。妄想するのは自由ですけど。
@RivusVirtutis 2 дні тому ⁺⁵
いや、実は書いてない事を推測で言っちゃうのは実は相当問題だと思う。むしろこの程度の内容ならプッシュフォンで番号押させて分岐して、故障内容が保証に妥当かだけをllmで審査させるようにするくらいしかまだ使えない気がする。他者でやってそうなサービスや規則を勝手に類推して言っちゃうのはお客さんの側も間違いだと一番気づきにくいので…。それをうまく制御するプロンプトや手法も開発されるだろうけど、あくまで人間が作った分岐のテンプレートがないと進められないとおもう。しかもここで、子供が商品の蓋を飲んでしまったみたいな話を途中で入れられた場合とかまで考えるとまだまだllmは相当リスキーだなと思いました。
@FuwaCoco День тому ⁺¹
既存のGPTsでもPDFを読みこませるとその内容からしか回答しないという機能があるのでそれで対応できそうに思いますよ。
@しゃくらん День тому ⁺¹
プッシュホンで番号分岐はユーザー側からすると相当だるいんだよね。
@aivtuber2866 День тому
そうですね！
まだ現状の技術だと全部を任せるのは厳しそうですよね🤔
@魚釣り-r2e 2 дні тому ⁺³
geminiで無料音声API使えるのにopenAIに課金して使う人なんているのw
@kosetei1 2 дні тому ⁺⁶
Geminiはたぶん、音声を文字起こししてLLMで処理して出てきた文章を音声合成するってのを高速でやってるだけだから、品質めっちゃ低いじゃん。
openAIのアドバンスド音声モードは野球実況風のセリフ喋らせた時に後ろで観客の声っぽい雑音鳴ってたこともある。AIの性能が段違いなんだよ。
@小林大介-c8e 2 дні тому ⁺²
英会話の練習相手に使ってるけど、高度な音声機能の正確性とレスポンスの速さは段違いだねー
@0004android 2 дні тому ⁺²
将来的にはともかく、現状のGeminiは音声対話や画像認識の精度はChatGPTと比較してかなり劣っている
あとはGeminiはChatGPTに比べて融通が効かないイメージ
@ああ-k7o9i 2 дні тому ⁺¹
無料しか取り柄のないただただ図体がデカいだけの会社
@魚釣り-r2e День тому
@@kosetei1 デマ流してて草。openAIも音声合成してるだけだから後ろから観客の声聞こえてくるわけないやんwちゃんと仕様書読んでから返信してくれw

Наступне

Автоматичне відтворення

Gensparkの方が良いかも…？PerplexityAIとの違いを解説してみた