Синтез голоса на основе GPT4o и SpeechKit

Михаил Исаев

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 7 лис 2024

КОМЕНТАРІ • 97

@Христианскиекараокеиаудиобибли 5 місяців тому ⁺⁵
Обязательно продолжать разработку голосового помощника! Это же прорыв в изучении иностранных языков: отработки навыка говорения!!!
@MrDewiar 5 місяців тому
Отличная мысль 👍
@АндрейГринев-к1я 4 місяці тому
Надо
@MrDewiar 4 місяці тому
@@АндрейГринев-к1я спасибо!
@СветланаГлебова-к2р 5 місяців тому ⁺²
Спасибо, за очередное классное решение. Конечно, интересно и в телеграм. Если где-то в дороге, удобно голосом общаться с искусственным интеллектом. Я просто работаю сейчас работаю в компании и часто даже на встречах обращаюсь к ИИ с запросом информации.
@MrDewiar 5 місяців тому
Понял, поставлю в задачу, значит
@32arielplus 5 місяців тому ⁺⁵
Конечно продолжайте Михаил,за голосовым управлением будущее .Спасибо Вам!
@MrDewiar 5 місяців тому ⁺¹
Спасибо за отзыв!
@ivanshipilov4265 5 місяців тому
У голосового управления сомнительное будущее. Причины 2. Во первых чтобы его применить нужно всем вокруг сказать чтобы они заткнулись. Во вторых после этого спросить что-то вроде "поищи в ближайшей аптеке мазь от геморроя"
@MrDewiar 5 місяців тому
@@ivanshipilov4265 ну нюансы есть, да, все должно быть уместным.. здесь скорее чтобы было несколько интерфейсов параллельно, текстовый также должен остаться. А так, голос между людьми - самый распространенный способ коммуникации
@JohnDoe-zx8bu 4 місяці тому
@@MrDewiar самый распространенный, но не самый эффективный
@MrDewiar 4 місяці тому
@@JohnDoe-zx8bu Согласен, более эффективный способ - телепатия
@МихаилБелый-р9б 5 місяців тому ⁺²
К сожалению мало таких людей как Вы, которые хотят улучшать что то новое. Спасибо.
@MrDewiar 5 місяців тому
Спасибо за Ваш комментарий. Такие люди есть, но они разрозненны, больше в одиночестве что-то пробуют. Мне уже пишут люди из разных точек планеты, и это удивительно. Много людей что-то делает, собрать бы их в команду))
@act1871 5 місяців тому ⁺¹
Спасибо, Михаил! Очень полезное дело ведёте. Успехов в Ваших начинаниях! Подписка и лайк с меня. Жду следующий выпуск. Голосовые ассистенты- это перспективно. Продолжайте Ваши исследования в эту сторону!
@MrDewiar 5 місяців тому ⁺¹
Спасибо! Буду продолжать, буду стараться
@СергейАскани 5 місяців тому ⁺¹
Я чисто случайно наткнулся на ваше видео, это классно 👍 продолжайте дальше мне нравится, всё разложил по полочкам.
@MrDewiar 4 місяці тому
Спасибо за отзыв, буду стараться
@Сергей-р1ю1ь 5 місяців тому ⁺¹
Полезно всё от вас, идете верным путем!
@MrDewiar 5 місяців тому
Спасибо 🤝
@Fibonachiification 14 днів тому ⁺¹
Огромное спасибо за ваш добросовестный труд и яркое воплощение немыслимого. Очень нужен следующий алгоритм работы. Есть книга в виде текста, PDF, djev или картинок. Dewiar читает мне книгу в слух. Если у меня возник вопрос по тексту или термин незнакомый прозвучал можно будет прервать чтение и спросить, что этот термин значит. Или если мысль или фрагмент текста окажется важным попросить перенести его в интеллектуальную карту. В интеллект карте должны появиться примечания к топикам\кубикам куда бы можно было эти фрагменты размещать. И дальше уже использовать возможности интеллект карт. Создание интеллект карты книги тоже сильный вариант.
@MrDewiar 10 днів тому
Идея хорошая, но она нуждается в технологии векторных данных RAG, я сейчас двигаюсь в этом направлении, скоро покажу
@MasterMIB 4 місяці тому ⁺¹
Конечно продолжать! Какие могут быть сомнения? Еще бы вместо безликого интерфейса было лицо человека выражающего эмоции, было бы вообще замечательно!
@MrDewiar 4 місяці тому
Согласен, нужно подумать
@РАБОЧИЙКОНТЕНТ-к4ь 5 місяців тому
Спасибо. Нравится ваша увлечённость. Проекту развития.
@MrDewiar 5 місяців тому ⁺¹
Спасибо 🤝
@DrillingEnglish 5 місяців тому
Очень круто! Спасибо за ваш труд!!!
@MrDewiar 5 місяців тому
Спасибо за Ваш комментарий!
@urmatallatra 5 місяців тому
Вы молодец! Михаил вам больших успехов, продолжайте - СОЗИДАТЬ!
@MrDewiar 5 місяців тому
🤝
@АндрейМедведев-ц1ь 5 місяців тому
Спасибо.Все хорошо. Продолжайте.Голос нужен.Но и другие темы тоже .Михаил вам успеха.
@MrDewiar 5 місяців тому
Постараюсь почаще выкладывать что-то новое. У меня это бесконечный процесс. Я раньше и не думал, что это может быть еще кому-то интересно
@NikitaBogoslovskiy 5 місяців тому
Поддерживаю! AI Bot с голосовым сопровождением в Telegram-это успех! Ждем!
@MrDewiar 5 місяців тому
👍
@Alex-ic1ix 5 місяців тому ⁺¹
Да, голосовое управление это здорово. Развивайте пожалуйста.
@MrDewiar 5 місяців тому
Спасибо, делаю 🤝
@mcseem9587 5 місяців тому
Интерфейс красивый сделали! Лучше, чем просто точки на чёрном экране, как у OpenAI в приложении.
@MrDewiar 5 місяців тому ⁺¹
Покажу как будет работать скоро, хотелось оставить интерфейс максимально простым
@VoltMotoTech 5 місяців тому
СтОит, однозначно! Общаться голосом с ИИ, это КРУТО, НУЖНО, ПОЛЕЗНО , АКТУАЛЬНО!
@MrDewiar 5 місяців тому
Буду прорабатывать, посмотрим, что получится.. постараюсь получить эмоциональную речь, покажу, если получится
@alexblack9542 4 місяці тому
Спасибо Максиму. Я из России. Но также за то, чтобы соседи жили мирно. Очень надеюсь, что такие прямые диалоги пусть не сразу, но приведут к взаимопониманию соседей. А следующим шагом уберут конфронтацию и возможность третьих сил поджигать конфликты между соседями.
@АндрейГринев-к1я 4 місяці тому
Этот канал для меня находка. Понятно уже сейчас что это рычаг многих процессов, но не понятно как это можно использовать. Мне, например, хочется попробовать вести прогноз продаж по разным каналам ( маркетплейсы, оптовые продажи, розница). Хочется простой ввод данных, не методом набора текста, а например скриншотами с экрана статистики маркетплейсов, Продажи зависят от бог знает чего, в том числе от погоды и так далее. Иногда вообще не подвластны объяснения, как будто массовое сознание. При этом в моем случае возможно это то когда от небольшого функционала может разрастаться целая экосистема. С уважением к вашей работе. Удачи
@MrDewiar 4 місяці тому
Вы абсолютно правы. В сощдании ИИ аналитика, которого Вы описываете, основная сложность - понять, какие данные должны быть отобраны для анализа, как они должны быть связаны с временем анализа, какие метрики и общие логические компоненты должны использоваться. Т.е. научить ИИ делать эту работу не так сложно. Здесь сложно придумать логическую задачу для ИИ, выполняя которую мы бы получили результат
@АлексейСвищев-н7к 5 місяців тому ⁺¹
GPT-4 o - 'это как раз мультимодальная сквозная (end2end) система.
В ней речь - это НЕ выходы, распознанные сторонней ASR (типа whisper), а своя модальность.
Это позволяет распознавать не только саму речь, но и все ее нюансы, включая покашливания, паузы, настроение, игру голосом и эмоциями и т.д. Это огромный пласт информации, который в случае сторонней ASR проходит мимо LLM.
То же самое и с TTS. В GPT4 o - это отдельная выходная модальность. LLM знает как именно нужно сказать ту или иную часть фразы, куда поставить логическое ударение, где сыграть голосом, где и как проявить эмоции и т.д. Отдельные, даже лучшие TTS системы с этим целиком не справляются. Даже с гибкими текстовыми аннотациями.
Omni - это как раз новые возможности. А многокомпонентная система - это суррогат.
@MrDewiar 5 місяців тому ⁺²
В том то и дело, что whisper - это их родная система, именно в нее я и отсылаю аудио поток в другом своем решении, видео о нем чуть позднее загружу. Про отдельные модальности, они имеют довольно прикладное значение, я видел наметки этого и у Гугла в Gemini ультра, там внутри прописываются инструкции обмена информацией между поднейронками, и даже своя разметка отдельная используется. Если Вы правы, это будет неимоверно круто.. но рассматривая модели whisper и tts, не похоже, что это работает так как Вы говорите, возможно внутри 4o работает так, посмотрим.. сама 4o не дает пока что по API проверить эти предположения, она принимает через API текст и изображения BASE64, другие данные пока не описаны, может быть это появится в ближайшем будущем. Будем посмотреть. Я свои выводы делаю пока по тому, что уже попробовал, и там работает через разметку, никакого волшебства.. про смех и плачь - вот здесь нужно подумать, посмотрим, попробуем уже скоро.
Очень надеюсь, что Вы правы!
@АлексейСвищев-н7к 5 місяців тому
@@MrDewiar конкретно сейчас у них whisper а какой-то TTS чуть ли не на такотроне. Они об этом говорили. Как раз в omni была анонсирована полная мультимодальность по входам и выходам. Недостатки (потерю информации) whisper распознавания можно перекрыть дополнительными моделями (инструментами), которые делают описание аудио, распознают разные неречевые проявления, эмоции по акустике, делают диаризацию (разделение) по дикторам. Этим всем можно дополнительно аннотировать входные данные, но это должно быть учтено в инструкциях для GPT (ему надо объяснить формат ввода и учет). Это по факту парадигма "все в текстовую модальность". Вполне неплохо может работать и сейчас. У меня работает в моих задачах и экспериментах.
@MrDewiar 5 місяців тому ⁺¹
@@АлексейСвищев-н7к Интересно было бы посмотреть на Ваши эксперименты, если будет возможность, делитесь. Сами LLM уже настолько хороши сейчас, что они реально "чувствуют" настроение человека буквально по очередности и комбинации слов. Я на этом свойстве ИИ делал телеграм бот ЭМПАТ (@Empath_Dewiar_bot), он любую фразу раскладывает на эмоциональную состовляющую.
@mcseem9587 5 місяців тому
@@MrDewiar что же Вы раньше молчали! Начал тестировать бота - интересный!
@MrDewiar 5 місяців тому ⁺¹
@@mcseem9587 У меня много наработок скопилось, буду показывать постепенно 👍
@Andrei_Seliukov 5 місяців тому
Супер! Долгожданное решение!
@WarsportRu24 5 місяців тому
Однозначно надо, работа голосом это будущее
@MrDewiar 5 місяців тому
Принято 👍👍👍
@Sergey-fo1jy 5 місяців тому
Спасибо! Очень интересно!
@MrDewiar 5 місяців тому
👍
@user-sah64 5 місяців тому
ИИ помощниками пока не пользовался, не могу ничего сказать. Мне было интересно послушать. А насчёт Яндекс спич, могу сказать, что у них лучше иностранных конкурентов. У них ударение, пауза есть. Голос можно выбрать радостный, нейтральный, строгий. И голос у роботов человеческий. Иногда в другой ИИ изменяю тон голоса, если надо писклявый или низкий. Использую 2 года регулярно. Конечно я не пользуюсь платным сервисом для предприятий, а ограниченным бесплатным.
@MrDewiar 5 місяців тому
Да, у Яндекса голоса приятные на слух, и не плохо произносят даже обычный текст с простой разметкой.
@РоманКаштанов-б7ю 5 місяців тому
Михаил, определенно нужно развивать голосовое общение с ассистентом.
Подумайте над возможностью добавления голосовых моделей обученных на других ии.
Чтобы пользователь мог обучить свою голосовую модель допустим на RVC и добавить этот голос для ответов.
Огромный потенциал для введения бизнеса, если по запросу клиентов в том же боте ТГ он отвечал голосом владельца бизнеса или его представителя.
@MrDewiar 5 місяців тому ⁺¹
Да, интересно. Посмотрю что еще сейчас доступно из голосовых моделей. Думаю попробовать локальную модель на своем сервере, есть варианты.
@ПалмурзаХожабеков-у3ф 4 місяці тому ⁺¹
Добрый день Михаил. Спасибо за вашу работу. У меня есть вопрос. Если посчитаете нужным ответьте пожалуйста. Я приобрел Open art. Но не могу пользоваться. Я хотел генерировать изображения баннеров но никак не получается.
@MrDewiar 4 місяці тому
Здравствуйте. Я не слышал о таком.. у Open AI для изображений используется Dall-e. А ART есть у Яндекса, есть такая нейросеть генерации у них.. мне бы больше информации, что именно у Вас
@mcseem9587 5 місяців тому
Однозначно лайк
@АлексейМихалев-з7э 5 місяців тому ⁺¹
Доброго Михаил.
перспективна функция работы в программах гугл мит, дискорд ...и подобных. транскрибация голоса абонента в текст с переводом на язык русский в виде текстового окна. и русскую речь через микрофон перевести на английский и озвучить абоненту. насколько это возможно в принципе сейчас?
@MrDewiar 5 місяців тому ⁺¹
Здравствуйте. Использовать такую функцию в готовых решениях сложно, т.к. нужно как-то связать свой код с их решениями, должен быть глубокий API интеграции. А такие сервисы к себе глубоко не подпустят. По Гугл Мит вообще не понятно, у Гугла есть очень мощные собственные модели для транскрибации и синтеза голоса, но они не спешат. Сам же процесс не сложный сейчас, вопрос только в интеграции, как к ним туда добраться, чтобы добавить эти возможности.
@АлексейМихалев-з7э 4 місяці тому ⁺¹
@@MrDewiar спасибо. я думаю это появиться рано или поздно только за платную подписку...это золотое дно. общение в реальном времени.
@MrDewiar 4 місяці тому
@@АлексейМихалев-з7э да, я думаю, что эти функци быстрее всего будут платными. Но цены должны быть не высокими, по мере развития должно становиться дешевле
@JohnDoe-zx8bu 4 місяці тому
О, я как раз думаю на эту тему
Есть идеи как сделать все в около реальном времени, пара секунд задержки все равно будет, потому что для перевода надо иметь некоторый накопленный буфер
Чтобы работало, надо приложение на комп локально ставить + виртуальные аудио-кабели, тогда получится миксовать звук как надо
В общем, с некоторыми ограничениями и неудобствами в виде несколько геморной настройки аудио-потоков возможно сделать
@leoniddzhabiev 5 місяців тому
хорошее видео, спасибо
@MrDewiar 5 місяців тому
Спасибо Вам
@altechlab1611 5 місяців тому
Good work.. like it!
@MrDewiar 5 місяців тому
Thank you
@Otchengazoom 4 місяці тому ⁺¹
На работу с голосом тратить время СТОИТ однозначно! Михаил, как можно задать вам вопросы по функционалу приватно (емеил или чат в Телеграм)? У меня несколько конкретных вопросов о решениях для моего бизнеса и я не хочу это делать публично. Спасибо за понимание.
@MrDewiar 4 місяці тому ⁺¹
Можете написать мне в телеграм по логину @isaev_mp , я постараюсь помочь чем смогу
@lorfrancershov4992 5 місяців тому
очень интересно! хочется полноценное приложение ассистента на андроид
@MrDewiar 5 місяців тому
У меня нет опыта в создании приложений на андроид. Если проект будет развиваться дальше, я мог бы поработать с разработчиком приложений, и мы бы за несколько дней вывели это в приложение.
@my-rules 5 місяців тому
Спасибо
@MrDewiar 5 місяців тому
Вам спасибо
@SUPERBASS-q2q 5 місяців тому
❤
@itseller 5 місяців тому
Было бы классно, отправлять эти сообщения в Яндекс станцию.
Не знаю, реализовано ли это у них через Апи.
Чтоб сообщение приходило не в телеграм, а звуковым оповещением через колонку.
@MrDewiar 5 місяців тому
Я писал навык для Алисы, можете протестировать. Просто в Алисы попросите "Алиса, включи навык НЕЙРОННЫЙ АССИСТЕНТ", и нейросеть Gemini будет работать внутри. Но все не идеально работает, т.к. разработчики Алисы добавили множество ограничений, которые не позволяют использовать их продукт на 100%. Я писал им, они присылают в ответ только отговорки, не заинтересованы в развитии возможностей колонки в ракурсе улучшения навыков и возможностей.
@JohnDoe-zx8bu 4 місяці тому
@@MrDewiar А если сделать через телефон и подключенную блютус колонку?
Я думаю, можно придумать решение без яндекс.колонки если добавить свое приложение как передаточное звено
@DarkPassagir 4 місяці тому
Здравствуйте, я не понял, это платно? Сколько стоит?я имею ввиду " девиар"
@MrDewiar 4 місяці тому
Здравствуйте. Система комбинированная. Девиар каждый день дает бесплатные запросы, если их не достаточно - Вы можете использовать свой внутренний счет. Счет позволяет расходовать личные средства на затраты ИИ. Если Вы глубоко работаете с ИИ, Вы можете использовать собственные API_KEY по этой инструкции dewiar.com/apiKey, это позволит оплачивать работу ИИ на стороне самого ИИ.
@SUPERBASS-q2q 5 місяців тому
Голос нужно добавлять
@mcseem9587 5 місяців тому
Да, стоит тратить время на работу с голосом.
@MrDewiar 5 місяців тому
Спасибо, так и буду делать 🤝
@ARKIsaa 5 місяців тому
Я не думаю что работа с голосом эффективна. Много людей не имеют возможности взаимодействия голосом. Банально не хотят что бы окружающие слышали. Нужно создать опрос на то как часто взаимодействие идет голосом.
@MrDewiar 5 місяців тому
С другой стороны, любой фильм о будущем (железный человек?) показывает взаимодействие с ИИ помощником в первую очередь голосом, потом тактильно, и совсем редко текстом
@JohnDoe-zx8bu 4 місяці тому
@@MrDewiar управление голосом может быть в некоторых случаях удобно, но и довольно много ситуаций где будет наоборот
Например, представьте open-space где много людей и каждый со своим ассистентом пытается разговаривать - это будет довольно кошмарно
Так же если просто зашумленная окружающая среда, городская улица или какой-то концерт
Как отмечал один из комментаторов выше, есть и вопрос конфиденциальности, не всегда удобно озвучить необходимые запросы если есть другие люди по соседству
Поэтому все функции должны быть продублированы в разных типах интерфейсов, ожидать что голосове управление в будущем вытеснит все остальные не стоит
Опять же Neural Link и другие интерфейсы связанные с мозговой активностью постепенно развиваются что позволит добраться до условной телепатии в будущем
@MrDewiar 4 місяці тому ⁺¹
@@JohnDoe-zx8bu Вы абсолютно правы

Наступне

Автоматичне відтворення

Как Визуализировать Идеи с Помощью ИИ: Интеллект-Карты