Спасибо, за очередное классное решение. Конечно, интересно и в телеграм. Если где-то в дороге, удобно голосом общаться с искусственным интеллектом. Я просто работаю сейчас работаю в компании и часто даже на встречах обращаюсь к ИИ с запросом информации.
У голосового управления сомнительное будущее. Причины 2. Во первых чтобы его применить нужно всем вокруг сказать чтобы они заткнулись. Во вторых после этого спросить что-то вроде "поищи в ближайшей аптеке мазь от геморроя"
@@ivanshipilov4265 ну нюансы есть, да, все должно быть уместным.. здесь скорее чтобы было несколько интерфейсов параллельно, текстовый также должен остаться. А так, голос между людьми - самый распространенный способ коммуникации
Спасибо за Ваш комментарий. Такие люди есть, но они разрозненны, больше в одиночестве что-то пробуют. Мне уже пишут люди из разных точек планеты, и это удивительно. Много людей что-то делает, собрать бы их в команду))
Спасибо, Михаил! Очень полезное дело ведёте. Успехов в Ваших начинаниях! Подписка и лайк с меня. Жду следующий выпуск. Голосовые ассистенты- это перспективно. Продолжайте Ваши исследования в эту сторону!
Огромное спасибо за ваш добросовестный труд и яркое воплощение немыслимого. Очень нужен следующий алгоритм работы. Есть книга в виде текста, PDF, djev или картинок. Dewiar читает мне книгу в слух. Если у меня возник вопрос по тексту или термин незнакомый прозвучал можно будет прервать чтение и спросить, что этот термин значит. Или если мысль или фрагмент текста окажется важным попросить перенести его в интеллектуальную карту. В интеллект карте должны появиться примечания к топикам\кубикам куда бы можно было эти фрагменты размещать. И дальше уже использовать возможности интеллект карт. Создание интеллект карты книги тоже сильный вариант.
Спасибо Максиму. Я из России. Но также за то, чтобы соседи жили мирно. Очень надеюсь, что такие прямые диалоги пусть не сразу, но приведут к взаимопониманию соседей. А следующим шагом уберут конфронтацию и возможность третьих сил поджигать конфликты между соседями.
Этот канал для меня находка. Понятно уже сейчас что это рычаг многих процессов, но не понятно как это можно использовать. Мне, например, хочется попробовать вести прогноз продаж по разным каналам ( маркетплейсы, оптовые продажи, розница). Хочется простой ввод данных, не методом набора текста, а например скриншотами с экрана статистики маркетплейсов, Продажи зависят от бог знает чего, в том числе от погоды и так далее. Иногда вообще не подвластны объяснения, как будто массовое сознание. При этом в моем случае возможно это то когда от небольшого функционала может разрастаться целая экосистема. С уважением к вашей работе. Удачи
Вы абсолютно правы. В сощдании ИИ аналитика, которого Вы описываете, основная сложность - понять, какие данные должны быть отобраны для анализа, как они должны быть связаны с временем анализа, какие метрики и общие логические компоненты должны использоваться. Т.е. научить ИИ делать эту работу не так сложно. Здесь сложно придумать логическую задачу для ИИ, выполняя которую мы бы получили результат
GPT-4 o - 'это как раз мультимодальная сквозная (end2end) система. В ней речь - это НЕ выходы, распознанные сторонней ASR (типа whisper), а своя модальность. Это позволяет распознавать не только саму речь, но и все ее нюансы, включая покашливания, паузы, настроение, игру голосом и эмоциями и т.д. Это огромный пласт информации, который в случае сторонней ASR проходит мимо LLM. То же самое и с TTS. В GPT4 o - это отдельная выходная модальность. LLM знает как именно нужно сказать ту или иную часть фразы, куда поставить логическое ударение, где сыграть голосом, где и как проявить эмоции и т.д. Отдельные, даже лучшие TTS системы с этим целиком не справляются. Даже с гибкими текстовыми аннотациями. Omni - это как раз новые возможности. А многокомпонентная система - это суррогат.
В том то и дело, что whisper - это их родная система, именно в нее я и отсылаю аудио поток в другом своем решении, видео о нем чуть позднее загружу. Про отдельные модальности, они имеют довольно прикладное значение, я видел наметки этого и у Гугла в Gemini ультра, там внутри прописываются инструкции обмена информацией между поднейронками, и даже своя разметка отдельная используется. Если Вы правы, это будет неимоверно круто.. но рассматривая модели whisper и tts, не похоже, что это работает так как Вы говорите, возможно внутри 4o работает так, посмотрим.. сама 4o не дает пока что по API проверить эти предположения, она принимает через API текст и изображения BASE64, другие данные пока не описаны, может быть это появится в ближайшем будущем. Будем посмотреть. Я свои выводы делаю пока по тому, что уже попробовал, и там работает через разметку, никакого волшебства.. про смех и плачь - вот здесь нужно подумать, посмотрим, попробуем уже скоро. Очень надеюсь, что Вы правы!
@@MrDewiar конкретно сейчас у них whisper а какой-то TTS чуть ли не на такотроне. Они об этом говорили. Как раз в omni была анонсирована полная мультимодальность по входам и выходам. Недостатки (потерю информации) whisper распознавания можно перекрыть дополнительными моделями (инструментами), которые делают описание аудио, распознают разные неречевые проявления, эмоции по акустике, делают диаризацию (разделение) по дикторам. Этим всем можно дополнительно аннотировать входные данные, но это должно быть учтено в инструкциях для GPT (ему надо объяснить формат ввода и учет). Это по факту парадигма "все в текстовую модальность". Вполне неплохо может работать и сейчас. У меня работает в моих задачах и экспериментах.
@@АлексейСвищев-н7к Интересно было бы посмотреть на Ваши эксперименты, если будет возможность, делитесь. Сами LLM уже настолько хороши сейчас, что они реально "чувствуют" настроение человека буквально по очередности и комбинации слов. Я на этом свойстве ИИ делал телеграм бот ЭМПАТ (@Empath_Dewiar_bot), он любую фразу раскладывает на эмоциональную состовляющую.
ИИ помощниками пока не пользовался, не могу ничего сказать. Мне было интересно послушать. А насчёт Яндекс спич, могу сказать, что у них лучше иностранных конкурентов. У них ударение, пауза есть. Голос можно выбрать радостный, нейтральный, строгий. И голос у роботов человеческий. Иногда в другой ИИ изменяю тон голоса, если надо писклявый или низкий. Использую 2 года регулярно. Конечно я не пользуюсь платным сервисом для предприятий, а ограниченным бесплатным.
Михаил, определенно нужно развивать голосовое общение с ассистентом. Подумайте над возможностью добавления голосовых моделей обученных на других ии. Чтобы пользователь мог обучить свою голосовую модель допустим на RVC и добавить этот голос для ответов. Огромный потенциал для введения бизнеса, если по запросу клиентов в том же боте ТГ он отвечал голосом владельца бизнеса или его представителя.
Добрый день Михаил. Спасибо за вашу работу. У меня есть вопрос. Если посчитаете нужным ответьте пожалуйста. Я приобрел Open art. Но не могу пользоваться. Я хотел генерировать изображения баннеров но никак не получается.
Здравствуйте. Я не слышал о таком.. у Open AI для изображений используется Dall-e. А ART есть у Яндекса, есть такая нейросеть генерации у них.. мне бы больше информации, что именно у Вас
Доброго Михаил. перспективна функция работы в программах гугл мит, дискорд ...и подобных. транскрибация голоса абонента в текст с переводом на язык русский в виде текстового окна. и русскую речь через микрофон перевести на английский и озвучить абоненту. насколько это возможно в принципе сейчас?
Здравствуйте. Использовать такую функцию в готовых решениях сложно, т.к. нужно как-то связать свой код с их решениями, должен быть глубокий API интеграции. А такие сервисы к себе глубоко не подпустят. По Гугл Мит вообще не понятно, у Гугла есть очень мощные собственные модели для транскрибации и синтеза голоса, но они не спешат. Сам же процесс не сложный сейчас, вопрос только в интеграции, как к ним туда добраться, чтобы добавить эти возможности.
@@АлексейМихалев-з7э да, я думаю, что эти функци быстрее всего будут платными. Но цены должны быть не высокими, по мере развития должно становиться дешевле
О, я как раз думаю на эту тему Есть идеи как сделать все в около реальном времени, пара секунд задержки все равно будет, потому что для перевода надо иметь некоторый накопленный буфер Чтобы работало, надо приложение на комп локально ставить + виртуальные аудио-кабели, тогда получится миксовать звук как надо В общем, с некоторыми ограничениями и неудобствами в виде несколько геморной настройки аудио-потоков возможно сделать
На работу с голосом тратить время СТОИТ однозначно! Михаил, как можно задать вам вопросы по функционалу приватно (емеил или чат в Телеграм)? У меня несколько конкретных вопросов о решениях для моего бизнеса и я не хочу это делать публично. Спасибо за понимание.
У меня нет опыта в создании приложений на андроид. Если проект будет развиваться дальше, я мог бы поработать с разработчиком приложений, и мы бы за несколько дней вывели это в приложение.
Было бы классно, отправлять эти сообщения в Яндекс станцию. Не знаю, реализовано ли это у них через Апи. Чтоб сообщение приходило не в телеграм, а звуковым оповещением через колонку.
Я писал навык для Алисы, можете протестировать. Просто в Алисы попросите "Алиса, включи навык НЕЙРОННЫЙ АССИСТЕНТ", и нейросеть Gemini будет работать внутри. Но все не идеально работает, т.к. разработчики Алисы добавили множество ограничений, которые не позволяют использовать их продукт на 100%. Я писал им, они присылают в ответ только отговорки, не заинтересованы в развитии возможностей колонки в ракурсе улучшения навыков и возможностей.
@@MrDewiar А если сделать через телефон и подключенную блютус колонку? Я думаю, можно придумать решение без яндекс.колонки если добавить свое приложение как передаточное звено
Здравствуйте. Система комбинированная. Девиар каждый день дает бесплатные запросы, если их не достаточно - Вы можете использовать свой внутренний счет. Счет позволяет расходовать личные средства на затраты ИИ. Если Вы глубоко работаете с ИИ, Вы можете использовать собственные API_KEY по этой инструкции dewiar.com/apiKey, это позволит оплачивать работу ИИ на стороне самого ИИ.
Я не думаю что работа с голосом эффективна. Много людей не имеют возможности взаимодействия голосом. Банально не хотят что бы окружающие слышали. Нужно создать опрос на то как часто взаимодействие идет голосом.
С другой стороны, любой фильм о будущем (железный человек?) показывает взаимодействие с ИИ помощником в первую очередь голосом, потом тактильно, и совсем редко текстом
@@MrDewiar управление голосом может быть в некоторых случаях удобно, но и довольно много ситуаций где будет наоборот Например, представьте open-space где много людей и каждый со своим ассистентом пытается разговаривать - это будет довольно кошмарно Так же если просто зашумленная окружающая среда, городская улица или какой-то концерт Как отмечал один из комментаторов выше, есть и вопрос конфиденциальности, не всегда удобно озвучить необходимые запросы если есть другие люди по соседству Поэтому все функции должны быть продублированы в разных типах интерфейсов, ожидать что голосове управление в будущем вытеснит все остальные не стоит Опять же Neural Link и другие интерфейсы связанные с мозговой активностью постепенно развиваются что позволит добраться до условной телепатии в будущем
Обязательно продолжать разработку голосового помощника! Это же прорыв в изучении иностранных языков: отработки навыка говорения!!!
Отличная мысль 👍
Надо
@@АндрейГринев-к1я спасибо!
Спасибо, за очередное классное решение. Конечно, интересно и в телеграм. Если где-то в дороге, удобно голосом общаться с искусственным интеллектом. Я просто работаю сейчас работаю в компании и часто даже на встречах обращаюсь к ИИ с запросом информации.
Понял, поставлю в задачу, значит
Конечно продолжайте Михаил,за голосовым управлением будущее .Спасибо Вам!
Спасибо за отзыв!
У голосового управления сомнительное будущее. Причины 2. Во первых чтобы его применить нужно всем вокруг сказать чтобы они заткнулись. Во вторых после этого спросить что-то вроде "поищи в ближайшей аптеке мазь от геморроя"
@@ivanshipilov4265 ну нюансы есть, да, все должно быть уместным.. здесь скорее чтобы было несколько интерфейсов параллельно, текстовый также должен остаться. А так, голос между людьми - самый распространенный способ коммуникации
@@MrDewiar самый распространенный, но не самый эффективный
@@JohnDoe-zx8bu Согласен, более эффективный способ - телепатия
К сожалению мало таких людей как Вы, которые хотят улучшать что то новое. Спасибо.
Спасибо за Ваш комментарий. Такие люди есть, но они разрозненны, больше в одиночестве что-то пробуют. Мне уже пишут люди из разных точек планеты, и это удивительно. Много людей что-то делает, собрать бы их в команду))
Спасибо, Михаил! Очень полезное дело ведёте. Успехов в Ваших начинаниях! Подписка и лайк с меня. Жду следующий выпуск. Голосовые ассистенты- это перспективно. Продолжайте Ваши исследования в эту сторону!
Спасибо! Буду продолжать, буду стараться
Я чисто случайно наткнулся на ваше видео, это классно 👍 продолжайте дальше мне нравится, всё разложил по полочкам.
Спасибо за отзыв, буду стараться
Полезно всё от вас, идете верным путем!
Спасибо 🤝
Огромное спасибо за ваш добросовестный труд и яркое воплощение немыслимого. Очень нужен следующий алгоритм работы. Есть книга в виде текста, PDF, djev или картинок. Dewiar читает мне книгу в слух. Если у меня возник вопрос по тексту или термин незнакомый прозвучал можно будет прервать чтение и спросить, что этот термин значит. Или если мысль или фрагмент текста окажется важным попросить перенести его в интеллектуальную карту. В интеллект карте должны появиться примечания к топикам\кубикам куда бы можно было эти фрагменты размещать. И дальше уже использовать возможности интеллект карт. Создание интеллект карты книги тоже сильный вариант.
Идея хорошая, но она нуждается в технологии векторных данных RAG, я сейчас двигаюсь в этом направлении, скоро покажу
Конечно продолжать! Какие могут быть сомнения? Еще бы вместо безликого интерфейса было лицо человека выражающего эмоции, было бы вообще замечательно!
Согласен, нужно подумать
Спасибо. Нравится ваша увлечённость. Проекту развития.
Спасибо 🤝
Очень круто! Спасибо за ваш труд!!!
Спасибо за Ваш комментарий!
Вы молодец! Михаил вам больших успехов, продолжайте - СОЗИДАТЬ!
🤝
Спасибо.Все хорошо. Продолжайте.Голос нужен.Но и другие темы тоже .Михаил вам успеха.
Постараюсь почаще выкладывать что-то новое. У меня это бесконечный процесс. Я раньше и не думал, что это может быть еще кому-то интересно
Поддерживаю! AI Bot с голосовым сопровождением в Telegram-это успех! Ждем!
👍
Да, голосовое управление это здорово. Развивайте пожалуйста.
Спасибо, делаю 🤝
Интерфейс красивый сделали! Лучше, чем просто точки на чёрном экране, как у OpenAI в приложении.
Покажу как будет работать скоро, хотелось оставить интерфейс максимально простым
СтОит, однозначно! Общаться голосом с ИИ, это КРУТО, НУЖНО, ПОЛЕЗНО , АКТУАЛЬНО!
Буду прорабатывать, посмотрим, что получится.. постараюсь получить эмоциональную речь, покажу, если получится
Спасибо Максиму. Я из России. Но также за то, чтобы соседи жили мирно. Очень надеюсь, что такие прямые диалоги пусть не сразу, но приведут к взаимопониманию соседей. А следующим шагом уберут конфронтацию и возможность третьих сил поджигать конфликты между соседями.
Этот канал для меня находка. Понятно уже сейчас что это рычаг многих процессов, но не понятно как это можно использовать. Мне, например, хочется попробовать вести прогноз продаж по разным каналам ( маркетплейсы, оптовые продажи, розница). Хочется простой ввод данных, не методом набора текста, а например скриншотами с экрана статистики маркетплейсов, Продажи зависят от бог знает чего, в том числе от погоды и так далее. Иногда вообще не подвластны объяснения, как будто массовое сознание. При этом в моем случае возможно это то когда от небольшого функционала может разрастаться целая экосистема. С уважением к вашей работе. Удачи
Вы абсолютно правы. В сощдании ИИ аналитика, которого Вы описываете, основная сложность - понять, какие данные должны быть отобраны для анализа, как они должны быть связаны с временем анализа, какие метрики и общие логические компоненты должны использоваться. Т.е. научить ИИ делать эту работу не так сложно. Здесь сложно придумать логическую задачу для ИИ, выполняя которую мы бы получили результат
GPT-4 o - 'это как раз мультимодальная сквозная (end2end) система.
В ней речь - это НЕ выходы, распознанные сторонней ASR (типа whisper), а своя модальность.
Это позволяет распознавать не только саму речь, но и все ее нюансы, включая покашливания, паузы, настроение, игру голосом и эмоциями и т.д. Это огромный пласт информации, который в случае сторонней ASR проходит мимо LLM.
То же самое и с TTS. В GPT4 o - это отдельная выходная модальность. LLM знает как именно нужно сказать ту или иную часть фразы, куда поставить логическое ударение, где сыграть голосом, где и как проявить эмоции и т.д. Отдельные, даже лучшие TTS системы с этим целиком не справляются. Даже с гибкими текстовыми аннотациями.
Omni - это как раз новые возможности. А многокомпонентная система - это суррогат.
В том то и дело, что whisper - это их родная система, именно в нее я и отсылаю аудио поток в другом своем решении, видео о нем чуть позднее загружу. Про отдельные модальности, они имеют довольно прикладное значение, я видел наметки этого и у Гугла в Gemini ультра, там внутри прописываются инструкции обмена информацией между поднейронками, и даже своя разметка отдельная используется. Если Вы правы, это будет неимоверно круто.. но рассматривая модели whisper и tts, не похоже, что это работает так как Вы говорите, возможно внутри 4o работает так, посмотрим.. сама 4o не дает пока что по API проверить эти предположения, она принимает через API текст и изображения BASE64, другие данные пока не описаны, может быть это появится в ближайшем будущем. Будем посмотреть. Я свои выводы делаю пока по тому, что уже попробовал, и там работает через разметку, никакого волшебства.. про смех и плачь - вот здесь нужно подумать, посмотрим, попробуем уже скоро.
Очень надеюсь, что Вы правы!
@@MrDewiar конкретно сейчас у них whisper а какой-то TTS чуть ли не на такотроне. Они об этом говорили. Как раз в omni была анонсирована полная мультимодальность по входам и выходам. Недостатки (потерю информации) whisper распознавания можно перекрыть дополнительными моделями (инструментами), которые делают описание аудио, распознают разные неречевые проявления, эмоции по акустике, делают диаризацию (разделение) по дикторам. Этим всем можно дополнительно аннотировать входные данные, но это должно быть учтено в инструкциях для GPT (ему надо объяснить формат ввода и учет). Это по факту парадигма "все в текстовую модальность". Вполне неплохо может работать и сейчас. У меня работает в моих задачах и экспериментах.
@@АлексейСвищев-н7к Интересно было бы посмотреть на Ваши эксперименты, если будет возможность, делитесь. Сами LLM уже настолько хороши сейчас, что они реально "чувствуют" настроение человека буквально по очередности и комбинации слов. Я на этом свойстве ИИ делал телеграм бот ЭМПАТ (@Empath_Dewiar_bot), он любую фразу раскладывает на эмоциональную состовляющую.
@@MrDewiar что же Вы раньше молчали! Начал тестировать бота - интересный!
@@mcseem9587 У меня много наработок скопилось, буду показывать постепенно 👍
Супер! Долгожданное решение!
Однозначно надо, работа голосом это будущее
Принято 👍👍👍
Спасибо! Очень интересно!
👍
ИИ помощниками пока не пользовался, не могу ничего сказать. Мне было интересно послушать. А насчёт Яндекс спич, могу сказать, что у них лучше иностранных конкурентов. У них ударение, пауза есть. Голос можно выбрать радостный, нейтральный, строгий. И голос у роботов человеческий. Иногда в другой ИИ изменяю тон голоса, если надо писклявый или низкий. Использую 2 года регулярно. Конечно я не пользуюсь платным сервисом для предприятий, а ограниченным бесплатным.
Да, у Яндекса голоса приятные на слух, и не плохо произносят даже обычный текст с простой разметкой.
Михаил, определенно нужно развивать голосовое общение с ассистентом.
Подумайте над возможностью добавления голосовых моделей обученных на других ии.
Чтобы пользователь мог обучить свою голосовую модель допустим на RVC и добавить этот голос для ответов.
Огромный потенциал для введения бизнеса, если по запросу клиентов в том же боте ТГ он отвечал голосом владельца бизнеса или его представителя.
Да, интересно. Посмотрю что еще сейчас доступно из голосовых моделей. Думаю попробовать локальную модель на своем сервере, есть варианты.
Добрый день Михаил. Спасибо за вашу работу. У меня есть вопрос. Если посчитаете нужным ответьте пожалуйста. Я приобрел Open art. Но не могу пользоваться. Я хотел генерировать изображения баннеров но никак не получается.
Здравствуйте. Я не слышал о таком.. у Open AI для изображений используется Dall-e. А ART есть у Яндекса, есть такая нейросеть генерации у них.. мне бы больше информации, что именно у Вас
Однозначно лайк
Доброго Михаил.
перспективна функция работы в программах гугл мит, дискорд ...и подобных. транскрибация голоса абонента в текст с переводом на язык русский в виде текстового окна. и русскую речь через микрофон перевести на английский и озвучить абоненту. насколько это возможно в принципе сейчас?
Здравствуйте. Использовать такую функцию в готовых решениях сложно, т.к. нужно как-то связать свой код с их решениями, должен быть глубокий API интеграции. А такие сервисы к себе глубоко не подпустят. По Гугл Мит вообще не понятно, у Гугла есть очень мощные собственные модели для транскрибации и синтеза голоса, но они не спешат. Сам же процесс не сложный сейчас, вопрос только в интеграции, как к ним туда добраться, чтобы добавить эти возможности.
@@MrDewiar спасибо. я думаю это появиться рано или поздно только за платную подписку...это золотое дно. общение в реальном времени.
@@АлексейМихалев-з7э да, я думаю, что эти функци быстрее всего будут платными. Но цены должны быть не высокими, по мере развития должно становиться дешевле
О, я как раз думаю на эту тему
Есть идеи как сделать все в около реальном времени, пара секунд задержки все равно будет, потому что для перевода надо иметь некоторый накопленный буфер
Чтобы работало, надо приложение на комп локально ставить + виртуальные аудио-кабели, тогда получится миксовать звук как надо
В общем, с некоторыми ограничениями и неудобствами в виде несколько геморной настройки аудио-потоков возможно сделать
хорошее видео, спасибо
Спасибо Вам
Good work.. like it!
Thank you
На работу с голосом тратить время СТОИТ однозначно! Михаил, как можно задать вам вопросы по функционалу приватно (емеил или чат в Телеграм)? У меня несколько конкретных вопросов о решениях для моего бизнеса и я не хочу это делать публично. Спасибо за понимание.
Можете написать мне в телеграм по логину @isaev_mp , я постараюсь помочь чем смогу
очень интересно! хочется полноценное приложение ассистента на андроид
У меня нет опыта в создании приложений на андроид. Если проект будет развиваться дальше, я мог бы поработать с разработчиком приложений, и мы бы за несколько дней вывели это в приложение.
Спасибо
Вам спасибо
❤
Было бы классно, отправлять эти сообщения в Яндекс станцию.
Не знаю, реализовано ли это у них через Апи.
Чтоб сообщение приходило не в телеграм, а звуковым оповещением через колонку.
Я писал навык для Алисы, можете протестировать. Просто в Алисы попросите "Алиса, включи навык НЕЙРОННЫЙ АССИСТЕНТ", и нейросеть Gemini будет работать внутри. Но все не идеально работает, т.к. разработчики Алисы добавили множество ограничений, которые не позволяют использовать их продукт на 100%. Я писал им, они присылают в ответ только отговорки, не заинтересованы в развитии возможностей колонки в ракурсе улучшения навыков и возможностей.
@@MrDewiar А если сделать через телефон и подключенную блютус колонку?
Я думаю, можно придумать решение без яндекс.колонки если добавить свое приложение как передаточное звено
Здравствуйте, я не понял, это платно? Сколько стоит?я имею ввиду " девиар"
Здравствуйте. Система комбинированная. Девиар каждый день дает бесплатные запросы, если их не достаточно - Вы можете использовать свой внутренний счет. Счет позволяет расходовать личные средства на затраты ИИ. Если Вы глубоко работаете с ИИ, Вы можете использовать собственные API_KEY по этой инструкции dewiar.com/apiKey, это позволит оплачивать работу ИИ на стороне самого ИИ.
Голос нужно добавлять
Да, стоит тратить время на работу с голосом.
Спасибо, так и буду делать 🤝
Я не думаю что работа с голосом эффективна. Много людей не имеют возможности взаимодействия голосом. Банально не хотят что бы окружающие слышали. Нужно создать опрос на то как часто взаимодействие идет голосом.
С другой стороны, любой фильм о будущем (железный человек?) показывает взаимодействие с ИИ помощником в первую очередь голосом, потом тактильно, и совсем редко текстом
@@MrDewiar управление голосом может быть в некоторых случаях удобно, но и довольно много ситуаций где будет наоборот
Например, представьте open-space где много людей и каждый со своим ассистентом пытается разговаривать - это будет довольно кошмарно
Так же если просто зашумленная окружающая среда, городская улица или какой-то концерт
Как отмечал один из комментаторов выше, есть и вопрос конфиденциальности, не всегда удобно озвучить необходимые запросы если есть другие люди по соседству
Поэтому все функции должны быть продублированы в разных типах интерфейсов, ожидать что голосове управление в будущем вытеснит все остальные не стоит
Опять же Neural Link и другие интерфейсы связанные с мозговой активностью постепенно развиваются что позволит добраться до условной телепатии в будущем
@@JohnDoe-zx8bu Вы абсолютно правы