есп32 ничего не распознаёт, кроме "хайЛексин" силёнок маловато. А вот малинка и ли другие одноплатники справляются +- сносно. Только памяти не менее 2Гиг желательно. Распознавание речи реализовать на компе за пару вечеров -- можно, проверено лично.
Для желающих повторить. Вместо Wisper используйте VOSK, скорость распознавания 0.3 секунды, вместо 7-8, распознавание окончания разговора, дефолт либо умеренный. Иначе не успеете сказать то что хотели) По сравнению с шопотом, воск на несколько порядков быстрее и точнее. гуглится: vosk home assistant
@@EvgenMo1111 поставил Silero-TTS-Service (в гугле гитхаб проект) - ставится через докер (плагином командная строка) , шикарный голос. Основан на silero-models на хабре есть статья и примеры голосов.
Павел, тебе респект. Я в этом деле начинающий, а лопатить литературу нет времени. Из твоих уроков получилось сделать сервер, прошить и встроить zigbee, не первого раза конечно. Я думаю многим будет интересен этот проект на основе тв приставки. Я думаю тема с колонкой очень актуальна и развивать её надо.
Отличная тема! Попробовал, все запустилось без проблем. У меня сервер умного дома крутится на виртуалке Synology DS920+ и время распознавания составляет 5-7 секунд, поэтому тема по сокращению времени распознавания очень необходима!
@@NikeRossXP Этот сетевой, как вы говорите, накопитель который вы судя по комментарию видели только на картинке, фору даст любому arm одноплатнику (которые в основном используют для этих целей) при этом выполняя еще кучу разных задач, так что запихайте ваше диванное мнение... ну вы сами знаете куда ;))
А Павел красавчик! И только благодаря его четким и развернутым видео я вдохновился идеей умного дома и несколько не пожалел. Практически на любой вопрос по HASS да и в принципе по умной автоматике в его материалах можно найти ответ.
@@АлександрКецкалов еще бы сейчас переплачивать за целерон с веб-интерфейсом для даунов то что в него пихаются всякие пакеты, конечно позволяет говорить "кучу разных задач", но вот что он всё это делает неполноценно любители поесть говна умалчивают. Можешь попробовать сделать нетривиальную задачу: поднять на нём openvpn-сервер одновременно на tcp и udp протоколах, без необходимости генерировать сертификаты для каждого пользака. Это базовая конфигурация, если что. "для этих целей" сейчас становятся всё более популярны всякие intel-n100 минипк, производительность можешь сравнить сам.
Блин, очень интересно, спасибо. У меня есть заготовки под несколько ламп гайвера. Похоже надо будет такую лампу переводить на esphome ) жаль я не умею)
Лампу гайвера лучше переводить на WLED. Там сразу всё под это заточено и с Home Assiastant WLED интегрируется в пару кликов, он сам их обнаруживает в сети. Только лучше использовать ESP32, на ESP8266 стабильность плохая.
Непосредственно сейчас хочу занять сбором такой колонки-ассистента. Поэтому любое раскрытие темы интересно. И локальный запуск модели в том числе. А ещё в документации ESPHome сказано, что ассистент очень прожорливый в плане ресурсов поэтому не рекомендуется использовать его с некоторыми другими компонентами. Мне же хочется чтобы колонка параллельно работала в режиме media player. Это реально вообще?
Подскажите как его отлаживать? HA настроил, с телефона управление голосом работает. Собрал колонку, прошил, HA все видит, светодиод включается, при загрузке моргает, но на кодовую фразу не реагирует. Может какой-то лог можно включить. Понять что не работает железо или ПО.
Подскажите на S3 версии у вас нет следующей проблемы: В esphome сделал media player а не speaker чтобы можно было музыку играть, но при включенном распознавании горячей фразы звук музыки очень сильно заикается - не хватает мощности обычной esp32. В моменте ответа голосового ассистента это не видно т.к. он ставит на паузу распознавание пока фраза не закончится. Вот думаю имеет ли смысл брать S3 варисию или она тоже не справится.
@@upavla насчёт поддержки спотифай не могу сказать, но для esphome voice assistant есть 2 взаимо исключающих варианта в конфигурации: speaker и media player. Второй будет отображаться как источник вывода аудио в HA и на него например можно выводить голосовые уведомления или музыку.
Павел! Можешь прокометировать тему про китайские реле для управления шторами, в УДЯ напрямую они не залетают, через связку аккаунтов добавляются, но нет функции СТОП, только вверх или вниз до упора... Что с этим можно сделать...
Доброго времени суток. Собрал такой проект на esp32, запускается, вызывается по имени, принимает одну команду выполняет её и все, больше не вызывается ничего не слушает не выполняет. Выключаю питание, включаю опять тоже самое. Подскажите куда поковырять, может сталкивались с такой проблемой?
Идея шикарная. Используя 3д принтер смогу сделать что угодно! Подскажите пожалуйста, можно ли несколько таких колонок соединить в один мозг как с яндекс алисой?
Спасибо за обзор, интересный проект. Сравнение производительности было бы интересно посмотреть. Коммерческие колонки как раз характеризуются быстрым откликом на множество команд. Приблизиться к этому - это значит получить open-source решение не завязанное на каком-либо вендоре.
Коммерческие колонки характеризуются быстрым откликом на множество команд. Потому, что они используют ресурсы вендора, например, Алиса использует ресурсы Яндекса , а это гигантское количество серверов. У которых есть хозяин, обслуживающий их. Опенсорсные "решения", такой роскошью не располагают. Можно только рассчитывать на домашний сервер.
@@AndrewKobelev Речь про задержки сети, естественно в локалке self-hosted решения будут гораздо быстрее чем облачные решения, даже не смотря на "супер-пупер" сервера облака.
@@VitaliySunny сравнил время отклика четырёх серверов, привожу максимальные (самые плохие) значения -- локального 3мс , РФ 18мс, DE 57mc, US 178mc. Разница, конечно есть, но уловить даже 0.1 с, затруднительно. Когда сеть нашей организации объединили через космическую связь (до этого была модемная), то пинг достигал до 1,5 сек, и да, такая задержка чувствовалась, но это было 20 лет назад. Тем не менее локальный сервер обладает решающим преимуществом в плане той же безопасности, мы же не хотим, чтобы наш умный дом накрылся медным тазом, как иранская ядерная центрифуга в 2010 г.
А у меня вопрос) А нельзя ли скрестить блютуз колонку и еспешку таким образом, чтобы работоспособность осталась и у одного, и у другого? По сути, вывод усилителя можно запаять на плату колонки (к выводам на динамик) или ещё проще, найти у платы колонки "вход" на усилитель и припаяться туда (тогда сторонний усилитель нам вовсе и не нужен)?
Добрый день. Может я что-то не понял, но на схеме у вас другая плата. Как правильно их соединить? Если к самой esp32-s3 подключить type-c, признаки жизни какие-то должны быть?
Читая коментарии, возникла мысль о том, что было бы здорово, если бы можно было как-нибудь перепрошить яндексовские колонки, которые поподписе. Их на просторох Авито можно найти за шапку сухарей. При этом в них отличные микрофоны и динамики.
Во первых, "прошить" -- реально, там Линукс (или РТОС) стоит и процессор 4х ядерный и памяти достаточно (раз в 20 больше, чем в ЕСП), из конфетки сделать гавно легко. Только зачем? У меня 2 такие колонки работают без подписки. Весь цимес этого проекта в том и заключается, что автор умудрился запилить распознавалку на этом "ПочтиАрдуино". Я тоже запустил торгового бота на ЕСП32 для биржи бинанс. И этим гордился. А народ спрашивал " а сколько % в день даёт сей агрегат", "а на компе это реально запустить?", вместо того, чтобы восхищаться "как тебе удалось впихнуть торговый терминал и робота-трейдера в эту дешевую микросхему".
Моя идея,заключается в том, чтобы хоть как-то реанимировать и использовать яндекс колонку (по подписке ), которую я в своё время лоханувшись купил на Авито. И сейчас она валяется без дела, т.к. без подписки это кирпич. А вот если бы её можно было-бы перепрошить и использовать как колонку в этом видео было бы очень здорово. Потому, что яндекс колонка наверняка лучше будет слышать на расстоянии т.к. у неё массив микрофонов, да и ответ будет звучать поприятнее.
@@Kirilloff73 Надо сбросить вашу Алису на заводские настройки, а потом заново её активировать. А подписку не включать. У меня 2 колонки с алисой, лайт и DEXP. Обе работают без подписки полтора года как. Некоторые функции не работают, например, нельзя запустить какую нибудь произвольную музыкальную композицию. Вебрадио работает, диалог алиса поддерживает, этого мне достаточно.
@@Kirilloff73 попробуйте сбросить колонку на фабричные настройки. И заново активируйте через свежесозданный аккаунт. А подписку не подключайте. Если не получается никак сбросить, мой совет-продайте на том же Авито, и купите колонку типа как У Павла и "массив микрофонов", ибо надеяться на то, что используете "алисины" микрофоны - зыбкая идея. И с чего это "ответ будет звучать поприятнее", это всецело зависит от TTS модуля.
самый прикол, изначально в колонке есть и усь и микро и даже аккумы. просто автор видимо не хотел разбираться с кодом еспэхи для перевода с иквадратц на обычный аналог и лезть в компоненты самой колонки для подключения к изначпльным компонентам.
Полезное видео! Я вот только не могу понять, если дешифратор по i2s (кстати не путать с i2c) и после него усилитель, если колонка больше 3w, можно ли так
Конечно можно. У "дешифратора" ровно такие же контакты на входе, а выходы -- линейные, до 12 каналов можно сделать, а не моно 3 ватта. PCM5102 называется.
Павел, а есть вариант интеграции алисы в хом ассистант, без использования яндекс колонки? Скажем, сценарий, когда есть выделенная машина, на которой крутится сервер ha, и просто туда через микрофонный вход и выход, скажем, на внешнюю колонку.
@@ELFMEDIA никак не запихну. Товарищ спрашивал про "сценарий, когда есть выделенная машина, на которой крутится сервер ha, и просто туда через микрофонный вход и выход, скажем, на внешнюю колонку" -- это ведь проще, чем городуха на "блюпуп колонке, I2S микрофоне и ESP32 S3"
Конечно можно! Для умного дома синтез речи городить нет необходимости. Ответов то, типа "свет в туалете включён" немного вариантов, и вообще можно записать фразу "выполнено , мой господин! " и проигрывать её, как ответ на все команды.
Я уже подумал что на S3 распознование работает, у Espressif есть такая реклама, а тут ESP32 просто как WiFi-микрофон используют..( При чем можно сказать без реального практического применения..
"на S3 распознАвание работает" -- действительно работает, у Espressif есть документация на Гитхаб с примерами. "А тут ESP32 просто как WiFi-микрофон используют." - именно так и есть.
Есть много вариантов. Именно моя использует локальные команды которые поддерживает сама esp32 s3 таких команд только 3. Если сделать так, чтоб распознавание отправлялрсь в home assistant, то там распознаваний команд будет больше. В списке штук 20. Так же можно ещё базу команд прикрутить и там будет ещё больше вариантов. Ну и по поводу голоса. Тоже есть варианты разные
@@upavla Спасибо за ответ. Ну вы же понимаете что сама esp поддерживает ровно то что в нее залито при прошивке. А прошивку компилируете вы в Esphome. Так что вопросы остаются. Надеюсь доснимите в других обзорах)
@@dartwejders Я так понимаю, в ESP заливается микронейроночка натасканная на одну конкретную активационную фразу. Таким образом нельзя выбрать произвольную фразу, только те, что заранее подготовлены. Так работают и яндексовские колонки и активация голосового ассистента в смартфонах.
@@dNixВсё верно, "в ESP заливается микронейроночка натасканная на одну конкретную активационную фразу. Таким образом нельзя выбрать произвольную фразу, только те, что заранее подготовлены." А как готовить, описано в ЕСП-шной документации.
@@AndrewKobelev Понятно, что если что-то сделано человеком, вероятно кто-то другой сможет это повторить. Я мало знаю про ML, сложно оценить насколько это трудоёмко. Наверное не очень. Наверное даже достаточно среднестатистических домашних мощностей. Но надо же подготовить и разметить датасет. Сотни, тысячи правильных и неправильных слов, разными голосами, в разном темпе, с проглоченными окончаниями, с разными дефектами, интонациями. Очень близкие слова, слова включающие в себя активационное или похожее... В датасетах же вся ценность.
Я что-то прослушал. Сначала автор говорит что распознавать будет esp32-c3, потом говорит что у него celeron и поэтому думает долго. И я так понимаю никакого распознавания нет и в помине. Есть сравнение ранее записанных отрывков с тем что произносится и все. Да когда это работает без инета конечно же круто. Но для таких тугих как я хотелось бы более разжеванного материала.
На ESP32 S3 работает распознавание wake word - начальной фразы обращения (например, "окей набу" или какую настроите). Остальная процедура stt на сервере.
Можно подключить гугл ттс и какое нибудь внешнее распознавание, но это скорее всего будет платно, а так да, rpi не вытянет нейронки по синтезу и распознаванию речи
Смотря ЧТО делать. Если аналог того, что в видео, то , несомненно, на RPi 3, 2 и даже 0 и 1 такая беспроводная колонка с микрофоном заработает, ресурсов у малины в 10 раз больше, чем у ESP32. Если пытаться взвалить на малину 0,1,2,3 серверные функции, распознавание и синтез речи, да ещё заставлять управлять умным домом, то вся эта городильня...даже распознает команду 1-2 раза, затем свалится в коматозное состояние. Получается, что в первом случае просто расточительно использовать Распберри там, где справляется ЕСП, можно найти применение получше, а во втором -- просто не "взлетит".
Берёте Алису -лайт, или там Марусю...и не оформляете подписку. И алиса безо всякой подписки отвечает на вопросы, сообщает прогноз погоды и включает, например , Радио Джаз.
@@444STG Если вам нужно включать музыку, алиса включит одну из 100500 интернет-радиостанций. Боитесь, что сам Якин узнает, тогда "Ирину" запустите или "Сару", она будИт включать, всё , что запрограммируете.
@@spajalnikomконечно можно! Только это надо, как у Алисы, где всё вынесено на гигантские серверные кластеры, вы же автономии хотите? В общем, если надо вкл-выкл по голосовым командам, то самое тяжелое - это запустить распознавание речи в текст. Это кусочек от проекта Ирина, или Сара. Делается за пару вечеров. Надо найти какой-то комп или одноплатник под сервер. Если сможете на него установить numpy (и желательно, но не обязательно, matplotlib) , значит железо, скорее всего, потянет и вам это тоже по плечу. Только надо решить, какое устройство и по какому протоколу будет делать ВКЛ-ВЫКЛ.
Интересный проект. Спасибо за такие виедео. Жаль не получится сделать колонку на HASS на базе TV Box H96 Max на процессоре Rockchip RK3318. Ему явно не хватит ресурсов для распознавания голоса. Вот если бы был способ вынести распознавание на отдельную машину, да ещё и встроить её в колонку, это было бы вообще шикарно.
@@bambatvтакое ощущение, что Вы не посмотрели видео до конца. Но я тоже за освещение темы локальных голосовых баз, хотя меня пока и Алиса мини вполне устраивает
Почему не будет работать? Я в видео работу и на esp32 показал. И инструкцию сделал на работу esp32. Повнимательнее. Демонстрация работы есть в видео и ссылка на схему подключения естьв описании видео. И не "тыкайте".
добрый день. я к сожалению не программист, но интересуюсь)) и возник вопрос: а можно вашу разработку скрестить с голосовым ассистентом из этого видео: ua-cam.com/video/bu-tJTA-kKs/v-deo.htmlsi=9msnNuvYFAMEWhjO
@@upavla Не в этом смысл. Может у нее приемущества есть? Чем она лучше? Или только одно приемущество - цена? Может надо сравнить с Алисой. Чем лучше та или другая система?
Подписывайтесь на мой телеграмм канал: t.me/ypavla
Очень жду видео про ускорение распознавания речи. Тема очень интересная. Спасибо за действительно познавательные и интересные видео!
Плюсую, локальное распознавание речи - тема. Не нужны гугли, яндексы, огрызки, никакого слежения и рекламы.
есп32 ничего не распознаёт, кроме "хайЛексин" силёнок маловато. А вот малинка и ли другие одноплатники справляются +- сносно. Только памяти не менее 2Гиг желательно. Распознавание речи реализовать на компе за пару вечеров -- можно, проверено лично.
@@AndrewKobelev А можно пару ссылок на форумы, где подобное реализовывали? Чета захотел попробовать)
@@skylol4eg Проект Ирина
Супер! Про локальные базы для ускорения распознавания речи было бы интересно посмотреть
на ютубе про это масса роликов.
Спасибо за видосы. Развивай тему. Очень интересно! Удачи.
Микрофон подключается не по протоколу i2c, а по i2s, это кардинально разные протоколы.
Для желающих повторить. Вместо Wisper используйте VOSK, скорость распознавания 0.3 секунды, вместо 7-8, распознавание окончания разговора, дефолт либо умеренный. Иначе не успеете сказать то что хотели) По сравнению с шопотом, воск на несколько порядков быстрее и точнее. гуглится: vosk home assistant
а tts какой можешь посоветовать,? а то все какое то унылое, можно с робоголосом
@@EvgenMo1111 поставил Silero-TTS-Service (в гугле гитхаб проект) - ставится через докер (плагином командная строка) , шикарный голос. Основан на silero-models на хабре есть статья и примеры голосов.
@@EvgenMo1111 Silero-TTS-Service
Павел, тебе респект. Я в этом деле начинающий, а лопатить литературу нет времени. Из твоих уроков получилось сделать сервер, прошить и встроить zigbee, не первого раза конечно. Я думаю многим будет интересен этот проект на основе тв приставки. Я думаю тема с колонкой очень актуальна и развивать её надо.
Супер!!!! Огромное спасибо за ваши труды!
Отличная тема! Попробовал, все запустилось без проблем. У меня сервер умного дома крутится на виртуалке Synology DS920+ и время распознавания составляет 5-7 секунд, поэтому тема по сокращению времени распознавания очень необходима!
1. потому что не нужно из сетевого накопителя делать сервер
2. потому что это переоцененное говно
@@NikeRossXP Этот сетевой, как вы говорите, накопитель который вы судя по комментарию видели только на картинке, фору даст любому arm одноплатнику (которые в основном используют для этих целей) при этом выполняя еще кучу разных задач, так что запихайте ваше диванное мнение... ну вы сами знаете куда ;))
А Павел красавчик! И только благодаря его четким и развернутым видео я вдохновился идеей умного дома и несколько не пожалел. Практически на любой вопрос по HASS да и в принципе по умной автоматике в его материалах можно найти ответ.
@@АлександрКецкалов еще бы сейчас переплачивать за целерон с веб-интерфейсом для даунов
то что в него пихаются всякие пакеты, конечно позволяет говорить "кучу разных задач", но вот что он всё это делает неполноценно любители поесть говна умалчивают. Можешь попробовать сделать нетривиальную задачу: поднять на нём openvpn-сервер одновременно на tcp и udp протоколах, без необходимости генерировать сертификаты для каждого пользака. Это базовая конфигурация, если что.
"для этих целей" сейчас становятся всё более популярны всякие intel-n100 минипк, производительность можешь сравнить сам.
У меня при компиляции куча варнингов. Даже не знаю, что делать
Блин, очень интересно, спасибо.
У меня есть заготовки под несколько ламп гайвера. Похоже надо будет такую лампу переводить на esphome ) жаль я не умею)
Лампу гайвера лучше переводить на WLED. Там сразу всё под это заточено и с Home Assiastant WLED интегрируется в пару кликов, он сам их обнаруживает в сети. Только лучше использовать ESP32, на ESP8266 стабильность плохая.
У esphome мало готовых эффектов, или их придётся писать самому на labda, wled лучше
Я с нетерпением жду видео про ускорение распознавания речи. :-)
Респект, классная тема!
Ждем продолжения по этим занимательным устройствам!
Доброе время суток! Скажите а можно сделать голосовое управление с помощью Яндекса или tuya или любым другим способом а не только с home assistant ?
Непосредственно сейчас хочу занять сбором такой колонки-ассистента. Поэтому любое раскрытие темы интересно. И локальный запуск модели в том числе. А ещё в документации ESPHome сказано, что ассистент очень прожорливый в плане ресурсов поэтому не рекомендуется использовать его с некоторыми другими компонентами. Мне же хочется чтобы колонка параллельно работала в режиме media player. Это реально вообще?
Начните с ассистента, а не с колонки
Спасибо за видео.
Очень хочется узнать об локальной базе распознавания голоса.
Буду благодарен за это видео.
👍👍👍
И ещё хотелось бы точнее понять, а чем разница использования разных плат esp32 и что точно не подойдёт?
ESP32 S3 подойдёт идеально, а ESP32 S1, 2 или ESP32 C3 тоже подойдёт, просто будет больше нагрузка на сервер.
Подскажите как его отлаживать? HA настроил, с телефона управление голосом работает. Собрал колонку, прошил, HA все видит, светодиод включается, при загрузке моргает, но на кодовую фразу не реагирует. Может какой-то лог можно включить. Понять что не работает железо или ПО.
Читал, что антенну можно развернуть на 90 градусов и сигнал будет сильно лучше
Павел! Конечно интересно, как запустить на приставке
Подскажите на S3 версии у вас нет следующей проблемы: В esphome сделал media player а не speaker чтобы можно было музыку играть, но при включенном распознавании горячей фразы звук музыки очень сильно заикается - не хватает мощности обычной esp32. В моменте ответа голосового ассистента это не видно т.к. он ставит на паузу распознавание пока фраза не закончится. Вот думаю имеет ли смысл брать S3 варисию или она тоже не справится.
Вот кстати тоже интересует, потому что в моем юзеркейсе колонка обязательно должна играть спотифай
Я даже не знал, что есть возможность сделать просто колонку для спотифай в esphome
@@upavla насчёт поддержки спотифай не могу сказать, но для esphome voice assistant есть 2 взаимо исключающих варианта в конфигурации: speaker и media player. Второй будет отображаться как источник вывода аудио в HA и на него например можно выводить голосовые уведомления или музыку.
А можете поделиться кодом?
@@ЭдуардЗаборовский-м7б к сожалению уже удалил проект, но там был банальный sample с esphome
Павел! Можешь прокометировать тему про китайские реле для управления шторами, в УДЯ напрямую они не залетают, через связку аккаунтов добавляются, но нет функции СТОП, только вверх или вниз до упора... Что с этим можно сделать...
Можете куда-то в телеграмм ссылку на реле скинуть. Я не очень понимаю о чем речь
@@upavla отправил в чат в телегу
Доброго времени суток. Собрал такой проект на esp32, запускается, вызывается по имени, принимает одну команду выполняет её и все, больше не вызывается ничего не слушает не выполняет. Выключаю питание, включаю опять тоже самое.
Подскажите куда поковырять, может сталкивались с такой проблемой?
Идея шикарная. Используя 3д принтер смогу сделать что угодно! Подскажите пожалуйста, можно ли несколько таких колонок соединить в один мозг как с яндекс алисой?
Не знаю таких способов
@@upavla Благодарю за ответ!
Спасибо за обзор, интересный проект. Сравнение производительности было бы интересно посмотреть. Коммерческие колонки как раз характеризуются быстрым откликом на множество команд. Приблизиться к этому - это значит получить open-source решение не завязанное на каком-либо вендоре.
Коммерческие колонки характеризуются быстрым откликом на множество команд. Потому, что они используют ресурсы вендора, например, Алиса использует ресурсы Яндекса , а это гигантское количество серверов. У которых есть хозяин, обслуживающий их. Опенсорсные "решения", такой роскошью не располагают. Можно только рассчитывать на домашний сервер.
@@AndrewKobelev Речь про задержки сети, естественно в локалке self-hosted решения будут гораздо быстрее чем облачные решения, даже не смотря на "супер-пупер" сервера облака.
@@VitaliySunny сравнил время отклика четырёх серверов, привожу максимальные (самые плохие) значения -- локального 3мс , РФ 18мс, DE 57mc, US 178mc. Разница, конечно есть, но уловить даже 0.1 с, затруднительно. Когда сеть нашей организации объединили через космическую связь (до этого была модемная), то пинг достигал до 1,5 сек, и да, такая задержка чувствовалась, но это было 20 лет назад. Тем не менее локальный сервер обладает решающим преимуществом в плане той же безопасности, мы же не хотим, чтобы наш умный дом накрылся медным тазом, как иранская ядерная центрифуга в 2010 г.
Отличное видео, спасибо! Сколько таких колоном можно расставить по квартире?
Сколько хотите
@@ELFMEDIA вот только непонятно как дать знать дому где какая находится, чтобы говорить "включи свет" а не "включи свет на кухне"
@@ЭдуардЗаборовский-м7б Так колонкам так же как лампочкам присваивается расположение
@@ELFMEDIA но учитывается ли оно для контекста голосовых команд?
Да,интересно, продолжай
А у меня вопрос) А нельзя ли скрестить блютуз колонку и еспешку таким образом, чтобы работоспособность осталась и у одного, и у другого? По сути, вывод усилителя можно запаять на плату колонки (к выводам на динамик) или ещё проще, найти у платы колонки "вход" на усилитель и припаяться туда (тогда сторонний усилитель нам вовсе и не нужен)?
скорее всего можно . надо раздобыть схему вашей блютус колонки.
Так это не просто усилитель же, это ЦАП! ESP гонит цифру а не аналог.
Павел, а вы вначале говорите что esp32 не умеет wake word, только s3. А в конце показываете пример на esp32
ESP32 S3 умеет, а ESP32 S1 или ESP32 C3 не умеет делать wake word ВНУТРИ Себя, а делегирует это задание серверу
там распознавание идёт уже на сервере Хоум Асситант (он постоянно слушает эфир)
Даёшь голос!
На умной панели такой же контроллер, и подключить вроде можно микрофон
На ней нельзя будет сделать голосовое распознавание?)
Добрый день. Может я что-то не понял, но на схеме у вас другая плата. Как правильно их соединить? Если к самой esp32-s3 подключить type-c, признаки жизни какие-то должны быть?
Нумерация пинов правильная
Читая коментарии, возникла мысль о том, что было бы здорово, если бы можно было как-нибудь перепрошить яндексовские колонки, которые поподписе. Их на просторох Авито можно найти за шапку сухарей. При этом в них отличные микрофоны и динамики.
Во первых, "прошить" -- реально, там Линукс (или РТОС) стоит и процессор 4х ядерный и памяти достаточно (раз в 20 больше, чем в ЕСП), из конфетки сделать гавно легко. Только зачем? У меня 2 такие колонки работают без подписки. Весь цимес этого проекта в том и заключается, что автор умудрился запилить распознавалку на этом "ПочтиАрдуино". Я тоже запустил торгового бота на ЕСП32 для биржи бинанс. И этим гордился. А народ спрашивал " а сколько % в день даёт сей агрегат", "а на компе это реально запустить?", вместо того, чтобы восхищаться "как тебе удалось впихнуть торговый терминал и робота-трейдера в эту дешевую микросхему".
Моя идея,заключается в том, чтобы хоть как-то реанимировать и использовать яндекс колонку (по подписке ), которую я в своё время лоханувшись купил на Авито. И сейчас она валяется без дела, т.к. без подписки это кирпич. А вот если бы её можно было-бы перепрошить и использовать как колонку в этом видео было бы очень здорово. Потому, что яндекс колонка наверняка лучше будет слышать на расстоянии т.к. у неё массив микрофонов, да и ответ будет звучать поприятнее.
@@Kirilloff73 Надо сбросить вашу Алису на заводские настройки, а потом заново её активировать. А подписку не включать. У меня 2 колонки с алисой, лайт и DEXP. Обе работают без подписки полтора года как. Некоторые функции не работают, например, нельзя запустить какую нибудь произвольную музыкальную композицию. Вебрадио работает, диалог алиса поддерживает, этого мне достаточно.
@@Kirilloff73 попробуйте сбросить колонку на фабричные настройки. И заново активируйте через свежесозданный аккаунт. А подписку не подключайте. Если не получается никак сбросить, мой совет-продайте на том же Авито, и купите колонку типа как У Павла и "массив микрофонов", ибо надеяться на то, что используете "алисины" микрофоны - зыбкая идея. И с чего это "ответ будет звучать поприятнее", это всецело зависит от TTS модуля.
@@Kirilloff73 Нет пока никаких прошивок под их железо
самый прикол, изначально в колонке есть и усь и микро и даже аккумы. просто автор видимо не хотел разбираться с кодом еспэхи для перевода с иквадратц на обычный аналог и лезть в компоненты самой колонки для подключения к изначпльным компонентам.
Получается колонка это уши и рот для хом ассистент. И все расчеты происходят на основном сервере?
Отлично, а как прошить плату Esp
Полезное видео! Я вот только не могу понять, если дешифратор по i2s (кстати не путать с i2c) и после него усилитель, если колонка больше 3w, можно ли так
Конечно можно. У "дешифратора" ровно такие же контакты на входе, а выходы -- линейные, до 12 каналов можно сделать, а не моно 3 ватта. PCM5102 называется.
Павел, а есть вариант интеграции алисы в хом ассистант, без использования яндекс колонки? Скажем, сценарий, когда есть выделенная машина, на которой крутится сервер ha, и просто туда через микрофонный вход и выход, скажем, на внешнюю колонку.
Есть.
@@AndrewKobelev И как вы Алису без Яндекс колонки в HomeAssistant запихнёте? Там с родной-то их колонкой всё через одно место работает
@@ELFMEDIA никак не запихну. Товарищ спрашивал про "сценарий, когда есть выделенная машина, на которой крутится сервер ha, и просто туда через микрофонный вход и выход, скажем, на внешнюю колонку" -- это ведь проще, чем городуха на "блюпуп колонке, I2S микрофоне и ESP32 S3"
Прерывается звук на этом усилителе, вчем проблема?
А есть способ добавить интонацию голосу? Очень хотелось сделать себе такую калонку и не одну но очень беспокоит ужасное произношение фраз.
Предзаписанные ответы?
А возможно выводить на такое устройство заданное сообщение? Например, предположим встал на весы и устройство объявляет: ваш вес Хх килограмм.
Да, можно
@@upavla если будет возможность, просьба тоже показать на видео или в статье как это работает на самодельной колонке esp для упревлени голосом
А как-то голос менять можно? А то он сильно режет уши.
Ну там можно поменять на мужской например. Есть несколько вариантов
Конечно можно! Для умного дома синтез речи городить нет необходимости. Ответов то, типа "свет в туалете включён" немного вариантов, и вообще можно записать фразу "выполнено , мой господин! " и проигрывать её, как ответ на все команды.
Я уже подумал что на S3 распознование работает, у Espressif есть такая реклама, а тут ESP32 просто как WiFi-микрофон используют..( При чем можно сказать без реального практического применения..
На S3 работает распознавание wake word - начальной фразы обращения (например, "окей набу" или какую настроите). Остальная процедура stt на сервере.
"на S3 распознАвание работает" -- действительно работает, у Espressif есть документация на Гитхаб с примерами. "А тут ESP32 просто как WiFi-микрофон используют." - именно так и есть.
спасибо
Можно ли свое кодовое слово использовать? И прикрутить голос покачественней?
Есть много вариантов. Именно моя использует локальные команды которые поддерживает сама esp32 s3 таких команд только 3. Если сделать так, чтоб распознавание отправлялрсь в home assistant, то там распознаваний команд будет больше. В списке штук 20. Так же можно ещё базу команд прикрутить и там будет ещё больше вариантов. Ну и по поводу голоса. Тоже есть варианты разные
@@upavla Спасибо за ответ. Ну вы же понимаете что сама esp поддерживает ровно то что в нее залито при прошивке. А прошивку компилируете вы в Esphome. Так что вопросы остаются. Надеюсь доснимите в других обзорах)
@@dartwejders Я так понимаю, в ESP заливается микронейроночка натасканная на одну конкретную активационную фразу. Таким образом нельзя выбрать произвольную фразу, только те, что заранее подготовлены. Так работают и яндексовские колонки и активация голосового ассистента в смартфонах.
@@dNixВсё верно, "в ESP заливается микронейроночка натасканная на одну конкретную активационную фразу. Таким образом нельзя выбрать произвольную фразу, только те, что заранее подготовлены." А как готовить, описано в ЕСП-шной документации.
@@AndrewKobelev Понятно, что если что-то сделано человеком, вероятно кто-то другой сможет это повторить. Я мало знаю про ML, сложно оценить насколько это трудоёмко. Наверное не очень. Наверное даже достаточно среднестатистических домашних мощностей. Но надо же подготовить и разметить датасет. Сотни, тысячи правильных и неправильных слов, разными голосами, в разном темпе, с проглоченными окончаниями, с разными дефектами, интонациями. Очень близкие слова, слова включающие в себя активационное или похожее... В датасетах же вся ценность.
Я бы про тв бокс поинтересовался
модуль на DUAL Core или можно не DUAL?
Когда сделают колону в розетку ?
Я что-то прослушал. Сначала автор говорит что распознавать будет esp32-c3, потом говорит что у него celeron и поэтому думает долго. И я так понимаю никакого распознавания нет и в помине. Есть сравнение ранее записанных отрывков с тем что произносится и все. Да когда это работает без инета конечно же круто. Но для таких тугих как я хотелось бы более разжеванного материала.
На ESP32 S3 работает распознавание wake word - начальной фразы обращения (например, "окей набу" или какую настроите). Остальная процедура stt на сервере.
А как можно распознавание сделать в оффлайн режиме?
В home assistant поставить Whisper + Wyoming Protocol + OpenWakeWord + espHome и возможно что то ещё забыл. В интернете есть гайды как это настроить
А музыку включить и gpt чат прикрутить можно?
К сожалению нельзя, но можно написать свою прошивку которая сможет выполнить эти задачи
Подскажите, как оно работает при включенном телевизоре/музыке/пылесосе итд?
Мне вот тоже интересно) Если сосед перфоратором работает целый день, делает из стен - сыр... сможет ли "колонка" голос распознавать?
Отлично работает, включенный телевизор/музыка/пылесос не помеха
@@vyshnyvetskyy сможет
Такие колонки на озоне есть по 300р
Сейчас выбираю на али, такая же 190 руб в категории где надо 3 товара купить и там же есть более крутая версия из описания за 400 руб
Выходит что на Rasp 3b+ не имеет смысла делать?
любой Распберри Пи легко уделает десяток-другой ЕСПшек.
Можно подключить гугл ттс и какое нибудь внешнее распознавание, но это скорее всего будет платно, а так да, rpi не вытянет нейронки по синтезу и распознаванию речи
@@serega40404 Вытянет, просто синтезировать будет чудовищно долго.
Смотря ЧТО делать. Если аналог того, что в видео, то , несомненно, на RPi 3, 2 и даже 0 и 1 такая беспроводная колонка с микрофоном заработает, ресурсов у малины в 10 раз больше, чем у ESP32. Если пытаться взвалить на малину 0,1,2,3 серверные функции, распознавание и синтез речи, да ещё заставлять управлять умным домом, то вся эта городильня...даже распознает команду 1-2 раза, затем свалится в коматозное состояние. Получается, что в первом случае просто расточительно использовать Распберри там, где справляется ЕСП, можно найти применение получше, а во втором -- просто не "взлетит".
@@AndrewKobelev gtx730 вытянет киберпанк, просто fps будет мало)
подскажите а как реализовать аналог алисы без подписок?
Берёте Алису -лайт, или там Марусю...и не оформляете подписку. И алиса безо всякой подписки отвечает на вопросы, сообщает прогноз погоды и включает, например , Радио Джаз.
@@AndrewKobelev ну музыку то не будит включать плюс стучит на тебя самому Якину ☝️😳
@@444STG Если вам нужно включать музыку, алиса включит одну из 100500 интернет-радиостанций. Боитесь, что сам Якин узнает, тогда "Ирину" запустите или "Сару", она будИт включать, всё , что запрограммируете.
@@444STG как страшно жить! :-)
@@AndrewKobelev дорого стоит 5,5к за хрень которая на тебя стучит
Не i2c а i2s произносится по-разному.
Да, оговорился
А без ассистента можно сделать? Как Алиса?
Ещё так глубоко не вникал. Но там делали так, что колонка отвечала беря информацию из гугла
@@upavla мне инфа не нужна. Просто для умного дома вкл выкл и все.
Так алиса--это ведь голосовой ассистент
У Алисы просто этот ассистент живёт в облаке на серверах Яндекса
@@spajalnikomконечно можно! Только это надо, как у Алисы, где всё вынесено на гигантские серверные кластеры, вы же автономии хотите?
В общем, если надо вкл-выкл по голосовым командам, то самое тяжелое - это запустить распознавание речи в текст. Это кусочек от проекта Ирина, или Сара. Делается за пару вечеров. Надо найти какой-то комп или одноплатник под сервер. Если сможете на него установить numpy (и желательно, но не обязательно, matplotlib) , значит железо, скорее всего, потянет и вам это тоже по плечу. Только надо решить, какое устройство и по какому протоколу будет делать ВКЛ-ВЫКЛ.
Интересный проект. Спасибо за такие виедео.
Жаль не получится сделать колонку на HASS на базе TV Box H96 Max на процессоре Rockchip RK3318. Ему явно не хватит ресурсов для распознавания голоса.
Вот если бы был способ вынести распознавание на отдельную машину, да ещё и встроить её в колонку, это было бы вообще шикарно.
На тв приставке этой добились хорошего распознавания. 2 секунды думает. Но там с локальной базой
@@upavla Можно пример как это сделать?
@@bambatvтакое ощущение, что Вы не посмотрели видео до конца.
Но я тоже за освещение темы локальных голосовых баз, хотя меня пока и Алиса мини вполне устраивает
Не городите ерунду, у Rockchip RK3318 ресурсов на пару порядков больше, чем у любого МК , даже ЕСП.
@@AndrewKobelev При чём тут МК, распознавание голоса на сервере происходит, кроме wake word. Если целик не вывозит, то тв приставка тоже не вывезет
собрал данный девайс и разочарован это мягко говоря я думаю до Алисы им еще лет 5
в заголовке ты пишешь esp32, а по итогу это на esp32 не будет работать, нужен esp32s3, ну так сразу написать нельзя было?
Почему не будет работать? Я в видео работу и на esp32 показал. И инструкцию сделал на работу esp32. Повнимательнее. Демонстрация работы есть в видео и ссылка на схему подключения естьв описании видео. И не "тыкайте".
добрый день. я к сожалению не программист, но интересуюсь)) и возник вопрос: а можно вашу разработку скрестить с голосовым ассистентом из этого видео: ua-cam.com/video/bu-tJTA-kKs/v-deo.htmlsi=9msnNuvYFAMEWhjO
Супер. Только esp32 ц3. Не c
Наоборот
м-да, чего только не придумают из-за больной паранойи... вам самим не смешно?)))))
А что должно быть смешного в колонке менее чем за 1000 рублей?
мужик, ты в курсе что в браузере есть такая замечательная функция как ЗАКЛАДКИ !!!!
ещё и клавиатура вся обосрана, постеснялся бы такое снимать.
Алиса устраивает! Зачем эта наабу?
Вам не нужна:)
@@upavla Не в этом смысл. Может у нее приемущества есть? Чем она лучше? Или только одно приемущество - цена? Может надо сравнить с Алисой. Чем лучше та или другая система?
фишка в локальности@@Василь-239
@@Василь-239 алиса умеет работать без интернета?
Может быть потому что Алиса вас всегда слушает. И что она на свои сервера посылает никто не знает. А тут локальное решение
Какой геморой и убогость по сравнению с Алисой!