MaximML 27 июн 2021 в 15:49

Голосовой дневник на python с распознаванием голоса и сохранением в Mongo DB

4 мин

13K

Python*MongoDB*Голосовые интерфейсы*

Из песочницы

Комментарии 9

stepuncius 27 июн 2021 в 16:07

Не совсем понял, зачем явно проверять работу контейнера?

Чтобы не потерять данные - достаточно подмонтировать volume, в котором mongo хранит свои данные.

Если у контейнера фиксирован порт - тогда первый запущенный экземпляр сразу процент экземпляр данные, если они уже есть, а второй - всё равно не запустится, т.к. порт будет занят.

Да и вообще mongo для хранения "ключ:строка" - какой-то оверкилл, хватит и SQLite.

Также не раскрыта тема бекапов...

MaximML 28 июн 2021 в 10:42

docker — не моя сильная сторона… не отрицаю, что есть способы сделать деплой оптимальнее. Про бэкапы — интересный вопрос, возможно, я копну глубже в эту сторону в следующих публикациях :)

antirek 27 июн 2021 в 17:23

А vosk сервер у вас как запущен? сами конфигурировали для использования русскоязычной модели?
для описания всех запущенных процессов можно использовать docker-compose.yml: ваш python-бот + монго + caldi

MaximML 28 июн 2021 в 10:40

vosk объект загружается в оперативную память из файла — модели, русскоязычная модель готова к применению «из коробки» и доступна из официального источника

light_fox 28 июн 2021 в 10:43

круто!!! молодец! задумка отличная

QtRoS 29 июн 2021 в 19:21

Я как-то надиктовал VOSK'у целую статью. Распознанный результат выглядел как бред сумасшедшего, но я, как автор, по итогу смог понять основные мысли, о чем говорилось в том или ином абзаце. Как у вас с качеством?

MaximML 30 июн 2021 в 10:12

Если напрягаться и стараться говорить четко и медленно, то почти всегда 100% качество распознавания. Если говорить как при обычном общении, то в тексте будут проскакивать не те слова, которые я говорил. И ещё фоновый шум влияет на качество распознавания

user98675 5 июл 2021 в 18:10

В коде примеров автора проекта данные считываются понемногу:

while True:
    data = wf.readframes(4000)
    if len(data) == 0:
        break
    if rec.AcceptWaveform(data):
        print(rec.Result())
    else:
        print(rec.PartialResult())

В серверной реализации тоже.

В Telegram канале по распознаванию речи высказывали мнение, что не нужно подавать больше секунды звука за раз, однако, мне неизвестно четкое объяснение почему именно так.

Не удалось найти в документации описание метода AcceptWaveform, но для себя имею такое пояснение: «AcceptWaveform возвращает true, когда обнаружена тишина и данные могут быть получены через метод Result. Если тишина не обнаружена, частичные данные можно получить через метод PartialResult. Вызов метода FinalResult сбрасывает внутреннее состояние объекта и возвращает оставшийся результат».

Вызов FinalResult вместо Result, если AcceptWaveform вернул положительный результат иногда помогает получить более точное распознавание, если, например, за громкой длинной фразой следует короткая тихая фраза. В таких случаях Result может вернуть только первую фразу, даже если между двумя фразами и после последней фразы есть тишина.

MaximML 5 июл 2021 в 18:37

Спасибо за пояснения!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время