Текстонезависимая идентификация по голосу / Comments / Habr

hDrummer Aug 28 2017 at 16:58

Труд проделан немалый, но заплюсовал сразу за первое прочитанное предложение:

Я люблю истории про апокалипсис, про то, как нашу планету порабощают пришельцы, обезьяны или терминаторы, и с детства мечтал приблизить последний день человечества.

Оно шикарно.

Vasyutka Aug 28 2017 at 22:27

Я даже не знаю… теперь наверное цитировать в каждой своей статье это буду в самом начале :). Подписываюсь под каждым словом!

BalinTomsk Aug 28 2017 at 20:37

Надо бы в выборку кастратов добавить и мальчиковые голоса до ломки — наверняка алгоритм oшибаeтся на них. Ну и выборку раcширить — например участниками конкурса Голос.

pan-alexey Aug 29 2017 at 13:16

Я думаю намного лучше будет создать еще одну группу — не определен. Т.к. существует моменты в которых и группа людей не однозначно определяет м/ж

AVI-crak Aug 29 2017 at 01:34

Имея линейную спектрограмму можно выполнить детект голосовых фреймов до слогов, а там и до фонетического разбора речи не так-уж и далеко.
Но всё-же, зачем строить спектрограмму (вычислять и хранить всё это) — если совпадение можно вычислять на лету. Да будут промахи, и множество ложных срабатываний — но это всё для системы без обратной связи.
Причём первая обратная связь на уровне голосовых фреймов, те самые сочетания гласных и согласных — их не так-уж и много. Причём использовать все возможные варианты нет нужды — потому как некоторые сочетания произнести просто невозможно.

Итак — произнесена первая «буква», в нашем случае звук похожий на согласную. Ещё до смены рисунка спектрограммы — можно выставить весовые коэффициенты для всех имеющихся сочетаний. Большая часть из них даже не будет участвовать в обработке.

После уверенного распознания нескольких букв, можно подключать второй контур — распознавание слов. Тут всё намного сложнее. В устной речи нет явных признаков пунктуации, это всё предназначено для письменного общения — для наиболее полного восстановления смысловых форм. Чтоб вас могли отличить от робота.
Самое неприятное — в сети практически нет работ по этому направлению. Теоретиков не считаем, их как грязи.
Перевести все звуки речи в буквенный массив, можно и на слабеньком мк. Но для полноценного распознавания речи необходим огромный массив мыслеформ. Но просто набор слов, а их связи. Именно связи будут влиять на смысл сказанного.

И кстати, как это в конце концов обрабатывать.
Думаю что вариант одно_битного пьяного электрика — наиболее удобная модель (образно). Ну то-есть свести все мыслеформы до вполне понятного для такого существа чувства: то как обида, гордость, страх, радость и так далее. Часть критических состояний просто не может находится сразу в двух противоположностях, и это многое упрощает.

Подобную реакцию можно масштабировать на все мыслеформы, и тогда одно_битный пьяный электрик научится думать не только про себя.
К сожалению, последнее требование не выполнимо в реальном времени даже на очень больших и мощных машинах. В усечённом варианте — вполне, но не в полном.

nad_oby Aug 29 2017 at 21:41

Всё это мило, но какое отношение это имеет к теме статьи.
Тут ставится достаточно узкая задача, ещё немного сужается и успешно решается.
При этом автор разбирает в паре узких мест, почему он сделал тот или иной, неочевидный, на первый взгляд выбор.
Это и делает статью по настоящему полезной на мой взгляд.
А пьяные однобитые электрики меня смутили и никакой ясности не добавили.
И к конструктивному диалогу не побудили.

Текстонезависимая идентификация по голосу

Comments 6

Articles