Pull to refresh

Comments 10

Эм. Вы говорите «оптимального», а какой критерий оптимальности все же?
Все зависит от целей и задач, которые ставит разработчик. Это моя исследовательская работа в университете. В начале мне нужно было определить какие способы есть на основе существующих исследовательских работ и какой способ может быть более оптимальным для моего случая. А уже затем перейти непосредственно к процессу работы. Затем, конечно, экспериментальные работы показали где я был прав, а где ошибался. Об этом напишу в следующих статьях.
Да, я догадался про то что работа исследовательская. Собственно поэтому так и удивился названию. Просто слово «оптимальность» в названии подразумевает математический критерий. Без него защитить работу на совете будет практически нереально. Меня за такое слово в названии тоже пытались ущучить, но у меня был критерий оптимальности. Короче совет: идя не защиту убирайте из названия оптимальность, или пишите четкий критерий.
Хорошо, спасибо! Буду более аккуратен с определениями.)
Не совсем понятно, для чего у вас используется HMM? Для классификации состояний губ или для моделирования последовательности этих состояний?
Кстати, а какая конечная цель? Читать по губам?
Когда начинал исследование цель стояла — «читать по губам». Но задача оказалась неподъемной. Видео дает только 20% информации — остальное человек (обычно глухонемой) домысливает исходя из своего опыта.

Затем стояла цель — сделать Lips Tracker — анализатор движения губ. И он был сделан. Свидетельство регистрации ЭВМ №2013616965 от 29 апреля 2013 года. Который будет улучшать точность распознавания речи за счет сравнивания активной фазы движения губ и аудио, как средство улучшения. Однако и такой подход несмотря на то, что удалось доказать его научную эффективность — не стал пользовательским решением, поскольку был не естественным.

Сейчас видео используется для верификации. Готов рассказать всю последовательность работ в режиме step-by-step. Следите за статьями.
За статьями я слежу, да. Но касательно конкретно этой статьи, я всё-таки не понял, как и для чего используются HMM и ANN? Например, что из себя представляют скрытые состояния в марковской модели — непосредственно вектора признаков или центры кластеров? Что является наблюдаемым результатом?
Да, это правильный вопрос. Первоначально предполагалось создать словник по видео: например вычислять состояния рта, чтобы высчитывать звонкие, щипящие, гласные, согласные, открытые, закрытые звуки на основе видео информации. Однако эти состояния зафиксировать отнюдь не просто. Да и в учебниках по фонетике как правило такие состояние высчитываются совместно с аудио и создается отдельная база данных. Но для того, чтобы в этом направлении двигаться необходимо работать совместно с аудио-каналом или создавать свою базу данных с нуля. Первый и второй вариант не сильно подходили: так как требовалось много времени и ресурсов, то поэтому в конечном итоге решили фиксировать состояния: есть движения губ или нет движения губ. Если есть движения губ — значит человек скорее всего, что-то говорит, а если нет — значит он молчит. Потом добавилось еще сравнение аудио потока и начался более сложный этап аудио-видео синхронизации. Если губы движутся, а аудио сигнала нет — значит человек скорее всего улыбается и так далее.
Так а мимика то в итоге распознаётся или вы полность перешли на аудио-визуальную синхронизацию?
На текущем этапе распознается как дополнительное средство быстрой верификации голоса человека (фиксация факта движения губ для быстрого вычисления голоса человека из общего потока).

То есть мы определяем губы, анализируем движение точек в объекте интереса и на основе этой информации делаем дальнейшую аудио-обработку — быстро вычисляя голос диктора из аудио информации.

Классическое видео распознавание (определение мимики), к сожалению, на текущем этапе сложно продавать (реализовать то мы смогли) в нашей задаче обработки. Так как:
— человеческое лицо уникально;
— нужно определять расстояние от камеры до объекта;
— есть зависимость от качества видео (камера, формат, разрешение, частота кадров);
— освещение (насколько много образуется артефактов)
— поведенческая особенность (насколько человек активно двигается в кадре)
— и другие.

В экспериментальных лабораторных условиях видео-обработка эффективна. Но на реальных примерах ее пока использовать отнюдь не просто. Однако направление супер-перспективное.
Only those users with full accounts are able to leave comments. Log in, please.