Comments 10
Эм. Вы говорите «оптимального», а какой критерий оптимальности все же?
+1
Все зависит от целей и задач, которые ставит разработчик. Это моя исследовательская работа в университете. В начале мне нужно было определить какие способы есть на основе существующих исследовательских работ и какой способ может быть более оптимальным для моего случая. А уже затем перейти непосредственно к процессу работы. Затем, конечно, экспериментальные работы показали где я был прав, а где ошибался. Об этом напишу в следующих статьях.
0
Да, я догадался про то что работа исследовательская. Собственно поэтому так и удивился названию. Просто слово «оптимальность» в названии подразумевает математический критерий. Без него защитить работу на совете будет практически нереально. Меня за такое слово в названии тоже пытались ущучить, но у меня был критерий оптимальности. Короче совет: идя не защиту убирайте из названия оптимальность, или пишите четкий критерий.
0
Не совсем понятно, для чего у вас используется HMM? Для классификации состояний губ или для моделирования последовательности этих состояний?
Кстати, а какая конечная цель? Читать по губам?
Кстати, а какая конечная цель? Читать по губам?
0
Когда начинал исследование цель стояла — «читать по губам». Но задача оказалась неподъемной. Видео дает только 20% информации — остальное человек (обычно глухонемой) домысливает исходя из своего опыта.
Затем стояла цель — сделать Lips Tracker — анализатор движения губ. И он был сделан. Свидетельство регистрации ЭВМ №2013616965 от 29 апреля 2013 года. Который будет улучшать точность распознавания речи за счет сравнивания активной фазы движения губ и аудио, как средство улучшения. Однако и такой подход несмотря на то, что удалось доказать его научную эффективность — не стал пользовательским решением, поскольку был не естественным.
Сейчас видео используется для верификации. Готов рассказать всю последовательность работ в режиме step-by-step. Следите за статьями.
Затем стояла цель — сделать Lips Tracker — анализатор движения губ. И он был сделан. Свидетельство регистрации ЭВМ №2013616965 от 29 апреля 2013 года. Который будет улучшать точность распознавания речи за счет сравнивания активной фазы движения губ и аудио, как средство улучшения. Однако и такой подход несмотря на то, что удалось доказать его научную эффективность — не стал пользовательским решением, поскольку был не естественным.
Сейчас видео используется для верификации. Готов рассказать всю последовательность работ в режиме step-by-step. Следите за статьями.
0
За статьями я слежу, да. Но касательно конкретно этой статьи, я всё-таки не понял, как и для чего используются HMM и ANN? Например, что из себя представляют скрытые состояния в марковской модели — непосредственно вектора признаков или центры кластеров? Что является наблюдаемым результатом?
0
Да, это правильный вопрос. Первоначально предполагалось создать словник по видео: например вычислять состояния рта, чтобы высчитывать звонкие, щипящие, гласные, согласные, открытые, закрытые звуки на основе видео информации. Однако эти состояния зафиксировать отнюдь не просто. Да и в учебниках по фонетике как правило такие состояние высчитываются совместно с аудио и создается отдельная база данных. Но для того, чтобы в этом направлении двигаться необходимо работать совместно с аудио-каналом или создавать свою базу данных с нуля. Первый и второй вариант не сильно подходили: так как требовалось много времени и ресурсов, то поэтому в конечном итоге решили фиксировать состояния: есть движения губ или нет движения губ. Если есть движения губ — значит человек скорее всего, что-то говорит, а если нет — значит он молчит. Потом добавилось еще сравнение аудио потока и начался более сложный этап аудио-видео синхронизации. Если губы движутся, а аудио сигнала нет — значит человек скорее всего улыбается и так далее.
0
Так а мимика то в итоге распознаётся или вы полность перешли на аудио-визуальную синхронизацию?
0
На текущем этапе распознается как дополнительное средство быстрой верификации голоса человека (фиксация факта движения губ для быстрого вычисления голоса человека из общего потока).
То есть мы определяем губы, анализируем движение точек в объекте интереса и на основе этой информации делаем дальнейшую аудио-обработку — быстро вычисляя голос диктора из аудио информации.
Классическое видео распознавание (определение мимики), к сожалению, на текущем этапе сложно продавать (реализовать то мы смогли) в нашей задаче обработки. Так как:
— человеческое лицо уникально;
— нужно определять расстояние от камеры до объекта;
— есть зависимость от качества видео (камера, формат, разрешение, частота кадров);
— освещение (насколько много образуется артефактов)
— поведенческая особенность (насколько человек активно двигается в кадре)
— и другие.
В экспериментальных лабораторных условиях видео-обработка эффективна. Но на реальных примерах ее пока использовать отнюдь не просто. Однако направление супер-перспективное.
То есть мы определяем губы, анализируем движение точек в объекте интереса и на основе этой информации делаем дальнейшую аудио-обработку — быстро вычисляя голос диктора из аудио информации.
Классическое видео распознавание (определение мимики), к сожалению, на текущем этапе сложно продавать (реализовать то мы смогли) в нашей задаче обработки. Так как:
— человеческое лицо уникально;
— нужно определять расстояние от камеры до объекта;
— есть зависимость от качества видео (камера, формат, разрешение, частота кадров);
— освещение (насколько много образуется артефактов)
— поведенческая особенность (насколько человек активно двигается в кадре)
— и другие.
В экспериментальных лабораторных условиях видео-обработка эффективна. Но на реальных примерах ее пока использовать отнюдь не просто. Однако направление супер-перспективное.
0
Sign up to leave a comment.
Синтез оптимального алгоритма распознавания мимики