Comments

Не знаю, как насчёт распознавания речи, а вот с машинным переводом до сих пор серьёзные проблемы. ЕВПОЧЯ.

Я всё ждал ABBYY Compreno, но там что-то заглохло, видимо не так всё радужно как поначалу кричали, хотя направление мне кажется верным.
Есть мнение, что адекватный перевод без понимания просто невозможен.
Может, и адекватное распознавание речи без понимания невозможно?

Это очевидно. Даже понимание шутки из пары слов вне контекста не всегда возможно. Нет, не её смысла, а банального распознавания слов — ведь у человека оно тоже далеко не на 100% работает.

Абсолютно согласен. Во-первых, смысл очень помогает распознать, во-вторых осознать неправильное распознавание. Из опыта общения с Сири, оно очень часто промахивается совсем но при этом никогда не сомневается. Если человек говорит «я пойду в библиотеку возьму ...» и затем неразгорчиво «хнежку», то другой человек распознает «книжку» или переспросит, а компьютер может не сомневаясь вставить «снежку».
Лучше всего этот эффект демонстрируют люди — дети очень часто распознают именно так «мимо», обычно в первую очередь песни. Я сам, слушая песни на малознакомом языке, часто понимаю их совсем не так, а потом читая слова сильно удивляюсь. С обучением это проходит, потому что даже когда неразборчиво, мозг подбирает логично возможные варианты по смыслу. Но опять таки, дети сразу спрашивают когда не понимают — как это можно там вставить такое слово. Компьютеры не понимают смысл и потому не удивляются.
Слово — самому Игорю Саруханову. Его комментарий о сложившемся каламбуре:
" — В 94-м году ко мне пришел один из моих самых близких друзей, с которым написали много песен. Он принес стихи, и там подразумевался скрип колес. Потом в порыве творчества ему пришла мысль, ну раз все на образах, раз там какие-то вороны, что они склевали что-то в нашей судьбе, не конкретные вороны, а какие-то люди. Это какой-то образ. Поэтому он решил сравнить образ доброты со скрипкой такой сказочной, собирательный образ, а лужи, грязь дорог, вороны, он всех свалил, как бы образ зла. Я знаю точно, что он не придумал это специально. Просто случайно, по наитию, на уровне воздуха, запаха, кто-то сверху, как всегда, намекает: вот напиши так. И он написал: «Скрипка-лиса». Такая интрига. Причем, вы знаете, было смешно, когда я собственной рукой написал на ленте клипа Тиграна Кеосаяна: «Скрипка-Лиса», отдал профессионалам, а монтажер посчитал, что я сделал ошибку и набил: «Скрип колеса». Его ругали. Среди населения общество поделилось в процентном отношении 60 на 40. Я считаю, получился очень удачный клип, «Скрипка-Лиса» из больших форм, будем так называть, она все-таки около семи минут идет, имеет место. Я думаю, что Тиграну удалось рассказать эту историю и, более того, посвятить ее людям уехавшим и обездоленным. Это своего рода памятник всем трем волнам эмиграции. Я тоже считаюсь здесь вроде как первым. Мне очень приятно.
И песня с этим названием не дает покоя, пришлось зарегистрировать оба: и «Скрипку», и «Скрип»."
Классику забываете. Радуются они красавице Икуку (имя настоящее, возможно Кирибатийское), а мерси боку шепчут судьбе.
  1. В детстве была уверена, что есть слово "расшепнуть" (мерси боку), по аналогии "сказать — рассказать".


  2. Ещё много приколов с маленькими детьми, когда они пользуются "Окей Гугл", т.к. трехлетние писать-читать не умеют. Мой например запросил: "Курочка Ряба", выдача: "Курящая баба" и картинки 18+.
Эхех, а ещё, помню, был подарок, который «красив он, Ныярок». — в песне про Дунай.
Может, «Красавицам и кубку», все таки? В смысле женщинам, вину, оружию и транспортным средствам? По смыслу больше подходит. Красавица Икуку — явная ошибка распознавания.
Сорри, если это была шутка.
«Красавица Икуку» — это распространенная ошибка распознавания, да. Впрочем, я это воспринимал как-то по-другому, кажется «непонятно что с вот таким вот звучанием».
Красавице и кубку. Хотя в детстве я считал, что это какое-то необычное имя — Икубку.
Да я и в некоторых отечественных песнях долгое время слышал не то, что было заложено создателями. Как пример: «миллион алый хрос», «скрипка лиса».
UFO landed and left these words here
В распознавании речи проблема понимания решается следующим образом:
Есть частотный словарь который выдает вероятность встретить два слова рядом друг с другом, когда мы распознали слово и получили 10 гипотез находим рядом стоящие слова и смотрим как часто они упоминаются. Ну и повышаем вес часто употребимой гипотезы.
Это конечно сильно упрощенная модель, в проприетарных решениях, я уверен, уже давно что-то более сложное.
«Проблема понимания», так не решается. Этот метод всё ещё не умеет понимать текст, а просто повышает шансы угадать основываясь на статистике. По сравнению с этим, человек действительно понимает текст, и переспрашивает всегда когда послышалось что-то не так.
Ещё интересный вариант — некоторые люди иногда употребляют неправильные слова, причём с идеальным произношением. Вы не участвовали в диалогах вида «выключи холодильник, шумно! — ты имеешь в виду телевизор? — да, а я что сказал?».
Именно так это и решается. Получают фонемы и потом прогоняют их по K-nn. Если на пальцах, то можете себе представить такое огромное поле где группы фонем будут собраны вокруг маркеров. Дальше ваш новая группа фонем будет расматриватся к какому маркеру она ближе. Но как вы можете понять, сложность будет возрастасть с длинной фразы.
Просто изначально сам подход с фонемами был сделан из за малых мощностей чипов. Но на данный момент, как вы можете заметить, все так и носятся с алгоритмами полувековой давности. Тоска в общем.
Возможно мы неодинаково определяем слова «распознавание» и «понимание». То что так работает «распознавание» я не спорю. Но «понимание» для меня означает понимание значения текста и каждого слова.
То есть Сири сейчас умеет понимать фразу «отправь сообщение» (то есть знает, что нужно сделать), но сам текст сообщения будет как для меня голландский — если повезёт я могу даже точно распознать и записать, но совершенно не понимаю что это всё значит.
Вы пытаетесь обьяснить «китайскую комнату».
Почитайте пару моих последних статей. Я попытался простым языком описать суть своего проекта. Говоря строго, вы тоже не задумываетесь над смыслом каждого слова. Если сильно утрировать, то с технической стороны вы считаете слово незнакомым если оно принадлежит только к одному множеству. То есть вы оценивате фразу целиком а не задумываетесь над каждым словом. Но есть еще третий вариант когда вам знакома вся фраза за исключением одного слова, нечеткое множество, и вот тогда имея опыт других слов на этом месте вы предполагаете контекст.
В общем так или иначе все вращается на взаимодействии множеств. И описывается алглритмом в пару тысяч строк. :)
Помню была у меня когда то раскладушка эриксон, синяя и никакая не сони, давно дело было.
Так вот там было не то что бы прямо распознавание, но на любое действие можно было голосовую команду подвесить, раза три повторив оную, и потом оно работало…
… просто работало, не смотря на шумы, алкоголь и всякие прочие вещества, которых тогда много было доступно разных…

Ещё помню, была программа YesSir, которую на студии я запускал на отдельном компе с 95 виндой, миди портом и ещё одной програмулиной, превращавшей шорткаты в миди посылки.
Это было очень удобно, «кубик пишем», «кубик стоп», «к началу», «к маркеру» это не просто производило впечатление на клиентов, а было реально полезно при работе с миди, сколько я не переназначал транспорт на кнопки ими никто включая меня не пользовался, а голосом пожалуйста, и да, она без переобучения понимала голоса разных людей, в том числе с армянским акцентом.

Понимание смыслов, это всё важно, НО люди, родите уже простой распознаватель последовательности звуков, пусть не идеальный, но хотя бы на уроне того эриксона, а то сегодня у нас всякие Сири с Алисами, и «привет тв» а толку с них, кот наплакал, тормозят, тупят, так что проще кнопку нажать чем что-то говорить.
Так в описываемых Вами случаях требовалось распознавание одного-двух десятков команд, а от распознавателей речи требуется распознавать десятки тысяч слов — гораздо проще ошибиться. Я поупражнявшись с Алисой и помощником Ок Гугл понял, что внятность речи у меня порой страдает, а бывает гораздо гораздо хуже, но мы хотим, чтобы распознаватели все это распознавали без ошибок — простого решения тут нет.
Я давно загорелся подключить голосовое управление к играм, попробовал кучу программ, от древнего Game Commander до разных оболочек гугловского онлайн движка. Лучше всего на данный момент понимает VoxCommando. Процентов 90 из сказанного адекватно воспринимает. Кроме того ее довольно просто настраивать — не надо три раза произносить разные команды, достаточно напечатать фразу для распознавания. Настроил для переключения инструментов в графическом редакторе, основные команды в браузере и время от времени добавляю по паре команд под текущие нужды.
Во, а нельзя ли поделиться опытом? Интересует все, что не привязано к интернету и к штатной распознавалке виндов.
Ну про другие программы не буду говорить, так как своей задачи они толком не выполняют. Поработаю гуглом и кину пару полезных ссылок по VoxCommando.
Ссылка на официальный сайт. Программа платная, но есть демо версия.
Ссылка на подробную инструкцию по установке на форуме одной космолеталки. Там народ делает подобие голосового помощника, который помогает с запутанным интерфейсом этой леталки. Часть пользователей используют Voice Attack, потому что к ней есть готовый голосовой помощник с записанными командами ответами. Но как я понял VoxCommando лучше понимает русский язык. Работает он на движке Microsoft Speech Platform Runtime v11.0 и точность распознавания команд достигается за счет того, что поиск ведется не по всем словам, как у гугловского движка, а только по тем, к которым привязаны команды.
Ссылка на канал вконтакте с подробными уроками по программе. У нее богатые возможности, и я освоил около 10% от ее функционала. И мне этого хватает.
Ссылка на ютубовский канал этого же человека.
Если хочется острых ощущений и взрыва мозга, то можно попробовать Simon. Тут и возня с пользовательскими базами, словарями произношений, и тренировка фонем раз по сто, и версия для линукса вроде есть. Но VoxCommando все равно лучше распознает.
Из тех программ, которые завязаны на интернет движки наиболее интересен Laitis. Там и пользовательские наборы команд, и диктовка есть. Но чуть большее время отклика, привязка к интернету и худшее распознавание. У меня она с гугловским движком один раз из трех понимает команду «вставить». Пишет «отставить», «ставить» и так далее. Можно подключить другие онлайн движки из настроек, но я не стал этим заморачиваться.
Меня опыт применения интересовал, а не выдача гугла… :) Но ладно, все равно спасибо за подборку ссылок, кому-то наверняка пригодится. :)
Упомянутое не устраивает по причине привязок. Хочется нечто старое и кондовое, по типу описанного эриксона из каментов.
Вот как раз от войс аттака и хотелось уйти. :) Он привязан к винде, да еще и в английскому паку. Вон там ниже кто-то драгона юзал давно, но не знаю, поделится ли опытом…
Распознавание просто не сработало в этот раз :)
P.S. Но за подборку ссылок спасиб, да.
Game Commander не привязан к интернету и штатной распознавалке винды. Сам пользую для игры Elite Dangerous.
По стабильности распознавания трудно что-то определенное сказать, т.к. у меня гарнитура, которая периодически вносит искажения в канал микрофона. О начале искажений узнать невозможно. Но замечено, что если в наушниках тишина, то ошибок распознавания меньше (наушники открытые, могут давать шум для микрофона).
В программе можно записать фразу, которую потом произносить, можно написать буквами. Оба варианта работают, подбирал индивидуально к командам.
Порой удивляет как программа распознаёт явно нечёткое произношение, иногда даже конец фразы другой (в запаре), но распознаёт верно.
С одной командой война без конца. Очень плохо распознаёт, а чем заменить не придумывается. Длинные фразы (букв 10) распознаются существенно лучше, чем короткие (буквы три). Но длинные дольше произносить, легче привыкнуть к кнопке.
Личное отношение — только для атмосферности в игре, больше нигде нет желания использовать, кнопки лучше.
Во, точно, забыл совсем об этой софтине, а ведь она у меня валяется уже лет 5… :)
И спасибо за подробный отзыв! Пожалуй, на ней и остановлюсь, ща раскопал ее, запустил, вроде работает, а больше от нее и не надо.
Не понял про войну с одной командой. Что-то не распознается?
Мое отношение к таким прогам примерно то же, кстати. Но иногда сильно помогает, например, когда играешь с ноута, а там и обычных-то кнопок маловато… :)
Baltasar о ней писал.

Не понял про войну с одной командой.
Короткая команда, очень высок шанс нераспознавания. Приходится повторять второй, третий раз. Причём это та команда, которая является макросом. Это самое полезное, что можно получить от голосового управления.
Эммм… А разве Гугловский спич API — плохо понимает русский язык? И есть ли программы нормальные, основанные на их технологиях?
Помнится лет 15 назад я купил компакт диск с Dragon Speech вроде. Собирался с его помощью надиктовать курсовую. Дело застопорилось на том, что его нужно было научить каждому слову, повторяя это слово 3 раза.

Диск вернуть не удалось.
А в остальном опыт положительный? То есть то, что успело выучиться, оно хорошо распознавалось?
Нет, конечно. На третьем слове я сдался.
В мои планы не входило мой лексикон из 2-10 тыс. слов повторить 3 раза.

Думаю, это было бы по трудозатратам чуть больше курсовой.
Какой смысл распознавать речь, если до сих пор вменяемо не могут распознать текст? Не в плане текст со скана распознать, а в плане понять о чем речь идет в чистом тексте…
При этом, опираться на текст во всем и вся может только конченный кретин… Пока не будет создан универсальный язык абстракций, который все что есть в мире ОДНОЗНАЧНО сопоставит с прочими ненужными штуками, типа русского языка или английского — ничего ни у кого никогда не получится…
Думается, на слух — не очень. Хотя я не читал словарь, но вдруг они этот момент тоже учли. :) А вот как текст — должно быть близко к идеалу.
ИМХО, но мне так видится, что проблемы из за того что процесс распознавания расматривают как отдельный от процесса синтеза голоса. Ну как те слепые мудрецы, которые слона щюпали. :)
Сегодня спросил у гугла: Alfa Charle Delta Charle… А вот Tango November Tango мне гугл не дал сказать.
Only those users with full accounts are able to leave comments. Log in, please.