Comments 20
А вот на что стоит обратить внимание при использовании обратной технологии, Speech-to-text:
Я как-то думал, что статья о речевом управлении, а не наборе текста. Если о первом, то ИМХО очень важно иметь не краткую, а полную инструкцию для человека о всевозможных командах для распознавалки. Так как это не GUI — там нет видимых кнопок, которые можно понажимать и посмотреть что произойдет. Речь гораздо многограннее — одну и ту же команду можно произнести 10-ком различных способов и нормальный человек ее поймет, а вот роботу будет намного труднее. Поэтому обязательно надо предоставлять пользователю список всех возможных команд, воспринимаемых роботом.
Как пример Siri и управление Homekit. На сайте имеется несколько примеров, но многие пользователи проваливались на том, что на жалюзи надо было говорить не "открыть", а "поднять". Или что люстры надо называть лампами и прочие приколы, которые возможно появились из-за локализации, но в итоге для нужной команды приходится долго подбирать слова, пока система, наконец, не поймет.
Лично у меня был с такой штукой только один, увы, негативный опыт. Сайт РЖД. Пытался забронировать билет на поезд.
- Назовите пункт назначения
- Адлер
- Вы указали пункт назначения… Краснодар
…
и так несколько раз, пока мне не надоело...
Это еще не учитывая, что даже нормальный, напечатанный текст, ПО не способно обработать даже с 80% точностью (кто сомневается, переводческое ПО в помощь). Поэтому, автору могу лишь порекомендовать разобраться, что именно нужно заказчику, а уже только потом думать о том, что и как лучше делать.
Что касается голосовых интерфейсов, то они убоги, что называется, по определению — поскольку с одной стороны (человек) имеется источник неформализованных/неформатированных данных, а с другой (система распознования) система, которая может работь только с данными в рамках известных ей форматов и форм.
Если брать примеры, то самым простым вариантом «телефонного меню», будет система. где от человека требуется лишь отвечать «да» или «нет». Применительно к продаже билетов, я бы рекомендовал следующие вариант " «автозаказов»
1. выбрать с 5к самых популярных направлений. и просто спрашивать заказчика, в какой из пунктов он хочет.
что-то типа «Пожалуйста, ответьте да или нет на следующий несколько вопросов»
— Нужен билет в Сочи?
— Нужен билет в Санкт-Питербург?
— Нужен билет в Минск
и так далее, не более 5 вариантов в сумме.
2. Если человеку нужны другие направления, то переключаться на оператора — и далее как всегда (можно, конечно, паралельно включить автораспознование, чтобы оператор меньше вводил, а заодно и проверял).
3. Если какой-то их преложенных вариантов, то включить запись, и попросить человека четко произнести количество билетов, дату и ФИО пассажиров.
4. Сообщить, что на СМС ему придет подтверждение заказа.
5. автоматически распознать произнесенное и передать информацию оператору для проверки.
6 Оператор внесет необходимые изменения и дальше система работает как обычно
Это самый простой и достаточно удобный вариант работы с системами распознования речи на неком сферическом примере.
А результат вполне ожидаем — «механизированный бардак». И дело тут не только в технологиях.
Чем грозит преждевременная автоматизация