Pull to refresh

Comments 15

Я почему то не наблюдаю голосовой набор комментариев в том же Instagram или Twitter, а ведь как было бы удобно.
А где в посте написано «Мы добавили голосовой ввод в чужие приложения: Instargam и Twitter»? Диктовка с кнопки «микрофон» на клавиатуре там есть и работает. Как только авторы приложений сделают версию, которая будет взаимодействовать с Google Now на таком уровне — появятся и названные вами фичи. К Google-то какие претензии?
В самом же гугле, в их сервисе — нет голосового ввода комментариев, например, в том же g+ или ещё где. А ведь как было бы удобно =))
Тут еще важный вопрос прав на возможность использования технологии. Можно обратиться к более простому примеру, вроде snapchat, которым оказалось выгоднее купить технологический патент looksery вместе с технологией, штатом и продуктом. Так вот, когда гиганты решат, что им это необходимо — начнут именно с покупок интеллектуальной собственности.
Давно хотела узнать как все это — вокруг распознавания речи — работает… Правда прочтя статью погрустнела т.к. поняла лишь с пятого на десятое. Но спасибо — буду перечитывать еще :)
Спасибо, я знаю что такое нейронные сети, даже какие-то регуляторы на них писала :)
Тогда приношу извинения, из комментария понял иначе.
Оч крутая статья. Давно хотел разобраться в этих RNN.
А в этой статье ничего вообщем то и не написано: так, упомянуты лишь кое какие термины без объяснения как же это работает.
Вот бы еще API для распознавания речи помимо Android…
Присоединяюсь, очень бы хотелось API под Windows или Linux для оффлайн распознавания, пусть даже за вменяемые деньги.
«В процессе обучения RNN мы подмешивали искусственные шумы, ревербацию, эхо и прочие типичные в повседневной эксплуатации «загрязнения» на обучающих сэмплах, что помогло сделать систему распознавания более устойчивым к фоновым шумам. „

И каким же образом это “что» «помогло сделать систему » обученную на шумах, которая в свою очередь будет нормально работать на чистом сигнале без шума без переобучения моделей на чистой речи?

Ведь (пере)обучение НС моделей занимает приличное время в распознавании речи. Не ясно, что именно при использовании RNN послужило благоприятно при распознавании зашумленной речи?

«Попробуйте сказать вслух — «museum». Слово выходит моментально, на одном выдохе, и RNN могут это распознать. »

— и какой объём словаря (сколько слов использовалось для обучения и тестирования) такие модели способны таким способом распознать?
По доброй традиции хаба «Клиентская оптимизация» поинтересуюсь:
— автор, вам известно значение термина, давшего название упомянутому хабу?
— какое отношение этот топик имеет к предметной области, описываемой этим термином?
Sign up to leave a comment.