morfeusys Nov 10 2014 at 23:27

SpeechMarkup API — превращаем речь в данные

8 min

18K

Website development*Programming*API*

+25

Comments 49

tehnolog Nov 10 2014 at 23:58

Завтра покормить кота — сервис сказал, что кот — это город. о_О
А так сервис интересный. А есть какие-то лимиты на количество запросов?

morfeusys Nov 11 2014 at 00:03

База Geonames содержит очень необычные города порой )) Уже почистили, спасибо.
Лимитов нет никаких.

zoonman Nov 11 2014 at 03:12

А зря, потому что:
ru.wikipedia.org/wiki/%D0%9A%D0%BE%D1%82_%28%D0%93%D0%BB%D0%BE%D0%B4%D1%8F%D0%BD%D1%81%D0%BA%D0%B8%D0%B9_%D1%80%D0%B0%D0%B9%D0%BE%D0%BD%29
ru.wikipedia.org/wiki/%D0%9A%D0%BE%D1%82_%28%D0%A8%D0%BE%D0%BB%D0%B4%D0%B0%D0%BD%D0%B5%D1%88%D1%82%D1%81%D0%BA%D0%B8%D0%B9_%D1%80%D0%B0%D0%B9%D0%BE%D0%BD%29

DragonFire Nov 11 2014 at 10:13

Это должно решаться не чисткой, а системой ранжирования как именованных сущностей по отношению к общеупотребимым словам, так и сущностей между собой…

morfeusys Nov 11 2014 at 10:53

Не совсем. Как я описал — SpeechMarkup работает вне контекста. Он просто ищет сущности в тексте. Кот для него — это либо текст, либо город. Т.к. был такой город (оказывается), то он был помечен. Но суть-то в том, что затем ваше приложение потребляет результат. А значит, если город его не интересует, то он будет проигнорирован.

DragonFire Nov 11 2014 at 11:27

"Мама мыла раму"
Абсолютно любое слово может быть именованными сущностями. Без ранжирования, любой тест будет составлять поток сущностей…
Вторая задача — понять какая именно сущность тут имеется ввиду (если имеется)…

morfeusys Nov 11 2014 at 12:31

Да, безусловно есть еще над чем работать. С одной стороны нужно все это реализовать, а с другой — сделать API понятным и простым для стороннего разработчика. Таким, чтобы он не требовал изучения сложных материй для реализации конкретных задач. Пример такой задачи я и описал в демо.

DragonFire Nov 11 2014 at 12:46

Из выделения сущностей демо пример смог распознать только имена (но может я плохо старался). С ними тоже не плохо бы поработать («Позвонить Анатолию Ивановичу» работает, «Позвонить Анатолию И.И.» уже нет).
Время выделяет не плохо (хотя тоже баги есть). Для заметок работает красиво =)
API должно быть таким, чтобы простые вещи можно было сделать просто, а сложные возможно. Если API позволяет делать только элементарные вещи, а шаг в сторону — уже никак, то зачем такое API нужно не ясно…

morfeusys Nov 11 2014 at 12:53

Позвонить Анатолию И.И. — инициалы вам не распознает ни одна система распознавания речи. Но добавить распознавание инициалов — да, было бы хорошо, хотя и непонятно, кто будет стараться их вводить. Так только для тестов — да.
Насчет времени — вы бы не сочли за труд указать такие случаи? вот тут — github.com/Morfeusys/speechmarkup/issues
Спасибо

DragonFire Nov 11 2014 at 12:59

Могу конечно, правда мне сложно понять что для вас фича, а что проблема =)
Вот например «Позвонить подруге завтра в 11:00», скорее всего вы скажите, что такой формат мне «не распознает ни одна система распознавания речи»…

morfeusys Nov 11 2014 at 13:08

Да, вам вернется Позвонить подруге завтра в 11 00
Под это сейчас и заточена первая версия сервиса. Но все же — напишите о всем таком, что нашли. Спасибо.

DragonFire Nov 11 2014 at 13:13

Прикрутите к демке какое-нибудь распознование голоса, будет интереснее тестировать =)

morfeusys Nov 11 2014 at 13:15

Да, обязательно. Сразу руки не дошли. Там нужно анимацию рисовать для этого…

DragonFire Nov 11 2014 at 13:19

Мне кажется это не самое главное =)

rvller Nov 11 2014 at 02:44

Очень интересно что под капотом, технологии, подходы, алгоритмы, инфраструктура?

morfeusys Nov 11 2014 at 13:16

Под капотом смесь разных технологий, NoSQL база и тп. Обязательно расскажу.

Sleuthhound Nov 11 2014 at 07:05

А есть ли что то аналогичное SpeechMarkup, но только оффлайновое, без обращение в Интеренет, что можно например развернуть на своем сервере?

morfeusys Nov 11 2014 at 12:29

Голосовой андроид ассистент Дуся работает офлайн и использует похожий подход play.google.com/store/apps/details?id=com.dusiassistant
В принципе SpeechMarkup — это онлайн-версия этой разработки, только с более широкими возможностями.

yul Nov 11 2014 at 15:48

Было бы неплохо выпустить офлайновую библиотеку, пусть и платную. Даже не столько для своего сервера, сколько для работы приложения в офлайне. Ну и минимизировать задержки обработки.

morfeusys Nov 11 2014 at 15:56

Смотря под какую платформу. Время, даты, числа распознать можно, а вот для тех же городов, фамилий нужны стемеры и базы с интексами, которые могут работать только на серверах.

AigizK Nov 11 2014 at 07:32

Сейчас бесплатно, а когда раскрутитесь?

morfeusys Nov 11 2014 at 09:14

Всегда бесплатно

rotor Nov 11 2014 at 12:27

В чем подвох тогда? Функционал интересный. Можно подумать как это прикрутить к своему проекту. Но перед тем как использовать хотелось бы оценить стоимость.
Вам же как-то надо элементарно окупать нагрузку на сервер. Если бы это было open source решение, то понятно. А а так легко попасть на vendor lock.

morfeusys Nov 11 2014 at 12:32

Сейчас используется довольно интересная инфраструктура, позволяющая свести к нулю все расходы на поддержку. А оптимальные алгоритмы позволяют хранить минимум данных, что также сводит к нулю и стоимость хранения информации. Быть может, я подробней расскажу об этом в следующей статье, если кому-то будет интересно…

rotor Nov 11 2014 at 12:40

Да, было бы прекрасно, если бы вы смогли найти такую возможность.

UFO just landed and posted this here

KeepYourMind Nov 11 2014 at 08:47

Самое интересное было бы, если бы вы распространяли свое серверное решение, к которому можно было бы привязать свои справочники.

morfeusys Nov 11 2014 at 09:14

Так в статье же я указал, что в скором времени пользователи смогут добавлять свои сущности и логику

KeepYourMind Nov 11 2014 at 10:08

В том и дело, что я имею ввиду не добавлять к вам сущности, а использовать свои локально.

morfeusys Nov 11 2014 at 10:47

В любом случае, добавленные вами сущности будут видны только вашему приложению, и никому больше.

keslo Nov 11 2014 at 09:57

А как сделать голосовой ввод вместо текстового поля? Соглашусь с rvller, интересна техническая составляющая.

morfeusys Nov 11 2014 at 10:03

Сперва распознаете речь в текст посредством любого стороннего сервиса распознавания — гугла, яндекса, нюанса, или прямо в браузере (есть javascript speech api). А потом передаете текст на SpeechMarkup.

elingur Nov 11 2014 at 10:31

честно говоря, сколько не пробовал — ни одного правильно сработанного примера: все сущности определяются неверно. По моему сервис еще сырой и требует серьезной доработки.

morfeusys Nov 11 2014 at 10:44

Честно говоря, очень сильное утверждение )) А что конкретно «из примеров» у вас работает неправильно?? Какие сущности «определяются неверно»?

elingur Nov 11 2014 at 10:51

ну посмотрите логи.
Классический пример: «мама мыла раму» — почему рама, написанный с незаглавной буквы становится городом (почему не именем)? Так практически любое нарицательное слово может стать собственным и наоборот.
Не буду приводить более сложных примеров, типа «глубокая путина», где «путина» становится даже не Путина (еще бы ничего), а Путин.

morfeusys Nov 11 2014 at 10:56

Любая система распознавания речи (тот же гугл) приводит все к нижнему регистру. Любой пользователь может все писать в нижнем регистре. SpeechMarkup не работает в контексте. Если вам не нужна какая-то сущность — то вы просто ее отбрасываете и все.

morfeusys Nov 11 2014 at 11:00

Сервис разработан для сторонних приложений, которым нужно вытаскивать сущность заранее известного типа. А не просто «мама мыла раму». Кстати «Рама» не становится городом.

elingur Nov 11 2014 at 14:34

Да, я согласен, (тем более, если это речь), то регистр не важен. Но есть масса алгоритмов, которые различают собственные и нарицательные слова. Я, правда, не понял, что значит «Если вам не нужна какая-то сущность — то вы просто ее отбрасываете и все» и «вытаскивать сущность заранее известного типа»? То есть это полуавтоматическая система? Пользователь сам разгребает сущности? Тогда беру свои слова обратно.
Но могу сказать, что полуавтоматические системы мало кого интересуют. Когда заказчик говорит: «Сделай мне кнопку, на которую бы я нажал и получил, что хочу», по попробуй догадаться чего он хочет… А раз уж вы позиционируете понимание смысла, то как раз система и должна понять и порадовать любого пользователя.

morfeusys Nov 11 2014 at 14:59

В демо-примере кажется как раз и проиллюстрирована ситуация «Пользователь сам разгребает сущности». Здесь не предлагается система, которая «поймет» любой ввод для любой функции. У вас есть сервис, который должен реагировать на вполне конкретные сущности — вот эту задачу сервис и решает. Те сущности, с которыми сервис не работает, игнорируются. Именно это я и хотел сказать, ничего более.

trashmajor Nov 12 2014 at 00:47

Я джва года ждал такое API.

Neuronix Nov 12 2014 at 09:14

Всем, кому интересен сервис подобного типа, рекомендую так же посмотреть на wit.ai

morfeusys Nov 12 2014 at 09:35

Вроде как wit.ai платный и работает только с английским?

Neuronix Nov 12 2014 at 10:56

Бесплатный, если вы не хотите приват доступ к вашим наработкам фраз и вполне себе работает с русским (проверено на своем проекте).

morfeusys Nov 12 2014 at 11:27

Было бы здорово, если бы вы написали об этом статью! А то сервис интересный и довольно сложный в использовании.

Neuronix Nov 12 2014 at 16:58

Постараюсь сделать обзор в ближайшее время.

trashmajor Nov 12 2014 at 19:43

Я попробовал вводить здесь wit.ai/getting-started русские фразы, однако не увидел магии. Можете показать пример?

Neuronix Nov 13 2014 at 08:58

Магии и не будет, т.к. эти примеры тренированы на английском языке. Создайте свой аккаунт, создайте парочку intents, обучите, сделайте entity, которые нужны.
Да, много встроенного функционала (built-in entity) не работает, т.к. изначально рассчитано на английский язык, но ничего не мешает сделать своё :)

excoder Nov 8 2015 at 22:42

Приветствую! Почему заглох проект?

morfeusys Nov 9 2015 at 21:10

Я пока использую его в чисто технических целях, так как среди девелоперов нет большого интереса пока что.

Show the best of all time