Как стать автором
Обновить

Комментарии 49

Хотим больше гик-порно!!! А то читать вот это не очень интересно:
Она основана на специальном модуле, который описан специальным стандартом

Что за проц, сколько памяти, у каких китайцев купили?
Гик-порно мы не очень умеем, но будем учиться)
Рома (Wicron) промахнулся немного комментом, он ниже привёл характеристики. Вот ещё порно-деталей можно из него вытянуть в комментах.
Мне понадобилось минут 10, чтобы найти информацию о том, что же ваш Лекси умеет. Я правильно понял, это такой Amazon Echo, только в 3 раза дороже, без амазона, но с возможностью обижаться?

На самом деле крутой проект, удачи вам и все такое, но чего так дорого-то?
Echo мы тестировали, с ней невозможно общаться: во-первых, долгий пинг очень раздражает, диалог всё время обрывается. Во-вторых, любую фразу, обращённую к Алексе, надо начинать со слова «Алекса, ...». Если интересно, попробуйте с женой или товарищем так пообщаться — это трудно, убого и неестественно.
У нас своё оффлайновое распознавание, поэтому мы не завязаны на активационные фразы а-ля «Алекса, ...».
Ну и у нас много других фишечек, мне больше всего нравится концепция контекстного распознавания речи: когда система распознавания речи взаимодействует с виртуальным собеседником, чтобы учитывать контекст разговора, повышая качество и скорость распознавания.
Интересно. Удачи вам!

А распознование и синтез речи прямо совсем свои? Или какие-то библиотеки использовали?
Спасибо! Следите за нами, мы будем бета-тест проводить, обратная связь нам очень полезна.

Распознавание у нас совместное с отечественной компанией «Стэл»: адаптировали под ARM, строим языковые и акустические модели конкретно под Лекси, в общем.

Синтез — из open source, тоже отечественный (RHVoice, на гитхабе есть). Мы для этого синтеза умеем делать свои голоса для своих роботов.
Вообще то фраза «Алекса, ...» служит для того, чтобы «интеллектуальный помощник» случайно не выполнил команды, которые вы дале жене, а не ему.

Но интересней другое — как вы учитываете контекст и поддерживаете диалог? Чат бот логика или что то другое?
НЛО прилетело и опубликовало эту надпись здесь
Специальный язык — плохо, не юзабильно. Его придется учить, а пользователь ленив (не гик). Следить за контекстом — адски сложная задача, поэтому и спрашиваю, как вы ее решили. А распознать из контекста, что речь обращена к тебе, почти невозможно без поддержки визуального контекста.
НЛО прилетело и опубликовало эту надпись здесь
В визуальном контексте только есть наметки у таких гигантов как Google, но полностью рабочего варианта нет и у них. И вам я бы посоветовал искать более реалистичные пути )) Лучше исходить из речевого контекста, обращение к прибору — это не так сложно и вполне юзабельно для юзера. Так делают Google (Ok, google), Samsung на телевизорах и другие. Они тем самым создают вполне привычную модель поведения. И поверьте, они проверили ее на юзабельность, прежде чем внедрять. Так что не стоит тут придумывать что-то сложнее. А вот поддерживать контекст — это задачка важнее. Многие согласны с тем, что речевые интерфейсы не приживаются именно из-за этого. Поясню.

Просто команды мало интересны, легче включить музыку или лампочку с экрана смартфона, чем командовать прибору, стоящему где-то в одной комнате, да еще к тому же не уверенно слышащему (не 100%). Поэтому умный дом сейчас активнее и проще развивается на смартфоне такими уже распространенными программами как IFTTT.

Понимания заданного списка команд причем с предзаданной лексикой (сказал иначе — промах) — это не интересно. Поиграться на пару дней и отложить в угол. Вам же, чтобы выжить, надо дать новый экспириенс юзеру, из-за которого он будет готов общаться с вашей игрушкой. Дать то, что будет поддерживать к нему интерес больше, чем к командному пункту. Умение поддерживать диалог, исходя из контекста, и наличие общей «картины мира», о есть представления о чем может говорить человек. Нужно понимание расширенного контекста, так как ни одно предложение не содержит всю информацию об обстоятельствах речи. Без этого любая такая игрушка — тупое баловство, претендующее только на место в пыльном шкафу.

Ваша игрушка должна содержать что-то человеческое, быть неожиданной для ее хозяина. Как это сделать? Вы сильны по железу, это уже хорошо. Но по семантике вам видимо еще надо расти и расти. Обращайтесь если что )
НЛО прилетело и опубликовало эту надпись здесь
Извините, принял вас по ответам за автора проекта )) Продублирую авторам тогда.
НЛО прилетело и опубликовало эту надпись здесь
текст будто для детей.
Текст адаптирован для широкого слоя аудитории, в том числе для детей.
то есть автор не понимает какая аудитория у ресурса, какие ожидания, что интересно в первую очередь? Ок.
Автор толерантно относится ко всем.
не понимаю ваш ответ, простите.

Если на ресурсе, 80% (условно, по закону 80/20) аудитории предпочитает технические подробности и конкретные факты, то «толерантный текст», который в равной мере ориентирован на оставшиеся 20% в виде «изложения для детей», фактически суть проявление неуважения к этим самым 80%.
Единственное разумное объяснение — когда неизвестен расклад, тогда «бъют по площадям».

Но еще раз простите, это Хабр, и расклад тут известен.
В этом проекте базовым вычислительным элементов рассматривается не процессор, а больше модуль. Это сделано для улучшения поддерживаемости. На вооружение был взят стандарт EDM.
В модуле, представленном в этой статье:
— 4х ядерный CortexA9 процессор 1.2 ГГц IMX.6
— 2 Гб ОЗУ DDR3 533 МГц
— NAND eMMC 4.41 накопитель 4 Гб
— совмещенный BT LE+WiFI BCM4330 чип
— сетевой Ethernet контроллер 1Гбит
Amazon Echo выпущен лишь в экспериментальной ограниченной партии. Его цена не является окончательной. Скорее отражает его себестоимость. Более адекватной является цена недавно анонсированного изделия компании Sony (300$) с функциями Echo. Сам по себе Echo неплох, у нас есть один такой. Но это ТОЛЬКО музыка. Это колонка. Ее распознавание заточено в основном на проигрывание треков. Смущает также принцип первичной настройки для подключения ее к Интернет. Она создает свою сеть. Так к примеру, будучи извлеченной из коробки, она создала сеть в том же диапазоне, в котором была создана рабочая сеть, в результате в офисе пропал Интернет. Само подключение в силу интерференции, проходило долго — процесс не отлажен, вследствие этого порог входа высокий. Будет не мало возвратов.
Да просто как всегда будет — Алекса окажется в пыльном углу через месяц использования.
Лекси — автономный прибор по своей идее. Голосовой интерфейс не терпит зависимости от качества Интернет. Если вы попробуете пользоваться им часто, то непостоянное время ответа рано или поздно достанет вас своей тупизной. Вы будете расценивать собеседника как тормоза. Не возникнет привыкания к постоянству услуги, не будет зависимости от ее отсутствия. Мир постоянно колеблется между подключенными гаджетами и принципом «все включено», Прогресс в мобильных процессорах позволяет делать такие гаджеты, имеющие на борту и синтез, и распознавание, и собеседника. Лекси — такой прибор.
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Pocketsphinx тестировали два года назад — очень плохо. RHVoice хорош.
Но pocketsphnx это распознавание, а не синтез?
Да, распознавание. Моё сообщение было про то, что в указанной ignat99 связке покетсфинксовское распознавание — ужасно. Точнее, для распознавания ста команд оно подойдёт, но для общения — никак.
Olimex и Цветан Усунов плотно работают с Allwinner. Мы также официально плотно работаем над новым модулем на базе 8ядерного процессора А80, работы начаты. Осенью будет новая Лекси с очень быстрым распознаванием и ответами на вопросы. Мы стараемся локализовать технологические платформы внутри себя. Стараемся снижать зависимость от внешних поставок и становиться по возможности поставщиками из комплектующих.
Мы покупаем у Olimex компоненты для другого проекта. Увы, с качеством болгарских комплектующих не всё хорошо, у нас идет выборка с КПД примерно 80-90%.
НЛО прилетело и опубликовало эту надпись здесь
Это дисплеи. Сами по себе, они качественные. Проблема — в драйвере.
НЛО прилетело и опубликовало эту надпись здесь
Дисплеи из следующей номенклатуры:
— LCD 4.3 TS
— LCD 7 TS
— LCD 10 TS
Одна из причин неполадок была найдена, но Цветан и Олимекс не стали править ее. В новой версии мониторов еще более усугубили ситуацию. Проблема чисто статистическая. Проявляется иногда. Она связана с тем, как спроектирована маленькая плата позади монитора.
НЛО прилетело и опубликовало эту надпись здесь
Про это я в курсе. Я пишу Цветану иногда. Я бы с радостью принял контакты именно Samsung. Потому что мы еще «собаку съели» на их платформе Exynos, которую есть потенциал развивать и делать на ней изделия дальше.
НЛО прилетело и опубликовало эту надпись здесь
Exynos — вне конкуренции. Все сделано очень хорошо. Все драйверы есть. Мы пошли по пути Allwinner, но изделие Samsung — мечта. Делать свои изделия на платформе 4 и 5 поколения — так и осталось недостижимым событием. Слишком сложный чип для монтажа, очень маленькие нормы на топологию, большое количество потребных слоев, достаточно высокая плотность компонентов и отсутствие профилей пайки не позволили получить с конвейера достаточно годных модулей на базе Exynos. Как это делает Hardkernel, я не знаю, но очень хочу разобраться.
НЛО прилетело и опубликовало эту надпись здесь
Очень информативно. Напишу вам в личку. Спасибо. Поделюсь своим замыслом по линии Samsung. По ссылке Artic 10 напоминает то, что увы, пока не взлетело на чипах от Samsung у нас.
В Samsung корень проблем — это дистрибуция их чипов, потому что с виду она напоминает закрытую деятельность. Чипы есть в очень ограниченных количествах на открытом рынке. Производство на базе них плат также сильно ограничено из-за этого. Каких-то общепринятых моделей поддержки пока не замечено. Чипы есть на рынке по 2 года, потом их трудно найти. Есть также чувство, что даже самой компании чипов не хватает. Причина дефицита этой продукции мне не ясна. Рынок готов потреблять ее в огромных количествах. Почему компания не занимается розничной дистрибуцией чипов для кастомных решений, мне не понятно.
НЛО прилетело и опубликовало эту надпись здесь
Неужели так сложно было снять радиатор с EDM модуля? Или было стыдно показать, что вас стоит EDM1-CF-iMX6?
А есть где нибудь обзор не электроники и распознания речи, а лингвистических способностей вашей штучки. И хорошо бы сравнение ее с другими аналогичными проектами (их уже не мало) по одинаковым фразам. Насколько я понимаю, что чат-ботная технология, что есть предзаданные команды. В связи с этим интересно как вы учитываете контекст, точнее сказать, историю диалога?
Просто команды мало интересны, легче включить музыку или лампочку с экрана смартфона, чем командовать прибору, стоящему где-то в одной комнате, да еще к тому же не уверенно слышащему (не 100%). Поэтому умный дом сейчас активнее и проще развивается на смартфоне такими уже распространенными программами как IFTTT.

Понимания заданного списка команд причем с предзаданной лексикой (сказал иначе — промах) — это не интересно. Поиграться на пару дней и отложить в угол. Вам же, чтобы выжить, надо дать новый экспириенс юзеру, из-за которого он будет готов общаться с вашей игрушкой. Дать то, что будет поддерживать к нему интерес больше, чем к командному пункту. Умение поддерживать диалог, исходя из контекста, и наличие общей «картины мира», о есть представления о чем может говорить человек. Нужно понимание расширенного контекста, так как ни одно предложение не содержит всю информацию об обстоятельствах речи. Без этого любая такая игрушка — тупое баловство, претендующее только на место в пыльном шкафу.

Ваша игрушка должна содержать что-то человеческое, быть неожиданной для ее хозяина. Как это сделать? Вы сильны по железу, это уже хорошо. Но по семантике вам видимо еще надо расти и расти. Обращайтесь если что )
Про лампочку вы не правы: чтобы включить свет через смартфон, нужно секунд 8. Голосом — 3. И не нужно никуда лезть за телефоном.
По поводу лексики — мы не обязываем пользователя запоминать формат команд.

А что вы про семантику имеете в виду? Вы эксперт?)
Пока экосистема складывается так, что экономней не в каждом приборе по микрофону, а в одном, управляющем всеми остальными. Таким путем идет индустрия IoT. Тем более что смартфон (google, nuance) априори лучше распознают ваш голос (настраивают распознание под ваши индивидуальные характеристики). Трудно вынимать смартфон — командуйте через часы (но часы, кстати, не пошли в народ именно потому, что большинству не в лом вытащить смартфон).

Если вы не обязываете юзера запоминать команды, значит у вас должен быть способ понимать одни и те же команды, выраженные по разному. У вас такой есть? Это не простая задача, которая далеко не сводится к синонимам. Для одной функции «включи свет» достаточно и синонимов, хотя тоже могут быть не тривиальными у креативного народа («вруби светило»). Но если будет много команд с общими глаголами, просто так у вас ничего не получится (известная проблема).

Да, эксперт по семантике, у нас проект по семантическому поиску, речевых интерфейсов тоже касались, но сами ими не занимаемся. «Успех» всяких речевых ассистентов говорит о том, что без надлежащего «понимания» того, что говорит юзер реализовать проект будет трудно. Но тут не так много семантики. А вот если вы захотите придать ума и неожиданности своему детищу — вот тут уже сложнее. Диалог реализовать сложно, если не ограничиваться имитацией 12 летнего одесского дауна.

П.С. Прав я или нет, рассудит рынок, а не мы с вами )
«большинству не в лом вытащить смартфон» — ошибаетесь. Рынок умных домов сейчас ещё сырой именно потому, что умные дома сейчас неудобны и примитивны. У вас есть умная лампочка? У меня есть, и я пробовал включать её телефоном, а также с помощью Лекси. Через Лекси — удобнее (он всегда слушает и всегда подключён к лампочке, в отличие от телефона).

Про нетривиальные синонимы для команд вы говорите верно, но «Вруби светило», например, у нас сработает. Как вы предлагаете действовать, если не описывать команды шаблонами, как делаем мы?

Интересно, что за проект вы делаете. У вас есть сайт?
Смартфон тоже постоянно слушает. Hello Galaxy или Ok Google попробуйте. Если лампочка wi-fa, она всегда подключена и к смартфону как и мой принтер, например — я в любой моммент могу что то распечатать со смартфона. Лекси стоит в одной комнате и управляет только тем, что там. А смартфон всегда в кармане, так что вопрос спорный, что тут лучше. Но вам виднее, вы же разрабатываете это, я только высказываю мнение.

Пока у вас только одна лампочка, вы можете обойтись синонимами. Как только у вас их появится много, синсеты (группы синонимов к одной команде) начнут пересекаться. И тут начнется… Распознавать придется команду целиком, а не реагировать на отдельные ключевые слова по шаблону. Свободный порядок слов и многозначность глаголов создают нетривиальные сложности. Я вот и спрашиваю, как вы это решаете, но вы похоже еще до таких трудностей не дошли.

Мы делаем семантический поиск smart-search.info

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации