Pull to refresh

Comments 49

Хотим больше гик-порно!!! А то читать вот это не очень интересно:
Она основана на специальном модуле, который описан специальным стандартом

Что за проц, сколько памяти, у каких китайцев купили?
Гик-порно мы не очень умеем, но будем учиться)
Рома (Wicron) промахнулся немного комментом, он ниже привёл характеристики. Вот ещё порно-деталей можно из него вытянуть в комментах.
Мне понадобилось минут 10, чтобы найти информацию о том, что же ваш Лекси умеет. Я правильно понял, это такой Amazon Echo, только в 3 раза дороже, без амазона, но с возможностью обижаться?

На самом деле крутой проект, удачи вам и все такое, но чего так дорого-то?
Echo мы тестировали, с ней невозможно общаться: во-первых, долгий пинг очень раздражает, диалог всё время обрывается. Во-вторых, любую фразу, обращённую к Алексе, надо начинать со слова «Алекса, ...». Если интересно, попробуйте с женой или товарищем так пообщаться — это трудно, убого и неестественно.
У нас своё оффлайновое распознавание, поэтому мы не завязаны на активационные фразы а-ля «Алекса, ...».
Ну и у нас много других фишечек, мне больше всего нравится концепция контекстного распознавания речи: когда система распознавания речи взаимодействует с виртуальным собеседником, чтобы учитывать контекст разговора, повышая качество и скорость распознавания.
Интересно. Удачи вам!

А распознование и синтез речи прямо совсем свои? Или какие-то библиотеки использовали?
Спасибо! Следите за нами, мы будем бета-тест проводить, обратная связь нам очень полезна.

Распознавание у нас совместное с отечественной компанией «Стэл»: адаптировали под ARM, строим языковые и акустические модели конкретно под Лекси, в общем.

Синтез — из open source, тоже отечественный (RHVoice, на гитхабе есть). Мы для этого синтеза умеем делать свои голоса для своих роботов.
Вообще то фраза «Алекса, ...» служит для того, чтобы «интеллектуальный помощник» случайно не выполнил команды, которые вы дале жене, а не ему.

Но интересней другое — как вы учитываете контекст и поддерживаете диалог? Чат бот логика или что то другое?
Как вариант можно общаться с роботом на специальном языке. Что бы не было путаницы кому выдана команда. Но с другой стороны, было бы хорошо, если робот учитывал сколько собеседников поблизости и следил за контекстом каждого.
Специальный язык — плохо, не юзабильно. Его придется учить, а пользователь ленив (не гик). Следить за контекстом — адски сложная задача, поэтому и спрашиваю, как вы ее решили. А распознать из контекста, что речь обращена к тебе, почти невозможно без поддержки визуального контекста.
Основы визуального контекста уже созданы. Так например Гугл в хранилище фотографий связывает реальные имена, реальные места и ссылки на реальные вещи, которые есть на фотографии. В идеальном мире, послав на сервер фотографию, вы получите и имена и перечень предметов и место где это происходит :-) В реальном мире, видимо надо делать свою базу данных с алгоритмами идентификации возможных деталей происходящего.
В визуальном контексте только есть наметки у таких гигантов как Google, но полностью рабочего варианта нет и у них. И вам я бы посоветовал искать более реалистичные пути )) Лучше исходить из речевого контекста, обращение к прибору — это не так сложно и вполне юзабельно для юзера. Так делают Google (Ok, google), Samsung на телевизорах и другие. Они тем самым создают вполне привычную модель поведения. И поверьте, они проверили ее на юзабельность, прежде чем внедрять. Так что не стоит тут придумывать что-то сложнее. А вот поддерживать контекст — это задачка важнее. Многие согласны с тем, что речевые интерфейсы не приживаются именно из-за этого. Поясню.

Просто команды мало интересны, легче включить музыку или лампочку с экрана смартфона, чем командовать прибору, стоящему где-то в одной комнате, да еще к тому же не уверенно слышащему (не 100%). Поэтому умный дом сейчас активнее и проще развивается на смартфоне такими уже распространенными программами как IFTTT.

Понимания заданного списка команд причем с предзаданной лексикой (сказал иначе — промах) — это не интересно. Поиграться на пару дней и отложить в угол. Вам же, чтобы выжить, надо дать новый экспириенс юзеру, из-за которого он будет готов общаться с вашей игрушкой. Дать то, что будет поддерживать к нему интерес больше, чем к командному пункту. Умение поддерживать диалог, исходя из контекста, и наличие общей «картины мира», о есть представления о чем может говорить человек. Нужно понимание расширенного контекста, так как ни одно предложение не содержит всю информацию об обстоятельствах речи. Без этого любая такая игрушка — тупое баловство, претендующее только на место в пыльном шкафу.

Ваша игрушка должна содержать что-то человеческое, быть неожиданной для ее хозяина. Как это сделать? Вы сильны по железу, это уже хорошо. Но по семантике вам видимо еще надо расти и расти. Обращайтесь если что )
Мои игрушки другие и я не участвовал в создании Лекси. У меня просто системы наблюдения с расширенными возможностями и фильтрами (изображения, звука).
Извините, принял вас по ответам за автора проекта )) Продублирую авторам тогда.
Если учитывать стоимость. То на сегодняшний день это 720P камера с микрофоном это доступный сенсор. Только из звука в помещении, да ещё с музыкой или на улице с шумом потока машин или соседских детей сложно фильтровать только речь. Либо надо расставлять по помещению целую сеть микрофонов, либо использовать гироскоп на мобильном телефоне в качестве микрофона или да же специальную гарнитуру.

Всё это выглядит сильно надуманным решением если китайский пульт управления RGB светом составляет 1$ из 10$ стоимости 5м LED ленты. Использовать оборудование стоимостью 30-100 евро для того же самого управления просто не рентабельно и не разумно.

Поэтому если использовать оборудование за 100 евро — то лучше сразу работать с видео — это то же сигнал но двухмерный или трёхмерный, в случае стерео-камеры.
Текст адаптирован для широкого слоя аудитории, в том числе для детей.
то есть автор не понимает какая аудитория у ресурса, какие ожидания, что интересно в первую очередь? Ок.
не понимаю ваш ответ, простите.

Если на ресурсе, 80% (условно, по закону 80/20) аудитории предпочитает технические подробности и конкретные факты, то «толерантный текст», который в равной мере ориентирован на оставшиеся 20% в виде «изложения для детей», фактически суть проявление неуважения к этим самым 80%.
Единственное разумное объяснение — когда неизвестен расклад, тогда «бъют по площадям».

Но еще раз простите, это Хабр, и расклад тут известен.
В этом проекте базовым вычислительным элементов рассматривается не процессор, а больше модуль. Это сделано для улучшения поддерживаемости. На вооружение был взят стандарт EDM.
В модуле, представленном в этой статье:
— 4х ядерный CortexA9 процессор 1.2 ГГц IMX.6
— 2 Гб ОЗУ DDR3 533 МГц
— NAND eMMC 4.41 накопитель 4 Гб
— совмещенный BT LE+WiFI BCM4330 чип
— сетевой Ethernet контроллер 1Гбит
Amazon Echo выпущен лишь в экспериментальной ограниченной партии. Его цена не является окончательной. Скорее отражает его себестоимость. Более адекватной является цена недавно анонсированного изделия компании Sony (300$) с функциями Echo. Сам по себе Echo неплох, у нас есть один такой. Но это ТОЛЬКО музыка. Это колонка. Ее распознавание заточено в основном на проигрывание треков. Смущает также принцип первичной настройки для подключения ее к Интернет. Она создает свою сеть. Так к примеру, будучи извлеченной из коробки, она создала сеть в том же диапазоне, в котором была создана рабочая сеть, в результате в офисе пропал Интернет. Само подключение в силу интерференции, проходило долго — процесс не отлажен, вследствие этого порог входа высокий. Будет не мало возвратов.
Да просто как всегда будет — Алекса окажется в пыльном углу через месяц использования.
Лекси — автономный прибор по своей идее. Голосовой интерфейс не терпит зависимости от качества Интернет. Если вы попробуете пользоваться им часто, то непостоянное время ответа рано или поздно достанет вас своей тупизной. Вы будете расценивать собеседника как тормоза. Не возникнет привыкания к постоянству услуги, не будет зависимости от ее отсутствия. Мир постоянно колеблется между подключенными гаджетами и принципом «все включено», Прогресс в мобильных процессорах позволяет делать такие гаджеты, имеющие на борту и синтез, и распознавание, и собеседника. Лекси — такой прибор.
Вот теперь понятно в чём отличие (CortexA9) от OLinuXino. Впрочем у Olimex есть SoM с CortexA9 RK3188-SOM-4GB.

В Европе лучше использовать поставщиков из Европы с гарантией качества. Тем более что цены близкие. Такие же примерно устройства, как в обзоре но с 3 камерами и USB-микрофонами встроенными в камеры мы ставим с декабря прошлого года местным клиентам в Испании.
Pocketsphinx тестировали два года назад — очень плохо. RHVoice хорош.
Но pocketsphnx это распознавание, а не синтез?
Да, распознавание. Моё сообщение было про то, что в указанной ignat99 связке покетсфинксовское распознавание — ужасно. Точнее, для распознавания ста команд оно подойдёт, но для общения — никак.
Olimex и Цветан Усунов плотно работают с Allwinner. Мы также официально плотно работаем над новым модулем на базе 8ядерного процессора А80, работы начаты. Осенью будет новая Лекси с очень быстрым распознаванием и ответами на вопросы. Мы стараемся локализовать технологические платформы внутри себя. Стараемся снижать зависимость от внешних поставок и становиться по возможности поставщиками из комплектующих.
Мы покупаем у Olimex компоненты для другого проекта. Увы, с качеством болгарских комплектующих не всё хорошо, у нас идет выборка с КПД примерно 80-90%.
Очень интересная информация. Вы могли бы уточнить, о каких конкретно комплектующих вы говорите?
Это дисплеи. Сами по себе, они качественные. Проблема — в драйвере.
Дисплеи из следующей номенклатуры:
— LCD 4.3 TS
— LCD 7 TS
— LCD 10 TS
Одна из причин неполадок была найдена, но Цветан и Олимекс не стали править ее. В новой версии мониторов еще более усугубили ситуацию. Проблема чисто статистическая. Проявляется иногда. Она связана с тем, как спроектирована маленькая плата позади монитора.
Напишите мне в личку, могу дать контакты самих драйверо-писателей. Их там всего 2-3 человека штатных, видимо на весь спектр устройств не хватает людей (Не Samsung). Поэтому они принимают пулл реквесты охотно в свои репозитарии и держат весь код открытым.
Про это я в курсе. Я пишу Цветану иногда. Я бы с радостью принял контакты именно Samsung. Потому что мы еще «собаку съели» на их платформе Exynos, которую есть потенциал развивать и делать на ней изделия дальше.
Пишите в личку. Контакты из Samsung вряд ли вам помогут. Samsung Electronics не предоставляет полную техническую информацию и открытый исходный код для всех проектов. Так же работники Samsung не имеют права делиться любой технической информацией и не будут, скорее всего делать изменения в коде или учитывать ваши пожелания. Решения принимают менеджеры и тим. лидеры. А OLinuXino A20 дройвера полностью работают IMHO. Для Exynos были какие-то образы новые на Ubuntu. Но кажется не всё из драйверов там готово. У меня есть 1 Exynos устройство, покупали давно.
Exynos — вне конкуренции. Все сделано очень хорошо. Все драйверы есть. Мы пошли по пути Allwinner, но изделие Samsung — мечта. Делать свои изделия на платформе 4 и 5 поколения — так и осталось недостижимым событием. Слишком сложный чип для монтажа, очень маленькие нормы на топологию, большое количество потребных слоев, достаточно высокая плотность компонентов и отсутствие профилей пайки не позволили получить с конвейера достаточно годных модулей на базе Exynos. Как это делает Hardkernel, я не знаю, но очень хочу разобраться.
Да есть 2 компании с хорошей технологической основой Intel и Samsung. Обе проамериканские. У Samsung Electronics есть 2 основных производственных базы в Сувоне и в Гуми в Ю.Корее. Вице президенты компании, часто из Йельского университета. Каждая производственная база имеет минимум 2-3 команды по производству железа, и 10-20 по производству софта.

Часто Samsung открывает дочерние компании с целью проверить эффективность бизнес модели. Если модель оказывается не эффективной, такие организации продолжают существовать самостоятельно. Так же Samsung Electronics имеет множество внутренних и внешних суб-подрядчиков. Одним из которых может быть и Hardkernel.

Суб-подрядчики имеют доступ к технической документации, тестовым стендам и хорошим проджект процессам с оплаченными дорогими инструментами контроля качества кода но только в рамках их проекта.

Тем не менее, если говорить об нововведениях и новых проектах, часто не крупные компании из Китая лидируют, но, конечно не могут поддерживать нововведения уровня www.artik.io
Очень информативно. Напишу вам в личку. Спасибо. Поделюсь своим замыслом по линии Samsung. По ссылке Artic 10 напоминает то, что увы, пока не взлетело на чипах от Samsung у нас.
В Samsung корень проблем — это дистрибуция их чипов, потому что с виду она напоминает закрытую деятельность. Чипы есть в очень ограниченных количествах на открытом рынке. Производство на базе них плат также сильно ограничено из-за этого. Каких-то общепринятых моделей поддержки пока не замечено. Чипы есть на рынке по 2 года, потом их трудно найти. Есть также чувство, что даже самой компании чипов не хватает. Причина дефицита этой продукции мне не ясна. Рынок готов потреблять ее в огромных количествах. Почему компания не занимается розничной дистрибуцией чипов для кастомных решений, мне не понятно.
Возможно продают крупному бизнесу чипы. К тому же у них только завод в Гуми ещё 10 лет назад по 1 000 000 устройств в день мог выпустить. Так что возможно всё уходит внутренним заказчикам.
Неужели так сложно было снять радиатор с EDM модуля? Или было стыдно показать, что вас стоит EDM1-CF-iMX6?
А есть где нибудь обзор не электроники и распознания речи, а лингвистических способностей вашей штучки. И хорошо бы сравнение ее с другими аналогичными проектами (их уже не мало) по одинаковым фразам. Насколько я понимаю, что чат-ботная технология, что есть предзаданные команды. В связи с этим интересно как вы учитываете контекст, точнее сказать, историю диалога?
Просто команды мало интересны, легче включить музыку или лампочку с экрана смартфона, чем командовать прибору, стоящему где-то в одной комнате, да еще к тому же не уверенно слышащему (не 100%). Поэтому умный дом сейчас активнее и проще развивается на смартфоне такими уже распространенными программами как IFTTT.

Понимания заданного списка команд причем с предзаданной лексикой (сказал иначе — промах) — это не интересно. Поиграться на пару дней и отложить в угол. Вам же, чтобы выжить, надо дать новый экспириенс юзеру, из-за которого он будет готов общаться с вашей игрушкой. Дать то, что будет поддерживать к нему интерес больше, чем к командному пункту. Умение поддерживать диалог, исходя из контекста, и наличие общей «картины мира», о есть представления о чем может говорить человек. Нужно понимание расширенного контекста, так как ни одно предложение не содержит всю информацию об обстоятельствах речи. Без этого любая такая игрушка — тупое баловство, претендующее только на место в пыльном шкафу.

Ваша игрушка должна содержать что-то человеческое, быть неожиданной для ее хозяина. Как это сделать? Вы сильны по железу, это уже хорошо. Но по семантике вам видимо еще надо расти и расти. Обращайтесь если что )
Про лампочку вы не правы: чтобы включить свет через смартфон, нужно секунд 8. Голосом — 3. И не нужно никуда лезть за телефоном.
По поводу лексики — мы не обязываем пользователя запоминать формат команд.

А что вы про семантику имеете в виду? Вы эксперт?)
Пока экосистема складывается так, что экономней не в каждом приборе по микрофону, а в одном, управляющем всеми остальными. Таким путем идет индустрия IoT. Тем более что смартфон (google, nuance) априори лучше распознают ваш голос (настраивают распознание под ваши индивидуальные характеристики). Трудно вынимать смартфон — командуйте через часы (но часы, кстати, не пошли в народ именно потому, что большинству не в лом вытащить смартфон).

Если вы не обязываете юзера запоминать команды, значит у вас должен быть способ понимать одни и те же команды, выраженные по разному. У вас такой есть? Это не простая задача, которая далеко не сводится к синонимам. Для одной функции «включи свет» достаточно и синонимов, хотя тоже могут быть не тривиальными у креативного народа («вруби светило»). Но если будет много команд с общими глаголами, просто так у вас ничего не получится (известная проблема).

Да, эксперт по семантике, у нас проект по семантическому поиску, речевых интерфейсов тоже касались, но сами ими не занимаемся. «Успех» всяких речевых ассистентов говорит о том, что без надлежащего «понимания» того, что говорит юзер реализовать проект будет трудно. Но тут не так много семантики. А вот если вы захотите придать ума и неожиданности своему детищу — вот тут уже сложнее. Диалог реализовать сложно, если не ограничиваться имитацией 12 летнего одесского дауна.

П.С. Прав я или нет, рассудит рынок, а не мы с вами )
«большинству не в лом вытащить смартфон» — ошибаетесь. Рынок умных домов сейчас ещё сырой именно потому, что умные дома сейчас неудобны и примитивны. У вас есть умная лампочка? У меня есть, и я пробовал включать её телефоном, а также с помощью Лекси. Через Лекси — удобнее (он всегда слушает и всегда подключён к лампочке, в отличие от телефона).

Про нетривиальные синонимы для команд вы говорите верно, но «Вруби светило», например, у нас сработает. Как вы предлагаете действовать, если не описывать команды шаблонами, как делаем мы?

Интересно, что за проект вы делаете. У вас есть сайт?
Смартфон тоже постоянно слушает. Hello Galaxy или Ok Google попробуйте. Если лампочка wi-fa, она всегда подключена и к смартфону как и мой принтер, например — я в любой моммент могу что то распечатать со смартфона. Лекси стоит в одной комнате и управляет только тем, что там. А смартфон всегда в кармане, так что вопрос спорный, что тут лучше. Но вам виднее, вы же разрабатываете это, я только высказываю мнение.

Пока у вас только одна лампочка, вы можете обойтись синонимами. Как только у вас их появится много, синсеты (группы синонимов к одной команде) начнут пересекаться. И тут начнется… Распознавать придется команду целиком, а не реагировать на отдельные ключевые слова по шаблону. Свободный порядок слов и многозначность глаголов создают нетривиальные сложности. Я вот и спрашиваю, как вы это решаете, но вы похоже еще до таких трудностей не дошли.

Мы делаем семантический поиск smart-search.info

Only those users with full accounts are able to leave comments. Log in, please.