Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Google Voice Search на Galaxy S

Блог компании Samsung


Компания Samsung и Google анонсировали появление функции «Google Voice Search» в трех смартфонах на Android — Galaxy S (I9000), Galaxy 580 (I5800) и Galaxy 550 (I5500). Голосовой поиск отлично поддерживает русское произношение, в его словаре содержится в общей сложности более миллиона распознаваемых слов, которые были записаны в различных акустических условиях (на улице, в машине, в баре).
Подробнее...
Всего голосов 25: ↑12 и ↓13-1
Просмотры3.4K
Комментарии 13

Квадратный корень из 256 или провал voice search

Разработка под Android

Ироничный обзор новой функции от Google



Многие из нас видели ТВ-рекламу новой функции Голосовой поиск. В ней молодой человек уверенно называет запрос и получает верный результат за секунду.
Так ли просто сделать это, хотя бы в тихой студии, уж не говоря про шумную улицу, на которую ориентированна данная функция?



В видео использованы Acer Liquid и Acer Liquid Metal. Второй сейчас у нас на обзоре. Отличная вещь!
Всего голосов 151: ↑99 и ↓52+47
Просмотры4K
Комментарии 152

Используем Google Voice Search в своем приложении .NET

IT-компании


Функция распознавания речи с некоторого времени доступна в браузере Google Chrome. Посмотреть как это выглядит можно, например, здесь.

Так как исходный Chromium открыт, возникает закономерное желание подсмотреть, можно ли использовать технологию в своих корыстных целях наступления мира на земле.

Как это часто бывает, все уже сделано за нас в этой статье. Все оказывается очень просто, необходимо сделать POST запрос на адрес www.google.com/speech-api/v1/recognize со звуковыми данными в формате FLAC или Speex. Реализуем демонстрацию распознавания WAVE-файлов с помощью C#.

Читать далее
Всего голосов 80: ↑72 и ↓8+64
Просмотры80K
Комментарии 25

История развития систем распознавания речи: как мы пришли к Siri

Искусственный интеллект
Перевод
Оглядываясь назад, мы видим, что развитие технологии распознавания речи похоже на наблюдения процесса взросления у ребенка — прогрессируя от определения отдельных слов, затем все больших словарей и наконец до быстрых ответов на вопросы, как это делает Siri.

Слушая Siri с ее слегка элегантным чувством юмора, мы восхищаемся тем, как далеко продвинулись за эти годы в отрасли распознавания речи. Давайте взглянем в прошлые десятилетия, которые позволили человеку управлять девайсами, используя только голос.
Читать дальше →
Всего голосов 64: ↑50 и ↓14+36
Просмотры7.1K
Комментарии 28

Поиск оптимальной системы аудио распознавания речи с закрытым исходным кодом, но имеющими открытые API, для возможности интеграции

APIМатематика

Вместо введения


Решил немного дополнить отчет, который составлял еще будучи студентом. Прошло время и, как говорится, прогресс не стоит на месте. Технологии распознавания речи динамически развиваются. Что-то появляется, что-то исчезает. Вашему вниманию представляю самые известные речевые движки, которые может использовать разработчик в своем продукте на основе лицензионного соглашения. Буду рад замечаниям и дополнениям.

Содержание:


1. Поиск и анализ цветового пространства оптимального для построения выделяющихся объектов на заданном классе изображений
2. Определение доминирующих признаков классификации и разработка математической модели изображений мимики"
3. Синтез оптимального алгоритма распознавания мимики
4. Реализация и апробация алгоритма распознавания мимики
5. Создание тестовой базы данных изображений губ пользователей в различных состояниях для увеличения точности работы системы
6. Поиск оптимальной аудио-системы распознавания речи на базе открытого исходного кода
7. Поиск оптимальной системы аудио распознавания речи с закрытым исходным кодом, но имеющими открытые API, для возможности интеграции
8. Эксперимент интеграции видео расширения в систему аудио-распознавания речи с протоколом испытаний

Цели:


Определить наиболее оптимальную аудио-систему распознавания речи (речевой движок) на базе закрытого исходного кода, то есть лицензии которой не подходит под определение открытого ПО.

Задачи:


Определить аудио-системы распознавания речи, которые попадают под понятие закрытого исходного кода. Рассмотреть наиболее известные варианта речевых систем преобразования голоса в текст, для перспектив интеграции видео-модуля в наиболее оптимальную голосовую библиотеку, которая имеет открытое API для совершения данной операции. Сделать выводы целесообразности использования аудио-систем распознавания речи на базе закрытого исходного кода под наши цели и задачи.
image
Читать дальше →
Всего голосов 29: ↑21 и ↓8+13
Просмотры82K
Комментарии 10

Android L, Nexus 5, Google Search и все-все-все

Поисковые технологии
Привет, Хабр! Пока любители фруктовых девайсов меряются лопатами и отсутсвующими/запаздывающими фичами, а Siri до сих пор не умеет говорить по-русски, мы можем насладиться прогрессом другой ОС и её сервисов. Под катом можно узнать, что отличает внешне Android L от 4.4.4, каких ресурсов он требует для работы, чего нам ждать от девайсов, которые получат апдейт. Ну и ещё немного расскажу о голосовом поиске, который не так давно получил несколько весомых обновлений, но они прошли как-то мимо Хабра. Все трюки в этом посте выполенны профессиональными смартфонами, повторяйте дома на свой страх и риск.



Читать дальше →
Всего голосов 83: ↑68 и ↓15+53
Просмотры104K
Комментарии 89

Прошлое, настоящее и будущее технологий распознавания речи

Блог компании Инфопульс УкраинаGoogle API
Перевод
image

Голос — это будущее. Мировые технологические гиганты требуют жизненно важной доли рынка, а ComScore прогнозирует, что «до 50% всех поисковых запросов будут выполняться голосом уже к 2020 году».

Однако исторические антецеденты, которые привели нас к этому моменту, столь же важны, как и удивительны. В этом отчете мы отправляемся в путешествие по истории технологии распознавания речи, прежде чем предоставлять всеобъемлющий обзор текущего ландшафта, и даём советы, которые должны учитывать все маркетологи, чтобы подготовиться к будущему.

История технологии распознавания речи


Технология распознавания речи вошла в общественное сознание сравнительно недавно, с блестящими событиями запуска от высокотехнологичных гигантов ведущих мировых трендов.

Наше восхищение является инстинктивным: мы очарованы машинами, которые могут понять нас.

С антропологической точки зрения, мы разработали произносимое слово задолго до его письменного аналога, и мы можем говорить по 150 слов в минуту, по сравнению с ничтожными 40 словами, которые среднестатистический человек может написать за 60 секунд.

Фактически, общение с технологическими устройствами с помощью голоса стало настолько популярным и естественным, что мы оправдано задаемся вопросом, почему самые богатые компании в мире только сейчас начали предоставлять нам эти услуги.

История технологии показывает, что распознавание речи далеко не новая озабоченность, даже если темпы развития не всегда соответствовали уровню интереса к этой теме. Как мы видим впоследствии, крупные прорывы, относящиеся к XVIII веку, обеспечили платформу для цифровых помощников, о которых мы все сегодня знаем.
Читать дальше →
Всего голосов 13: ↑13 и ↓0+13
Просмотры8.2K
Комментарии 8