Как стать автором
Обновить

Комментарии 93

А как можно защитить свой голос от таких систем? Ну кроме всяких банальных вещей вроде платка и издевательств над голосовыми связками…
Легкий distortion/overdrive и компрессия, питчер, вероятно, помогут избавиться от «характера» звучания голоса. Можно попробовать незначительно ускорить/замедлить речь.
Ещё вокодер изобретали специально для этого.
Скорее всё же для уменьшения объёма информации, передаваемой по каналу связи.
И где-то здесь кто-то путает вокодер и скремблер.
В теории — никак, потому что ваш голос уникален.

На практике — оставлять меньше информации для анализа (в том числе, везде, где ваш голос может быть записан), использовать разное звуковое окружение, шумные линии, специально наведённые помехи, пытаться говорить с акцентом. Думаю, если говорить без зубов, вас тоже не распознают. Но если так делать, вы будете как минимум подозрительны для сотрудника колл-центра.
А как быть с ситуацией, когда «на слух» у двух людей голос похож, даже, пожалуй, идентичен (два брата, знакомые)? Данная программа все равно найдет отличая в голосе и однозначно их идентифицирует?
Ситуация примерно как с определением близнецов сканером лица. С точки зрения человека они одинаковые, с точки зрения точных алгоритмов — очень разные. У близнецов это особенности характера и разное развитие мимических мышц, у людей с похожими голосами — как минимум разные особенности произношения разных слов. Ну и микроразличия, которые «слышит» точная система.
А в чем все-таки суть процесса? Распознается манера речи? Спектральный состав (он же тоновый)? Звуковые сигнатуры?
Что ищут? Или там только «закрытые алгоритмы» и ничего более вы сказать не можете?
Извините, не имею права.
Без технической информации пост неполон.
Думаю для спектрального анализа нужно слишком много ресурсов или времени. Скорее всего основой является амплитудный анализ. Исходя из текста, где говорят о переходных моментах в звуках, можно предположить анализ ADSR-огибающей. На втором месте я бы поставил тоновый анализ, как в тюнерах для гитар. И на последнем темп.
Скорее всего какая-то эвристическая комбинация из этих методов и, может быть, шумоподавление. Хотя шумоподавление может как раз ухудшать распознавание.
Вроде Яндекс производит спектральный анализ и поиск по базе отпечатков в реальном времени в своем поиске музыки.
Не смог найти. Если есть где почитать — подскажите, пожалуйста.
Насколько я знаю, сервисы поиска по музыке и голосовых команд используют амплитудный анализ. Намного меньше данных надо обрабатывать.
Спасибо. Исчерпывающе ;)
Интересно, для голосвых отпечатков проще алгоритм используется?
Говорить в распознавалку, распознанный текст озвучивать другим голосом.
НЛО прилетело и опубликовало эту надпись здесь
Дело в том, что помимо интонации и тембра есть еще варианты с определением по построению фраз и использованию определенных оборотов речи. Вот в таком случае, хоть вы через набор слов на компьютере с последующей озвучкой, будете общаться все равно вас идентифицируют. Хотя это уже более продвинутый метод и в банках, я думаю его по полной не используют. Хотя наверняка незнаю :)
Сеошники со своими генераторами «уникальных» текстов смеются :)
Нос зажать! И интонации Володарского использовать.
Движок text-to-speech и навыки быстрого набора.
Сто пятьдесят граммов коньяку изменят ваш голос:)
«Итак, вы наговорили на целую минуту или даже больше „

Так вот зачем они заставляют по 10 раз повторять ФИО, девичья фамилия матери и т.д.
На кошках тренируются.
Вроде бы замечательная технология. Даже интересно, как гос. структуры умудрятся использовать её во вред людям.
Теперь они найдут тысячу причин не выпускать из этой страны, что бы Вы до конца своих дней мучались
Во вред простым людям это слишком затратно. Но при надобности, найти определенную личность — запросто. Такая штука в связке с СОРМ-2 очень хорошо находит злоумышленников :)
Или инакомыслящих :(
было бы неплохо услышать комментарии от минусующих. аккаунты гос служащих на хабре, иль мои слова выглядят слишком пессимистичными?
НЛО прилетело и опубликовало эту надпись здесь
Извините, был не в курсе. Исправлюсь.
НЛО прилетело и опубликовало эту надпись здесь
all of them

сбербанк наверное как всегда в стороне как особо замшелый, но остальные — наверняка :)
Вы слишком высокого мнения об информационных инфраструктурах банков.

Сбер, кстати, один из наиболее технологичных (вы только не смотрите на компьютеры операционисток, это ну совсем ни о чем не говорит).
Если и есть то у единиц на данный момент, либо на стадии внедрения
Если не ошибаюсь, по закону они обязаны уведомлять вас об этом при разговоре.
Ну так и говорят же что голос записывается!
Все европейские, американские банки. Список настолько большой, что проще сказать где подобной системы нет.
Скажите где есть.
Я понял! Заказчик всех популярных караоке-приложений на самом деле ФСБ.
Наверное многие замечали, что у пьяного человека голос меняется — и тембр, и темп. А система поймет, что тот же человек?
Проверял. Поймет.
Должна понять, хотя такие тесты мы пока не проводили. Не стоит забывать, что сам по себе оператор заподозрит что-то несвязанное в речи клиента на том конце провода. Тем не менее, спасибо, подумаем сегодня вечером о методологии.
Взять бутылочку коньяка и посидеть подумать в узком кругу :)
НЛО прилетело и опубликовало эту надпись здесь
>Правда, пока это не очень реально – на большой выборке будет много ложных срабатываний.

Ну тут все зависит от ситуации. Не всегда ведь надо на 100% установить личность.
Иногда достаточно отсеять всех 100% неподходящих, тем самым сузив круг возможных вариантов.
Система офигенно крутая. Отлично идентифицирует все ваши заболевания уха", горла, глотки, даже носа". Только местами немного так ошибается:
Грубо говоря, звонок по шумной линии даст только 80% точности.

Бегите, покупайте скорее.
База PRISM + голосовые отпечатки + Watson (ИИ от IBM) + Boston Dynamics = SkyNet
Отечественный СОРМ забыли
Зато он помнит =)
Не заметил в статье, но защищены ли такие системы от проигрывания злоумышленником сделанной ранее записи или нарезки из записей?
Нет конечно. Но в случае банков это — лишь один из факторов аутентификации. Другим может быть телефонный номер звонящего. Третий — кодовое слово. Такая система будет очень непробиваема: мошеннику потребуется одновременно и украсть телефон жертвы, успев позвонить до блокировки карты (либо послать вызов с подменой CID, но не все так могут, и это очень палится по CDRам операторов), и каким-то образом пройти голосовую аутентификацию (на мобильнике запись голоса едва ли найдется), и знать кодовое слово абонента.
От жены не спасёт :(
У ЦРТ есть публично доступный номер телефона (в коде 812), позволяющий бесплатно протестировать эту технологию — можете попробовать обмануть ее или добиться ложного отказа, у меня не вышло. Так как я не хочу обвалить их телефонию хабраэффектом, в паблик выкладывать информацию не буду. Кому интересно — обращайтесь в личку, пришлю ссылку.
… И в конце теста «железная тётя» говорит что-то вроде: «Спасибо за проявленный интерес, ваш войспринт сохранён в нашей базе, и мы его передадим в базу потенциальных фродеров, спасибо за артистизм, особенно за это контр-сопрано из пластикового ведра от IKEA! »?
Да вы, батенька, остряк…
Не надо искать заговоры там, где их нет. Тот номер — прежде всего рекламный, для потенциальных клиентов, и они ожидают, что потенциальные клиенты будут пытаться обмануть систему. Наверняка они сохраняют записи в собственной базе для дальнейшего анализа и доработки алгоритма. Мне не жалко.
Я вот не хотел бы, чтобы мой голос хранился 50-60 лет ради обкатки алгоритмов. На практике примерно так и случается, данные крайне редко удаляются. Звонок в такой тестовый узел — отличный шанс войти в историю.
Я реалист, ибо уже третий call-центр имею «счастье» слушать/руководить/оптимизировать/бэкапить и пр.
Перлы весны и осени храню в отдельной папке, друзья-товарищи с как ни странно, подобной профессией, занимаются тем же.
И под рюмку чая так приятно прослушать что-либо новенькое! Но это уже реже и реже, поднадоело…
Так о чём… а, записи хранятся годами(!) И многие участники разговоров уже совсем далече, но доставляют…
Дома и лично (или с коллегами) слушать ладно, но распространять среди тех, кто доступа к этим записям не имеет, имхо, и незаконно, и аморально.
Такие системы пока настолько «непослушные», что говорить про параною просто смешно.
Даже системы распознования речи (из известных мне существующих) не очень хорошо отличают извините «баба» от «бомба» в беглой речи (ну т.е. когда вы просто разговариваете, а не выговариваете специально) и это при том, что современные системы распознования речи имеют на борту контекстные словари и т.д. и т.п. А создать такой уникальный отпечаток, а главное за конечное время его проверить (realtime) настолько сложнее чем «просто» распознать текст, что я даже не знаю с чем эту разницу по сложности сравнить. Ну пусть для примера, это как огромную распределенную нейронную сеть сравнить с вордовым макросом на бейсике.
Правда, пока это не очень реально – на большой выборке будет много ложных срабатываний.
А вот в это верю сразу и к сожалению пока надолго, только думается, что и не на большой выборке тоже. И порог откуда они (ложные срабатывания) начинаются лежит врядли выше 1000 или даже 100 человек (это если не специально подбирать эту сотню с разными голосами).
А по теме, встречал подобные системы узнования в европейских банках — это просто дополнительный параметр, который указывает девочке из call-центра, что нужно бы проверить этого клиента детальней (кроме даты рождения спросить например почтовый индекс или кодовое слово). Но я сильно сомневаюсь, что если специально найти человека с похожим баритоном даже не меняя манеру речи, эта «контрольная лампа» загорится вообще. Как правило это еще и вероятностная характеристика — например 50% что это хозяин счета. Что делает девочка в этом случае — правильно, забивает на этот параметер (по крайней мере если выше 10-20% — хотя ниже 50% оно красное).
Да вот еще пример: у меня есть два очень хороших знакомых, друг другу не родственники. Так вот на слух по телефону (хорошая европейская линия) за первые пол минуты я их НЕ различаю, если они не представились — они об этом знают и всячески пользуются. (И не только со мной кстати).
И это человек, с музыкальным слухом, со всеми своими милиардами межнейронных связей и т.д.
Может и не типичный пример, но…
Мы лица то компьютером только только распознавать научились и то на статичных картинках. А тут звуковые колебания.
Странный пример. А вы вот RGB 000000 от 000001 на глаз отличите? С миллиардами межнейронных связей?
И непонятно, при чём тут распознавание речи вообще. Это две разных по сложности и подходу вещи.
Ну у вас пример еще не корректней, даже простите глупый. Да не отличу, также как гармонику пианино от фортепиано (в графическом представлении). Но на слух отличу на раз.
А вот вы белку от крысы отличите? И даже в потемках я думаю. И пробегающую. А теперь представте алгоритм для софта который это сможет. И даже пусть засветло…
Теперь понятней про миллиарды связей?
А про распознование речи — это пример сложности, для тех кто не никогда не занимался ни тем ни другим. Извините, удачней примера нет.
А теперь представте алгоритм для софта который это сможет

Ну...

Только задача распознавания речи куда сложнее, чем голосовой фингерпринтинг.
А мой телефон вполне неплохо в оффлайне распознает беглую речь.
Ну...
Тот «ну» я видел, знаете не впечатляет до такой степени (в контексте «белка-крыса»).
Только задача распознавания речи куда сложнее, чем голосовой фингерпринтинг.
Вам самому не кажется это предложение парадоксальным — распознать слова сложнее, чем выделить отпечаток или сравнить его с другим?

Вообще-то как раз наоборот — много легче, потому что можно юзать дополнительные компоненты (словари и контекстные фильтры), то что НЕЛЬЗЯ использовать при снятии отпечатка. Там важнее раздичить гармоники, всякие пришептывания, уникальные тембры, причем отделить это все от интонации и т.д. Например из за этого на слух китайский и японский языки очень сложны в понимании.
А на счет распознавания речи, вы попробуйте сказать вашему телефону белиберду типа "Гло́кая ку́здра ште́ко будлану́ла бо́кра и курдя́чит бокрёнка". Тогда все вспомогательные инструменты (фильтры, словари) не работают (или работают наоборот, не в ту сторону). Посмотрите тогда на ваше «распознование». Однако на слух, вы возможно даже сможете повторить эту фразу (и даже разложить где подлежащее, глагол и сказуемое).
не впечатляет до такой степени (в контексте «белка-крыса»).

Те примеры, где он ошибся — да, там и человек мог бы ошибиться. Я бы тоже с некоторым сомнением назвал первую тварь змеей.
Вам самому не кажется это предложение парадоксальным — распознать слова сложнее, чем выделить отпечаток или сравнить его с другим?

Не кажется. Распознавание — это сравнение с огромной базой образов. А выделение отпечатка можно лучше формализовать, да и сравнение ведется лишь с одним сохраненным отпечатком (в случае задействования при аутентификации). Это недаром называется «отпечаток», тут многое от другой биометрии. Скажем, дактилоскопия — вас не удивляет то, насколько точно сканеры отпечатков отрабатывают на движение пальцем — под любым углом, с любой скоростью, нажимом?
вы попробуйте сказать вашему телефону белиберду типа «Гло́кая ку́здра ште́ко будлану́ла бо́кра и курдя́чит бокрёнка».

Он прощает небольшие отклонения от текста, а большие — нет. Это скорее фича, чем баг. Если сказано «назови фамилию-имя», то надо назвать фамилию-имя, те, что произносились при изначальном программировании. Система разработана под одну конкретную цель.
Распознавание — это сравнение с огромной базой образов
Вы не правы. Немного эвристики и стем-фильтр собирают до 100 слов на каждое произнесенное, семантический разбор (фильтр), получаем до 20 слов, если с обратной связью до 5, контекстный фильтр по всему предложению сужает затем до одного на каждое произнесенное.

Про дактилоскопию уже ближе, но как раз тут нельзя сравнивать со звуком — это как в том примере про один бит в RGB (бит как раз не важен, важна совокупность их). Так вот выделить папиллярные линии на моментальном изображении это, простите за тавтологию, как два пальца… по сравнению с «формализацией» той же гармоники, а у нас есть еще тембр, высота, длительность, спектр (теплый, холодный, металлический, стеклянный и т.д.), атака обертонов,… я вам еще десяток «формальных» признаков голоса назову. И все это нужно отделить как раз от интонации, иногда и от произношения слов, потому что это и много других изменчивых параметров зависят от настроения, трезв ли или болен ли человек и так далее.
Поверьте, я знаю о чем говорю — участвовал в разработке и того и другого.

Это скорее фича, чем баг.
Это не фича — это к сожалению на настоящий момент «производственная» необходимость. Пока только так, потому что однозначное безошибочное разпознование любого отдельно взятого слова (вне контекста) нереально сложная задача и тогда сравнима со взятием отпечатка голоса.

Хватит лирики — теперь по делу: из статьи не понятно ничего, никаких технических деталей, даже намеков нет. По ящику как-то показывали человека, который видит с закрытыми глазами, так вот в том репортаже смысловая нагрузка была та же, что и в статье. Никакой — просто чистый пиар.
из статьи не понятно ничего, никаких технических деталей, даже намеков нет

Согласен, не вполне правдоподобно. Разработчик такой системы должен был бы засветиться презентациями и демонстрациями.
ЗЫ Еще на тему телефонной паранои
Я тут что подумал, что нужно немного уточнить о чем мы говорим — отпечаток голоса можно построить на апроксимации или абстракции входного потока: каждый параметр выделен в первом приближении и абстрагирован до какого-либо индекса. Это давольно просто, но к сожалению очень и очень не точно. Например, голос:
1) звонкий + 2) металлический + 3) низкий + 4) резонирует + 5) обертона не гармонические (не мелодичный) + 6) слова выговаривает со скоростью X в 10 секунд и т.д.
Оно будет работать, но я например знаю где-то десяток таких людей. Конечно можно взять колличеством параметров (абстракций). Но про параною (см. начало ветки) говорить точно рано и смешно. Еще раз напомню цитату автора статьи:
Правда, пока это не очень реально – на большой выборке будет много ложных срабатываний.

Это сравнимо с дактилоскопией, когда ищут группы отпечатков, но уточняется отпечаток по более точным параметрам (в плоть до построения пути каждой линии, групп линий).

Есть и довольно много более четких параметров, которыми можно было бы уточнить отпечаток голоса, к примеру — угол атаки при произношении буквы «а» после «к» всегда равен «20» и т.п. Но как раз взятие таких параметров (отделение их от интонации и т.д.) не сравнимо по сложности с дактилоскопией (по крайней мере — в рилтайм).
«В круге первом» напомнило.
Звуковиды позволяют глухим говорить по телефону.
Тоже первая мысль
Достаточно разговаривать «с нажимом». Всё. Голоса становятся похожи, что это даже доставляет проблемы при озвучке фильмов. Озвучили три актёра, голоса явно разные, слушаешь — как будто за всех читал один человек. Причём люди опытные как звукорежиссёр, так и актёры — однако вот же засада.

Ничуть не гипотетическая ситуация.
Что такое «с нажимом»?
НЛО прилетело и опубликовало эту надпись здесь
Десять лет назад меня занесло поступать на закрытую специальность одного из факультетов СамГТУ, где с нас брали голосовые отпечатки при оформлении пропусков (небольшая ремарка — специальность связана со взрывчатыми веществами, помимо студ. билетов выдавали пропуска на закрытые кафедры). Объяснили тем, чтобы выявлять шутников (телефонные звонки о заложенных бомбах и пр.). Исходя из этого смею предположить, что вышеописанные технологии используются в нашей стране более 10 лет.
Странное объяснение. Вряд ли студенты такой специальности будут шутить о бомбах, скорее это будут не шутки.
Ну так это то, что и требуется. Определить степень угрозы. Если «шутник» имеет подобное образование, то звонок надо принимать гораздо серьезнее. Уже хорошо. Не говоря о том, что при совпадении сразу будет известна личность «шутника». Что само по себе уже очень много.
А синтезировать голос на основе такого отпечатка можно?
Можно ;)
А сгенерировать пароль по хэшу?
Можно. И даже не один.
Распознавание по голосу как было самой ненадёжной биометрической технологией, так ею и остаётся. Про сравнение методов биометрии, например, тут — habrahabr.ru/post/126144/. Оно менее надёжное чем распознавание по лицу.
При базах в 1000 человек там статистической значимости не будет никакой.
Конечно, как и любую прочую технологию её можно использовать для верификации. Вероятно это и используется в банках. Но технологий для идентификации с достаточной точностью как не было так и нет.
Описываемая система вашей разработки? Если нет, то чья?
Продукт компании Nice, партнера КРОК.
Есть вторая сторона этой проблемы.

Сможет ли злоумышленник, получив детальные отпечатки голоса, генерировать точный голос их владельца? (до такой степени, чтобы те же банки принимали генерированную речь за его речь). А если и сегодня не сможет — сможет ли через 5, через 10 лет?
Во многих, если можно так сказать, программных комплексах для коллцентров есть подобный функционал.
Но используется он далеко не только с целью идентификации.

Эмоциональный окрас разговора:
Клиент нервничает.
Клиент орет.
Говорит по принуждению.

Анализ поведения:
Врет — не врет.

Анализ окружения:
В офисе.
В публичном доме.
В туалете.

Очень много можно придумать способов распознавания психоакустических шаблонов.

Никогда не задумывались в таком контексте про голосовой поиск от Гугла или Сири у Эппл?
а реально теми же алгоритмами «подделать голос»? Т.е. заменить «опорные точки» с записи на нужные из базы??
НЛО прилетело и опубликовало эту надпись здесь
Зарегистрируйтесь на Хабре , чтобы оставить комментарий