alizar 10 авг 2010 в 14:56

ФСБ учится распознавать кавказцев по голосу

1 мин

2.1K

Информационная безопасность*

+43

Комментарии 62

digreen 10 авг 2010 в 15:01

Интересно… Я как-то раньше считал, что СОРМ работает немного по-другому — прослушиваются заранее выбранные телефонные переговоры. А тут похоже на то, что официально готовятся слушать вообще всё?

Speedimon 10 авг 2010 в 15:40

Слушать и распознавать язык говорящего, очевидно же.
То есть в базу звонков добавится и поле «предполагаемый язык разговора».

digreen 10 авг 2010 в 16:06

Ну и на кой? Как я предполагаю, прослушка заказывается на конкретного субъекта. Не на «неизвестный номер, по которому хрен знает кто, о чем и на каком языке говорит». Т.е. персонаж известен и, скорее всего, известны все языки, на которых он может говорить.
Поэтому я и пытаюсь допереть, насколько эффективна эта разработка будет в тех условиях работы СОРМ, которые я предполагаю.

Speedimon 10 авг 2010 в 16:24

Ну вот например… Свидетель заметил что подозреваемый говорил по телефону на каком-то «не нашем» языке в таком-то месте. Если все звонки по данной БС были обработаны такой системой (предположим, с большой вероятностью «попадания») — тогда резко сужается круг номеров, которые надо бы проверить. А может там за это время и вообще один звонок такой окажется.
Да много применений еще думаю можно придумать, а 24 млн. в рамках такой разработки — не считаю что есть повод опять кричать «распил», вполне адекватная сумма как мне кажется.

d0z 10 авг 2010 в 17:00

законы РФ не разрешают прослушивать абонента без разрешения суда. пока что…

danSamara 10 авг 2010 в 21:13

С учётом того, что СОРМ никак не проконтролировать, закон тут не особо помогает.

mono2k 10 авг 2010 в 21:22

запрещает ли закон РФ определять национальность абонентов без протоколирования содержания разговора, вот в чем вопрос…

danSamara 10 авг 2010 в 21:46

законы РФ не разрешают прослушивать абонента без разрешения суда. пока что…

ru.wikipedia.org/wiki/СОРМ

В соответствии со статьёй 23 Конституции России ограничение тайны связи допускается только по решению суда. В то же время в законе упоминается возможность использования СОРМ до решения суда, «в случаях, установленных федеральными законами».

EvilX 11 авг 2010 в 06:45

На самом деле раньше каждый оператор должен был иметь специальную комнатку для проведения оперативных мероприятий. Сейчас же от каждого оператора идёт волокно до ФСБ и что там они делают — никому не известно. Так, что закон этот чистая фикция.

НЛО прилетело и опубликовало эту надпись здесь

digreen 10 авг 2010 в 17:07

СОРМ настраивается заранее, а не постфактум. Допустим, известно место, где будет находиться подозреваемый. Если неизвестен его номер — то неизвестен и оператор, а значит, заранее нужно выводить в СОРМ-каналы звонки с БС всех операторов в округе. Причем в городе это будет гораздо больше 3х станций.
Таким образом ФСБ кроме звонка подозреваемого фактически прослушает разговоры совершенно посторонних людей, что является нарушением их права на неприкосновенность частной жизни. Вот в этом-то и загвоздка, если применение системы будет именно таким, как вы предполагаете.
Стандартное применение прослушки — по согласованию, в рамках оперативно-розыскных мероприятий, для конкретного товарища. А тут — всех под замах.
Вот про это я в первом комментарии и писал.

НЛО прилетело и опубликовало эту надпись здесь

WondeRu 14 авг 2010 в 00:08

Почитайте про американский ЭШЕЛОН. Вас тоже слушают. Попробуйте в международном звонке чего-нить про взрывчатку рассказать (на русском языке), сразу на галочку поставят.

d0z 10 авг 2010 в 15:45

вы правильно думали. и на самом деле так сейчас и работает… Обработать весь телефонный трафик мне реальным не представляется…

danSamara 10 авг 2010 в 21:16

Пруф?
Я, например, думал, что хранить телефонные разговоры — проблематично из-за объёма, оказалось — нет. С учётом специальных алгоритмом сжатия, заточенных под голос, записи занимают совсем чуть.

НЛО прилетело и опубликовало эту надпись здесь

wazd 10 авг 2010 в 15:23

Выб русский для начала выучили, в качестве proof of concept, так сказать :)

-3

НЛО прилетело и опубликовало эту надпись здесь

HoochieMen 10 авг 2010 в 15:53

Для стоящей системы, позволяющей делать то, что описанно в ТЗ это нормальные деньги

danSamara 10 авг 2010 в 21:18

Если бы делали с нуля с научными исследованиями — то да. Но ведь возьмут существующие разработки, подпилят чуток и, вуаля, переводите деньги!

mono2k 10 авг 2010 в 21:24

ну а кто вам мешает это сделать? Есть заказчик, есть вполне определенная задача, возьмите существующие разработки, подпилите и в перед, в путь, к светлой жизни на канарах.

danSamara 10 авг 2010 в 22:06

Чувствую себя Шелдоном, это, типа, ирония? Или вы серьёзно?

Если, вдруг, серьёзно: у нас большой «бузинесс» всё решает в саунах, в которые я не вхож, поэтому «взять и сделать» можно, но «вуаля и на канары» уже не выйдет.

Bahusss 10 авг 2010 в 23:05

Зачем делать с нуля, если уже есть существующие разработки? Кстати какие открытые разработки на эту тему вы знаете?

Почитайте еще раз ТЗ по тенедеру — там требуется провести научно-исследовательскую работу + разработать специализированный софт под эту работу.

electrocat 10 авг 2010 в 23:49

«существующие разработки» обычно очень затратны и не окупаются с одного проекта

если есть фирмы у которых есть адекватные существующие разработки — то абсолютно адекватно им заплатить )
чтобы им хватило денег на следующие «существующие разработки» :)

НЛО прилетело и опубликовало эту надпись здесь

lightcyber 10 авг 2010 в 15:07

Мне кажется что создать подобное крайне сложно. Если у них что-то и получится, то процент ошибок будет достаточно велик.

StamPit 10 авг 2010 в 15:27

Насколько мне известно, подобные решения уже существуют и вполне работают. Вот, например

Интересно, кто будет участвовать в тендере?

keylase 10 авг 2010 в 16:05

А здесь вроде и так ясно — только ЦРТ!

StamPit 10 авг 2010 в 17:09

Ну да, судя по протоколам — прошли МГУ и ЦРТ.
Но у МГУ какие-то совсем странные условия — 5.5 млн и 19 месяцев. Такое ощущение, что они только по своим студентам речевые базы собирать планируют.

Naps 10 авг 2010 в 17:06

Роснано. Они сделают нанораспознователи.

-6

shiz86 10 авг 2010 в 15:12

Скоро объявят тендер на автоматизированную систему создания тендеров

vpbar 10 авг 2010 в 15:22

Я так понял, второй абзац это Ваши домыслы?

team_leader 10 авг 2010 в 15:22

Вполне нормальный тендер. Буду рад если его выиграет какой-нибудь НИИ из РАН или обычный университет. По данной теме можно написать и защитить достаточно много хороших диссертаций. Интересная научная работа. Это вам не быдлосайты клепать.

+33

avenu 10 авг 2010 в 16:12

Видимо в посте намекается не на научность работы, а на то кого собираются прослушивать и связанную с этим дискриминацию. Это примерно как сейчас в мвд заявляют, что в метро досматривают документы не по принципу национальностей.

А так можете исследовать что угодно, пока это не используют в извращенном виде.

-7

funt 10 авг 2010 в 18:20

Ашманов возьмется за дело

SeVit 10 авг 2010 в 20:25

«можно написать и защитить достаточно много хороших диссертаций»

принимал на работу как-то одного такого молодого представителя отечественного академического планктона:

он с порога заявил, что заниматься программированием,
а конкретно разработкой компонентов для информационной системы имеющей веб интерфейс (т.е. работать над «быдло сайтиками») он не будет

он заявил что будет работать только над академически интересными вещами,

Но этот человек ни одного сложного API не смог освоить, даже когда было надо (MathLab API)

вот таких я и называю
представителями отечественного академического планктона

НЛО прилетело и опубликовало эту надпись здесь

sashaeve 10 авг 2010 в 15:26

Даже не сомневался, кто автор статьи.

psylostlife 10 авг 2010 в 15:47

Хм, нормальное распознавание речи, аспектов каждого отдельного индивида(а так же отсутствие разных зубов этих индивидов или ангина) и акцент — это как раз та проблема, которая затрудняет голосовые команды на качественном уровне для бытовых приборов и прочего. Неужели если ФСБ попросило — эти проблемы сразу же решат за 29 месяцев?

Hitrusha 10 авг 2010 в 15:51

Это при условии, что этот самый акцент есть. Остается понять, что делать они будут, если акцента нет вообще.

psylostlife 10 авг 2010 в 16:00

Проблема даже не в этом.

>> способной по речи надёжно распознавать язык говорящего. Например, с помощью такой системы можно оперативно выявлять разговоры на кавказских языках среди всех сотовых переговоров в Москве.

Судя по контексту, имелось в виду конкретно язык, на котором говорят, а не родной язык говорящего(а если в детстве двум сразу учили? бывает и такое).

А тут уже легче ловить по чаще всего используемым словам того или иного языка, поэтому акцент может даже усложнить задачу распознания языка. Например, человек без передних зубов произносит русское слово «Я» по произношению похожим на немецкое «ja».

Karabulak 10 авг 2010 в 16:19

Или дагестан к примеру, у них чуть ли не каждое село со своим диалектом, не то что акцентом…
Это гиганский объём работы.
Ещё интересно что прошёл ингушский, а чеченский нет. Языки родственные и очень близки.

psylostlife 10 авг 2010 в 16:24

Дагестан это ладно, у тайцев если геморрой огромный с выражением в слове, там можно легко маму подруги назвать собакой, не так вытянув гласную, про языки, где слов мало и акцент поставлен на выражении я вообще молчу.

Goodkat 10 авг 2010 в 18:46

У меня акцент есть — меня бы точно распознали :(
Хотя мои национальность и язык можно распознать и по фамилии, на которую записан мой сотовый номер :)

Но вообще система интересная — ведь это шаг к универсальным переводчикам из научной фантастики!

OLS 10 авг 2010 в 16:14

Скорее у какого-то из НИИ есть уже определенные наработки и просто официально пробивается финансирование. Задача действительно интересная и наукоемкая.

psylostlife 10 авг 2010 в 16:23

Мне тоже так показалось.

midday 10 авг 2010 в 16:03

Вообще-то вроде просто язык надо распознать? Если так, то это намного легче чем акцент.

Xiongmao 10 авг 2010 в 16:11

И уже скоро в новой Шарашке новые Нержин и Рубин будут изобретать новый вокодер.

jorl 10 авг 2010 в 16:35

Это в любом случае сложная задача.
Сложность ее заключается в сборе речевой базы данных. Именно поэтому срок работ такой длительный.

На сегодняшний день уже существуют экспертные системы идентификации диалекта диктора. Например «Регион» от ЦРТ.
Но такие системы полу-ручные. Для работы с ними нужен эксперт.

Для топик-стартера — заявленная стоимость тендера не всегда является окончательной. Потрудитесь узнать решение конкурсной комиссии, чтобы не вводить людей в заблуждение.

bondbig 10 авг 2010 в 16:43

Да бОльшая часть работы сделана уже:
www.youtube.com/watch?v=ZKiIJtkydT0

-1

p1xel 10 авг 2010 в 17:35

А как будет «бомба» на кабардино-черкесском?

SwampRunner 10 авг 2010 в 17:57

-1

bolk 10 авг 2010 в 18:08

Ничего себе какие далекоидущие и конкретные выводы вы сделали. Поздравляю, вы выиграли тендер на самый «жёлтый» заголовок на «Хабре».

-2

bondbig 10 авг 2010 в 18:22

Данный автор давно уже обладатель всех подобных титулов и рангов. Легенда, как никак.

sashaeve 10 авг 2010 в 18:57

Вопрос в другом: почему его до сих пор читают и плюсуют?

bondbig 10 авг 2010 в 19:10

я плюсую/минусую материал, а не автора. Ализар периодически постит интересные новости, почему бы и не плюсануть? Если жёлтизна или левота — то почему бы и не минусануть? Не смотря на ранги и кармовитость.
Как-то так.

sashaeve 10 авг 2010 в 19:19

А я смотрю и на материал и на автора (и историю его публикаций). Если автор постоянно пишет хорошие статьи, то это одно, а если одну хорошую на 10 таких, как эта, то таким автором можно и принебречь.