Pull to refresh
7
0
Станислав Ашманов @stanislav_as

Data Scientist

Send message

Чтобы бороться с дипфейками, надо научиться их делать.

Добрый день, Александр!
Хотя нет, вижу, что скачивание перестало быть открытым, репозиторий стал только содержать форму для сбора лидов.

Это не так, только что проверили снова, скачивание работает. Сделайте, пожалуйста, issue, как это принято.

Мы анализировали ваш датасет, в некоторых сабсетах данные далеко не высокого качества.

Сделайте issue, переразметим, поправим. Отзывы от экспертов сообщества были хорошие.

То есть я верно понял, что на каждый аудио-файл вы можете предоставить скан такого договора? Почему тогда сканов или ссылок на них просто нет в репозитории? Можете пожалуйста выложить?

Ага, делать нам больше нечего =) Когда мы продаём датасеты (в том числе, все наши проприетарные датасеты), мы предоставляем документы, подтверждающие происхождение данных. Это не всегда лицензионный договор, это может быть договор-оферта, например, если данные собраны через сайт/сервис.
Если хочется, чтобы крупные корпорации «контрибьютили» в датасет, нужно стремиться к его лицензионной чистоте.
Вопрос использования данных без нарушения закона вы в своём датасете правда зря не учли. Это риск для вас и вашего партнёра по Silero. Понятно, что для нас, как для более крупной компании, это более важный вопрос. Но вы ведь амбициозны, вам лучше всё же посоветоваться с юристом, чтобы заранее документами обезопаситься. Особенно, если будете привлекать инвестиции.

Еще одна компания строит продукт на деньги налогоплательщиков, которым налогоплательщики не смогут воспользоваться? Ничто не ново в этом мире =)

У нас каждый продукт имеет Open Source версию и проприетарную. Это изначально было заложено в бизнес-плане проекта, т. к. мы должны зарабатывать: любой проект с гос. поддержкой (от ФСИ, Сколково, РФРИТ, РВК и т. д.) не может взять деньги на некоммерческий проект. Некоммерческие проекты финансируются совсем другими фондами, получателем инвестиций не может быть коммерческая компания.
И любая компания, получившая инвестиции в 2020 году от РФРИТ – например, знакомые вам разработчики ИИ NtechLab, Наумен, Ziax – обязаны в следующем году после получения финансирования показать выручку от новых разработок не менее суммы гранта.
Спасибо за интересную статью. VOSK – отличный проект. Попробуйте ещё наше распознавание: github.com/sovaai/sova-asr
Будем благодарны за обратную связь: мы только недавно его выпустили в Open Source, и готовы добавлять фичи, нужные сообществу.
Вот тут мы рассказывали о разработке SOVA ASR: habr.com/ru/company/ashmanov_net/blog/523412

Плюс у нас есть и синтез речи: github.com/sovaai/sova-tts
Да, есть, но Толока их как-то криво отображает. Толокеры в итоге записывают аудио не в нашем задании, а где-то внутри Толоки, и загружают в наше задание записанные аудио как файлики.
Давайте обменяемся API, потестируем качество? Нам это интересно.

К слову, по поводу сотрудничества с Silero по части Open Source я общался недавно с Юрием, но, как я понял, сейчас Open STT только вы занимаетесь. Можно вместе двигать Open Source, если нащупаем направления. Нам вообще интересно увеличить доступность ASR для SMB и исследователей.
Ну и когда пытаешься тренировать толокеров, то бывают казусы: мы предложили одному толокеру пообщаться в вотсапе, чтобы нормально объяснить, как надо размечать. Нас забанили в тот же день – полностью заблокировали аккаунт без возможности восстановления.
Мы не собирались переманивать толокера к себе в обход Толоки, просто хотели нормально объяснить задачу.
Запускали, нас тоже беспокоит передача наших данных и данных наших клиентов швейцарской компании Яндекс.Толока.

Мы там собираем примеры для активационной фразы, так как это простая задача для толокеров. И их там ооочень много, поэтому можно быстро и дёшево собрать данные.
Добрый день, Александр

То есть для решения частной задачи (ASR), вы решили написать свой DL фреймворк?
Но при этом вы не включили туда такие критические вещи как CTC и LM?
Это странно.

Свой фреймворк у нас с 2015 года, используем его для разных проектов, не только по аудио. Если интересно, можете тут прочитать про один из проектов: habr.com/ru/company/ashmanov_net/blog/469033

В указанных тестах (я так понял, что на 2 доменах — звонки и записи с микрофона) — почему-то в топе всегда присутствует ЦРТ. По факту, когда мы делали подобные тесты на паре десятков доменов — модели ЦРТ очень плохо генерализовались при прочих равных. Может конечно они сильно выросли, но хз.

Вы тестировали VoiceNavigator или VoiceKey? Все основные вендоры за последние полгода показали очень хороший рост.

Еще глупый вопрос, а почему просто не взяли PyTorch?

PyTorch и TF мы используем. Свой фреймворк тоже используем. Что нам удобнее, то и используем. Если интересно, попробуйте запустить PyTorch на Эльбрусе, например. Или попробуйте отучить TF отжирать неадекватное количество памяти.

Странно, по ссылке всего 100+ часов. Это баг или фича?

Пока что мы выложили только 100 часов. Мы как коммерческая компания обязаны обеспечить лицензионную чистоту данных. Поэтому мы не можем выкладывать произвольные данные.
Приятно, что помните) Мы в 2020 хотим оживить проект iii.ru.
Почитайте, пожалуйста, что такое BLAS.

Такие библиотеки существуют под каждый процессор. EML – пример такой библиотеки. Ещё специализированный пример – mklDNN для Intel – предоставляет ускоренные программные ядра для операций, нужных для нейросетей. Python сам по себе, конечно, ни на одном процессоре не даёт максимальной скорости работы этих операций. Если подключиться к таким библиотекам – рост скорости очень большой.
GPL — это те условия, на которых авторами кода разрешается использовать этот самый код. В чем прикол заставлять квартирантов соблюдать условия аренды, а читателя библиотеки — условия получения книг на руки?
Я тоже не могу понять, но уже вашего вопроса. Зарплату тоже платят при некоторых условиях: зачем, если вдуматься, их соблюдать, тратя на это время ваше и работодателя?..

Я прекрасно понимаю условия GPL. Мой вопрос был не совсем об этом: есть ведь много разных проблем, в разрешении которых можно/нужно принимать участие. Обычно выбор точки приложения своих сил обуславливается тем, что тебе лично реально по силам сделать, а также, что можно получить в результате: кому-то станет лучше, где-то принесёшь пользу.
А тут, как мне кажется, совершенно непонятно, в чём будет польза. Ну опубликуют они исходники, и что? Ну не опубликуют, и что?

Исходники могут существенно облегчить жизнь как разрабочика, так и сисадмина

Я понимаю, сам я и мои сотрудники используем огромное количество открытого софта. Но в случае с Эльбрусом, как мне кажется, практического смысла в выкладывании исходников нет никакого. Выложить дистрибутив – можно, чтобы проверять совместимость своего ПО с теми версиями библиотек, что включены в дистрибутив.

Зарплату тоже платят при некоторых условиях: зачем, если вдуматься, их соблюдать, тратя на это время ваше и работодателя?..

Перечитайте, пожалуйста, что я написал до этого: я не спрашивал нигде о смысле условий GPL. Я пытался понять, зачем, в частности, автору статьи нужно добиваться от МЦСТ соблюдения этих условий. Автор упомянул «спортивный интерес». Ответ понятный, но причина довольно бессмысленная, как мне кажется.
Уважаемые коллеги, которые меня заминусовали: вы где-то увидели «наезд» на автора статьи? Я где-то успел высказать отношение к этой ситуации?

Мне лично и моей компании очень интересны Эльбрусы: грустно, что нет сообщества, представляю, как тяжело выйти из порочного круга («нет приложений -> нет пользователей -> не нужны приложения»), интересно как-то поучаствовать.

Мы даже взяли поизучать машину с Эльбрусом, запустили на ней свою библиотеку для нейросетей. К слову, потребовалось всего несколько дней, проблем с нашим софтом не было, так как нам кроме python и C ничего не нужно, в общем.

Естественно поможет. Зная о проблемах с портированием сторонних приложений под эту ОС, наличие живого комьюнити может очень сильно помочь и штатным разработчикам и саппорту.

Вы считаете, что кто-то захочет что-то делать приложения под ОС Эльбрус, просто потому, что она будет в опенсорсе? Не очень понимаю, почему кто-то будет тратить на это время. Т. е. если у разработчика есть задача на работе, то МЦСТ и так даёт им доступы к машинам с Эльбрусами. Наверное, разработчикам станет немного удобнее, если можно скачать ОС и поставить на машину с Intel/AMD, чтобы отладить совместимость с пакетами определённой версии. Но зачем она нужна разработчику в исходниках – не понятно; развитию community это не поможет.

В первую очередь, потому что это требование GPL лицензии. Поэтому тут скорее чисто спортивный интерес. Да и рассчитывать на какие-нибудь выгоды от сообщества, МЦСТ может только играя честно.

У них и без того проблем/задач хватает, на мой взгляд:)
А почему у вас спортивный интерес в связи с GPL? Т. е. в чём прикол заставлять МЦСТ соблюсти GPL? Какая радость-то от этого? Не обижайтесь, пожалуйста, я просто не могу понять, зачем тратить на это время своё и разработчиков Эльбруса.
Спасибо за статью. А вам с Эльбрусами раньше доводилось работать? Почему заинтересовались ОС Эльбрус? И почему хотите, чтобы МЦСТ опубликовали исходники?
Ещё вопрос: как вы считаете, публикация исходников ОС Эльбрус поможет развитию экосистемы вокруг процессоров и компьютеров Эльбрус?
Мы работаем над этим =) Затормозилось, так как появилась возможность партнёрства с крупными корпорациями и университетами.
Мы не смогли его вывести на рынок: у нас массовых сервисов, как у Яндекса и Mail.ru, которые помогают продвигать колонку.
Сейчас мы проект перепозиционировали как голосовую операционную систему: Open Source платформу для создания устройств с голосовым управлением.
Сайт проекта: SOVA.ai
Спасибо, интересно. Не думали оживить его в Телеграме?
Да, в рамках конкретно этого зимнего конкурса мы с организаторами конференции остановились на таких условиях. Так ещё никто не делал, и в итоге оказалось довольно интересно и участникам, и волонтёрам.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity