Как стать автором
Обновить

Комментарии 6

Жаль, что немецкий не запланирован. Хотя, если для английского только аудиокниги, то можно попробовать самому пособирать такой датасет.

Интересно, а почему он хранится и раздается в формате .wav? Разве в формате .mp3 не будет удобней и дешевле в плане трафика? (я сейчас именно про хранение и раздачу, а не использование)

Для речи лучше OPUS.
В OpenSTT, например, используется этот формат.

Да, немецкий пока не планируется. На счет формата .wav — у нас в настоящий момент нет потребности в экономии трафика, при этом люди смогут получить данные без потерь качества.
и недавно мы запустили проект SOVA
24/12/2019: Published вdataset with 116 hours

Вроде не недавно, и в датасете особо ничего не поменялось с 2019 года.
Хотя нет, вижу, что скачивание перестало быть открытым, репозиторий стал только содержать форму для сбора лидов.


получила грант от фонда РВК
Нас поддержал государственный фонд РВК

Еще одна компания строит продукт на деньги налогоплательщиков, которым налогоплательщики не смогут воспользоваться? Ничто не ново в этом мире =)


Ради интереса сравните уровень активности бескорыстной работы и весь changelog того, чтобы финансируется на наши с вами деньги:


24/12/2019: Published вdataset with 116 hours 

Выводы делайте сами.


Данные в датасете должны быть высокого качества

Мы анализировали ваш датасет, в некоторых сабсетах данные далеко не высокого качества.


Со всеми коммерческими организациями и физическими лицами требуется заключение лицензионного договора

То есть я верно понял, что на каждый аудио-файл вы можете предоставить скан такого договора? Почему тогда сканов или ссылок на них просто нет в репозитории? Можете пожалуйста выложить?


Это примерно 1,1 TB аудио в формате .wav.

Хранить столько аудио в wav — расточительство.

Добрый день, Александр!
Хотя нет, вижу, что скачивание перестало быть открытым, репозиторий стал только содержать форму для сбора лидов.

Это не так, только что проверили снова, скачивание работает. Сделайте, пожалуйста, issue, как это принято.

Мы анализировали ваш датасет, в некоторых сабсетах данные далеко не высокого качества.

Сделайте issue, переразметим, поправим. Отзывы от экспертов сообщества были хорошие.

То есть я верно понял, что на каждый аудио-файл вы можете предоставить скан такого договора? Почему тогда сканов или ссылок на них просто нет в репозитории? Можете пожалуйста выложить?

Ага, делать нам больше нечего =) Когда мы продаём датасеты (в том числе, все наши проприетарные датасеты), мы предоставляем документы, подтверждающие происхождение данных. Это не всегда лицензионный договор, это может быть договор-оферта, например, если данные собраны через сайт/сервис.
Если хочется, чтобы крупные корпорации «контрибьютили» в датасет, нужно стремиться к его лицензионной чистоте.
Вопрос использования данных без нарушения закона вы в своём датасете правда зря не учли. Это риск для вас и вашего партнёра по Silero. Понятно, что для нас, как для более крупной компании, это более важный вопрос. Но вы ведь амбициозны, вам лучше всё же посоветоваться с юристом, чтобы заранее документами обезопаситься. Особенно, если будете привлекать инвестиции.

Еще одна компания строит продукт на деньги налогоплательщиков, которым налогоплательщики не смогут воспользоваться? Ничто не ново в этом мире =)

У нас каждый продукт имеет Open Source версию и проприетарную. Это изначально было заложено в бизнес-плане проекта, т. к. мы должны зарабатывать: любой проект с гос. поддержкой (от ФСИ, Сколково, РФРИТ, РВК и т. д.) не может взять деньги на некоммерческий проект. Некоммерческие проекты финансируются совсем другими фондами, получателем инвестиций не может быть коммерческая компания.
И любая компания, получившая инвестиции в 2020 году от РФРИТ – например, знакомые вам разработчики ИИ NtechLab, Наумен, Ziax – обязаны в следующем году после получения финансирования показать выручку от новых разработок не менее суммы гранта.
Это не так, только что проверили снова, скачивание работает. Сделайте, пожалуйста, issue, как это принято.

Прямых ссылок все еще нет


Они спрятаны за пиктограммами. Оригинальный способ сделать так, чтобы их было сложнее найти.


Ага, делать нам больше нечего =)

По такой же логике, я могу заявить, что у меня есть идеальное лекарство от рака и что невидимые розовые слоны существуют.


Если хочется, чтобы крупные корпорации «контрибьютили» в датасет, нужно стремиться к его лицензионной чистоте.

Покажите мне хотя бы один крупный полезный датасет, в который в РФ контрибьютила какая-либо "крупная корпорация". Честно говоря я вообще с трудом вспомню что-то открытое и полезное за последние лет 5 за их авторством.


Давайте пожалуйста быть реалистами, а не заниматься virtue signalling-ом.


Вопрос использования данных без нарушения закона вы в своём датасете правда зря не учли. Это риск для вас и вашего партнёра по Silero. Понятно, что для нас, как для более крупной компании, это более важный вопрос. Но вы ведь амбициозны, вам лучше всё же посоветоваться с юристом, чтобы заранее документами обезопаситься.

По этой же логике весь мир должен перестать пользоваться наработками по ImageNet, потому что нет договора на каждую картинку по праву той страны, допустим где живет ее автор. У этого конечно есть и оборотная сторона медали — подарок, который сделали все соцсети в датасеты с лицами и например очень забавные суды DoubleData (которые она вроде даже выигрывала?). Но тут этика лежит очень далеко за юридическим полем.


Грустная истина состоит в том, что институты интеллектуальной собственности как класс отсутствуют в РФ, а те, что присутствуют используются совсем с другими целями (на эту тему очень любит высказываться человек с ником Badcomedian, если вы понимаете о чем я).


Но не только у нас этот институт не работает — вот неплохой разбор. Шутка ли, самые сильные нарушители копирайтов нашего мира — Google и Facebook — прекрасно живут на отсталости регулирования и насмехаются над властями.


Также весьма показательно, что как вы заявляете "как более крупная компания" вы сразу включаете намеки на "силовые варианты" решения вопроса, не до конца в нем разобравшись. Тот же OpenSTT — это сугубо некоммерческий проект.


И любая компания, получившая инвестиции в 2020 году от РФРИТ

Мой посыл был в том, что эти инвестиции скорее коррелируют с лоббизмом и мало коррелируют с качеством конечного OSS продукта.


Особенно, если будете привлекать инвестиции.

Мы очень благодарны судьбе, что нам повезло и мы сами принимаем решения за себя и у нас пока нет спорных токсичных инвесторов, которые могут негативно повлиять в будущем.


Вообще любые "профессиональные" инвестиции в долгосрочной перспективе невыгодны лично предпринимателю. Говорю как человек, работавший в VC.

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.