TolokaTeam 1 июл 2019 в 13:03

Яндекс открывает датасеты Толоки для исследователей

6 мин

33K

Блог компании ЯндексData Mining*Открытые данные*Исследования и прогнозы в IT*Краудсорсинг

+79

Комментарии 27

xenohunter 1 июл 2019 в 13:48

Это классная новость, спасибо! И всё же, почему ударение падает на последний слог, если в слове "толока", от которого и произошло название сервиса, он — на втором слоге?

ortemij 1 июл 2019 в 14:03

Есть различные трактовки, например, в Современном толковом словаре русского языка Ефремовой слова «толока» и «толока» имеют принципиально различные значения, и краудсорсинговой платформе ближе второе :)

AndrewShmig 1 июл 2019 в 15:27

Батюшки! Я надеюсь мне эти данные пригодятся — в закладки, однозначно!

НЛО прилетело и опубликовало эту надпись здесь

Codenamed 1 июл 2019 в 17:36

Ну, такое. Учитывая прямой запрет на использование в коммерческих проектах :)

VSOP_juDGe 1 июл 2019 в 19:14

Кто ж узнает, на чем вы свою сеть обучали? :)

FireGM 1 июл 2019 в 23:15

Обучат другую нс, которая будет вычислять кто на чем учился

Codenamed 2 июл 2019 в 11:17

В суде могут настойчиво попросить рассказать, на чем же на самом деле обучали. И если рассказать будет нечего, результат будет грустным.

LaG1924 29 июл 2019 в 14:07

На самом деле, это очень даже легко проверяется. Особенно, зная особенности машинного обучения и конкретного датасета.

Codenamed 29 июл 2019 в 14:27

Если обучиться на проприетарном датасете, а потом с его помощью разметить свой, и боевую модель обучить уже на нем — доказать что-то будет сложнее :)

LaG1924 29 июл 2019 в 20:27

Форкнуть -> поменять правила автоформатирования кода -> произвести автоформатирвоание -> закоммитить -> увидеть, что 'git diff' показывает 0.03% оригинального кода -> поменять лицензию, т.к. весь код теперь переписан Вами -> надеяться, что злые блюстители авторского права не уйдут дальше 'git diff'.
Я правильно уловил аналогию?

P.S. Интересно то, что мой комментарий подтверждали почти месяц. Я уже успел забыть об этом. Есть некоторое неудобство в неполноправном аккаунте, угу.

vedenin1980 29 июл 2019 в 20:35

некоторое неудобство в неполноправном аккаунте

Просто вы очень редко оставляете комментарии, после 5 (или 10ого, не помню точно) подтвержденного комментария, вы сможете добавлять их без подтверждений. Это просто защита от бесконечного кол-ва аккаутов от троллей.

Codenamed 29 июл 2019 в 22:27

Не знаю, никогда так глубоко не погружался в вопрос :)

Но есть что-то неправильное в том, что одиночки и небольшие коллективы не могут отобрать долю рынка ML-based решений у корпораций из-за того, что только корпорации могут позволить себе собирать большие датасеты.

По сути, Яндекс говорит: вот клёвый датасет, ты, теоретически, можешь сделать на нём крутое решение. Но зарабатывать на нем все равно будем только мы.

Vinchi 3 авг 2019 в 01:59

Ничего неправильного. Можно то же сказать про создание датацентров, сдачу места под коллокейшен, облачный сервер. Они вложились, они собрали себе данные, они могут сами решать что с ними делать. Хотите конкурировать — сначала научитесь ими пользоваться или придумайте новые данные.
Возможно главная проблема может оказаться — это тотальная монополия одной компанией, но щас вроде как в мире их несколько. Как минимум google и tencent

Codenamed 15 авг 2019 в 19:14

Да, в том-то и дело. Добывать данные дорого, а массовые источники, такие как поиск и соцсети, огораживают их владельцы. В результате шансы, что придет маленькая компания и выпнет условный Яндекс из какой-нибудь его ниши (ну или заставит их конкурировать как проклятых) — все падает и падает. А это всегда плохо :)

Ogoun 1 июл 2019 в 19:21

Для Toloka Business ID Recognition в ссылке ошибка, лишний пробел влез

ortemij 2 июл 2019 в 11:17

Поправили, спасибо за внимательность!

hail3b 1 июл 2019 в 20:14

Круто, прямо руки чешутся. Ещё бы какие задания придумали.

aragaer 1 июл 2019 в 21:24

Запаковали бы хоть нормально…

$ unzip -l TlkPersonaChatRus.zip 

Archive: TlkPersonaChatRus.zip

 Length Date Time Name

--------- ---------- ----- ----

 0 04-04-2019 14:00 TlkPersonaChatRus/

 37431241 03-26-2019 13:27 TlkPersonaChatRus/dialogues.tsv

 0 04-04-2019 14:02 __MACOSX/

 0 04-04-2019 14:02 __MACOSX/TlkPersonaChatRus/

 213 03-26-2019 13:27 __MACOSX/TlkPersonaChatRus/._dialogues.tsv

 1297 04-04-2019 14:00 TlkPersonaChatRus/readme_TlkPersonaChatRus.txt

 269 04-04-2019 14:00 __MACOSX/TlkPersonaChatRus/._readme_TlkPersonaChatRus.txt

 246800 03-26-2019 13:35 TlkPersonaChatRus/profiles.tsv

 213 03-26-2019 13:35 __MACOSX/TlkPersonaChatRus/._profiles.tsv

 213 04-04-2019 14:00 __MACOSX/._TlkPersonaChatRus

--------- -------

 37680246 10 files

ortemij 2 июл 2019 в 14:56

Всё перепаковали, как надо, спасибо за замечание :)

Groramar 2 июл 2019 в 04:46

Без коммерческого разрешения (как у того же ImageNet) это как игрушка.

Max_Drevo 2 июл 2019 в 11:07

Обидно как раз что нет никаких датасетов с лейблами организаций, дорожными Знаками, и т.д.
Нет, я понимаю что их все больше появляется, но уверен что у вас есть датасет более приближенный к нашим реалиям. Хотелось бы на Jetson Nano их погонять для себя.

ortemij 2 июл 2019 в 16:34

Мы не собираемся останавливаться на текущем списке датасетов и с радостью будем открывать новые. Нам только нужно лучше понимать потребности. Будет здорово, если вы расскажете поподробнее, что за датасет вам интересен, возможно, приведёте какие-нибудь примеры аналогов. А мы подумаем, насколько реально такое найти у нас и опубликовать.

Max_Drevo 2 июл 2019 в 16:44

Ну Лично мне были бы интересны датасеты с эмоциями людей (для определенной реакции робота), датасет наших дорог с разметкой и знаков(на том же нано чтобы понять максимальную скорость реакции). Датасет Зданий, для определения типа архитектуры. Все можно при помощи поисковика найти в том числе и у вас и поставить полуавтоматичесскую разметку… но если были бы пакеты сразу было бы удобно. по знакам могу прислать что находил, но в личку. Чтобы за рекламу не посчитали.

ortemij 2 июл 2019 в 16:48

Спасибо, мы подумаем, что из этого у нас есть и можем ли что-то опубликовать.
На счёт примеров пишите конечно, тоже посмотрим.

krox 8 июл 2019 в 19:05

Интересны различные медицинские датасеты. Например, размеченные данные МСКТ, МРТ, биологические датасеты

BreathDeeper 29 июл 2019 в 14:08

Плюсую, сложно такое раздобыть самому, а интерес есть

Зарегистрируйтесь на Хабре, чтобы оставить комментарий