Яндекс corporate blog
Data Mining
Open data
Research and forecasts in IT
Crowdsourcing
Comments 27
0

Это классная новость, спасибо! И всё же, почему ударение падает на последний слог, если в слове "толока", от которого и произошло название сервиса, он — на втором слоге?

+1
Батюшки! Я надеюсь мне эти данные пригодятся — в закладки, однозначно!
UFO landed and left these words here
+3
Ну, такое. Учитывая прямой запрет на использование в коммерческих проектах :)
+2
Обучат другую нс, которая будет вычислять кто на чем учился
0
В суде могут настойчиво попросить рассказать, на чем же на самом деле обучали. И если рассказать будет нечего, результат будет грустным.
0
На самом деле, это очень даже легко проверяется. Особенно, зная особенности машинного обучения и конкретного датасета.
0
Если обучиться на проприетарном датасете, а потом с его помощью разметить свой, и боевую модель обучить уже на нем — доказать что-то будет сложнее :)
0
Форкнуть -> поменять правила автоформатирования кода -> произвести автоформатирвоание -> закоммитить -> увидеть, что 'git diff' показывает 0.03% оригинального кода -> поменять лицензию, т.к. весь код теперь переписан Вами -> надеяться, что злые блюстители авторского права не уйдут дальше 'git diff'.
Я правильно уловил аналогию?

P.S. Интересно то, что мой комментарий подтверждали почти месяц. Я уже успел забыть об этом. Есть некоторое неудобство в неполноправном аккаунте, угу.
0
некоторое неудобство в неполноправном аккаунте

Просто вы очень редко оставляете комментарии, после 5 (или 10ого, не помню точно) подтвержденного комментария, вы сможете добавлять их без подтверждений. Это просто защита от бесконечного кол-ва аккаутов от троллей.
0
Не знаю, никогда так глубоко не погружался в вопрос :)

Но есть что-то неправильное в том, что одиночки и небольшие коллективы не могут отобрать долю рынка ML-based решений у корпораций из-за того, что только корпорации могут позволить себе собирать большие датасеты.

По сути, Яндекс говорит: вот клёвый датасет, ты, теоретически, можешь сделать на нём крутое решение. Но зарабатывать на нем все равно будем только мы.
0
Ничего неправильного. Можно то же сказать про создание датацентров, сдачу места под коллокейшен, облачный сервер. Они вложились, они собрали себе данные, они могут сами решать что с ними делать. Хотите конкурировать — сначала научитесь ими пользоваться или придумайте новые данные.
Возможно главная проблема может оказаться — это тотальная монополия одной компанией, но щас вроде как в мире их несколько. Как минимум google и tencent
0
Да, в том-то и дело. Добывать данные дорого, а массовые источники, такие как поиск и соцсети, огораживают их владельцы. В результате шансы, что придет маленькая компания и выпнет условный Яндекс из какой-нибудь его ниши (ну или заставит их конкурировать как проклятых) — все падает и падает. А это всегда плохо :)
0
Круто, прямо руки чешутся. Ещё бы какие задания придумали.
+1
Запаковали бы хоть нормально…
$ unzip -l TlkPersonaChatRus.zip
Archive: TlkPersonaChatRus.zip
Length Date Time Name
--------- ---------- ----- ----
0 04-04-2019 14:00 TlkPersonaChatRus/
37431241 03-26-2019 13:27 TlkPersonaChatRus/dialogues.tsv
0 04-04-2019 14:02 __MACOSX/
0 04-04-2019 14:02 __MACOSX/TlkPersonaChatRus/
213 03-26-2019 13:27 __MACOSX/TlkPersonaChatRus/._dialogues.tsv
1297 04-04-2019 14:00 TlkPersonaChatRus/readme_TlkPersonaChatRus.txt
269 04-04-2019 14:00 __MACOSX/TlkPersonaChatRus/._readme_TlkPersonaChatRus.txt
246800 03-26-2019 13:35 TlkPersonaChatRus/profiles.tsv
213 03-26-2019 13:35 __MACOSX/TlkPersonaChatRus/._profiles.tsv
213 04-04-2019 14:00 __MACOSX/._TlkPersonaChatRus
--------- -------
37680246 10 files
0
Без коммерческого разрешения (как у того же ImageNet) это как игрушка.
+1
Обидно как раз что нет никаких датасетов с лейблами организаций, дорожными Знаками, и т.д.
Нет, я понимаю что их все больше появляется, но уверен что у вас есть датасет более приближенный к нашим реалиям. Хотелось бы на Jetson Nano их погонять для себя.
0
Мы не собираемся останавливаться на текущем списке датасетов и с радостью будем открывать новые. Нам только нужно лучше понимать потребности. Будет здорово, если вы расскажете поподробнее, что за датасет вам интересен, возможно, приведёте какие-нибудь примеры аналогов. А мы подумаем, насколько реально такое найти у нас и опубликовать.
0
Ну Лично мне были бы интересны датасеты с эмоциями людей (для определенной реакции робота), датасет наших дорог с разметкой и знаков(на том же нано чтобы понять максимальную скорость реакции). Датасет Зданий, для определения типа архитектуры. Все можно при помощи поисковика найти в том числе и у вас и поставить полуавтоматичесскую разметку… но если были бы пакеты сразу было бы удобно. по знакам могу прислать что находил, но в личку. Чтобы за рекламу не посчитали.
0
Спасибо, мы подумаем, что из этого у нас есть и можем ли что-то опубликовать.
На счёт примеров пишите конечно, тоже посмотрим.
0
Интересны различные медицинские датасеты. Например, размеченные данные МСКТ, МРТ, биологические датасеты
Only those users with full accounts are able to leave comments., please.