Как стать автором
Обновить

Комментарии 27

Это классная новость, спасибо! И всё же, почему ударение падает на последний слог, если в слове "толока", от которого и произошло название сервиса, он — на втором слоге?

Есть различные трактовки, например, в Современном толковом словаре русского языка Ефремовой слова «толока» и «толока» имеют принципиально различные значения, и краудсорсинговой платформе ближе второе :)
Батюшки! Я надеюсь мне эти данные пригодятся — в закладки, однозначно!
НЛО прилетело и опубликовало эту надпись здесь
Ну, такое. Учитывая прямой запрет на использование в коммерческих проектах :)
Кто ж узнает, на чем вы свою сеть обучали? :)
Обучат другую нс, которая будет вычислять кто на чем учился
В суде могут настойчиво попросить рассказать, на чем же на самом деле обучали. И если рассказать будет нечего, результат будет грустным.
На самом деле, это очень даже легко проверяется. Особенно, зная особенности машинного обучения и конкретного датасета.
Если обучиться на проприетарном датасете, а потом с его помощью разметить свой, и боевую модель обучить уже на нем — доказать что-то будет сложнее :)
Форкнуть -> поменять правила автоформатирования кода -> произвести автоформатирвоание -> закоммитить -> увидеть, что 'git diff' показывает 0.03% оригинального кода -> поменять лицензию, т.к. весь код теперь переписан Вами -> надеяться, что злые блюстители авторского права не уйдут дальше 'git diff'.
Я правильно уловил аналогию?

P.S. Интересно то, что мой комментарий подтверждали почти месяц. Я уже успел забыть об этом. Есть некоторое неудобство в неполноправном аккаунте, угу.
некоторое неудобство в неполноправном аккаунте

Просто вы очень редко оставляете комментарии, после 5 (или 10ого, не помню точно) подтвержденного комментария, вы сможете добавлять их без подтверждений. Это просто защита от бесконечного кол-ва аккаутов от троллей.
Не знаю, никогда так глубоко не погружался в вопрос :)

Но есть что-то неправильное в том, что одиночки и небольшие коллективы не могут отобрать долю рынка ML-based решений у корпораций из-за того, что только корпорации могут позволить себе собирать большие датасеты.

По сути, Яндекс говорит: вот клёвый датасет, ты, теоретически, можешь сделать на нём крутое решение. Но зарабатывать на нем все равно будем только мы.
Ничего неправильного. Можно то же сказать про создание датацентров, сдачу места под коллокейшен, облачный сервер. Они вложились, они собрали себе данные, они могут сами решать что с ними делать. Хотите конкурировать — сначала научитесь ими пользоваться или придумайте новые данные.
Возможно главная проблема может оказаться — это тотальная монополия одной компанией, но щас вроде как в мире их несколько. Как минимум google и tencent
Да, в том-то и дело. Добывать данные дорого, а массовые источники, такие как поиск и соцсети, огораживают их владельцы. В результате шансы, что придет маленькая компания и выпнет условный Яндекс из какой-нибудь его ниши (ну или заставит их конкурировать как проклятых) — все падает и падает. А это всегда плохо :)
Поправили, спасибо за внимательность!
Круто, прямо руки чешутся. Ещё бы какие задания придумали.
Запаковали бы хоть нормально…
$ unzip -l TlkPersonaChatRus.zip
Archive: TlkPersonaChatRus.zip
Length Date Time Name
--------- ---------- ----- ----
0 04-04-2019 14:00 TlkPersonaChatRus/
37431241 03-26-2019 13:27 TlkPersonaChatRus/dialogues.tsv
0 04-04-2019 14:02 __MACOSX/
0 04-04-2019 14:02 __MACOSX/TlkPersonaChatRus/
213 03-26-2019 13:27 __MACOSX/TlkPersonaChatRus/._dialogues.tsv
1297 04-04-2019 14:00 TlkPersonaChatRus/readme_TlkPersonaChatRus.txt
269 04-04-2019 14:00 __MACOSX/TlkPersonaChatRus/._readme_TlkPersonaChatRus.txt
246800 03-26-2019 13:35 TlkPersonaChatRus/profiles.tsv
213 03-26-2019 13:35 __MACOSX/TlkPersonaChatRus/._profiles.tsv
213 04-04-2019 14:00 __MACOSX/._TlkPersonaChatRus
--------- -------
37680246 10 files
Всё перепаковали, как надо, спасибо за замечание :)
Без коммерческого разрешения (как у того же ImageNet) это как игрушка.
Обидно как раз что нет никаких датасетов с лейблами организаций, дорожными Знаками, и т.д.
Нет, я понимаю что их все больше появляется, но уверен что у вас есть датасет более приближенный к нашим реалиям. Хотелось бы на Jetson Nano их погонять для себя.
Мы не собираемся останавливаться на текущем списке датасетов и с радостью будем открывать новые. Нам только нужно лучше понимать потребности. Будет здорово, если вы расскажете поподробнее, что за датасет вам интересен, возможно, приведёте какие-нибудь примеры аналогов. А мы подумаем, насколько реально такое найти у нас и опубликовать.
Ну Лично мне были бы интересны датасеты с эмоциями людей (для определенной реакции робота), датасет наших дорог с разметкой и знаков(на том же нано чтобы понять максимальную скорость реакции). Датасет Зданий, для определения типа архитектуры. Все можно при помощи поисковика найти в том числе и у вас и поставить полуавтоматичесскую разметку… но если были бы пакеты сразу было бы удобно. по знакам могу прислать что находил, но в личку. Чтобы за рекламу не посчитали.
Спасибо, мы подумаем, что из этого у нас есть и можем ли что-то опубликовать.
На счёт примеров пишите конечно, тоже посмотрим.
Интересны различные медицинские датасеты. Например, размеченные данные МСКТ, МРТ, биологические датасеты
Плюсую, сложно такое раздобыть самому, а интерес есть
Зарегистрируйтесь на Хабре, чтобы оставить комментарий