Как стать автором
Обновить

Комментарии 5

Что-то очень поверхностная статья. С кучей очень спорных утверждений
Однако, этот способ, скорее всего, подойдет только крупным компаниям с собственным штатом дата-аналитиков.

Очень часто наоборот, правильная интеграция in-house разметки бывает основным продуктом. И её надо делать до разработки по DataScince.

Очень часто переходы между разными вариантами разметки — весьма гладкие и непрерывные. Вообще, я вот тут чуть более подробно рассказываю, в том числе большое число вариантов которых тут нет — youtu.be/fwbHkVka3G4
Антон, спасибо за интересное видео!)
А был ли у вас опыт использования предразметки, когда разметчики размечают данные не с нуля, а данные прогоняются через ML модель и разметчики только подправляют ответы ML модели?
Если да, то можете более подробно рассказать, как вы организовали такой процесс, и как боролись с тем, что у вас чуть-чуть смещается баис из-за такого подхода?
Добрый день!
Да, мы так регулярно делаем. Например базовая архитектура нашего сервера разметки именно так и устроена — cv-blog.ru/?p=368
У нас форматы входа и выхода одинаковы => на вход разметки можно подавать предразмеченые кадры алгоритма. В том же посте видео о том как мы это делаем.

С биасом как-то не боремся. Обычно если это так критично — просто с нуля размечаем. Не помню даже когда такое было в последний раз.
Супер, спасибо за ответ!)
Есть еще вариант не размечать данные, а использовать только публичные датасеты. Для создания MVP отличный подход. Но когда делаешь полноценный продукт, приходится уже кастомизировать датасет под свои нужны и размечать самим.

Кстати, недавно читал похожую статью, но в ней 7 пунктов, а не 5)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий