На тот момент меня впечатлила прежде всего возможность решать с помощью одной модели (CenterNet) сразу трех задач: детекция в 2D, в 3D и оценка позы, плюс они в статье репортят SOTA-скорость у CenterNet-DLA (в таблице 2) при AP выше, чем у YOLOv3, что в моих глазах выглядело как SOTA в speed/accuracy trade-off (что, на мой взгляд, для детекторов важнее, чем только speed или только AP).
Сам я измерение скорости и качества всех приведенных в этом посте моделей не проводил, потому и написал «Кажется», и "(но это не точно)", однако хотел все же обратить внимание на CenterNet.
p.s. Поздравляю с YOLOv4! Выглядит очень многообещающе, однозначно добавлю в этот пост Вашу статью.
Здравствуйте!
Рад, что статья оказалась полезной)
Кажется, что тот же github.com/argman/EAST уже обучен под детектирование в том числе и цифр. Если Вам нужно только цифры, и чтобы текст не детектировался, то наверное проще всего просто на этапе пост-обработки детекций выбрасывать боксы только с текстом, или же да, обучить архитектуру с нуля только под цифры. Код из вышеприведенного репозитория позволяет это сделать.
Да, это правда, спасибо :)
Картинку взял на самом деле для демонстрации того, как выглядят боксы (слева). Про сегментацию будет отдельный разговор в третьей части.
Спасибо!
Если речь идёт о видеокартах, то мы используем Nvidia GeForce GTX 1080 Ti. Если интересует более подробно, могу поделиться в личных сообщениях
Согласен, в 3D всё будет уже не так интуитивно понятно и просто. В будущем, возможно, я напишу статью и на эту тему (однако сначала реализация алгоритма Форчуна).
Вы правы, у жирафов рисунок не всегда в точности является диаграммой, тем более, что у всех жирафов он разный.
Однако в тексте отмечено, что он фактически является диаграммой, поскольку сходство очевидно, и наличие нескольких линий, делающих многоугольники рисунка невыпуклыми, этого факта не отменяют.
Object as Points, Table 2. Скриншот:
Сам я измерение скорости и качества всех приведенных в этом посте моделей не проводил, потому и написал «Кажется», и "(но это не точно)", однако хотел все же обратить внимание на CenterNet.
p.s. Поздравляю с YOLOv4! Выглядит очень многообещающе, однозначно добавлю в этот пост Вашу статью.
Рад, что статья оказалась полезной)
Кажется, что тот же github.com/argman/EAST уже обучен под детектирование в том числе и цифр. Если Вам нужно только цифры, и чтобы текст не детектировался, то наверное проще всего просто на этапе пост-обработки детекций выбрасывать боксы только с текстом, или же да, обучить архитектуру с нуля только под цифры. Код из вышеприведенного репозитория позволяет это сделать.
Картинку взял на самом деле для демонстрации того, как выглядят боксы (слева). Про сегментацию будет отдельный разговор в третьей части.
Постараюсь сделать вторую часть достаточно подробной
Если речь идёт о видеокартах, то мы используем Nvidia GeForce GTX 1080 Ti. Если интересует более подробно, могу поделиться в личных сообщениях
Спасибо за статью!
Особенно понравилась идея с ансамблем (получение «доверительных вероятностей»), успехов Вам в будущих соревнованиях!
Спасибо за статью
Очень грамотно и интересно написано, буду ждать продолжения
Однако в тексте отмечено, что он фактически является диаграммой, поскольку сходство очевидно, и наличие нескольких линий, делающих многоугольники рисунка невыпуклыми, этого факта не отменяют.