prickly_u Aug 26 2018 at 18:36

Mask R-CNN: архитектура современной нейронной сети для сегментации объектов на изображениях

13 min

92K

Image processing*Machine learning*Artificial Intelligence

+19

Comments 9

roryorangepants Aug 27 2018 at 09:36

Спасибо за статью. Отличный обзорный материал!
Хотелось бы отметить одну вещь насчет терминологии:

не приходилось встречать переводы их названий даже в русскоязычных источниках, поэтому на английском, чтобы не создавать путаницу

Но вы же даже дальше сами называете некоторые из них на русском.
Классификация, семантическая сегментация, детекция (локализация) объектов, сегментация объектов.

prickly_u Aug 27 2018 at 11:44

Называю их по русски дальше потому что мне показалось, что мои неформальные переводы будет легко связать по смыслу с той или иной задачей. Но если изначально дать собственные обозначения, кто-то потом может не связать их с общераспространёнными терминами в других местах.
Вы могли бы посоветовать что-то лучше? Черезмерное перемешивание русского текста с английским тоже не все любят, а его и так зачастую избежать не получается.

roryorangepants Aug 27 2018 at 20:20

Лично меня не напрягает перемешивание русского текста с английским, но:

если изначально дать собственные обозначения, кто-то потом может не связать их с общераспространёнными терминами в других местах

Можно не давать собственные обозначения. Я же выше привёл общепринятые, в общем-то (кроме разве что instance segmentation, где перевод не особо устоявшийся).

prickly_u Aug 29 2018 at 15:28

Возможно, просто мне не попадались общепринятые на русском, поскольку большую часть материалов приходится на английском читать. Если вышеприведенные действительно часто встречаются, буду использовать их.

Groramar Aug 27 2018 at 11:44

Спасибо.
nearest neighbor > ближайший сосед. это так и называется, мы это используем, но не в ml.

prickly_u Aug 27 2018 at 11:46

В ml есть ещё классификация k-nearest neighbors, k-NN. В таком контексте привычнее название выглядит.

oktonion Aug 27 2018 at 19:43

Не очень ясен момент с производительностью такой сети. Это обработка в реальном времени видео-потока? Или выделение из статичных фото объектов?

roryorangepants Aug 27 2018 at 20:19

Mask R-CNN в риалтайме на видео можно использовать разве что с очень уж неглубокой свёрточной частью типа MobileNetV2, и то FPS будет очень низким.

prickly_u Aug 29 2018 at 15:42

В pdf про Mask R-CNN пишут про 195ms — 400ms на изображение на Nvidia Tesla M40 GPU. Для видео это, наверно, многовато, но упоминается, что дальнейшая оптимизация возможна. Судя по тому, что эксперименты так же проводились на Cityscapes-датасете, об и пользовании модели в real-time задачах в будущем авторы задумывались.

Show the best of all time