Есть кастомные конвертаторы которые ускоряют примерно в 2 раза итоговые модели…
А вот про это можно подробнее?
На наших задачах трансформеры хуже по точности (и хуже по соотношению точность/скорость), yolov4-p7 тоже ощутимо хуже, yolop и yolox тоже не фонтан, но мы маловато их копали. Пока продолжаем считать, что yolov5 сота. Кстати ее нет на paperswithcode, так как нет статьи
Прошу прощения, собственно ссылки на сайты: Яндекс, Мейл. Нет, они непохожи на кагл, но конкурсы регулярно проводят.
Если это происходит в последнюю неделю конкурса, то безусловно так и есть.
А если за две?) Не хочу поднимать этот холивар, я ни в коем случае не отказываюсь от кагла, это крутая платформа, просто не думаю, что public kernel — это прям честно, если рассматривать конкурсы как конкурсы, а не как обмен знаниями. И да, я читал эту статью, и в целом согласен.
Спасибо за комментарий! На самом деле, наверное, всё что вы описали, было в приложенных к задаче документах (там были статьи и монографии), но за короткое время сложно настолько глубоко погрузиться в задачу.
«Датасайнтист должен сам додумать?» — Знакомство с предметной областью дает преимущество, но кажется, что все-таки конкурсы это часто про техническую часть, про знание современных тенденций в машинном обучении, умении подобрать модель, параметры и т.п. Ещё думаю, что если бы приз был бы условный миллион, то и участники глубже закапывались в теорию.
К сожалению выяснилась еще одна проблема: на нашем полетном планшете стоит процессор Intel Celeron N2807, и, если установить флаг DecodedOrder=1, видео перестает работать.
Полазили по документации и форумам. Видимо Вы имели в виду установку DecodedOrder=1. Сделали это, а также избавились от флага MFX_BITSTREAM_EOS и хака с “окончательным окончанием потока”. Флаг MFX_BITSTREAM_COMPLETE_FRAME уже у нас стоял. В итоге все получилось, задержка даже слегка уменьшилась. Спасибо за очень полезный комментарий!
Может и так. GStreamer конечно мощная и лаконичная штука. Если подскажете, как передать с помощью gstreamer'а видео без перекодирования, будем благодарны.
Пробовали, практически в самом начале разработки. Чем-то он нам сразу не подошел, уже точно не помню чем. По-моему, не удалось передавать видео без перекодирования.
В условиях ограниченной пропускной способности сети и ограниченной производительности планшета мы не можем сильно поднять скорость передачи кадров (максимум на 20-50 процентов). Таким образом мы будем ждать пока видео синхронизируется с реальным временем где-то секунду. При текущем подходе мы ждем примерно столько же.
С SPS и PPS кадрами в нашем случае проблем не было: наша камера шлет их регулярно, с каждым кадром (см. парсинг потока камеры ELP). Что касается сохранения старых IDR кадрой, то в таком случае в начале трансляции будет показан старый IDR кадр, но последующие Non-IDR кадры буду накладываться на старый IDR, что будет давать плохую картинку. Нас такая ситуация не устраивала, к тому же небольшая задержка старта видео (менее секунды) нас не беспокоила.
Основное преимущество x86 заключается в более простом программировании (для нативного режима часто достаточно перекомпиляции программы без изменений в исходном коде). А гибкость… я не думаю, что она часто требуется. Вообще у нас не стояла задача выбирать вычислительное устройство. Кстати OpenCL на Xeon Phi поддерживается.
Так можно и про любой бенчмарк сказать. Yolov5 на многих дасатетах прекрасно работает, см kaggle
За ссылку по конвертации спасибо, изучим
А вот про это можно подробнее?
На наших задачах трансформеры хуже по точности (и хуже по соотношению точность/скорость), yolov4-p7 тоже ощутимо хуже, yolop и yolox тоже не фонтан, но мы маловато их копали. Пока продолжаем считать, что yolov5 сота. Кстати ее нет на paperswithcode, так как нет статьи
Для распознавания лиц не используются ключевые точки. Лицо подается в нейросеть, которая выдает вектор значений. Советую изучить репозиторий GitHub - deepinsight/insightface: State-of-the-art 2D and 3D Face Analysis Project , если хочется разобраться или использовать в своем проекте.
А если за две?) Не хочу поднимать этот холивар, я ни в коем случае не отказываюсь от кагла, это крутая платформа, просто не думаю, что public kernel — это прям честно, если рассматривать конкурсы как конкурсы, а не как обмен знаниями. И да, я читал эту статью, и в целом согласен.
«Датасайнтист должен сам додумать?» — Знакомство с предметной областью дает преимущество, но кажется, что все-таки конкурсы это часто про техническую часть, про знание современных тенденций в машинном обучении, умении подобрать модель, параметры и т.п. Ещё думаю, что если бы приз был бы условный миллион, то и участники глубже закапывались в теорию.
P.S. Ложка дёгтя: DecodedOrder сейчас deprecated.