Pull to refresh
34
0

DS@MaritimeAI

Send message

Пока мы знакомим алгоритмы с разнообразием изображений, случается разное. Иногда удается распознать всё и сразу, иногда приходится всю пробу обрабатывать вручную - например с наступлением лета водоросли из отдельных объектов превратились в сплошной фон и до сих пор мешают распознаванию.

Само фотографирование по нашим замерам занимает ~20-25 минут, т.е. получается быстрее, чем проход по пробе, но самое главное - это можно поручить студенту, тогда экономия времени заведующего лабораторией получается стопроцентной при условии 100% распознавания.

За время разработки и эксплуатации мы несколько раз встречали нюансы, из-за которых достаточно сильно меняли архитектуру решения и мы считаем, что если дойдем до зимнего сезона без дополнительных сюрпризов, то в принципе можно начинать делиться наработками.
Также у нас еще есть несколько подходов к валидации распознанных изображений, которые мы бы хотели сначала протестировать и только потом выложить наиболее подходящий.
Ну и самое главное - наш full-stack хочет сделать рефакторинг перед релизом :)

Это прямо один из наших планов на будущее - попробовать подключить другие водоемы. Что касается доступа к технологиям - есть планы открыть исходный код и модели.

Но в json-файле есть ссылки на скачивание этих изображений.

С учетом количества изображений нам никакого git lfs не хватит уже сейчас, не говоря уже о пополнении датасета, поэтому сами изображения мы храним вне гитхаба.

  1. Это решение НИИ. Им к научным статьям нужно прикладывать данные, к тому же есть желание наладить взаимодействие с другими научными организациями, выполняющими похожие работы. Мы будем постепенно открывать всё больше данных, добавляя новые атрибуты к объектам и расширяя выборку за счет новых фотографий.

  2. Съемку делает специалист НИИ. Хотя сейчас это уже может быть не только специалист по планктону, но и, к примеру, студент, который уже освоил использование микроскопа. Со своей стороны мы смотрим, как можно автоматизировать и эту часть процесса.

У меня не было особо большого опыта в использовании keras в связке с TF, больше пригождалась высокоуровневая библиотека tflearn, но это было еще до всех этих объединений, в районе версии TF 0.12.
Предположу, что идея использования высокоуровневых библиотек придет сама, когда вам надоест описывать 10 раз один и тот же полносвязный слой в TF. Однако что-то нестандартное(чего еще нет в keras/sklearn) придется писать руками в TF. А потом внести это в тот же keras.

Касательно судьбы keras вместе с TF — я бы не сказал, что библиотека перешла под контроль гугла/TF. keras теперь стал высокоуровневой библиотекой с поддержкой и theano, и TF. Возможно, скорее вымрет tflearn.
Ответ попал в соседний комментарий. В общем, каких-то специальных инструментов нет, всё делается ручками, но самое неудобное имхо — это разделение выборки на обучение и контроль.
Тестирование приходится делать отдельно — в коде примеров я для этого откладывал часть выборки и отдельно прогонял вычисление функции потерь.

Information

Rating
Does not participate
Works in
Registered
Activity

Specialization

Data Scientist, Data Engineer