Как стать автором
Обновить

Комментарии 10

автотесты — Java+Junit/TestNG,
скрипты для прямого взаимодействия с моделью — Python+Jupyter.

а как (и зачем) вы соединили в одном проэкте жабу и питона? Какое у вас API для МЛ?

На проектах — REST API. Касательно выбора ЯП — исторически сложилось, что автотесты в компании преимущественно написаны на Java, хотя ничто не мешает их написать на Python

Т.е. получается, что у вас модель постоянно не тренируется? Если какая либо связь модели со «свежими» данными?
Нет, постоянного дообучения не происходит. А взаимосвязь со «свежими» данными реализована, как правило, через интеграционный слой. Вопрос в частоте получения получения этих данных и регулярности их обработки. Есть проекты в которых мы получаем подобную информацию ежесекундно и на её основе выдаём свои прогнозы.
А как происходит момент «дообучения»? Что вы используете в качестве ML пайплайна?
Спустя некоторое время собираем свежие данные у заказчика, очищаем их, обучаем модель, оцениваем её, смотрим на метрику (не ухудшилась ли она), и экспортируем её.
Посмотрите в сторону kubeflow и pachyderm. Все еще костыли, но уже заменто улучшают цикл жизни модели
А как можно ожидать от модели «правильного» поведения, когда она натренирована находить котиков на картинках, а вы ей кормите картинки слонов?
Может автор высказывал мысль, что никто и не ждёт, что модель вернёт тебе, что это котик. А то что сервис в который обернута эта модель/сама модель не сдохнет вообще, когда получит слона, проверить надо
Если возник слон, значит, датасет, на котором мы обучались, возможно, не содержал слонов вообще. И тут есть несколько путей решений.

1) Искать в исходных данных слонов, если они были — разбираться, почему мы не можем распознать их.
2) Убедиться в том, что слоны не были выкинуты из датасета как аномалия (выброс).
3) Захардкодить опознавание слонов

Слоны — это, конечно, условное обозначение :)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий