JetHabr 6 авг 2019 в 13:36

Почему мы решили развивать практику тестирования ML

5 мин

6.6K

Блог компании Инфосистемы ДжетТестирование IT-систем*Машинное обучение*

+28

Комментарии 10

snamef 6 авг 2019 в 15:44

автотесты — Java+Junit/TestNG,
скрипты для прямого взаимодействия с моделью — Python+Jupyter.

а как (и зачем) вы соединили в одном проэкте жабу и питона? Какое у вас API для МЛ?

JetHabr 6 авг 2019 в 17:42

На проектах — REST API. Касательно выбора ЯП — исторически сложилось, что автотесты в компании преимущественно написаны на Java, хотя ничто не мешает их написать на Python

neopug 7 авг 2019 в 05:52

Т.е. получается, что у вас модель постоянно не тренируется? Если какая либо связь модели со «свежими» данными?

JetHabr 7 авг 2019 в 10:52

Нет, постоянного дообучения не происходит. А взаимосвязь со «свежими» данными реализована, как правило, через интеграционный слой. Вопрос в частоте получения получения этих данных и регулярности их обработки. Есть проекты в которых мы получаем подобную информацию ежесекундно и на её основе выдаём свои прогнозы.

neopug 7 авг 2019 в 19:21

А как происходит момент «дообучения»? Что вы используете в качестве ML пайплайна?

JetHabr 8 авг 2019 в 15:24

Спустя некоторое время собираем свежие данные у заказчика, очищаем их, обучаем модель, оцениваем её, смотрим на метрику (не ухудшилась ли она), и экспортируем её.

neopug 13 авг 2019 в 23:09

Посмотрите в сторону kubeflow и pachyderm. Все еще костыли, но уже заменто улучшают цикл жизни модели

kvlsky 7 авг 2019 в 09:15

А как можно ожидать от модели «правильного» поведения, когда она натренирована находить котиков на картинках, а вы ей кормите картинки слонов?

DenAm 7 авг 2019 в 10:44

Может автор высказывал мысль, что никто и не ждёт, что модель вернёт тебе, что это котик. А то что сервис в который обернута эта модель/сама модель не сдохнет вообще, когда получит слона, проверить надо

JetHabr 7 авг 2019 в 16:21

Если возник слон, значит, датасет, на котором мы обучались, возможно, не содержал слонов вообще. И тут есть несколько путей решений.

1) Искать в исходных данных слонов, если они были — разбираться, почему мы не можем распознать их.
2) Убедиться в том, что слоны не были выкинуты из датасета как аномалия (выброс).
3) Захардкодить опознавание слонов

Слоны — это, конечно, условное обозначение :)

Зарегистрируйтесь на Хабре, чтобы оставить комментарий