Developers_Relations Apr 7 2017 at 16:53

Surf Studio: машинное обучение в production

8 min

11K

Google Developers corporate blogMachine learning*Google Cloud Platform*

+13

Comments 11

barabanus Apr 8 2017 at 09:55

Со статьей поторопились — надо было дождаться результатов A/B тестов. Потому что если у вас не получилось, то вся эта история не имеет смысла.

olferuk Apr 10 2017 at 11:56

Статья — не история успеха, скорее история проб и ошибок; и прежде всего хотелось рассказать об опыте и организации работы.
Так или иначе, пока нет оснований полагать, что не получится.

barabanus Apr 10 2017 at 14:14

Так или иначе, пока нет оснований полагать, что не получится.

Пока вы не попробуете на живых данных, у вас нет основания полагать, что получится. Ошибка может быть где угодно — неверные данные, подглядывание в будущее (например, ошибка с приведением данных к одному часовому поясу), загрязненные OOS данные (принятие решений на основе OOS) и т.д.

Tantrido Apr 8 2017 at 20:45

Хорошая реальная задача. Я делал похожее прогнозирование, только многомерных физических процессов с помощью ИНС. Побольше бы таких задач и работ! :)

labboss Apr 10 2017 at 10:01

а вам не кажется что а/б тест нужно было проводить в рамках одного региона? регион же во многом определяет эк.состояние

olferuk Apr 10 2017 at 13:19

Мы думали об этом, да, хороший вопрос. Выходило, однако, что в результате A/B-теста в одном и том же регионе пришлось бы делить и так не очень большое количество магазинов пополам, и результаты не были бы так репрезентативны.
С другой стороны, результаты можно собрать, сравнивая регионы, или текущие результаты с результатами продаж прошлого года (с учетом внешнеэкономических факторов и естественного роста компании, разумеется).

ryzhak Apr 10 2017 at 11:56

Кроссфит и ставки на спорт не стоят потраченного времени

Почему?

masha_kupina Apr 10 2017 at 11:56

Спасибо за интересные ссылочки!
а вы модель на форвардных тестах (тесты на исторических данных вне обучающей [обычно более поздний интервал] или оптимизирующей выборки) погоняли, метко попадает?

А не подскажете, на "бесплатные" $300 в Google Cloud доступен весь функционал, или есть какие-то ограничения?
И еще более животрепещущий вопрос, вот, допустим, вы переехали на Google Cloud, вы свою систему под тамошнюю инфраструктуру оптимизировали, перекопилили, профилировали (и есть вообще такая возможность), или оставили как есть?

olferuk Apr 10 2017 at 13:14

Прогоняли, да, именно так мы нашу кросс-валидацию и построили. Мы планируем о результатах поведать вам отдельно.

Насчет ограничений Google Cloud: вы можете иметь не более 8 ядер (или виртуальных процессоров) одновременно на запущенных машинах. Например, вы можете запустить 8 экземпляров машин типа n1-standard-1, или 2 экземпляра n1-standard-4, но не сможете запустить машину типа n1-standard-16.

К тому же, некоторые действия запрещены на протяжении пробного периода, например, майнинг криптовалют :). Дополнительные ограничения смотрите в соглашении об "Условиях использования пробной версии" и "Условиях использования Google Cloud Platform".

Инфраструктуру не оптимизировали и не меняли: просто запустили более обширные grid-search'и параметров. Смотрели на то, какие библиотечки лучше параллелятся (XGBoost прям выигрывает у LightGBM, например).

UnknownUser Apr 10 2017 at 11:56

Спасибо за статью. Интересно почитать, как эта вся «магия» работает на реальных проектах.
Было бы интересно почитать и о результатах работы.

olferuk Apr 10 2017 at 13:20

Результаты будут! Мы планируем написать отдельную статью.