Pull to refresh
7
0
Александр Ольферук @olferuk

Пользователь

Send message

Тайлер как-то писал в Твиттере, что использует Clojure2d: https://github.com/Clojure2D/clojure2d

Любопытно узнать, какие результаты давали state of the art-подходы до вот этого прорыва до 86%.

Спасибо за статью, хорошая отправная точка для начинающих!


Однако, было бы супер здорово, если бы вы рассказали, где бы я мог обойтись тем же Keras поверх TF, а где TF все-таки был бы предпочтительнее. Что-то вроде rules of thumb.


И чем переход Keras в руки TF теперь грозит для развития фреймворка и коммьюнити?

Результаты будут! Мы планируем написать отдельную статью.

Мы думали об этом, да, хороший вопрос. Выходило, однако, что в результате A/B-теста в одном и том же регионе пришлось бы делить и так не очень большое количество магазинов пополам, и результаты не были бы так репрезентативны.
С другой стороны, результаты можно собрать, сравнивая регионы, или текущие результаты с результатами продаж прошлого года (с учетом внешнеэкономических факторов и естественного роста компании, разумеется).

Прогоняли, да, именно так мы нашу кросс-валидацию и построили. Мы планируем о результатах поведать вам отдельно.


Насчет ограничений Google Cloud: вы можете иметь не более 8 ядер (или виртуальных процессоров) одновременно на запущенных машинах. Например, вы можете запустить 8 экземпляров машин типа n1-standard-1, или 2 экземпляра n1-standard-4, но не сможете запустить машину типа n1-standard-16.


К тому же, некоторые действия запрещены на протяжении пробного периода, например, майнинг криптовалют :). Дополнительные ограничения смотрите в соглашении об "Условиях использования пробной версии" и "Условиях использования Google Cloud Platform".


Инфраструктуру не оптимизировали и не меняли: просто запустили более обширные grid-search'и параметров. Смотрели на то, какие библиотечки лучше параллелятся (XGBoost прям выигрывает у LightGBM, например).

Статья — не история успеха, скорее история проб и ошибок; и прежде всего хотелось рассказать об опыте и организации работы.
Так или иначе, пока нет оснований полагать, что не получится.

А что насчет Boruta (например) для отбора признаков? Применяли ли вы, как зашло?


Надо понимать, что pytesseract – далеко не панацея:

Что ж делать-то в таком случае? Куда копать?

Из статьи не очень понятно, чем мотивирован выбор между Label- и OneHot-кодированием для конкретного отдельно взятого признака. Чем это обосновано? Пробовали ли кодировать по-другому (вот тут их смотрите, сколько)?

Information

Rating
Does not participate
Location
Россия
Date of birth
Registered
Activity