Pull to refresh

Comments 6

Интересно было бы увидеть применение хотя бы нескольких алгоритмов к анализу фин инструментов или рынков.
Обязательно в будущем сделаем такой пост. Пока можем предложить интересный материал о рассчете Russian Volatility Index
Все что вы увидите в паблике — многослойный персептрон (некоторые не стесняются ступенчатую функицю активации использовать, или обучать генетическим алгоритмом), модель маркова, SVM, некоторые модели авторегрессий. Повезет если кто-то расскажет об RBM, или автоэнкодерах. Это будут прекрасные материалы для знакомства с алгоритмами, которые приносят владельцам только расстройства нервной системы. Могу дать подсказку: 1. попытайтесь разобраться до полного понимания в разнице предсказания стационарного и нестационарного процесса, 2. ознакомтесь со спайковыми нейросетями
Спасибо за статью.
А вот интересно.
Есть такая задача: пользователи приходят на сайт и ищут случайные ключевые слова в поиске. Результат поиска: какие-то товары. Каждый товар имеет категорию. Товары не наши (грубо говоря, черный ящик). Каждый товар имеет атрибут: категория. Что нужно? По ключевому слову определять категорию, чтобы делать более специфичный, более релевантный поиск. Какой алгоритм тут лучше применить?

Пример: пользователь вводит слово «iphone». Товары в описании, которых есть iphone могут быть различными: как сами айфоны, так и всякие чехлы, аксессуары и прочее. При этом логично предположить, что пользователь ожидает по запросу «iphone» товары из категории «Smartphones», а чехлы по запросу «iphone cases» в категорию «Cell phone accessories»
Первый шаг — сбалансировать выдачу. Если вы показываете 10 позиций и запросу пользователя отвечают 5 категорий, показать по 2 товара из каждой категории (условно)
Второй шаг — собрать информацию по показам и кликам. На каждый запрос запоминать к какой категории относились товары, которые были показаны пользователю и товары, на которые пользователь кликал. Это будет вашей обучающей выборкой
Затем по обучающей выборке натренировать классификатор. Входные данные — текст запроса, категория и количество кликов. На выходе будет классификатор, который по тексту запроса будет выдавать наиболее вероятные категории для этого запроса. По обработке текста запроса стандартно: токенизация, исправление опечаток, опционально синонимизация и стемминг, затем tf-idf. Затем либо классификатор, работающий с разреженными данными (например, RandomForestClassifier из sklearn 0.16+) или же TruncatedSVD, а затем классификатор (пойдут те же SVG, XGBoost, RanddomForest)
Из пункта «3. Метод опорных векторов» пропали все картинки:
Вы видите:
[здесь была картинка]
Sign up to leave a comment.