Как стать автором
Обновить

Комментарии 5

Почему прямо не указать, что пост является переводом?
По основному посту (читал только оригинал, сорри) — забавно, что затея с feature engineering как раз показала, что его делать не надо — лучше предавать сети все, она разберётся. Ну и takeaway про мало данных тоже конечно неудивителен.
И, наконец, урок на будущее про то, что можно повысить точность, выключив категории, которые не нужны — тоже жизненный.
Не думаю что с Bag-of-words можно достичь высоких результатов (>90%) какую бы крутую нейронную сеть Вы не использовали бы… Как на счет использования word embeddings (GloVe, word2vec) или что-то в этом вроде?
Я ему задал этот вопрос в комментах, говорит, не добрался. Это такой проект, очень на коленке.
Мне кажется, что здесь или неправильно поняли Bag of words, или он сам по себе какой-то неправильный. Разве не нужно удалять из набора признаков слова, которые являются частотными по всей выборке, а не в пределах нескольких классов? Это бы отсеяло всю общеупотребительную лексику.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий