Pull to refresh

Comments 1

Спасибо за перевод! Важные советы для практического применения. Жалко, что нет дискуссии от практиков, что работает, а что нет в разных задачах. Замечу, что автор текста специализируется на Natural Language Processing.
Это можно проверить, добавив признаки, которые идеально соответствуют меткам классов.Убедитесь, что в этом случае классификация обучающих данных работает верно.

В оригинале «You can do this by adding „cheating“ features — a feature that correlates perfectly with the label. Make sure you can successfully overfit the training data.» Во-первых, мне кажется, что напрасно не перевели «cheating» — «мошеннические» или «поддельные» признаки. Я не понял без обращения к оригиналу, о чем идет речь. Видимо, простейшим примером такого признака будет индикаторная функция, которая для каждого объекта обучающей выборки возвращает его класс. Во-вторых, я согласен, что при обучении на всей обучающей выборке «классификация обучающих данных работает верно», но, мне кажется, что автор имел ввиду большее: «overfit the training data», т.е. переобучается (и теряет обобщающую способность), что можно увидеть, например, на cross-validation.
2.Удалите все признаки кроме добавленных на шаге 1.… Если в какой-то момент модель перестает работать, значит, у вас слишком много признаков или слишком мало данных.
От себя добавлю, или признаки противоречат друг другу.

Only those users with full accounts are able to leave comments. Log in, please.

Information

Founded
Location
Россия
Website
wunderfund.io
Employees
11–30 employees
Registered