Pull to refresh

Comments 5

Нормально. Ну, самое простое должно же проверяться первым… Паттерн чек можно было сделать в Экселе за часок. Я правильно понял, что окончательные выводы получены на независимой выборке?


Хотя попытка натянуть рекуррентные сети здесь выглядит логично, но… Делали ли вы эмбеддинг ваших псевдослов в векторное пространство? Если нет, то именно это упущение могло все и поломать.

Ну, собственно, этим все и закончилось, в некотором смысле. По-сути, последний вариант это вариант векторизации с точностью до слов(а не до букв). И на этом длинном векторе в данном случае строится классификатор типа — «а давайте отсортируем элементы вектора, чтобы „хорошие“ были справа, а „плохие“ слева.» И дальше отсечка по индексу в векторе. Если такой запихнуть в сеть, она тоже с этим справится, но это уже излишне.

И этом, в том числе, некоторая печаль, потому что в предложениях по одному слову и мера между словами не очень определена(в этой постановке), поэтому просто надо брать все существующие комбинации, как отдельные неделимые элементы вектора. Embedding формата word2vec тут не прокатывает, потому что у слов нет ближайшего контекста. Опять-таки, в рамках этой зачади.
Да, возможно-возможно, что контекста нет. Решать вам.

Я думаю, что лог.регрессия на бинарных признаках тут могла тоже справиться. Поясню, что в one-hot кодируется каждая последовательность, например, 1-2-2-3: 0001.
Да, я это и имел в виду. И это как раз то, чего хотелось не делать, потому что интуитивно кажется, что при этом какая-то информация теряется. =)
Теряется простота интерпретации. Менеджерам сложно доставить знание о log-odds. Насчет потери информации надо экспериментировать.
Sign up to leave a comment.