Как стать автором
Обновить

Комментарии 4

Можно отбросить все отличающиеся по длине более чем на 1 букву и результат резко улучшится.
Да, здесь есть много вариантов, не только по длине, но и пороги по тому же расстоянию Дамерау-Левенштейна улучшат ситуацию, набор эвристик все-таки индивидуален для конкретного применения.
А что со скоростью этого алгоритма? Вы считали расстояние от каждого примера до каждого вектора в словаре, или приеняли какие-то оптимизации?
Я использовал метод Gensim'a для получения N ближайших слов (most_similar), думаю, внутри есть оптимизации. Замеры по времени не делал, «визуально» быстро (несколько мс на один запрос), если очень важно — могу сделать с числами.
Зарегистрируйтесь на Хабре , чтобы оставить комментарий