michoello May 6 2013 at 12:57

Обработка и классификация запросов. Часть третья: Исправление опечаток

9 min

15K

VK corporate blogSearch engines*

+37

Comments 4

Corwal May 6 2013 at 15:07

Когда был студентом, то написал почти такой же спелчекер (ну и автодополнялку заодно). Вот только подбор списка правильных слов тормозной по тем временам был, что и не удивительно, при таких то массивных переборах на тогдашнем Celeron с его 300 MHz. Вот интересно, через 15 лет будут предлагать спелчекеры основанные на чистом алгоритме Левенштайна со скоростью подбора 10 слов в секунду..?

excoder May 6 2013 at 18:13

Смотря что подразумевается под «чистым». Без эвристических функций и отсечений не только будет медленно, но и качество окажется не очень, простых матриц весов недостаточно. Мы делали классического взвешенного Левенштейна с отсечениями по дереву и рядом эвристик. На типичной персоналке скорость — не более 0.0005 сек. на слово при качестве в 95%.

Corwal May 7 2013 at 14:22

Я так полагаю, вы использовали проверку по словам из собственой БД, а не по всем словам определенного языка? Было бы интересно посмотреть более детальную статистику по количеству слов в БД и скорость поиска альтернатив для слов разной длины.

excoder May 8 2013 at 01:43

Словарь из 5 млн. словоформ русского языка. Распределение скоростей не замерял к сожалению.