ntz Mar 4 2011 at 20:53

Фонетические алгоритмы

9 min

44K

Algorithms*

From sandbox

+152

Comments 35

KriegeR Mar 4 2011 at 21:39

Отличная статья!

Maxima Mar 4 2011 at 21:39

Юзал Soundex правда не помню какой именно.
Но реально очень удобно.

uxIg Mar 4 2011 at 21:48

Удобно. Радует что есть поддержка Soundex'a MySQL'ом, но нет поддержки русских произношений…

Maxima Mar 4 2011 at 21:50

Ой, а я как-то её делал, надо поискать в скриптах, пару лет назад было дело.

uxIg Mar 4 2011 at 21:52

Да можно… Но хотелось бы чтобы это было на уровне MySQL.

Maxima Mar 4 2011 at 21:54

Да об этом я и не мечтал :-)
Поиск без Soundex (или его аналогов) просто издевательство.

UFO just landed and posted this here

AnastasiaK Mar 4 2011 at 21:53

Раньше не встречала таких алгоритмов, очень интересно было почитать, спасибо.

ntz Mar 4 2011 at 22:19

В логике этих алгоритмов нет ничего сложного, и они легко реализуются в виде хранимых подпрограмм (или каких-либо других расширений) для большинства СУБД.

Вообще, не совсем понятно, почему во многих системах используется именно Soundex, ведь он по многим параметрам уступает остальным алгоритмом, тому же Metaphone, например. Да, его реализация немного проще, но это — ничто по сравнению с качеством результатов.

zen Mar 4 2011 at 22:19

Что же вы забыли n-grams! В отличие от всех рассмотренных алгоритмов, n-граммы поддерживают индексный поиск. Мы написали для постгреса такой модуль, который доступен в дистрибутиве, а совсем недавно, этот же индекс ускоряет *pattern*!

ntz Mar 4 2011 at 22:25

Вы немного путаете области — метод n-грамм (если говорить о подстроках фиксированной длины n) относится к нечеткому поиску, который обычно не затрагивает фонетических аспектов, и больше основывается на понятиях метрик (Левенштейна, например).

Кроме того, все представленные алгоритмы позволяют проводить индексирование по значению кода как по обычным словам, а индексирование в методе n-грамм — совершенной иной процесс.

zen Mar 4 2011 at 22:33

Извините, не обратил внимание на топик :) Но, можно было бы упомянуть, что помимо фонетических алгоритмов есть и другие.

catbegemot Mar 5 2011 at 23:30

Напишите статью, я думаю не только я буду благодарен.

ntz Mar 7 2011 at 16:38

Уже пишу!

UFO just landed and posted this here

bogus92 Mar 4 2011 at 22:33

На первом курсе писал курсовую работу, в которой реализовывал компьютера-собеседника. Использовал Soundex для сравнения слов со словарем. Русский текст просто транслитерировал латиницей и применял алгоритм. Результат получался довольно неплохим.

57DeD Mar 5 2011 at 01:20

Занятно, что ни один из алгоритмов не учитывает ударения. В результате русские фамилии на -ин от армянских отличит только русский Metaphone. Интересно, этого сознательно добивались?

qmax Mar 5 2011 at 04:51

обоже!
это вот именно то, что генерит «Возможно, вы имели в виду: Шварценеггер»?

Inskin Mar 5 2011 at 10:45

«Зачитываю по буквам — сы-цы-хы-варзенеггер» )

AStahl Mar 5 2011 at 09:46

Любопытные алгоритмы.
А вот ещё более интересная реализация (алгоритм вряд ли имеет название ибо самопальный).
Например:
nanohertz.net/?word=%D1%85%D1%80%D0%BE%D0%BD%D0%BE%D1%84%D0%B0%D0%B7%D0%B8%D1%82%D1%80%D0%BE%D0%BD

Если будете играться, то примите во внимание, что система обучена русским и английским словам, но не знает ни имён ни ругательств.
Если система выдаёт казалось бы бредовый результат, перед тем как писать «автор — козёл, код не работает» проверьте наличие искомого слова в БД путём ввода корректного написания этого слова.

sergpenza Mar 5 2011 at 10:10

На Хабре публиковалась реализация daitch-mokotoff на php
Использую в своих проектах, по сравнению с soundex просто небо и земля.

sergpenza Mar 5 2011 at 13:27

Подумал, что может быть интересно для чего :)
Я использую daitch-mokotoff для исправления опечаток в поисковых запросах.
Вкратце реализовано это так: есть таблица, в которой хранятся слова в базовой форме (используется словарь морфологии) и их фонетический вид по daitch-mokotoff
При поиске для каждого слова пытаемся словарем найти базовую форму. Если такой нет, предполагаем, что человек ошибся, получаем фонетический вид поискового слова и выбираем из таблицы все слова с таким же видом. После чего для поискового слова и слова из запроса вычисляется расстояние по Левенштайну (минимальное количество вставок, замен и удалений символов, необходимое для преобразования str1 в str2) и находим самое близкое слово.
Плохо работает для имен собственных, но на общеупотреблительных фразах — весьма, весьма.

javascript Aug 5 2011 at 13:50

Теперь эта же реализация на javascript :-)

eng Mar 5 2011 at 11:10

А нет ли ошибки в примерах для Daitch-Mokotoff Soundex?

095747 → Архипцев, Архипцов, Архипычев, Арцыбасов, Арцыбашев, Арчибасов
095757 → Архипков, Архипцев, Архипцов, Архипычев

Одна фамилия (например. Архипцев) соответствует двум кодам.

ntz Mar 5 2011 at 12:33

Daitch-Mokotoff Soundex может сопоставлять одному слову несколько кодов, если возможно альтернативное произношение (такие альтернативы приведены в описании).

loginsin Mar 5 2011 at 13:15

Однако если захочется найти именно «Швардсенеггера», придется попотеть. Гугл со своими фонетизмами некоторые фразы (даже с кавычками) отказывается искать. Например: «operator+ C++» (пример из головы).

loginsin Mar 5 2011 at 13:17

Этот находит, а вот «operator[] c++» уже нет. Показывает общую информацию по операторам (не только по операторам operator).

Curious_Vik Mar 5 2011 at 13:20

Такой вопрос:
Существуют ли какие-то фонетические алгоритмы (или реализации описанных), которые могут измерять расстояние между словами? Иногда хотелось бы проводить ранжирование слов по схожести произношения…

ntz Mar 5 2011 at 18:28

Если я не ошибаюсь, специализированных алгоритмов для этого нет. Однако, можно попытаться приспособить уже существующие алгоритмы к подсчету количества преобразований, необходимых для приведения одного слова ко второму, правда я не очень хорошо себе представляю, как это возможно за оптимальное время сделать.

catbegemot Mar 5 2011 at 23:33

Исходя из вашего текста наиболее точно (в случае англоязычных фамилий) попадает NYSIIS — не смотря на то, что он не самый новый. Или я не правильно оцениваю результаты?

ntz Mar 6 2011 at 12:30

Сложно сказать. Нужно проводить тестирование, сравнение, и, опять же, без участия человека сложно выяснить, насколько точным является результат. По примерам также нельзя объективно оценить качество.

Кроме того, меньше слов с одинаковым кодом — еще не значит лучше, так как в результат могут не попасть действительно похожие слова.

Одно ясно точно — будь NYSIIS наилучшим вариантом, не стали бы изобретать новые алгоритмы.

UFO just landed and posted this here

kolipass Nov 12 2015 at 16:15

Сделал небольшой форк примера из статьи.
За прошедшее время в apache commons codec появилась своя реализация NYSIIS

pilligrim Feb 12 2019 at 19:02

Если вдруг захочется дополнить реализациями на разных языках
https://github.com/Betawolf/Phonetics.jl

Это библиотека на Julia

Soundex
— Fuzzy Soundex
— Phonex
— Phonix
— The New York State Identification and Intelligence System (NYSIIS)
— The Census Modified Statistics Canada procedure
— The Match Rating Approach
— Lein
— Caverphone
— Roger Root
— Metaphone
— Double Metaphone

Show the best of all time