Pull to refresh

Comments 17

UFO just landed and posted this here
Аффтр жжт! Пщ ысч!
Вашу идею «украду» для рашифровки сокращений в прайсах.
Насколько я понял, вдохновивший меня вопрос преследовал эту же цель :)
UFO just landed and posted this here

Ты вообще осознаешь какой боян откопал, если учесть что весь ветхий завет так написан? Возьми любую газету на иврите или арабском, открой для себя "новый"
мир.

Что есть языки без гласных, осознаю. Сам, впрочем, читать газеты на иврите или арабском пока не очень умею)
Реализация: https://harakat.ae/
Письмо без гласных на латинице или кириллице часто используется при обучении арабскому как иностранному носителей языков с (полными) фонетическими алфавитами.
Опускание согласных не практикуется, ибо чревато потерей корня, но в приведённых примерах тоже нет.
опечаточник умеет не только гласные добавлять, а и, внезапно, исправлять опечатки
Вот бы мне научится писать что-нибудь с нуля, за один вечер (за одну ночь, за один час, за 20 минут). Вернее, написать то я могу, но какая-то фигня получается.
А как напишешь и поделишься с кем-нибудь, так тебе скажут, что это придумали до тебя и твой вариант в сто раз хуже.
Ну, лучше узнать об этом, чем не узнать :-)
Определение сокращений часто бывает нужно при обработке аптечных прайс-листов. Так для одной позиции форма выпуска может быть записана по разному, например тб, таб, табл. Если вы пишете агрегатор, то необходимо такие строки связывать. К счастью, для этой предметной можно автоматически строить обучающие выборки на имеющихся данных. Хорошо работают модели учитывающие самантику. Теперь самое интересное: есть много сервисов поиска лекарств по аптекам, но я пока не видел хорошей агрегации и поиска по наименованию.
Как обучть мдль пнмть упртые скрщня

Возможно, вы имели в виду: Как облучить миндаль принимать пупырчатые сокращения?

А разве нельзя то же самое сделать проще?
Заводим словарь, полученный сбором данных по нескольким книгам (всё равно данные программе хранить надо, вес базы не так важен).
Берём искажённую аббревиатуру. Начинаем подставлять гласные в разные места (благо, гласных не так много). Сверяем со словарём, при этом сопоставляя с частотами встречаемости слов в речи (можно посчитать при обучении).

И будет примерно то же самое. Нет?

P. S. Я бы ещё ввёл массив возможных инверсий из 2 и 3 букв на основе раскладки клавиатуры, если наша цель — исправлять именно случайно сделанные опечатки, и корректировал фразу на их основе. Опять же, методом перебора :)
1) Да, с помощью словаря и перебора задача вставки букв решается проще. Но я взялся за усложнённую версию задачи, ибо:
  • любой словарь далёк от полного (особенно в языках типа русского с активным словообразованием), и незнакомые слова всё равно будут попадаться
  • если словарь очень большой, его полный обход займёт больше времени, чем beam search
  • раз мы всё равно запоминаем частоты для выбора альтернативных расшифровок,
    почему бы не использовать их для выбора букв тоже?

2) Инверсии, повторения букв, ошибки в правописании, результаты неправильного переключения en/ru — всё это учитывается в полноценных опечаточниках (например, в поисковых системах). Я же решил, что для статьи достаточно одной фичи — остальное читатели сами могут сделать по аналогии, если захотят.

А вообще, спасибо за замечания по существу :-)

Как это наука не научилась генерировать?
Я даже три года назад ролик записал на эту тему:
vk.com/jocker?w=wall323745_9883
Поверьте, всё возможно!

Sign up to leave a comment.

Articles