Комментарии / Профиль kzn / Хабр

Как стать автором

Антон Казенников @kzn

Пользователь

Профиль Публикации 1Комментарии 233Закладки 68

Взгляд на проблемы высшего ИТ-образования со стороны преподавателя

kzn 6 сен 2013 в 12:14

Все это замечательно, но есть суровые реалии. Министерство финансирует вуз в зависимости от количества студентов. Кроме того, сейчас последствия очередной демографической ямы. Следствия из этого, я думаю, понятны.

+1

Посмотреть

Способы представления словарей для автоматической обработки текстов

kzn 26 авг 2013 в 21:24

Это все очень сложно. Вообще есть такой проект — nlpub.ru ведет его eveel. Но вот использовать все вместе составляет довольно большие технические трудности. Например, есть открытая морфология АОТ, с другой стороны — есть открытая часть НКРЯ (национального корпуса русского языка) с морфологической разметкой. Казалось бы, взять — и фактически готовый POS-теггер. Но в АОТ приняты одни соглашения, в НКРЯ — другие, в СинТагРусе (корпус с синтаксической разметкой) — третьи. Их частично можно преобразовывать между собой, но во многом требуется преобразование руками.

С другой стороны — многие разработки закрыты, причем как коммерческие, так и академические. И разработчики ими делятся не очень охотно. Это тоже понятно — разработка лингвистических ресурсов трудоемко.

+1

Посмотреть

Способы представления словарей для автоматической обработки текстов

kzn 26 авг 2013 в 17:43

Кстати, скорость важна для индексирования. Но в этом случае нужен не полный анализ, а лемматизация.

0

Посмотреть

Способы представления словарей для автоматической обработки текстов

kzn 26 авг 2013 в 17:27

Скорее всего, судя по внушительному списку литературы там.

Но странно, что там реализован только алгоритм для отсортированных строк. В основной статье как раз два алгоритма: для отсоритрованных и нет.

Я реализовывал алгоритм, который работает без предварительной сортировки входных данных.

0

Посмотреть

Способы представления словарей для автоматической обработки текстов

kzn 26 авг 2013 в 15:31

Спасибо за ссылку.

Но задача несколько отличается от perfect hash. Надо по строке получать нормальную форму и морфологические характеристики. Это тоже занимает достаточно много места.

Я вот сейчас поставил cmph, прогнал просто список словоформ. Получил, что данные для хеша занимают 21Мб. Время построения — сходное с построением минимального КА. Минимальный КА занимает меньше даже без особой экономии памяти.

Преимущество автомата как раз в том, что его можно менять. В ЭТАПе как раз так и сделано. Есть словарь, который правят лингвисты, он также хранится в виде КА. И КА изменяется на лету без перестроения всего автомата.

Опять же, не было задачи ужать все до минимальных размеров. При желании автомат можно упаковать очень сильно. Например, если переходы изпользовать дельта и varint кодирование для меток переходов. В общем все, что описано в www.aclweb.org/anthology/W/W09/W09-1505.pdf

0

Посмотреть

Способы представления словарей для автоматической обработки текстов

kzn 26 авг 2013 в 15:13

Да. это морфологический, и околоморфологический анализ.

0

Посмотреть

Способы представления словарей для автоматической обработки текстов

kzn 26 авг 2013 в 13:49

Кажется, что дело в деталях. В случае GATE используется обычная минимизация ДКА с некоторыми тонкостями для представления групп.

Для weighted на первый взгляд нужны совершенно другие алгоритмы.

Про эквивалентность — ну вот подход ЭТАПа — построение классического трансдюсера, но если сделать из него КА, который на конечном состоянии выдаст нормальную форму, то он будет сильно большего размера.

И с трансдюсерами кажется отдельная задача — детерминирование по входному/выходному символу.

Просто к чему я это все. У меня на гитхабе там рядом выдрана из GATE работа с общим КА(удаление эпсилон-переходов, НКА -> ДКА, минимизация ДКА). Но для трансдюсеров, тем более с весами, нужны другие алгоритмы.

0

Посмотреть

Способы представления словарей для автоматической обработки текстов

kzn 26 авг 2013 в 13:11

Спасибо.

Кстати, под трансдюсерами разные люди понимают разные вещи. Ты, если я правильно понимаю, говоришь по weighted FST. А вот разработчики GATE трансдюсером называют обычный КА, с финальным состоянием которого ассоциированы некие действия.

0

Посмотреть

Способы представления словарей для автоматической обработки текстов

kzn 26 авг 2013 в 12:37

Да, все правильно. Пост про представление данных для фактически первого шага анализа. Это даже не описание полного морфологического анализа, поскольку там есть свои особенности.

Обычно анализ текста выглядит примерно так: токенизация, морфологический анализ, [другие стадии анализа].

Вот эти другие стадии анализа бывают очень разными. Следующая классическая стадия — синтаксический анализ. Но он очень ресурсоемкий как с точки зрения построения системы, так и с точки зрения ресурсов для анализа. Во многих случаях достаточно поверхностного анализа на основе списков слов — газетиров. Это фактически тот же морфологический словарь, но другого назначения. Например это — личные имена, фамилии, названия городов, улиц, железнодорожных станций, станций метро. Эти списки тоже надо как-то компактно представлять. А для более-менее приемлемого качества выделения такого рода объектов достаточно простых шаблонных правил вида: [Имя] [Фамилия] или [Фамилия] [Имя] [Отчество]. Эти правила — фактически регулярные выражения, только не над символами строки, а над словами текста. Этот подход используется, например в GATE и позволяет достаточно хорошо выделять объекты.

Мне хотелось написать пост по одной конкретной теме. Например, есть совершенно другая тема — разрешение частеречной омонимии — POS Tagging, на котором обычно и выбирается одна из альтернативных форм слова. (Но, например, в системе ЭТАП-3 другой принцип — там омонимия разрешается одновременно с синтаксическим анализом).

0

Посмотреть

Способы представления словарей для автоматической обработки текстов

kzn 26 авг 2013 в 10:48

Пример не про анализ слова «мыть», а про анализ слова «мыла». «МЫТЬ» в таблице — нормальная форма.

+6

Посмотреть

У Nginx появилась платная версия — Nginx Plus

kzn 23 авг 2013 в 17:39

Даже денег на MSDNAA нет?

0

Посмотреть

Псевдолемматизация, композиты и прочие странные словечки

kzn 21 авг 2013 в 19:13

Обычно, если слово есть в словаре, то оно анализируется только по словарю.
Если его там нет, то практически во всех системах есть в том или ином виде предиктивный анализ, который пробует разборать разными способами:

Разобрать слово по композитам.
Возможно, отрезать некий префикс, так, чтобы усеченное слово было в словаре. Обычно есть настройки на длину оставшегося слова, чтобы слова типа «а» не попадали в разбор
Предсказание по окончаниям. Например, предсказание по: 2м буквам основы, суффиксу(если есть) и окончанию.

Ну и возможны вариации вроде фильтрации по частям речи (например маловероятно, что неизвестное слово — частица или предлог), по статистике — отбрасываем редкие и исключительные варианты (вряд ли неизвестный глагол будет изменяться так же как «быть»).

Но все это обычно не отменяет следующий шаг — выбор одного варианта из нескольких. (Например, разбор слова «мыла» как глагола в «мама мыла раму»).

0

Посмотреть

Псевдолемматизация, композиты и прочие странные словечки

kzn 21 авг 2013 в 17:42

Композиты кажется нужны для довольно узкого круга задач.

Можно, как в АОТ, отрезать приставки. т.е. «паротепловозостроительный» разобрать по аналогии с «строительный». И лемма в этом случае тоже корректно строится.

Ну или брать композитные части максимальной длины, ну и ограничить формы, которые могут участвовать в словобразовании. Собственно, так сделано в ЭТАПе.

+1

Посмотреть

kzn 21 авг 2013 в 10:04

Достаточно спорная статья.

Да, emacs хорош для языков, которым не нужна IDE. Я успешно использовал emacs для Common Lisp — потому что есть slime. С переменным успехом для C/C++ — как ни странно, Visual Studio местами сильно удобнее по части автодополнения. Для Java — да, плохо.

Я бы сказал, что emacs хорошо подходит тогда, когда для написания кода достаточно более-менее поверхностного анализа.

Сейчас пишу на Java в Eclipse, настроил чтоб он максимально был похож на emacs. Но вот для JVM-like языков я бы не согласился заново перейти на emacs.

0

Посмотреть

Библиотека Trove. Коллекции примитивных типов в Java

kzn 21 июл 2013 в 01:15

BTW, так плохо делать, поскольку будет копирование массива. toArray() возвращает копию данных.

0

Посмотреть

Библиотека Trove. Коллекции примитивных типов в Java

kzn 21 июл 2013 в 00:34

Когда я говорил про 4 раза, я говорил про случай List<Integer>

А про организацию — все ArrayList так устроены, как следует из названия :-)

+1

Посмотреть

Библиотека Trove. Коллекции примитивных типов в Java

kzn 21 июл 2013 в 00:18

Только на это уйдет в 4 раза больше памяти, а так все нормально. Разумеется, все это актуально, когда данных много.

0

Посмотреть

Библиотека Trove. Коллекции примитивных типов в Java

kzn 20 июл 2013 в 23:02

Здорово! Еще было бы интересно почитать сравнение trove и fastutil.

+2

Посмотреть

Библиотека Trove. Коллекции примитивных типов в Java

kzn 20 июл 2013 в 23:01

У trove одно из весомых преимуществ — значительное снижение потребление памяти.

Коллекции, похожие на sdk удобно использовать когда заранее не знаешь, сколько элементов будет.

+3

Посмотреть

Команда математиков за полгода написала 600-страничную книгу, используя GitHub

kzn 27 июн 2013 в 11:15

Интересно, как они работу распределяли. Когда каждый пишет свою главу — все достаточно просто. Кажется достаточно сложным мержить изменения одного файла — что бы правки разных людей не приводили к стилистическим ошибкам.

0

Посмотреть

3

4 5 ...