Trept 14 апр 2014 в 13:43

Создание сетей терминов на основе анализа текстов

5 мин

17K

Семантика*Алгоритмы*

+17

Комментарии 10

icbook 14 апр 2014 в 14:53

Что-то подсказывает, что в словосочетании «дескриминантной силы» ошибка?

В результатах исследований первые два итога — получилось забавно :)

Trept 14 апр 2014 в 16:19

Спасибо, не заметил опечатку.

becks 14 апр 2014 в 14:58

Тема интересная, но постить сюда публикации в чистом виде, мне кажется, не самая лучшая идея — теряете часть аудитории. Адаптированная статья выглядела бы лучше (стиль изложения, ну и проще надо быть, более доступным языком объяснять для несведущих в теме исследования).

CPro 14 апр 2014 в 16:52

Насколько я понял, вложенность понятий определяется только исходя из их состава? То есть связь «поиск» — «вертикальный поиск» обнаруживается, а «поиск» — «нахождение результата» — нет?

Trept 14 апр 2014 в 17:40

>> связи соответствуют вхождениям одних терминов в другие
Да, в статье именно так.

dustalov 14 апр 2014 в 20:34

Для статей подобного формата существуют специальные журналы, утверждённые ВАК. В том числе по компьютерной лингвистике и обработке естественного языка. Здесь принято писать менее формальным языком.

Можно предложить сколь угодно методов автоматического построения тезаурусов лексических онтологий, но почему в статье нет раздела про апробацию полученного ресурса? Какова актуальность работы? Чем указанный подход лучше ручной разметки или других известных решений?

Trept 14 апр 2014 в 20:44

Пока в качестве апробации есть один пример
>> пример такого корпуса ниже рассматривается массив аннотаций электронных препринтов arXiv (www.arxiv.org) за 2007-2010 годы по тематике информационного поиска (рубрика cs.IR) объемом 550 записей.
Про актуальность — в первом содержательном абзаце.
А сравнения действительно пока нет, поправим в ближайшее время.

dustalov 14 апр 2014 в 21:03

Утверждение в первом содержательном абзаце ничем не обосновано: нет ни обзора существующих работ, ни ссылок на обзорные работы. Автоматизация построения онтологий — чрезвычайно важное (и интересное) направление исследований, но нельзя начинать с нуля. Мне кажется, статью можно улучшить добавлением отдельного раздела про особенности и недостатки существующих решений. В англоязычных работах это называется Related Work.

Апробация тезауруса может выполняться двумя способами. Можно взять какую-нибудь дорожку РОМИП и сравнить результат работы вашего ресурса с известными результатами на этой дорожке. Можно сопоставить ваш ресурс с каким-либо золотым стандартом, но здесь всё сложнее, потому что нужно найти хорошо изученную онтологию по вашей тематике. Ну, есть ещё третий вариант — выполнить экспертную оценку, но это слишком долго и дорого. Обозначенная рубрика arXiv.org — всего лишь неразмеченный набор данных. Как вы собираетесь оценивать по нему свою онтологию?