wij 21 янв 2010 в 17:05

Результаты и перспективы небольшого анализа русских текстов

1 мин

1.1K

Чулан

Комментарии 21

spanasik 21 янв 2010 в 18:25

В общем-то по правилам такой текст нужно оформлять в виде ссылки.

wij 21 янв 2010 в 18:28

Сейчас попробую…

andrew_b 21 янв 2010 в 18:45

Классическая литература уже давно была проанализирована и на частотность и на длинность словоформ. Есть куча словарей частотности. Вот, например.
А какова цель Вашего исследования?

wij 21 янв 2010 в 20:13

Спасибо, интересно было сравнить, но слов по Вашей ссылке (Частотный словарь художественной литературы) даже меньше, чем у меня с 12.5Mb и непонятно куда таки дели союз «и» :)
Распределение тоже не показано (видимо, гуманитарии не умеют строить графики :)).
Остальной частотный список мне показался тоже сомнительным, потому что он как раз заметно зависет от типа текста (что я и показываю).
И у меня не только русская классическая литература, а довольно разнообразный худлит 19-20 века.

Немасштабируемый характер семантической сети на корпусе английских текстов (а не только закон Ципфа) — это результат последних 10-15 лет (согласно Барабаши во всяком случае).

andrew_b 21 янв 2010 в 20:15

Ну так всё-таки, к чему вы планируете придти в итоге? Как использовать информацию?

andrew_b 21 янв 2010 в 20:18

Ссылку, которую я привел в пример лишь первое, что попалось при поиске, в основном, я имел в виду «бумажные» словари. Не могу вспомнить автора только. Возможно, Вам может помочь сравнение результатов и источников анализа.

wij 21 янв 2010 в 20:49

Да, спасибо. Но источники анализа как раз интереснее, а в таких словарях их часто нет. Давно попадалось что-то по Пушкину, но это совсем узкая специфика, без эвристики.
Наверно, это не очень заметно по тому, как скомпонована подача информации в моей статье, но основной её результат — это немасштабируемый характер семантической сети корпуса текстов и уникальность профилей текстов (распределение частотности слов) в зависимости от их типов и авторства.
Что касается моих целей — выводы там в конце сформулированы. Первое, что мне хотелось бы попробовать — это провести сравнительный анализ по языкам — пока что известно, что те же коэффициенты частотности γ в указанной степенной зависимости, в т.ч. для семантической сети — разные для разных языков, а какие стилистические различия могут при возникать — тоже занимательно.
Можно ещё смоделировать «обучение» на основе полученных результатов генератора «умных» фраз.

artch 21 янв 2010 в 19:12

Такие графики делают в логарифмической шкале.

wij 21 янв 2010 в 20:06

Конечно, если тип распределения заранее известен. Графики в логарифмической шкале приведены по ссылке.

qmax 21 янв 2010 в 20:10

не совсем понятно причом тут искуственный интеллект.
но наврядли велосипед получился убедительнее, чем имеющиеся модели.

wij 21 янв 2010 в 20:15

Понимание того, что семантическая структура речи представляет собой немасштабируемую сеть может использоваться для генерации естественной речи.

qmax 21 янв 2010 в 20:20

я возможно чтото пропустил,
но весь анализ в статье чисто статистический.

и результаты его давно известны всем, кому было интересно и не лень зайти на гугл.

wij 21 янв 2010 в 20:39

Дайте, пожалуйста, ссылку на статью с графиками о немасштабируемом характере семантической сети на корпусе русских текстов. Интересно сравнить для разных типов текстов — наверняка у них другой их набор.

qmax 21 янв 2010 в 20:44

этим занимались и занимаются «институт русского языка»
и С.А.Шаров, составитель современного частотного словаря.

wij 21 янв 2010 в 21:06

Спасибо, ссылку на частотность слов Шарова мне дали выше. И в словаре у Шарова довольно странные результаты: беднее, чем даже у меня на 12.5Mb к тому же закон Ципфа не выполняется (только что проверено в QtiPlot).
Непонятно, по какому набору текстов делался анализ.
К тому же меня речь не только и не столько про частотность слов.

И Вы не ответили на мой вопрос.

qmax 21 янв 2010 в 21:10

я не настолько глубоко в теме, чтобы сходу дать ссылки.
меня интересовал только частотный словарь.

корпус на котором всё это строилось подробно описан на сайтах,
с %ным соотношением жанров.

wij 21 янв 2010 в 21:41

У того, что Вы указали — 5 тыс слов до 3 раз попаданий — это очень мало. На современной лексике нет даже слов «звёздный» или «шахматный» или прилагательного «остальной» (встречемость наряду с таким словом, как, скажем, «бурный» — которое у них есть)…
Даже и не знаю, как можно было получить такой результат… Слишком плохое соответствие закону Ципфа тоже не внушает доверия.

Busla 23 янв 2010 в 13:02

Вы сами-то понимаете что пишете?!

на 142114 разных слов в нём, чаще всего встречается союз «и» — 83575 раз (слова берутся во всех словоформах). И это больше, чем половина!

Т.е. в ваших текстах союз «и» через каждое слово, а местами даже и подряд несколько «и»?

wij 23 янв 2010 в 18:24

Ещё раз, на 142114 __разных__ слов в нём, чаще всего встречается союз «и»

Busla 24 янв 2010 в 14:49

А глубокая мысль про половину? ;-)

wij 24 янв 2010 в 15:58

Отражает грамматическую структуру языка.
Сравните с английским: www.english-for-students.com/Frequently-Used-Words.html (или вот: grammar.about.com/od/words/a/100freqused07.htm)
Или французским: eduscol.education.fr/cid47916/liste-des-mots-classee-par-frequence-decroissante.html
(или: french.about.com/od/vocabulary/ss/mostcommonwords.htm)

Если вдруг внепланетный разум :) хочет заранее узнать принцип образования времён в глаголах или существование артиклей в данном незнакомом ему языке, то ему достаточно посмотреть на список из первых 5 наиболее часто встречаемых слов, и даже первого слова, наверно, достаточно для ответа на второй вопрос.
Т.е., это некий классификационный признак.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Результаты и перспективы небольшого анализа русских текстов

Комментарии 21

Публикации

Истории