Открыть список
Как стать автором
Обновить

Результаты и перспективы небольшого анализа русских текстов

Чулан
Представляю читателям статистику, собранную во время создания простейшего робота-генератора русских фраз

Распределение слов


Приведу сначала некоторые цифры.
На 12.5Мб русского текста (в основном классическая литература разных авторов), на 142114 разных слов в нём, чаще всего встречается союз «и» — 83575 раз (слова берутся во всех словоформах). И это больше, чем половина!
Вторым по частоте встречаемости оказывается предлог «в» — 52124 раз, на третьем месте — частица «не»: 36268 раз.
Глагол «сказал» (ед.ч., 3л.) встречается 6566 раз и находится на 28-м месте.
А вот слово «да» находится на 36-м месте и встречается 5039 раз, тогда как «нет» — встречается 2948 раз и находится на 53 месте.
Остальные слова выбраны достаточно случайно, исходя из предпочтений автора.



Частотность слов на корпусе текстов изучалась со времён открытия закона Ципфа для английского языка (т.е., уже более 60-ти лет), публиковались различные словари и обзоры по этой теме, но мы посмотрим на русскую речь немного внимательнее и нагляднее.
Подробные графики и примеры с выводами
Теги:обработка текстовискусственный интеллектNLPстатистикасемантическая сеть
Хабы: Чулан
Всего голосов 18: ↑12 и ↓6 +6
Просмотры453

Комментарии 21

Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

Похожие публикации

Аналитик по математическому моделированию
от 80 000 ₽2050-ИнтеграторСанкт-ПетербургМожно удаленно
Главный риск-аналитик
до 173 000 ₽НПФ БУДУЩЕЕМосква
Middle Frontend - разработчик
до 100 000 ₽AstraLabМожно удаленно
SEO-специалист по работе с черным SEO
от 150 000 ₽Digital ReputationМосква
Разработчик-алгоритмист (Python, C++)
от 100 000 до 150 000 ₽Российский квантовый центрМожно удаленно

Лучшие публикации за сутки