ibegtin Oct 2 2014 at 15:42

Что такое «Понятный русский язык» с точки зрения технологий. Заглянем в метрики удобочитаемости текстов

9 min

27K

«Информационная культура» corporate blogSemantics*Open data*

+24

Comments 42

Valdei Oct 2 2014 at 16:08

Идея вычисления «коэффициента сложности» кажется недоработанной без учёта тематики текста.
В опросе у вас врачи, юристы и чиновники/экономисты. Но у них же действительно другие определения, другие формулировки, и упрощать их до общетематических странно.

ibegtin Oct 2 2014 at 17:01

Так практика в мире как раз в сторону упрощения любых формулировок до простых. Например, очень многие юридические тексты сильно избыточны. А некоторые банки уже начинают использовать простые термины в описании услуг и условий их оказания.

Valdei Oct 2 2014 at 17:12

Я боюсь, у нас в «сложных» сферах слишком много заимствованных слов, к таким текстам неприменимы общие стандарты.
Потому и упомянул про учёт тематики в расчётах.

Понятные условия, законы и прочее — это вообще отдельная тема. Если б под каждым шматком текста в законах было «Если кратко, то выше написано об этом: %пара_предложений%», в правовой сфере ориентировалось бы гораздо больше людей.

bay73 Oct 2 2014 at 22:55

Я боюсь, у нас в «сложных» сферах слишком много заимствованных слов, к таким текстам неприменимы общие стандарты.

Почему неприменимы? Как раз стандартный подсчет и показывает, что специализированные тексты — сложные. Это действительно так — они понятны только специалистам.
Надо ли упрощать — уже отдельный вопрос, особого отношения к методике расчета сложности не имеющий.

ColorPrint Oct 3 2014 at 00:16

Ну просто сравнивать нужно однородные по тематике документы

Vorchun Oct 2 2014 at 16:26

«Понятность» интересно проверить на литературе разных жанров и разных веков.

ibegtin Oct 2 2014 at 16:30

Так вот же — есть формула, есть сервис.

princeps Oct 3 2014 at 11:42

Да вот навскидку несколько абзацев из «Капитанской дочки» нашего всего:
Данный текст имеет уровень читаемости: 5.87
Не знаю, хорошо это или плохо :) Имхо, в общем случае при написании текстов на русском языке, за исключением набитых терминами специальных текстов надо стремиться к стандартам русского литературного языка, формулы тут могут помочь лишь отчасти.

ibegtin Oct 3 2014 at 16:39

Безусловно, формулы не решают всех задач. Я и надеюсь что найдутся те кто используют другие подходы:)

lockywolf Oct 2 2014 at 16:47

Я долго старался вычленить из статьи самый «мясной» кусок, более всего подходящий бы для выражения моего отношения к статье в целом и идее простого языка в частности, но по прошествии 10 минут бросил это уже очевидно бессмысленное занятие, и решил просто попытаться побудить читателей хабра прочитать всю статью по ссылке целиком.

Статья.

При этом сама идея использования формул для оценки читаемости текста — хороша и интересна, вот только, боюсь, их использование будет, как всегда, вывернуто наизнанку.

-1

Nashev Nov 20 2014 at 01:34

спасибо

ServPonomarev Oct 2 2014 at 18:40

Как бы решил предложенную задачу я (в конце концов — автор попросил обсуждения):

Собрать статистику по текстам каждой категории сложности. Дошкольное чтение, младшешкольное, старшешкольное, уровень ВУЗ'а (общая тематика) и уровень ВУЗ'а (специальная тематика — юриспруденция, экономика и т.д.). Под статистикой имеется ввиду — би-три-квадро-пента граммы — совместное использование слов в одной фразе.

Имея такую статистику, можно определить банальность текста. Текст банален, если слова, составляющие его фразы, встречаются в типичных комбинациях (соответствующие N-граммы имеют высокие веса). Тест небанален, если доля нетипичных комбинаций высока.

Тогда, уровень текста будет определяться первой категорией сложности, для которой этот текст банален.

Пример:

«У точек, бедных крошек, ни ручек нет, ни ножек. Как-же они, не пойму я, слипаются в прямую?» — небанально. Математические термины (точка, прямая) соседствуют с нематематическими (ручки и ножки). Уровень текста — сложный специальный математический.

«Геометрическое место точек на равном расстоянии от центра называется кругом.» — банально. Типичные комбинации терминов и устойчивые выражения (геометрическое место точек). Уровень текста — лёгкий специальный математический.

flashfm Oct 2 2014 at 19:29

Как связана банальность и понятность?
Допустим «Уравнение, где сумма энных степеней двух целых чисел равна энной степени третьего числа, не имеет решений в целых ненулевых числах» — будет банальным выражением? А насколько оно будет понятным?

ServPonomarev Oct 2 2014 at 21:19

будет банальным выражением? А насколько оно будет понятным?

Поскольку сильного ИИ до сих пор никто не сделал, техническими средствами определить «понятность» просто невозможно, так как нет определения «понятности». Банальность, или, другими словами, типичность текста — определить можно. Например, как я описал выше. Думается, что такой подход даст более приближённые к ожидаемым результаты разбора текста, хотя и будет более труден в реализации.

ServPonomarev Oct 2 2014 at 21:28

«Уравнение, где сумма энных степеней двух целых чисел равна энной степени третьего числа, не имеет решений в целых ненулевых числах»

Требуется доказать, что Уравнение, где сумма энных степеней двух целых чисел равна энной степени третьего числа, не имеет решений в целых ненулевых числах, при натуральном N > 1

flashfm Oct 2 2014 at 19:30

В современных формулах можно использовать индекс цитируемости слов и фраз в интернете.
Чем чаще слово или фраза используется в интернете — тем оно, скорее всего, понятнее.

zag2art Oct 2 2014 at 19:51

ага, например, слово «и»

ColorPrint Oct 3 2014 at 00:18

предлоги, союзы и т.п. обычно выкидываются при анализе.

YaakovTooth Feb 20 2018 at 19:35

Что не отменяет сути его реплики.

nmakarov Oct 2 2014 at 22:23

Очень давно, еще в школе, читал какой-то фантастический рассказ про машинку-переводчик смысла. Там были какие-то межпланетные дипломатические непонятки, а эта машинка сокращала пространные витиеватые многостраничные документы со всяческими экивоками до, к примеру, «отдавайте Кемъскую волость, а не то [несеръезная угроза]». Там даже был такой эпизод, когда надо было тянуть время, и была послана депеша, которую эта машинка сократила до «документ не содержит смысла».

Вроде бы лет пятнадцать назад кто-то пытался сделать похожую программу, работала она достаточно коряво, но все-таки…

ibegtin Oct 3 2014 at 12:17

Да, это вообще мечта и много было сделано суммаризаторов текстов. Для английского языка есть много таких алгоритмов — разного уровня качества.

worldmind Jan 12 2018 at 10:35

Мне кажется это было у Азимова в «Основании» во время переговоров Основания с каким-то осколком Империи.

anpetrov Oct 2 2014 at 23:03

Интересно, а почему нету алгоритмов на анализ «структурной сложности» предложений?

Может это я один такой, но в легальных документах мне бывает крайне трудно уловить кто кого чему обязывает, и при каких условиях. Т.е идет явное злоупотребление сложносочиненными и сложноподчиненными предложениями и всякими деепричастными оборотами. Я вижу это в ровной степени как в документах на английском, так и на русском языке. Мое мнение: чем проще структура, тем понятнее мысль.

Наверно, разобрать предложение по svo, subject verb object, ну и сколько их там в предложении, не должно быть уж очень сложно?

ibegtin Oct 3 2014 at 12:18

Наверное дело в том что мало библиотек с открытым кодом которые это позволяют? Я думаю что это интересное направление, если кто-то покажет пример как это можно было бы сделать — было бы очень интересно посмотреть на результаты.

worldmind Jan 12 2018 at 10:42

Как понимаю тут попытка.

elingur Oct 3 2014 at 10:01

спасибо автору за интересное исследование.
Любой естественный язык нельзя так просто делить на язык «канцелярский» и интернет язык. Есть огромное количество жаргонов (к которому можно отнести т.наз. «канцелярский» язык, «блатной», «ученый» и т.д.), есть разговорный язык, есть литературный и т.д. Оценка сложности языка — очень многопарамерическая вещь и только военные могут так просто с ней расправиться, посчитав символы текста в разных вариациях. Мне кажется, что простота языка складывается из (как уже писали) частотности н-грамм (критерий частотности), покрывающих текст в данной области. Ну и не стоит забывать про эмоциональное воздействие (начиная с фоносемантики и заканчивая тональностью текста в целом).
Сложность и простота — это скорее не полярности на оценочной шкале, а взаимодополняющие параметры. Но полностью согласен, что эта тема еще мало разработана лингвистами (точнее в теории что-то есть, а практических наработок, руководства к действию почти нет), и тут есть над чем и глубоко подумать.

ibegtin Oct 3 2014 at 12:42

Конечно очень хочется найти что-то универсальное, но вполне возможно что каждая тема, действительно, требует свой подход и свои алгоритмы и решения. Тут нехватает тех кто бы делал это на практике и я поэтому всех призываю к участию в конкурсе Apps4Russia по номинации понятности языка.

princeps Oct 3 2014 at 11:30

Великое дело делаете, товарищ.
Что-то мне подсказывает, что исследования на эту тему уже давно проведены всякими филологами и лингвистами, только в интернетах их вряд ли найти. Как вариант можно поискать в отделе диссертаций РГБ.

ibegtin Oct 3 2014 at 12:16

Я искал в базах ВАКа и многих других, нашел только одно единственное, неподробное исследование по адаптации формулы Флэша. Но ничего интересного там не оказалась. По этой теме в России действительно вакуум.

princeps Oct 3 2014 at 12:23

Очень странно. Я попинаю знакомых филологов, может они что дельное посоветуют.

ibegtin Oct 3 2014 at 12:30

Заранее спасибо!

Nashev Nov 20 2014 at 01:39

удалось?

Nehc Oct 3 2014 at 13:18

А вот второе направление — это то привело меня к тому прежде чем создавать словари понятности и инструкции по переписыванию сложных языков. И прежде чем стоит говорить с чиновниками о том что они говорят на жутком канцелярите. Прежде всего этого нужно сделать формулы оценки удобочитаемости для русского языка.

Это тест на тему внутри текста? Не читаемо же совсем… В первом предложении я даже не смог понять что именно надо добавить или убрать для получения верной смысловой конструкции. В последнем, мне кажется слово «этого» лишнее…

Что касается сути… Когда-то занимался этой темой. Есть готовые библиотеки синтаксического разбора текста. Прежде всего нужно начинать с них. Результатом обработки является древовидная иерархическая структура (например в формате xml). Когда предложение правильно разобрано, из него вполне свободно (а главное — вполне допускаю, что в достаточной степени автоматически) извлекается основная мысль, уточнения, дополнения и тп. В такой структуре уже можно экспериментировать с упрощением (в неструктурированном тексте гораздо сложнее определить уровень критичности замены того или иного слова на синоним). Я сейчас поищу примеры — где-то были…

Пока ссылка: www.asknet.ru/analytics/programms.htm#Утилиты лингвистического анализа текста (первое, что нашлось в поиске)

ibegtin Oct 3 2014 at 16:40

Слово «этого» действительно лишнее. Не буду ссылаться на тест, пусть будет моя невнимательность.

Вот интересно получится ли так упрощать хоть как-то автоматизировано

FuriousAngel Oct 3 2014 at 15:33

Кстати, неплохо было бы проверять на «понятность» самих слов.
Например предложение: «Верификация транзакции.» (которое может быть заголвком) оценивается сервисом в

Данный текст имеет уровень читаемости: 8.89

Аудитория: 7 — 9-й класс (возраст примерно: 12-14 лет)

Сильно сомневаюсь, что в 12 лет оба слова очень понятны. Я не буду даже говорить про столь замечательные слова как «клаузула» или «вализа». Может быть по ним оценивать еще и упомянутую в комментариях направленность текста? Не просто 1-3 курс ВУЗа, а еще, например, «Юридическая терминология»

Кстати, предложение «Проведение верификации транзакции.» оценивается уже

Данный текст имеет уровень читаемости: 12.55

Аудитория: 1 — 3 курсы ВУЗа (возраст примерно: 17-19 лет)

ibegtin Oct 3 2014 at 16:38

Для нормальной оценки сервису нужно не меньше 100 слов. А оптимально около 30-50 предложений.

vbif Oct 3 2014 at 16:10

а что может означать:

Данный текст имеет уровень читаемости: 0.05

Аудитория: неизвестно (0)

ibegtin Oct 3 2014 at 16:37

Если Вы его через ссылку отправляли, то текст мог неправильно считаться. Попробуйте его ввести через форму отправки текста.

vbif Oct 6 2014 at 22:00

Нет, я именно скопировал текст. Причём, другие показатели выглядят как обычно.

ibegtin Oct 7 2014 at 08:57

Тогда могу лишь предположить что текст настолько мал что метрики по нему считаются, но формулы выдают отрицательный результат.
Если это естественный, а не придуманный текст, то это, конечно, нужно перепроверять. Пришлите его, пожалуйста, или напишите тут комментарием.

shark-17 Jul 1 2015 at 23:08

Здравствуйте, скажите, пожалуйста, что за процент сложных слов. На основе какого списка они выбираются?

worldmind Jan 12 2018 at 10:52

Попалась такая книга (Валгина Н.С. «Теория текста»), может пригодится, хотя формализуемых параметров там вероятно нет.