Pull to refresh

Comments 88

Интересно! А по-подробней, что под капотом, не расскажите?
будет отдельным постом. В двух словах: Django, pystemmer, pymorphy
Простите за занудство, но все-таки в трех словах :)
Занудство?
В двух словах — Разг. Экспрес. Очень кратко, сжато, без подробностей (говорить, писать и т. п.).

Вот — занудство!
«В двух словах» это клише. Клише следует избегать в текстах :)
Например, предложение «Сочетание 5 согласных букв в русском языке встречается только в двух словах» стоит писать как «Сочетание 5 согласных букв в русском языке встречается более, чем в одном, но менее, чем в трёх словах.»
Дайте подумаю, в скольки же словах оно встречается… В двух с половиной? :)
[некропостер mode=on]

Но мы же с вами дискретные личности, правда?
Переделаное письмо, конечно, в два раза короче, но читать рублёные фразы по 3-5 слов в предложении очень сложно, глаза постоянно спотыкаются на точках.
UFO just landed and posted this here
Да и вообще, полностью изменился эмоциональный посыл.
Если первый текст — хоть и исполнен мусорных оборотов — несёт смысл «что-то плоховато, что-то неясно, надо бы разобраться», то второй — «всё. приехали. смерть.»
Действительно, переработанный текст читается почти как заключение патологоанатома.
Это распространено среди аудитории советов Ильяхова/Горбунова/Бирмана.
Советы (сами по себе толковые и интересные) воспринимаются слишком буквально и без чувства меры.
Ух-ты! А эта программка, оказывается, просто вытаскивает из исходного текста всю правду наружу! :)
Книга классная. Сформулированы многие вещи, которые я понимал лишь глубоко интуитивно.
Вы определяете омоформы?
Регистры используются для служебных данных.

Для данных целей необходимо использовать регистры.
Тут очевидно, что эти слова не выкинешь.

А вот интересно переоформить само письмо.


После:
Красным выделяется что не нужно. Чем этой программе не нравится слово «открытое», к примеру? Видимо, не слишком углубляется в контекст.
это бага pymorphy, он рассматривает слова по одиночке, без контекста. И считает «открытое» причастным оборотом, хотя очевидно, что это прилагательное.

Пока думаю что делать, переключиться на другой анализатор или написать свой.
Тут очевидно, что эти слова не выкинешь.


«Опубликовала открытое письмо» — если опубликовала, значит письмо не закрытое.

«Для защищенных корпоративных сетей» — корпоративные сети по умолчанию должны быть защищенными.

Дальше сложнее, особенно с «подписано».
«Письмо подписано», это как «видел видео», вроде не однокоренные, но слух режет

image
Это пассивный залог, который традиционно считается формальным (в учебниках — точно). На семинарах по литературному редактированию это бы поправили на «письмо подписала команда, а не директор». В английском это называется «сильные глаголы», в русском просто стоит избегать пассивного залога :)
в русском просто стоит избегать пассивного залога :)

Зачем тогда его придумали?
Его не придумали. Это часть языка.

Для примера того, чего еще нужно избегать, попробуйте записать чей-нибудь разговор на диктофон и перепечатать его на бумагу дословно.
Зачем вводить в язык то, чего следует избегать?
это вопрос, подобный «как с точки зрения эволюции обьяснить %topic%?»

ничего никуда никто не вводил, язык формируется сам собой, в том числе имеются и неэффективные речевые обороты
но для написания информативных статей, новостей, документации, деловых писем, язык должен быть лаконичен, чтобы облегчить понимание и заострить внимание на важных вещах

или давайте воспользуемся классическим методом: доведение ad absurdum — следующую документацию для сверхважного клиента напишем матом, потому что именно им думали при написании продукта («а что, это тоже часть языка!»)

в личных письмах — пожалуйста, нет проблем, пишем как хотим
следующую документацию для сверхважного клиента напишем матом


Вы что, а вдруг ему понравится? =)
На минуточку, строго говоря, в целом, можно было не вводить, вообще-то.
Вероятно, чтобы наливать воды в тома диссертаций по ленинизму?
В английском языке тоже достачно канцелярита, особенно научного. Только сейчас начались громкие разговоры о том, что «хватит это терпеть», и на Coursera есть курсы, в которых нужно вымарывать из научных цитат всякие нанизывающиеся существительные и пассивные глаголы. Но вот сдать IELTS, скажем, без этого адского academic style — то есть бессмысленного нагромождения вводных слов и пассива — на приемлемый балл до сих пор нельзя.
Как хорошо вы в своём тексте показали, от чего надо избаваляться.
Мне избавляться? Мне не надо. Я написала комментарий так, как хотела его написать. Вы его не поняли? Прискорбно. Но судя по Вашим выступлениям тут в комментах, Вам в целом жить непросто ;)
> В информационных текстах нет лишних слов, эмоций, личного мнения. Они читаются легко и быстро

Что-то в этой мысли мне не нравится. Неужели тексты без эмоций и личного мнения читаются легко и быстро?
Да, если это например документация к API, странно в ней выражать эмоции. Или новости.
Вообще-то это зависит от API. Иной раз такое API попадается, что без эмоций его не опишешь.
Документация к API — это не совсем информационный текст. Скорее «унифицированное описание».
Язык — это средство выражения мыслей и чувств; поэтому писать, имхо, нужно так, чтобы при беглом чтении у читателя скаладывались именно те мысли и чувства, которые вы хотите передать. Пока что единственный известный мне способ это сделать — писать, перечитывать и исправлять текст до появления чувства завершённости.
Абсолютно согласен. У меня с детства были проблемы с изложением мыслей в письменном виде (да и не только), поэтому мне даже для элементарного делового письма или поста на форум приходилось переписывать его по 5 — 10 раз. Сейчас ситуация значительно лучше, но все равно, если нужно написать пару абзацев текста я до сих пор не знаю лучше способа, чем писать и переписывать. Из-за этого, кстати, я могу потратить два часа на один абзац.
Есть такая же проблема, а до того, как я стал вчитываться и «сушить» текст, начальство шутило над письмами, а коллегам приходилось звонком пояснять суть вопроса или задачи. Медвежью услугу совершило чтение художественной литературы и вольности жж.
Вот. Хочу писать коротко!

P.S. До обработки в этом сообщении было 24 слова.
По работе я пишу тексты: посты на хабр...

Пытался посмотреть предыдущие статьи, но это первая!
TestTheText зарегистрирован 23 ноября 2013 в 05:06 по приглашению НЛО.
Под каким ником писали предыдущие статьи?
Я так понимаю — это учетка, которую человек завел по программе помощи стартапам.
По-моему, информационный стиль должен быть безличным. Так что «Я привел полный текст письма ...» стоит заменить на «Полный текст письма приводится ...»
Вы путаете информационный стиль с канцеляритом.
Я бы не сказал. Поищите на ленте.ру в новости фразу «мне стало известно» или «я звонил туда-то и мне дали комментарии».
Вы правы. Как я упоминул инфо стиль не подходит для постов на хабр
Подходит или не подходит, избавится от избытка таких слов, запутанности не помешает. В этом ваш проект очень хорош.
При чём здесь «Лента»?
Зависит от рода информации и от СМИ. В авторских колонках в Ленте часто используются тексты от первого лица.
Это уместно и даже необходимо, если автор приводит свой личный взгляд, или анализирует события. Таким образом достигает явное разделение между объективной информацией «случилось то-то и то-то» и оценками «мы думаем, что это объясняется тем-то и будет развиваться так-то».
Извините, но попытки «увеличить информативность сообщения», уменьшая при этом количество слов, кажутся мне родственными попыткам «увеличить эффективность программирования» путём уменьшения количества использованных строк или символов. Конечно, всегда можно дополнительно оптимизировать письмо/код в этом смысле. Но есть тот предел, за которым ваше письмо/код, сохраняя формальную функциональность, станет попросту неудобочитаемым и выхолощенным.
Тем более на Хабре, где посты не просто информацию, а отношение автора.

Автор – не читатель, автор – писатель.
Мои любимые статьи те, в которых автору удалось даже в технических текстах добавить своих эмоций, своего отношения к проблеме. Обожаю разные отступления, интересные речевые обороты и драматизм. Однако все это должно быть в меру, чтобы все-таки на первом месте была суть повествования. Например, я с удовольствием читал обзоры Бурума, потом они куда-то делись, и стало скучно.
Использование подобных сервисов, вероятно, сможет лишь помочь в работе над текстом, но никак не являться инструментом.
Я принципиально использовать нечто подобное не буду.
Прекрасная работа.
Когда я в 2007-м сделал «Карту текста» и придумал «Водность текста», то я думал о том, чтобы пополнить выделения объяснениями, но до сих пор не сделал ничего из того что обещал пользователям :) А вы вот мои идеи довели до разумного результата. Единственное что — не повторяйте ошибку Адвего, которые обозвали свой клон анализатора «Семантическим». Стоп-слова придумали давно, и ни я ни тем более мой тезка у которого вы вычитали советы не придумывал этого понятия.

Чего бы посоветовал в рамках развития проекта:
1) не слушайте советчиков, не надо дорабатывать разрешение морфологической омонимии. Сил потратите много, а толку будет чуть. Я копал достаточно серьезные алгоритмы, но все они не очень эффективны. Просто примите что алгоритм лишь подсказывает нам направление, но не дает «идеальный» текст на выходе.
2) не требуйте «совершенно сухого» текста. Это не есть хорошо. По моему мой пример из изначальной документации это хорошо показывает.
3) если будет время сделайте проверку на тавтологию/паронимию. Сделать не сложно, однако это реально частая ошибка в тексте.

Текст из инструкции (простите спойлер не доступен по политическим мотивам):
Пример текста из одних стоп-слов:
Любимый мой! Я хочу сказать тебе, что ты у меня самый любимый! Ты самое лучшее, что было у меня. Я никогда не смогу сказать тебе об этом, однако, это на самом деле так. Ты действительно лучший из всех. На самом деле я больше не могу без тебя. Когда ты наконец поймешь это? Неужели я так и буду без тебя? Я так не смогу! Когда я думаю о тебе то я понимаю, что ты идеальный! Ты нужен мне. Я хочу чтобы ты был моим! Ведь ты же знаешь, что только я смогу быть верной тебе. Я предлагаю тебе как можно быстрее прийти ко мне и стать моим. Я вся твоя, и я не знаю как я смогу без тебя. Мне нужен ты, и больше никто мне не нужен. Лучше меня не будет, чем я буду без тебя.

Пример текста, в котором нет стоп-слов:
Дьяченко Максим Игоревич. Место жительства — город Одесса. Образование — Одесская Национальная Морская Академия. Специализация — программирование, интернет-технологии, электронная коммерция, руководство проектами. Эксцентричен, хитер, вспыльчив, коммуникабелен. Предпочитает носить одежду светлых тонов. Любвеобилен. Холост. Злоупотребляет интернетом. Знак зодиака — весы. Интеллект выше среднего. Характер тяжелый. Знание иностранных языков — английский, французский. Интересуется психологией. Чувство стиля отсутствует. Эксплуатирует чужой труд. Занудный, скучный, наглый, темпераментный.
На мой взгляд, «чистка от лишних слов» оправдана лишь в сухой статье энциклопедии. И даже там — не сокращения ради, но именно что для устранения эмоций и личного мнения.

В познавательных статьях, в СМИ и так далее следует пользоваться всем богатством языка. В публицистическом стиле это допускается.

Мне более приятно читать живые, написанные во всю силу языка статьи Ленты.ру, чем сухие информационные отрывки Интерфакса.
с обучением на пользователях сервиса

Вот этого не надо! Уже есть довольно много слов, которые пользователи Сети пишут чаще неправильно чем правильно. Чему могут пользователи научить сервис?

Со словами-паразитами, разумеется, надо бороться, но чем плохи модальные глаголы и отглагольные существительные? (Еще я слышал, что американских школьников учат воздерживаться от использования passive voice в сочинениях. Если это правда, то тоже, по-моему, глупость.)
Отглагольные существительные, пассивный залог и причастные обороты делают текст сложнее для чтения.

Модальные глаголы делают текст слабым и неуверенным. Могут или не могут? Кому должны?

Правильно учат американских школьников, да :)
Зачем искусственно обеднять текст? Не всегда же аудиторией является группа детского сада. Или у нас цель — превратить Набокова в Эллочку Людоедку?

И модальные глаголы — всего лишь инструмент. Иногда автору нужно показать степень своей уверенности, а не сыпать стопроцентными фактами. Причем, такое бывает не только в публицистике, но и в научных статьях.

Нужно оптимизировать другую функцию — соотношение цена/качество, то есть отношение сложности восприятия текста к сложности излагамых понятий и идей.
Айзек Азимов, «Основание»
Документ начинался с пышного приветствия: «От его всемогущего величества короля Анакреонского его другу и брату доктору Луису Пиренну, председателю Совета попечителей Первого Энциклопедического Фонда» – и заканчивался еще более роскошной огромной разноцветной печатью с весьма витиеватой символикой.

И все же это был ультиматум.

– Значит, у нас изначально было мало времени – всего три месяца, – заметил Хардин, – но мы все равно истратили его впустую. Согласно этой штуке, нам дается еще неделя. Что нам теперь делать?

Пиренн озабоченно нахмурился.

– Должна существовать хоть какая-то лазейка. Не может быть, чтобы они довели ситуацию до чрезвычайного положения – особенно после того, как лорд Дорвин заверил нас относительно позиции Империи и Императора по этому вопросу.

Хардин заметно заинтересовался.

– Ясно. Вы информировали короля Анакреона о позиции Императора по поводу происходящих здесь событий.

– Это было сделано лишь после того, как это предложение получило единогласное одобрение Совета.

– И когда же это голосование состоялось?

Пиренн попытался ответить с еще большим достоинством:

– Я в своих действиях никоим образом не подотчетен вам, мэр Хардин.

– Ладно, это-то меня особо и не интересует. Но, по всей видимости, именно ваше дипломатическое послание о весьма ценном вкладе лорда Дорвина в сложившуюся ситуацию, – Сэлвор приподнял уголки губ в саркастической улыбке, – как раз и породило эту милую дружескую ноту. Иначе они не состряпали бы ее так быстро – хотя, принимая во внимание позицию Совета, отсрочка вряд ли помогла бы Терминусу.

– И что же привело вас к такому странному заключению, господин мэр? – язвительно осведомился Йейт Фулэм.

– Весьма несложные соображения. Потребовалось лишь то, чем многие часто пренебрегают, – здравый смысл. Видите ли, существует такая область человеческих знаний, как «символическая логика». И она хорошо применима для очистки человеческой речи от всяческой засоряющей ее ерунды, не имеющей никакого значения.

– Ну и что?

– Я применил эту систему. Кроме всего прочего, я использовал ее для анализа этого документа. Лично для меня в этом не было необходимости, поскольку я и так сразу прекрасно понял, каково его истинное содержание. Но мне показалось, что объяснить его суть пяти ученым-физикам при помощи символов будет куда проще, чем при помощи слов.

Хардин извлек из папки несколько листов бумаги и разложил их на столе.

– Кстати, анализ проводил не я, а Мюллер Хоулк из Отдела логики. Здесь стоит его подпись – можете убедиться.

Пиренн перегнулся через стол, чтобы лучше разглядеть подпись. Хардин продолжал:

– Расшифровка послания короля Анакреона была несложной; это и неудивительно, так как люди, писавшие его, больше привыкли действовать, чем изощряться в дипломатии. Все достаточно прямо и определенно сводится к заявлению, суть которого, представленная в символах, сейчас перед вами. Словами его можно выразить следующим образом: «Вы должны отдать нам то, что мы требуем, а если не отдадите добровольно, то вам же хуже – отберем силой, так или иначе».

Пока пятеро членов Совета изучали ряды символов, в зале царило молчание. Потом Пиренн откинулся на спинку кресла и нервно закашлялся.

Хардин осведомился:

– Ну что, вы не видите лазейки, доктор Пиренн?

– Похоже, что ее действительно нет.

– Хорошо, – Сэлвор достал из папки следующую пачку листов. – А теперь перед вами копия договора между Империей и Анакреоном. Договор этот, кстати, подписал от имени Императора тот самый лорд Дорвин, который отбыл отсюда неделю назад. К этому документу также приложен анализ в символах.

Договор был отпечатан мелким шрифтом на пяти листах, в то время как нацарапанный от руки анализ занимал не более половинки страницы.

– Как видите, господа, более девяноста процентов текста при анализе просто улетучилось, так как не имеет никакого смысла, а суть того, что осталось, можно выразить следующим образом:

«Анакреон не имеет пред Империей никаких обязательств».

«Империя не имеет над Анакреоном никакой власти».

Все пятеро снова с немалым интересом занялись изучением результатов анализа, то и дело сверяя их с договором. Когда они закончили, Пиренн с беспокойством в голосе произнес:

– Кажется, все верно.

– Тогда вам ясно, что этот договор – не что иное, как декларация полной независимости Анакреона и признание этого Империей?

– Похоже, вы правы.

– И Анакреон прекрасно понимает это, и будет стремиться подчеркнуть свою независимость таким образом, чтобы навсегда исключить любую возможность давления и угроз со стороны Империи. Особенно теперь, когда всем уже ясно, что Империя не в состоянии осуществить свои угрозы – иначе она никогда бы не допустила отделения Анакреона.

– Но в таком случае, – вмешался Сатт, – как объяснит мэр Хардин заверения лорда Дорвина в поддержке Императора? Мне они кажутся… – он пожал плечами, – вполне надежными.

Хардин откинулся на спинку кресла.

– Это и есть самое интересное. Честно говоря, поначалу я принял его превосходительство за совершенно безнадежного осла, но оказалось, что это умнейший человек и прекрасный дипломат. Я позволил себе записать все разговоры с ним.

Послышался возмущенный гул, и Пиренн уже открыл рот, чтобы высказать общее мнение.

– Ну и что? – упредил его Хардин. – Я знаю, что это серьезное нарушение законов гостеприимства и джентльменского кодекса чести. И если бы его превосходительство заметил это, я оказался бы в пренеприятном положении, но этого не произошло, и теперь у нас есть запись – а это главное. Запись эту мне размножили, и я передал Хоулку копию для анализа.

– И где же текст анализа? – осведомился Ландин Краст.

– Вот это и есть самое главное. Когда после двух суток напряженной работы Хоулку наконец удалось избавиться от всех бессмысленных банальностей, многозначительной чепухи и ничего не значащих высказываний, то обнаружилось, что в тексте не осталось НИЧЕГО! Он самоликвидировался.

За все пять дней переговоров лорд Дорвин, господа, не сказал ни черта и ухитрился сделать это так, что вы ничего и не заметили. Вот вам все заверения вашей любимой Империи!

Обожаю этот отрывок.
А мне вспомнилась другая классика: «С дичью дело, мы полагаем, закончено. Глава предприятия Хадсон, по сведениям, рассказал о мухобойках всё. Фазаньих курочек берегитесь».
Ox, как же иногда нечто подобное нужно на иностранных языках…
Вот, что-то не уверена, что хотела бы читать такие статьи и что это хорошо. Лично мне больше нравится, когда статьи написаны с душой. Читаешь и сразу понимаешь, что человек из своего опыта пишет или что новость про которую он рассказывает очень важна/интересна лично для него.
Спасибо! Мне кажется, стоит добавить и других эвристик повышения читаемости — поиск тавтологий-паронимий (как в Свежем взгляде), и т.п.
Спасибо Вам за этот проект!
Мне кажется, было бы классно собрать ещё российские учебники по литературному редактированию и стилистике — ссылаться на переводные материалы всё-таки не всегда правильно. Современный русский язык — очень крутой предмет, думаю, многим было бы интересно эти книги просто как нон-фикшн почитать, не делая упражнения и не разучивая знаки правки.
Поделитесь ссылками на российские учебники?
Нет, к сожалению. Я их читала на бумаге :) Но если они где-то есть в электронном виде, они бы Вашим пользователям пригодились наверняка.
Загрузил отрывок из Достоевского ПиН.
Пока нечитабельно, но идея безусловно перспективная. Это ж мечта, томик Достоевского в стиле презентации Джобса! )
Ни информационный, ни Test The Text не применимы к художественным произведениям. Они для реальной жизни.
Было бы здорово сделать Text The Text расширением к браузеру. И чтобы он хорошо работал с gmail'ом и Google.Docs'ами.
Спасибо за идею, классная, занес в to-do.
Исходный текст приведённого примера редактировать бесполезно. Его надо просто переписать так, чтобы была ясна суть вопроса.
А оная суть состоит в том, что в BlackBerry никто ни за что не отвечает.
Что некто, пожелавший остаться неизвестным, тиснул в газетах письмецо от имени так называемой «команды BlackBerry».
Что бездарные управленцы не придумали ничего лучше, чем распродавать по частям и увольнять.
Что ничего удивительного нет в том, что из разработка не продаётся.
Всё, тушите свет, сливайте воду.
С исходным текстом все непросто: это посредственный перевод, посредственной статьи на английском. Более того в паре мест автор оригинальной статьи пишет бред.

’except perhaps for the team's invocation of BBM's popularity as a global social messaging platform. The original launch for iOS and Android didn't exactly go according to plan — it's been some three weeks since those apps first started popping up in their respective app stores, and there's still no firm word on when BlackBerry will open the floodgates again’

На мой взгляд, правильный вариант — перевести другую статью или написать свои мысли по поводу открытого письма с цитатами зарубежных авторов.

Вы — молодец, все верно, механическое убирание стоп-слов тексту не поможет, думать нужно.
А есть какие-то аналоги для английского языка?
Если совсем примитивно, то «карта текста» на истио работает как с русским так и с английским текстом (как впрочем и орфография, и анализатор и поиск). Изначально планировал делать сайт для англоязычной аудитории, но так и не доделал за семь лет английский интерфейс :)
Спасибо, очень полезно!

Проверил ваш текст:

Качество текста: 50%
Символов: 3371
Слов: 483
Стоп-слов: 36

И этот:

Качество текста: 0%
Символов: 16735
Слов: 2312
Стоп-слов: 388

Вы выйграли, поздравляю! [улыбается в усы]
К сожалению, для качества текста не придумал достойного алгоритма, сейчас 1 — metrics['stop_words']/metrics['words']*100/15.0*100.

Может у кого есть идеи как улучшить?
Я написал без «подкола». Ваш текст, в смысле информативности, действительно лучше. Обязательно буду использовать test-the-text.ru в работе.

По метрике только один вопрос — почему 15.0?
Я понял, что без подкола. Предупредил, что качество текста считается из головы и не всегда корректно работает.

Если стоп-слов в тексте 15% я его считаю ужасным на 0% качества. О и скобочку забыл (1 — metrics['stop_words']/metrics['words']*100/15.0)*100

Причем здесь КАЧЕСТВО?
Ну есть же «водность». Уже восемь лет как общепринятый термин.
Большинство сеошников и копирайтеров его знают, так же как и тошноту.
Малое количество стоп-слов это тоже «некачественно». И для разных видов текстов разная плотность стоп-слов ожидается.
К чему такие пафосные названия?
Sign up to leave a comment.