Как стать автором
Обновить

Комментарии 25

Они бы еще провели лингвистический анализ блюза, какой был когда его пленные негры исполняли =). Хотя «уравнивание» конечно получилось весьма интересным.
Существует ли конкорданс и частотный словарь Шекспира?
Какие 20 существительных наиболее часто встречаются во всех его поэтических текстах?
А средний словарный запас людей, которые изучают английский язык как иностранный, составляет примерно 8000 лексем.

Как это? Даже за время после распада СССР в русский язык много тысяч англицизмов добавилось, не считая других заимствованных слов, существующих и в английском языке. А сколько давно заимствованных слов с окончаниями -ция (-tion) и так далее… Пара ссылок на подсчеты:


https://core.ac.uk/download/pdf/290214622.pdf
https://wordhelp.ru/end/ция


Вспомнилось еще, в «Приключениях Электроника» обсуждается, что в рифмованных произведениях (стихах) выше плотность информации, так что сравнивать художественный текст и тексты песен — априори неверно.

Вспомнилось еще, в «Приключениях Электроника» обсуждается, что в рифмованных произведениях (стихах) выше плотность информации,
ниже, конечно. Значительная часть содержания расходуется на организацию размера и рифм.
сравнивать художественный текст и тексты песен
Хм, а Вы можете указать у Шекспира сколько-нибудь заметный объём прозаических текстов? Тогда Вы знакомы с его творчеством лучше всех большинства.
Шекспир очень часто переходит на прозу, в то же Гамлете, когда не остается ни поэтической формы, ни размера. Не говоря уже про рифму — ее у Шекспира и так днем с огнем не найдешь.
Шекспир очень часто переходит на прозу, в том же Гамлете
вкрапления, конечно, есть. Но это не делает того же «Гамлета» прозаическим произведением, не так ли? Прозаических текстов (рассказов, новелл, романов, повестей...) у Шекспира — сколько?
Не говоря уже про рифму — ее у Шекспира и так днем с огнем не найдешь.
английская поэзия — вообще нечто не то же самое, что подразумевается под этим в русском языке. Она больше похожа на оперное пение, где исполнитель вроде и поёт, но песнями это никак не назовёшь.
ниже, конечно. Значительная часть содержания расходуется на организацию размера и рифм.

Да вы что — плотность информации по Шеннону у стихов в полтора раза выше. В детской книжке-то как раз известный факт привели! Да и очевидно это — чем ниже избыточность — тем выше информативность, у прозы избыточность значительно выше. Кстати, у Пушкина максимальная вообще для русского языка плотность информации. У Шекспира не знаю, не встречал работ на эту тему.


P.S. Из вики: "Клод Шеннон предположил, что прирост информации равен утраченной неопределённости". Прямо руководство для начинающих поэтов :)

Разный подход к определению количества информации. При таком подходе Вы, конечно, правы. Но, скажем, если речь идёт об отчуждаемой (извлекаемой) информации — наоборот. Скажем, при равном размере текста телефонный справочник в поэтической форме будет содержать намного меньше номеров :-) Пример, конечно, утрированный, но, надеюсь, понятный.

В той же книжке "Приключения Электроника" есть примеры, в том числе "и корень взяв из нет себя". Это заметно короче определения "Мни́мая едини́ца — комплексное число, квадрат которого равен -1". Или вот закон Архимеда на биофаке ННГУ был известен как "тело выпертое туды, выпирает из воды с силой выпертой воды тела впёртого туды". Такая вот краткая и запоминающаяся мнемоника, информативность равна таковой у исходного определения, а в разы короче.

ай, бросьте, это мнемоники в расчёте на уже знающего, а не определения. В таком случае можно и просто «закон Архимеда» написать, sapienti sat.

Как раз это определение для решения задачек — сказано про силу и дана ее величина и направление.

Кстати, у Пушкина максимальная вообще для русского языка плотность информации.

Интересное замечание! Ни в коем случае не хочу поставить его под сомнение, но все-таки: а как это посчитано и какая была база сравнения? Мне почему-то кажется, что многие современные поэты должны его перекрывать по этому показателю. Честное слово, было бы очень интересно увидеть табличку, включающую, кроме имярека, еще и других сравнимых с ним авторов. Например, уже упомянутых ниже В.Высоцкого и М.Щербакова.

Посчитано понятно как — смотрели, сколько слов можно выкинуть без утраты смысла… нисколько, то есть плотнее уже некуда. Очень простые же и образные строчки, скажем « Пленяет грозного царя» — что тут можно убрать без потери смысла? Высоцкому приходилось очень иносказательно выражаться по политическим причинам, так что сохранение смысла при удалении слов трудно оценить...

Как это?
В английском нет суфиксов и окончаний, зато есть фразовые глаголы.
Идти — go
Шёл, шла, шло — went
Вышел, вышла, вышло — went out
Прошёл, прошла, прошло — went through
По итогу мы имеем десять лексем в русском языке и четыре в английском по приведённой методике.

Вот только по той ссылке, что я привел выше, заимствования считали по их оригинальным (английским) основам.

И?
В целом статистика показывает, что англичанин с высшим образованием знает порядка 26 тыс. слов (в статье 25-30 тыс.) а для русского языка эта цифра составляет уже 80-100 тыс. слов. именно по причине разной системы образования новых слов.
Ещё играет роль сленг, в том числе и профессиональный, скажем у сварщика и у программиста несколько разное количество англицизмов в речи будет вне зависимостти от образования.
Я как-то проходил подобное тестирование и у меня получалось, что на русском у меня словарный объём на уровне 78 тыс. слов, а на английском — всего 6 тыс., так что да, примерно сходится со статистикой из статьи.
по той ссылке, что я привел выше
по первой ссылке можно прочитать
количество новейших англицизмов, пополнивших русский
язык в 90-х гг. ХХ в. – начале ХХI в., составляет 673 слова.

По данным других исследований, значительно больше англицизмов
пополнили русский язык в течение последнего десятилетия (1200-1500 единиц)
Что не совсем тоже что и
много тысяч англицизмов добавилось, не считая других заимствованных слов
Для понимания масштаба советую поискать по термину рунглиш, ну или просто посмотреть видео
youtu.be/6aNDpVOWJjo
Вот там — реально многие тысячи слов заимствованы.
По второй ссылке, я, совсем не к стыду, понял, что знаю не более пятой части от перечисленных слов, а подавляющее большинство является узкоспециализированными терминами. Более того, при таком подходе не избежать огромного количества ошибок, например нация в русском означает совершенно иное чем nation в английском (правильней было бы сравнить с ethnic)
Ну и с тем же успехом можно сравнить английский с немецким или фризским (все три относятся к германской языковой группе), или латинским (много заимствований из-за влияния католицизма) или заимствования в русский из французского и немецкого (самое простое — глюк, происходит от германского Glück, радость, в частности от применения веществ, юнга — от нидерландского jongen/мальчик, трап — нид. trap/лестница, трюм — нид. truim/het ruim/пространство, от которого, к слову образовано и английское — room) и так далее.
А ещё в русском почти нет ни одного собственно русского слова начинающегося на букву «А», все заимствованные, если я правильно помню.
В итоге получится, что в принципе треть любого языка заимствована из других :)

З.Ы. Ещё можно почитать Войну и Мир, для сравнения :)

Ох, сомневаюсь я, что авторы тестов на знание языка, скажем, читали стандарт GSM, если мне не изменяет память, на примерно 10 000 страниц:) Сегодня в каждой области знаний свой язык с уймой терминов. Да хотя бы взять программирование — вот что-то не нахожу лингвистический анализ даже Дональда Кнута (искусство программирования), зато для Гарри Поттера пожалуйста. А интересно было бы еще и для суммы прочитанных книг получить значение количества уникальных слов, тогда можно сравнивать.

Подскажите, пожалуйста: а есть ли какой-то онлайн-сервис для подсчета числа лексем в тексте? Чтобы просто засунуть туда текст Толстого или сборник стихов Высоцкого, М.Щебакова и пр. и получить ответ?
А то что-то гуль показывает сервисы только для подсчета числа слов. А я хочу, чтобы лексически одинаковые слова не учитывались. Т.е. чтобы система отбрасывала окончания (считала число различных основ).
Такого онлайн-сервиса, к сожалению, не встречали.
Знаем только конкретный инструмент, с помощью которого это можно сделать — токен анализ. Но вот как правильно сделать с окончаниями в русском языке — без понятия.

" средний словарный запас носителя английского с высшим образованием составляет около 25 0000-30 000 слов."
Как это вообще можно посчитать?
Дать человеку огромный словарь, и он будет отмечать "знаю — не знаю"? Так это уйму времени должно занять.
Или просто анализируют текст за много лет? Так большинство людей не так много пишут.

Конкретно здесь словарный запас измеряется в целом, а не только по письменным текстам.
Вот здесь есть масштабное исследование словарного запаса носителей и не-носителей.
Если вкратце, делается словесный срез: человек выбирает слова, которые знает, примерно из сотни примеров. А затем результаты среза экстраполируются на весь словарный запас.
вот уж не думал, что буду читать статью про сравнение реперов и классиков. Спасибо за интересное время
Всегда пожалуйста :)
Много лет назад на ютубе было видео, где надо было угадывать, кто автор, поэты серебряного века или рэперы — но бездна поглотила его.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий