EnglishDom 30 мар 2021 в 18:52

Американский хип-хоп vs. Уильям Шекспир: у кого словарный запас больше?

9 мин

14K

Блог компании EnglishDomЧитальный залИзучение языков

Комментарии 25

juramehanik 30 мар 2021 в 19:44

Они бы еще провели лингвистический анализ блюза, какой был когда его пленные негры исполняли =). Хотя «уравнивание» конечно получилось весьма интересным.

Alexufo 31 мар 2021 в 01:47

Существует ли конкорданс и частотный словарь Шекспира?
Какие 20 существительных наиболее часто встречаются во всех его поэтических текстах?

Alcpp 31 мар 2021 в 03:37

По существительным нет статистики, а по словам есть:
www.opensourceshakespeare.org/statistics

N-Cube 31 мар 2021 в 10:39

А средний словарный запас людей, которые изучают английский язык как иностранный, составляет примерно 8000 лексем.

Как это? Даже за время после распада СССР в русский язык много тысяч англицизмов добавилось, не считая других заимствованных слов, существующих и в английском языке. А сколько давно заимствованных слов с окончаниями -ция (-tion) и так далее… Пара ссылок на подсчеты:

https://core.ac.uk/download/pdf/290214622.pdf
https://wordhelp.ru/end/ция

Вспомнилось еще, в «Приключениях Электроника» обсуждается, что в рифмованных произведениях (стихах) выше плотность информации, так что сравнивать художественный текст и тексты песен — априори неверно.

Bedal 31 мар 2021 в 10:56

Вспомнилось еще, в «Приключениях Электроника» обсуждается, что в рифмованных произведениях (стихах) выше плотность информации,

ниже, конечно. Значительная часть содержания расходуется на организацию размера и рифм.

сравнивать художественный текст и тексты песен

Хм, а Вы можете указать у Шекспира сколько-нибудь заметный объём прозаических текстов? Тогда Вы знакомы с его творчеством лучше ~~всех~~ большинства.

galaxy 31 мар 2021 в 12:17

Шекспир очень часто переходит на прозу, в то же Гамлете, когда не остается ни поэтической формы, ни размера. Не говоря уже про рифму — ее у Шекспира и так днем с огнем не найдешь.

Bedal 31 мар 2021 в 12:31

Шекспир очень часто переходит на прозу, в том же Гамлете

вкрапления, конечно, есть. Но это не делает того же «Гамлета» прозаическим произведением, не так ли? Прозаических текстов (рассказов, новелл, романов, повестей...) у Шекспира — сколько?

Не говоря уже про рифму — ее у Шекспира и так днем с огнем не найдешь.

английская поэзия — вообще нечто не то же самое, что подразумевается под этим в русском языке. Она больше похожа на оперное пение, где исполнитель вроде и поёт, но песнями это никак не назовёшь.

N-Cube 31 мар 2021 в 14:58

ниже, конечно. Значительная часть содержания расходуется на организацию размера и рифм.

Да вы что — плотность информации по Шеннону у стихов в полтора раза выше. В детской книжке-то как раз известный факт привели! Да и очевидно это — чем ниже избыточность — тем выше информативность, у прозы избыточность значительно выше. Кстати, у Пушкина максимальная вообще для русского языка плотность информации. У Шекспира не знаю, не встречал работ на эту тему.

P.S. Из вики: "Клод Шеннон предположил, что прирост информации равен утраченной неопределённости". Прямо руководство для начинающих поэтов :)

Bedal 31 мар 2021 в 15:23

Разный подход к определению количества информации. При таком подходе Вы, конечно, правы. Но, скажем, если речь идёт об отчуждаемой (извлекаемой) информации — наоборот. Скажем, при равном размере текста телефонный справочник в поэтической форме будет содержать намного меньше номеров :-) Пример, конечно, утрированный, но, надеюсь, понятный.

N-Cube 31 мар 2021 в 15:33

В той же книжке "Приключения Электроника" есть примеры, в том числе "и корень взяв из нет себя". Это заметно короче определения "Мни́мая едини́ца — комплексное число, квадрат которого равен -1". Или вот закон Архимеда на биофаке ННГУ был известен как "тело выпертое туды, выпирает из воды с силой выпертой воды тела впёртого туды". Такая вот краткая и запоминающаяся мнемоника, информативность равна таковой у исходного определения, а в разы короче.

Bedal 31 мар 2021 в 15:59

ай, бросьте, это мнемоники в расчёте на уже знающего, а не определения. В таком случае можно и просто «закон Архимеда» написать, sapienti sat.

N-Cube 1 апр 2021 в 17:44

Как раз это определение для решения задачек — сказано про силу и дана ее величина и направление.

adeshere 31 мар 2021 в 17:30

Кстати, у Пушкина максимальная вообще для русского языка плотность информации.

Интересное замечание! Ни в коем случае не хочу поставить его под сомнение, но все-таки: а как это посчитано и какая была база сравнения? Мне почему-то кажется, что многие современные поэты должны его перекрывать по этому показателю. Честное слово, было бы очень интересно увидеть табличку, включающую, кроме имярека, еще и других сравнимых с ним авторов. Например, уже упомянутых ниже В.Высоцкого и М.Щербакова.

N-Cube 1 апр 2021 в 17:56

Посчитано понятно как — смотрели, сколько слов можно выкинуть без утраты смысла… нисколько, то есть плотнее уже некуда. Очень простые же и образные строчки, скажем « Пленяет грозного царя» — что тут можно убрать без потери смысла? Высоцкому приходилось очень иносказательно выражаться по политическим причинам, так что сохранение смысла при удалении слов трудно оценить...

Tujh 31 мар 2021 в 12:47

Как это?

В английском нет суфиксов и окончаний, зато есть фразовые глаголы.
Идти — go
Шёл, шла, шло — went
Вышел, вышла, вышло — went out
Прошёл, прошла, прошло — went through
По итогу мы имеем десять лексем в русском языке и четыре в английском по приведённой методике.

N-Cube 31 мар 2021 в 14:43

Вот только по той ссылке, что я привел выше, заимствования считали по их оригинальным (английским) основам.

Tujh 31 мар 2021 в 15:40

И?
В целом статистика показывает, что англичанин с высшим образованием знает порядка 26 тыс. слов (в статье 25-30 тыс.) а для русского языка эта цифра составляет уже 80-100 тыс. слов. именно по причине разной системы образования новых слов.
Ещё играет роль сленг, в том числе и профессиональный, скажем у сварщика и у программиста несколько разное количество англицизмов в речи будет вне зависимостти от образования.
Я как-то проходил подобное тестирование и у меня получалось, что на русском у меня словарный объём на уровне 78 тыс. слов, а на английском — всего 6 тыс., так что да, примерно сходится со статистикой из статьи.

по той ссылке, что я привел выше

по первой ссылке можно прочитать

количество новейших англицизмов, пополнивших русский
язык в 90-х гг. ХХ в. – начале ХХI в., составляет 673 слова.
…
По данным других исследований, значительно больше англицизмов
пополнили русский язык в течение последнего десятилетия (1200-1500 единиц)

Что не совсем тоже что и

много тысяч англицизмов добавилось, не считая других заимствованных слов

Для понимания масштаба советую поискать по термину рунглиш, ну или просто посмотреть видео
youtu.be/6aNDpVOWJjo
Вот там — реально многие тысячи слов заимствованы.
По второй ссылке, я, совсем не к стыду, понял, что знаю не более пятой части от перечисленных слов, а подавляющее большинство является узкоспециализированными терминами. Более того, при таком подходе не избежать огромного количества ошибок, например нация в русском означает совершенно иное чем nation в английском (правильней было бы сравнить с ethnic)
Ну и с тем же успехом можно сравнить английский с немецким или фризским (все три относятся к германской языковой группе), или латинским (много заимствований из-за влияния католицизма) или заимствования в русский из французского и немецкого (самое простое — глюк, происходит от германского Glück, радость, в частности от применения веществ, юнга — от нидерландского jongen/мальчик, трап — нид. trap/лестница, трюм — нид. truim/het ruim/пространство, от которого, к слову образовано и английское — room) и так далее.
А ещё в русском почти нет ни одного собственно русского слова начинающегося на букву «А», все заимствованные, если я правильно помню.
В итоге получится, что в принципе треть любого языка заимствована из других :)

З.Ы. Ещё можно почитать Войну и Мир, для сравнения :)

N-Cube 1 апр 2021 в 22:01

Ох, сомневаюсь я, что авторы тестов на знание языка, скажем, читали стандарт GSM, если мне не изменяет память, на примерно 10 000 страниц:) Сегодня в каждой области знаний свой язык с уймой терминов. Да хотя бы взять программирование — вот что-то не нахожу лингвистический анализ даже Дональда Кнута (искусство программирования), зато для Гарри Поттера пожалуйста. А интересно было бы еще и для суммы прочитанных книг получить значение количества уникальных слов, тогда можно сравнивать.

adeshere 31 мар 2021 в 17:22

Подскажите, пожалуйста: а есть ли какой-то онлайн-сервис для подсчета числа лексем в тексте? Чтобы просто засунуть туда текст Толстого или сборник стихов Высоцкого, М.Щебакова и пр. и получить ответ?
А то что-то гуль показывает сервисы только для подсчета числа слов. А я хочу, чтобы лексически одинаковые слова не учитывались. Т.е. чтобы система отбрасывала окончания (считала число различных основ).

EnglishDom 1 апр 2021 в 10:40

Такого онлайн-сервиса, к сожалению, не встречали.
Знаем только конкретный инструмент, с помощью которого это можно сделать — токен анализ. Но вот как правильно сделать с окончаниями в русском языке — без понятия.

p_fox 1 апр 2021 в 10:11

" средний словарный запас носителя английского с высшим образованием составляет около 25 0000-30 000 слов."
Как это вообще можно посчитать?
Дать человеку огромный словарь, и он будет отмечать "знаю — не знаю"? Так это уйму времени должно занять.
Или просто анализируют текст за много лет? Так большинство людей не так много пишут.

EnglishDom 1 апр 2021 в 10:39

Конкретно здесь словарный запас измеряется в целом, а не только по письменным текстам.
Вот здесь есть масштабное исследование словарного запаса носителей и не-носителей.
Если вкратце, делается словесный срез: человек выбирает слова, которые знает, примерно из сотни примеров. А затем результаты среза экстраполируются на весь словарный запас.

DimNikroyennn 1 апр 2021 в 10:27

вот уж не думал, что буду читать статью про сравнение реперов и классиков. Спасибо за интересное время

EnglishDom 1 апр 2021 в 10:41

Всегда пожалуйста :)

vinny496 13 апр 2021 в 20:39

Много лет назад на ютубе было видео, где надо было угадывать, кто автор, поэты серебряного века или рэперы — но бездна поглотила его.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий