Как стать автором
Обновить

Сколько английских слов вы знаете?

Время на прочтение 5 мин
Количество просмотров 349K
Оценка количества выученных и запомненных слов иностранного языка прежде всего интересна для понимания того, насколько далеко человек продвинулся в «пассивном» восприятии информации: тексты, речь, фильмы, и т.д. Предлагаю ознакомиться с несколькими способами, которые я применял, найденные в сети и «самопальные». Внизу — парочка тестов для оценки vocabulary, методика для поиска важных слов, которые пока не зацепились в мозгу, несколько рассуждений и немного ссылок.


Онлайн-тесты


Из множества тестов оценки числа слов мне приглянулась два. Пару лет назад я встречал довольно простой Test Your Vocabulary. Проходя три экрана со словами, ты отмечаешь галочками те, которые (как тебе кажется) знаешь, после чего получаешь оценку общего количества выученных слов. Многие мои знакомые жаловались на его неадекватность — получали количество меньше, чем «тот, про которого я точно знаю, что он хуже знает». Но при прохождении может быть ошибка другого рода — кажется, что слово ты знаешь, но на самом деле уже забыл. Говорят, что рука сама тянется выставить галочку возле слова, которое кажется смутно знакомым, таким образом можно подсознательно завысить самому себе общую оценку.

Другой интересный тест — my.vocabularysize.com от новозеландского университета Виктории в Веллингтоне. Можно даже выбрать русский интерфейс. После 140 вопросов на выбор одного из 4-5 определений, выдается оценка твоего лексикона. Также там есть тест на знание частей слов.
Авторы теста ссылаются на pdf 2 статей 1990-го и 2006-го годов, в которых описывается т.н. списки слов-родственников (word-family lists).

Your results

You know at least 10,500 English word families!

What do my results mean?

In general, there is no minimum vocabulary size. Language ability is related to vocabulary size, so the more words you know, the more you will be able to understand. However, if you want to set a learning goal, Paul Nation's (2006) research suggests that the following sizes might be useful:

How large a vocabulary is needed for reading and listening?
Skill Size estimate Notes
Reading 8,000 — 9,000 word families Nation (2006)
Listening 6,000 — 7,000 word families Nation (2006)
Native speaker 20,000 word families Goulden, Nation, & Read (1990)
Zechmeister, Chronis, Cull, D’Anna, & Healy (1995)

What is a word family?

There are many different forms of a word, so this test measures your knowledge of the most basic form of a word and assumes that you can recognize the other forms. For example, nation, a noun, can also be an adjective (national), a verb (nationalize), or an adverb (nationally). There are also forms which can be made with an affix such as de- or -ing which also modify the way that the word is used or adds to the basic meaning. For a test of receptive vocabulary knowledge such as this one, word families are considered to be the most accurate way of counting words.


Частотные словари


После регистрации на www.wordfrequency.info можно скачать эксельник частотного словаря американского английского. Есть и текстовый вариант.

Типа такого:

Rank Word Part of speech Frequency Dispersion

1 the — a 22038615 0.98
2 be — v 12545825 0.97
3 and — c 10741073 0.99
4 of — i 10343885 0.97
5 a — a 10144200 0.98
6 in — i 6996437 0.98
7 to — t 6332195 0.98
8 have — v 4303955 0.97


4996 immigrant — j 0.97
4997 kid — v 5094 0.92
4998 middle-class — j 5025 0.93
4999 apology — n 4972 0.94
5000 till — i 5079 0.92

В файле представлено 5000 английских слов, отсортированных по частоте встречаемости. Частоту считали на огромном разнородном массиве английских текстов. Недавно я увидел, как мой друг искал неизвестные ему слова, проверяя свой словарный запас. Просмотрев первые 500, я не нашел неизвестных. Он показал выписку в своем смартфоне — около десятка слов из второй тысячи (то есть от 1000 до 2000 ) и около 20 из третьей. Забавно, что, идя по списку, встречаешь последовательности слов, которые удачно складываются в словосочетания или даже короткие предложения. Логика очень простая — если слово очень распространено по статистике, а ты его не знаешь, то лучше выучить и посмотреть примеры использования.

Прочитав список неизвестных ему слов (уже с переводом), я увидел следующую вещь. Около 50-60% из этих неизвестных ему слов я знал, но некоторые из значений записанных там переводов были мне неизвестны, было несколько полностью неизвестных мне слов.
Вообще сайт пытается быть коммерческим, списки длиной более 5000 они продают, но это уже не так интересно.

Пока что этот мой друг пишет программу с удобным интерфейсом для выискивания неизвестных слов — для целей обучения. Я предложил ему для глобальной оценки использовать не этот список, а прореженный: приведено каждое седьмое слово из общего списка на 60000 слов. Вообще-то, даже просмотр первой пары тысяч вгоняет в уныние, до 5000 доберутся далеко не все. Хотя на все 100 утверждать не берусь, но прореженный словарь наверняка покажет хотя бы одно слово из «семейства», а времени будет затрачено соответственно в 7 или 10 раз меньше (в зависимости от частоты прореживания).
Кстати, подобные частотные словари русского языка содержат около 160 тысяч слов, включая аббревиатуры и сокращения. Существуют несколько разных похожих «корпусов» английских слов от разных организаций.

Мне интересен другой вопрос: насколько точны тесты, которые дают оценку количества известных тебе слов? Возможно, что определить это можно было бы как раз через проверочный просмотр частотного словаря, а также сравнивая список отобранных неизвестных слов — их количество и вхождение в разные «семейства».

Есть общие законы запоминания и забывания. Одна из главных вещей: если человек что-то выучил и не повторяет, не использует — информация забывается по экспоненте от времени. С другой стороны несколько повторений удлиняет, растягивает падающую экспоненту на приемлемый уровень. Я очень удивился, когда знакомый, подрабатывавший репетиторством школьников, рассказал, что есть последовательность промежутков времени для глубокого запоминания: скажем, через 20 минут, потом через 8 часов, еще через день, и т.д., после которых информация засаживается в мозги накрепко. То есть в мозгу обеспечивается статистически максимальный уровень сигнала возбуждения при встрече с этой информацией.

image
Кривая Эббингауза, из Википедии.

Как я учил слова в институте.


Без учета стандартного курса, где требования первые три года были довольно жесткие, я пытался читать художественную литературу. Первой большой книгой было старое советское издание Конан-Дойля «The Lost World». Не знаю, насколько оно было адаптировано, но викторианских слов и выражений в тексте было в избытке, и это сильно затягивало продвижение к концу… Конечно, можно было с компа заглянуть в Lingvo, но читать я любил не за компом, а бегать туда-сюда за каждым новым словом быстро надоело. Планшеты тогда не были распространены, карманный электронный переводчик — дорогая редкость, так что я для себя выработал бумажную систему. В толстой 96-листовой тетради разворот был поделен на 6 столбцов. Сейчас попытался найти тетрадку — потерялась. Придется описывать на словах. Поделил алфавит на группы букв, например — a..d, e..f, g..j, k..n, o..q, r..t, u..w, x..z. Примерно, на глаз оценил статистический процент слов, которые начинаются на эти буквы и разделил столбцы в развороте на прямоуголники. Например, группе a..d отдал 2/3 первого столбца, и так далее. Группе x..z отводился последний оставшийся самый маленький кусок в 6 столбце. Дальше все просто. Встретил неизвестное слово — вписывай с переводом в нужный прямоугольник. Ничего что внутри блока не по алфавиту — найти не долго. Чтобы перевод получить, лежа на кровати, нужно залезть в книжный словарь. То есть ценность получения перевода довольно большая, больше чем сейчас посмотреть в Лингву или онлайн-переводчик типа multitran. Ручкой вписывать тоже долго. Зато мозг лучше вспоминает, потому что отрываться от интересного сюжета и лезть в словарь — это не очень приятно. Иногда слово снова появлялось в тетради на следующем развороте, а потом еще через два, это просто издержки. По ходу чтения в тетрадку приходилось все меньше лезть. Потом еще оказалось, что можно из контекста угадать значение очень немалого процента новых слов.

Интересно будет послушать, какие есть еще подходы. По-моему, самый лучший способ — длительное полное погружение в среду, но оно доступно не для всех.

Интересные ссылки


Британская база слов BNC
Изучаем английский с Anki
С форума lingvo
Обзор Lexiconer
Словари русского языка для скачивания

UPD Оказывается, на хабре была большая интересная статья о словарном запасе, которую я не заметил
Теги:
Хабы:
Если эта публикация вас вдохновила и вы хотите поддержать автора — не стесняйтесь нажать на кнопку
+77
Комментарии 99
Комментарии Комментарии 99

Публикации

Истории

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн