Pull to refresh
0
0
Send message

Спасибо, весьма любопытно.
Но как уже отмечалось, жаль выбрасывать местоимения, предлоги итп. Они же не виноваты, что самые частые.
Избежать этого можно, рассматривая относительную частотность исполнителя по сравнению с некоторой общей частотностью Н.
Т.е. для каждого слова С, которое встречается у исполнителя с частотой h(С), относительная частотность равна h(С)/Н(С). Она описывает, насколько данный исполнитель, предпочитает это слово по сравнению с усреднённый по некоторому объёму текстов.
В качестве Н можно взять частотность:
1 — общую для русского языка;
2 — литературных текстов;
3 — суммарную по всем исполнителям, участвующих в сравнении (при этом учитывая, что объёмы разные);
4 — некую взвешенную производную предыдущих трёх.

Information

Rating
Does not participate
Registered
Activity