Muxto Nov 26 2013 at 00:53

Самые часто употребляемые слова на Хабре

3 min

38K

MySQL*.NET*

+53

Comments 85

Xlab Nov 26 2013 at 01:04

Мата мало.

примеры

уе%анство;2
пи%орас;2
на%уй;7
ху%ней;4
ху%ня;4
му%акам;3
пи%дюлей;3
су%а;27
де%ил;19
ло%ара;4

+10

Muxto Nov 26 2013 at 01:06

А в постах его кстати совсем немного. Например б_я всего одно.
Другое дело комменты! Но до них доберусь чуть позже.

+13

kefirr Nov 26 2013 at 18:48

По комментам я делал habrahabr.ru/post/155541/

За всё время лучшие матерные:
habrastats.comyr.com/za_vse_vremya_luchshie_maternie.html

PS Хостинг шляпа, может отвалиться.

Muxto Nov 26 2013 at 19:06

Дропбокс отвалился еще в 11 утра.
На Вашу статью и ориентировался. И сайт типа такого же хочу сделать.
Здравствуйте, Учитель! :)

DodgeViper Nov 26 2013 at 01:43

Вам сюда например:
www.kuzkinamat.ru
Там и слова поинтереснее и фантазия пошире.

steck Nov 26 2013 at 12:01

По таким запросам, как я понимаю, «детектил», тоже подойдёт.
А под «су%а» ещё больше вариантов…

Xlab Nov 26 2013 at 14:13

Здесь % заменяет одну букву, это не относится к маскам SQL :)
Ну да ладно, над шуткой хмыкнул.

mas Nov 26 2013 at 03:00

Хорошо бы результаты через www.wordle.net/ пропустить!

Rastishka Nov 26 2013 at 12:47

Ох спасибо. Давно видел генератор этих картинок, не смог снова его найти…

paveldudka Nov 26 2013 at 06:50

Какое же все-таки самое употребляемое слово? :) Только скорей всего это предлог какой-нибудь, поэтому надо еще ограничение на мин длину слова

Muxto Nov 26 2013 at 08:48

Ну выложил же!
ссыль

Victoria_Bozhko Nov 26 2013 at 11:10

Ссыль уже лежит…
Что и следовало ожидать :(

zhenis Nov 26 2013 at 07:30

Если удается, пользователь вводит id первого поста и последнего, программа создает для каждого id URL и качает с него страницу.

Сколько места на жестком диске занимает копия Хабра?

Muxto Nov 26 2013 at 08:49

Только статьи с индексацией — 3 Гб.

fannt Nov 26 2013 at 11:56

(Тоже) планируете сделать резервирую копию необходимых знаний на случай апокалипсиса?

Ogi Nov 26 2013 at 12:39

С новыми офигительными законами необходимость в резервных копиях сайтов — никакая не шутка.

Muxto Nov 26 2013 at 15:36

Что бы еще такое выкачать полезное??

lomalkin Nov 26 2013 at 19:03

Твиттер)

Muxto Nov 26 2013 at 19:30

Alexeyslav Nov 27 2013 at 17:08

хабрастореж? кудаж копия хабра без картинок…

man_without_face Nov 26 2013 at 07:47

А общая статистика? То есть какие слова самые популярные по частоте проявления их в статье? Правда словарик нужен будет, чтобы не вылезли предлоги или лишние слова.

Muxto Nov 26 2013 at 08:50

И опять же.
ссыль

-2

titulusdesiderio Nov 26 2013 at 11:38

хватит кидать всем в комменты нерабочие ссылки. добавьте эту информацию в пост

Funcraft Nov 26 2013 at 13:04

Вы просто график в статью добавьте и всё, а то так и будете ссылки кидать. По сути, всех (большинство) интересует именно «самые популярные слова», а не просто набор слов. Было бы логичней поместить график самых популярных, вместо тех, что вы поместили. На мой скромный взгляд.

Muxto Nov 26 2013 at 15:54

Самые популярные, как и ожидалось, это местоимения, наречия и предлоги.
Согласен, что никакой полезной нагрузки это не несет, все сделано just for fun.
Как отфильтровать самые популярные от хлама представляю смутно. Но возможно займусь этим попозже.

limon_spb Nov 26 2013 at 15:58

Это было бы самое интересное :-) Но тут нельзя отбросить просто по длине слова. Думаю, только ручная работа, просмотр результатов и снова — ручная работа…

Muxto Nov 26 2013 at 16:15

Можно отбросить слова длиной 1 символ, и найти где нибудь список всех наречий, местоимений, предлогов, частиц и т.п.
Тогда было бы легко и просто.

syschel Nov 26 2013 at 18:36

Думаю в инете должны быть базы(словари), как раз таких «плохих» слов. Ведь нужны они не только в подобной ситуации, а много где ещё. Вот если найти такой словарь и по нему убрать все «лишние» слова. Будет то что надо.

XanKraegor Nov 27 2013 at 01:23

Вот здесь, например, имеются частотные словари частей речи на основе Корпуса русского языка. Особенно стоит обратить внимание на частотный список лемм служебных частей речи, он как раз должен подойти.

seriyPS Nov 26 2013 at 23:29

Вручную? Не стоит. Всё сделано до вас.
Как в .NET не знаю, на python делал это с помощью github.com/kmike/pymorphy2

Alexeyslav Nov 27 2013 at 17:17

Так ведь подсчитать частоту употребления, отсортировать по убывающей и сверху убрать весь мусор то что явно не слова и топ 20 можно уже вставить сюда, в статью или первые 30, там уже по обстоятельствам.

Я когда делал статистику по местному IRC первая десятка топовых слов(с предлогами и т.д.) давала чуть ли не 90% всех слов, после 200-й записи шли уже практически уникальные слова встречающиеся 1-2 раза.
И было еще забавно наблюдать ежедневные «пополнения словаря» в размере 50-100 уникальных слов в сутки. И это в ограниченном коллективе так сказать.

Да, было бы интересно посмотреть в разрезе ежесуточного пополнения словаря, насколько сильно изменяется используемый словарный запас и сопоставить всплески с какими-либо событиями как реальными так и виртуальными.

man_without_face Nov 26 2013 at 14:05

Error (509)

ElMaxo Nov 26 2013 at 08:43

Первое, что я вспомнил, это серию Футурамы «Война — это ад», где был составлен список самых употребляемых Бендером слов.

Muxto Nov 26 2013 at 08:53

Когда он взорвался в конце? Это Вам наверно моя аватарка навеяла.

gkozlenko Nov 26 2013 at 08:58

Пожалейте людей, читающих хабр с мобильных устройств. Добавьте в пост топ самых популярных слов.

Muxto Nov 26 2013 at 09:11

Первой сотни Вам хватит, чтобы разжечь аппетит?)

-1

OLS Nov 26 2013 at 09:29

Как мы все видим первая сотня — это просто общеупотребительная лексика.
Возьмите любой частотный словарь русского языка и выделите из Вашей базы только те слова, которые резко выделяются из общей статистики русского языка — вот это и будет «лексикон Хабра».

Trept Nov 26 2013 at 11:57

Для определения «контрасности» слов используется мера TF-IDF, или ее модификации, одной из лучших считается BM25.
Конечно, результат сильно зависит от покрывающего множества (корпуса) текстов, он должен быть достаточно большим и тематически взвешенным. Для последнего, к сожалению, сколь-нибудь продуктивного определения нет.
В качестве такого корпуса можно взять НКРЯ. Здесь его самые частотные словоформы.
Интересно таким же образом посчитать и биграммы Хабра.

Muxto Nov 26 2013 at 15:27

Уверяю, я просто хотел посчитать слова!
Спасибо за ссылки, почитаю.

Trept Nov 26 2013 at 16:55

Аппетит приходит во время еды, пардон за банальность.
Может, у Вас руки дойдут и до тф*идф, ведь абсолютная частотность, как мы видим из Вашего примера (большое спасибо за работу!), практически не показывает реального лексикона, кроме тривиального.

Mezomish Nov 26 2013 at 19:08

>Как мы все видим первая сотня — это просто общеупотребительная лексика.

Не совсем. Самое часто встречающееся существительное на Хабре — «время» (на втором месте — «работы», именно в такой форме). Не думаю, что оно так и в общем случае :)

ivn86 Nov 26 2013 at 09:24

И напоследок самое вкусное.

Давно интересовало, насколько часто на хабре упоминается корень «вкус». Благодарю, что удовлетворили моё любопытство:

$ cat выборка\ хабр\ лучшие.csv | grep вкусн | awk -F"," '{val += $2} END {print val}'
1878

Суммарное употребление однокоренных слов ставит корень «вкус» на 2781 место из 438605 наименований.

Muxto Nov 26 2013 at 09:28

Всегда пожалуйста!

KawaiDesu Nov 26 2013 at 13:40

grep вкусн выборка\ хабр\ лучшие.csv |…

sledopit Nov 26 2013 at 19:51

Если уж сокращать, так по максимуму:

awk -F, '/вкусн/{sum+=$2}END{print sum}' выборка\ хабр\ лучшие.csv

KawaiDesu Nov 27 2013 at 00:12

К сожалению, я в awk знаю только print, поэтому сократил, сколько знал (:

Pentoxide Nov 26 2013 at 09:49

По моему мнению надо нормализовать упоминание слова по месяцам к количеству постов в месяце. А то получается все графики выглядят почти одинаково (android разве что исключение).

Как тут

isxam Nov 26 2013 at 10:59

согласен, количество статей постоянно увеличивается и понятно что графики использования слова в 2006м и 2013м будут существенно различаться, даже если не было никакого всплеска популярности языка/технологии

Muxto Nov 26 2013 at 11:00

Была такая мысль, но больше интересовала именно абсолютная величина упоминаний.

UFO just landed and posted this here

Muxto Nov 26 2013 at 11:38

Хабраэффект убил дропбокс. Подскажите файлообменник?

UFO just landed and posted this here

KawaiDesu Nov 26 2013 at 13:52

rghost.ru

А мегу в пень, оттуда чтобы скачать надо постараться.

Muxto Nov 26 2013 at 13:58

Ргхост всем жаждущим

tangro Nov 26 2013 at 12:30

Положите на Bittorrent sync

Muxto Nov 26 2013 at 13:58

У меня еще нет домашнего облака)

Alexeyslav Nov 27 2013 at 17:28

Тогда просто торент, сам торент-файл выложить на обменник, его скачать можно будет через DHT без трекера. Вроде так.

mihey911 Nov 26 2013 at 13:40

Т легко объяснить — т.о. у Вас как засчитается? Как 2 слова «т» и «о»?

Muxto Nov 26 2013 at 13:54

Да, наверно так и происходило.
Загадка века раскрыта!

zTrue Nov 26 2013 at 13:50

Проанализируйте, с какими словами посты и комменты получают больше всего плюсов

Muxto Nov 26 2013 at 13:54

Ох, а я рейтинг не считал.

Haoose Nov 26 2013 at 13:59

Чтобы автоматически написать самый лучший пост на Хабре (из этих слов)? =)

Muxto Nov 26 2013 at 15:28

Отличная идея!

Egorkkk Nov 26 2013 at 14:12

Хитрый план?

Neir0 Nov 26 2013 at 14:48

Хорошо бы поделить на общее количество слов, чтобы увидеть тренд

Muxto Nov 26 2013 at 15:55

Возможно я уже забыл матстатистику, но кажется тренд считается не так просто.

Neir0 Nov 26 2013 at 16:04

Общее кол-во слов за определенный промежуток времени. Я имел ввиду, чтобы данные были не абсолютные, а относительные.

Muxto Nov 26 2013 at 16:12

Уже отвечал выше, что целью поиска для слова была именно абсолютная величина упоминаний.
Возможно попозже сделаю относительную величину, если меня никто не опередит. Сейчас честно нет времени)

Deaddy Nov 26 2013 at 16:24

Если этот топ-100 пропустить через типовой стоп-лист, чтобы отсеять мусорные слова (предлоги, местоимения и проч.), то он исчезнет полностью.
Интересно, на каком месте находится первое хабратематическое слово?

-1

mktums Nov 26 2013 at 16:58

Если удается, пользователь вводит id первого поста и последнего, программа создает для каждого id URL и качает с него страницу.

Простите, но это адский оверхед. Когда я был молодой и глупый — я таким же способом как и вы парсил БашОргРу, скорость работы — ужасна. Потом я понял что проще обходить страницы со ссылками на сами статьи.

Так почему бы просто не задействовать кроулеры? И заодно вам бы не пришлось парсить эти самые «83174 пустых постов».

Muxto Nov 26 2013 at 17:51

Все не так страшно как кажется.
200 000 статей за 26 часов — это 2,14 статьи за секунду. Безлимитный интернет есть, свободный ноут тоже. К тому же надо же было узнать что пустых статей именно 83 174)
И расскажите поподробнее про кроулеры. Это поисковые пауки?

mktums Nov 26 2013 at 17:56

Да, обращайтесь ко мне в скайп, покажу примеры.

luckyredhot Nov 26 2013 at 18:24

Могли бы и статейку написать, чё уж там? Многим тема интересна.

mktums Nov 26 2013 at 19:14

Боюсь из меня ужасный постописатель, да и код мой особой красотой не блещет, и пишу я на Python…
Но я могу провести бенчмарк между брутфорсным методом (тот что в статье) и обходным…

luckyredhot Nov 26 2013 at 19:19

Ну тогда приведите минимум текста, и максимум кода, графики бенчмарок и картинки с ~~сиськами~~ котиками :)
И всё получится))

Alexeyslav Nov 27 2013 at 17:31

Это как раз повод для приведения кода к красоте.

mktums Nov 27 2013 at 22:50

Да, вы правы :) Но он уже не используется много месяцев, да и фрэймворк который используется меняет API слишком часто.
С другой стороны можно попробовать просто повторить то что делалось в топике без использования готового фрэймворка и описать код на чистом Python…

Derailed Nov 26 2013 at 20:00

По просьбам трудящихся выложил топ-100 слов на хабре. Удивило слово «т» на 92 месте. А также число 5 упоминается чаще чем 4.

С предлогами и словами из одной цифры Ваш ТОП-100 получился не информативным, в нем мало смысла. Хорошо бы его немного профильтровать, и выкинуть оттуда явный мусор.

CryENG Nov 26 2013 at 20:04

Осталось генератор кроссвордов для хабра написать)

Trimax Nov 26 2013 at 21:17

А если выкинуть базовую лексику и посмотреть в хвост распределения Ципфа?

ohmytribe Nov 27 2013 at 04:17

Можно ещё взять яндексовский mystem, распарсить форматы предложений самых популярных статей и написать генератор случайных текстов с учётом популярности слов из этой базы данных :)

Vokkz Dec 25 2013 at 18:17

Вот статья с вирусом, про которую было упомянуто: habrahabr.ru/post/170487/

Muxto Dec 25 2013 at 21:54

Нет, вы ошибаетесь. Та статья была в промежутке по ID где то от 30000 до 40000. И там был именно кусок кода, вероятно содержащий сигнатуры, похожие на вирус.

Vokkz Dec 25 2013 at 21:56

Но эта статья тоже непроста: на неё ругается мой Chrome! :3

Muxto Dec 25 2013 at 22:01

Да, многие не любят Бабушкина, возможно ваш хром в их числе?
Однако AVG вируса не нашел.

Show the best of all time