Pull to refresh

Comments 85

Мата мало.
примеры
уе%анство;2
пи%орас;2
на%уй;7
ху%ней;4
ху%ня;4
му%акам;3
пи%дюлей;3
су%а;27
де%ил;19
ло%ара;4

А в постах его кстати совсем немного. Например б_я всего одно.
Другое дело комменты! Но до них доберусь чуть позже.
Дропбокс отвалился еще в 11 утра.
На Вашу статью и ориентировался. И сайт типа такого же хочу сделать.
Здравствуйте, Учитель! :)
По таким запросам, как я понимаю, «детектил», тоже подойдёт.
А под «су%а» ещё больше вариантов…
Здесь % заменяет одну букву, это не относится к маскам SQL :)
Ну да ладно, над шуткой хмыкнул.
Ох спасибо. Давно видел генератор этих картинок, не смог снова его найти…
Какое же все-таки самое употребляемое слово? :) Только скорей всего это предлог какой-нибудь, поэтому надо еще ограничение на мин длину слова
Ссыль уже лежит…
Что и следовало ожидать :(
Если удается, пользователь вводит id первого поста и последнего, программа создает для каждого id URL и качает с него страницу.


Сколько места на жестком диске занимает копия Хабра?
Только статьи с индексацией — 3 Гб.
(Тоже) планируете сделать резервирую копию необходимых знаний на случай апокалипсиса?
С новыми офигительными законами необходимость в резервных копиях сайтов — никакая не шутка.
Что бы еще такое выкачать полезное??
хабрастореж? кудаж копия хабра без картинок…
А общая статистика? То есть какие слова самые популярные по частоте проявления их в статье? Правда словарик нужен будет, чтобы не вылезли предлоги или лишние слова.
хватит кидать всем в комменты нерабочие ссылки. добавьте эту информацию в пост
Вы просто график в статью добавьте и всё, а то так и будете ссылки кидать. По сути, всех (большинство) интересует именно «самые популярные слова», а не просто набор слов. Было бы логичней поместить график самых популярных, вместо тех, что вы поместили. На мой скромный взгляд.
Самые популярные, как и ожидалось, это местоимения, наречия и предлоги.
Согласен, что никакой полезной нагрузки это не несет, все сделано just for fun.
Как отфильтровать самые популярные от хлама представляю смутно. Но возможно займусь этим попозже.
Это было бы самое интересное :-) Но тут нельзя отбросить просто по длине слова. Думаю, только ручная работа, просмотр результатов и снова — ручная работа…
Можно отбросить слова длиной 1 символ, и найти где нибудь список всех наречий, местоимений, предлогов, частиц и т.п.
Тогда было бы легко и просто.
Думаю в инете должны быть базы(словари), как раз таких «плохих» слов. Ведь нужны они не только в подобной ситуации, а много где ещё. Вот если найти такой словарь и по нему убрать все «лишние» слова. Будет то что надо.
Вот здесь, например, имеются частотные словари частей речи на основе Корпуса русского языка. Особенно стоит обратить внимание на частотный список лемм служебных частей речи, он как раз должен подойти.
Вручную? Не стоит. Всё сделано до вас.
Как в .NET не знаю, на python делал это с помощью github.com/kmike/pymorphy2
Так ведь подсчитать частоту употребления, отсортировать по убывающей и сверху убрать весь мусор то что явно не слова и топ 20 можно уже вставить сюда, в статью или первые 30, там уже по обстоятельствам.

Я когда делал статистику по местному IRC первая десятка топовых слов(с предлогами и т.д.) давала чуть ли не 90% всех слов, после 200-й записи шли уже практически уникальные слова встречающиеся 1-2 раза.
И было еще забавно наблюдать ежедневные «пополнения словаря» в размере 50-100 уникальных слов в сутки. И это в ограниченном коллективе так сказать.

Да, было бы интересно посмотреть в разрезе ежесуточного пополнения словаря, насколько сильно изменяется используемый словарный запас и сопоставить всплески с какими-либо событиями как реальными так и виртуальными.
Первое, что я вспомнил, это серию Футурамы «Война — это ад», где был составлен список самых употребляемых Бендером слов.
Когда он взорвался в конце? Это Вам наверно моя аватарка навеяла.
Пожалейте людей, читающих хабр с мобильных устройств. Добавьте в пост топ самых популярных слов.
Первой сотни Вам хватит, чтобы разжечь аппетит?)
Как мы все видим первая сотня — это просто общеупотребительная лексика.
Возьмите любой частотный словарь русского языка и выделите из Вашей базы только те слова, которые резко выделяются из общей статистики русского языка — вот это и будет «лексикон Хабра».
Для определения «контрасности» слов используется мера TF-IDF, или ее модификации, одной из лучших считается BM25.
Конечно, результат сильно зависит от покрывающего множества (корпуса) текстов, он должен быть достаточно большим и тематически взвешенным. Для последнего, к сожалению, сколь-нибудь продуктивного определения нет.
В качестве такого корпуса можно взять НКРЯ. Здесь его самые частотные словоформы.
Интересно таким же образом посчитать и биграммы Хабра.
Уверяю, я просто хотел посчитать слова!
Спасибо за ссылки, почитаю.
Аппетит приходит во время еды, пардон за банальность.
Может, у Вас руки дойдут и до тф*идф, ведь абсолютная частотность, как мы видим из Вашего примера (большое спасибо за работу!), практически не показывает реального лексикона, кроме тривиального.
>Как мы все видим первая сотня — это просто общеупотребительная лексика.

Не совсем. Самое часто встречающееся существительное на Хабре — «время» (на втором месте — «работы», именно в такой форме). Не думаю, что оно так и в общем случае :)
И напоследок самое вкусное.

Давно интересовало, насколько часто на хабре упоминается корень «вкус». Благодарю, что удовлетворили моё любопытство:
$ cat выборка\ хабр\ лучшие.csv | grep вкусн | awk -F"," '{val += $2} END {print val}'
1878

Суммарное употребление однокоренных слов ставит корень «вкус» на 2781 место из 438605 наименований.
Всегда пожалуйста!
grep вкусн выборка\ хабр\ лучшие.csv |…
Если уж сокращать, так по максимуму:
awk -F, '/вкусн/{sum+=$2}END{print sum}' выборка\ хабр\ лучшие.csv
К сожалению, я в awk знаю только print, поэтому сократил, сколько знал (:
По моему мнению надо нормализовать упоминание слова по месяцам к количеству постов в месяце. А то получается все графики выглядят почти одинаково (android разве что исключение).
Как тут
image
согласен, количество статей постоянно увеличивается и понятно что графики использования слова в 2006м и 2013м будут существенно различаться, даже если не было никакого всплеска популярности языка/технологии
Была такая мысль, но больше интересовала именно абсолютная величина упоминаний.
UFO just landed and posted this here
UFO just landed and posted this here
rghost.ru

А мегу в пень, оттуда чтобы скачать надо постараться.
Положите на Bittorrent sync
У меня еще нет домашнего облака)
Тогда просто торент, сам торент-файл выложить на обменник, его скачать можно будет через DHT без трекера. Вроде так.
Т легко объяснить — т.о. у Вас как засчитается? Как 2 слова «т» и «о»?
Да, наверно так и происходило.
Загадка века раскрыта!
Проанализируйте, с какими словами посты и комменты получают больше всего плюсов
Ох, а я рейтинг не считал.
Чтобы автоматически написать самый лучший пост на Хабре (из этих слов)? =)
Хорошо бы поделить на общее количество слов, чтобы увидеть тренд
Возможно я уже забыл матстатистику, но кажется тренд считается не так просто.
Общее кол-во слов за определенный промежуток времени. Я имел ввиду, чтобы данные были не абсолютные, а относительные.
Уже отвечал выше, что целью поиска для слова была именно абсолютная величина упоминаний.
Возможно попозже сделаю относительную величину, если меня никто не опередит. Сейчас честно нет времени)
Если этот топ-100 пропустить через типовой стоп-лист, чтобы отсеять мусорные слова (предлоги, местоимения и проч.), то он исчезнет полностью.
Интересно, на каком месте находится первое хабратематическое слово?
Если удается, пользователь вводит id первого поста и последнего, программа создает для каждого id URL и качает с него страницу.


Простите, но это адский оверхед. Когда я был молодой и глупый — я таким же способом как и вы парсил БашОргРу, скорость работы — ужасна. Потом я понял что проще обходить страницы со ссылками на сами статьи.

Так почему бы просто не задействовать кроулеры? И заодно вам бы не пришлось парсить эти самые «83174 пустых постов».
Все не так страшно как кажется.
200 000 статей за 26 часов — это 2,14 статьи за секунду. Безлимитный интернет есть, свободный ноут тоже. К тому же надо же было узнать что пустых статей именно 83 174)
И расскажите поподробнее про кроулеры. Это поисковые пауки?
Да, обращайтесь ко мне в скайп, покажу примеры.
Могли бы и статейку написать, чё уж там? Многим тема интересна.
Боюсь из меня ужасный постописатель, да и код мой особой красотой не блещет, и пишу я на Python…
Но я могу провести бенчмарк между брутфорсным методом (тот что в статье) и обходным…
Ну тогда приведите минимум текста, и максимум кода, графики бенчмарок и картинки с сиськами котиками :)
И всё получится))
Это как раз повод для приведения кода к красоте.
Да, вы правы :) Но он уже не используется много месяцев, да и фрэймворк который используется меняет API слишком часто.
С другой стороны можно попробовать просто повторить то что делалось в топике без использования готового фрэймворка и описать код на чистом Python…
По просьбам трудящихся выложил топ-100 слов на хабре. Удивило слово «т» на 92 месте. А также число 5 упоминается чаще чем 4.
С предлогами и словами из одной цифры Ваш ТОП-100 получился не информативным, в нем мало смысла. Хорошо бы его немного профильтровать, и выкинуть оттуда явный мусор.
Осталось генератор кроссвордов для хабра написать)
А если выкинуть базовую лексику и посмотреть в хвост распределения Ципфа?
Можно ещё взять яндексовский mystem, распарсить форматы предложений самых популярных статей и написать генератор случайных текстов с учётом популярности слов из этой базы данных :)
Нет, вы ошибаетесь. Та статья была в промежутке по ID где то от 30000 до 40000. И там был именно кусок кода, вероятно содержащий сигнатуры, похожие на вирус.
Но эта статья тоже непроста: на неё ругается мой Chrome! :3
Да, многие не любят Бабушкина, возможно ваш хром в их числе?
Однако AVG вируса не нашел.
Sign up to leave a comment.

Articles

Change theme settings