gromozeka1980 Sep 5 2013 at 15:47

И снова закинул старик невод… (парсинг хабра, продолжение)

2 min

16K

Abnormal programming*Python*

+26

Comments 51

nadenok Sep 5 2013 at 15:53

«скайрим» на 51-м месте среди частотных слов из комментариев Хабра? Хм. Уговорили, надо будет таки поиграть)

gromozeka1980 Sep 5 2013 at 15:55

нет, это слова из комментариев, которых нет в постах.

nadenok Sep 5 2013 at 16:23

Я понял, не счел нужным уточнять)

BeLove Sep 5 2013 at 16:00

тотсамизнаетектоноимякоторогонельзяназыватьнахабрепотомучтотаккручеивообщебольшинствотакделаетпоэтомуябудуповторятьзавсеми

zzeneg Sep 5 2013 at 16:21

Мне кажется, вы немного передергиваете, а кое-где даже утрируете и противоречите. :)

+15

ZayDen Sep 6 2013 at 10:42

Ой, какой-то монитор у меня маленький, полностью слово не показывает. Если у кого также, то вот его окончание:

"~поэтомуябудуповторятьзавсеми"

rmrevin Sep 5 2013 at 16:23

Хабраводка.
Поднимем рейтинг слова вместе!

+10

librarian Sep 5 2013 at 16:47

Я выпил хабраводки и пошёл играть на хабрабалалайке в хабраушанке на улицу вместе со своим хабрамедведем!

rmrevin Sep 5 2013 at 16:49

Держи хабрапять хабратоварищ. Идем на хабраскамейку, и не забудь хабрасемечки.

klirichek Sep 6 2013 at 10:37

А ещё есть сказка про Крошечку-Хаброшечку!

StreetStrider Sep 8 2013 at 13:32

Хабраплан на хабрапятилетку.

MikhailS Sep 5 2013 at 16:44

Не смотрели слова, которые есть в постах, но не в комментариях? Есть там что интересное?

Ну и можно ещё теги распарсить) Заодно узнать рейтинг тега «никто не читает теги» и т.д.

gromozeka1980 Sep 5 2013 at 16:55

Смотрел, там были всякие «переопределим» и «сконфигурируем» :). Позже, наверное, выложу.

halyavin Sep 5 2013 at 17:41

Все, теперь они есть в комментариях.

gromozeka1980 Sep 5 2013 at 17:42

да, комменты к этому посту вообще всю картину поменяют, по-моему :)

ur001 Sep 7 2013 at 22:05

А как вы решили задачу: есть 2 списка чего-то по популярности, нужно найти самое популярное из списка 1 при этом не популярное в списке 2 (и наоборот, соответственно)?

Я просто несколько раз сталкивался с подобной задачей в общем виде (например сравнение ассоциаций к двум словам на Sociation), находил несколько удовлетворяющих меня решений, но все они какие-то «нестопудовые» и мало математически обоснованы.

Или вы просто взяли какой-то порог, типа меньше 5-и употреблений, значит его нет?

gromozeka1980 Sep 7 2013 at 22:30

Да не, совсем по тупому — нет значит нет, есть значит есть.
Единственное более менее математическое, что приходит в голову — найти относительную частотность слова (ну или как это называется, в общем процент, который состовляют вхождения этого слова от всех слов) в постах и в комментах и отранжировать все слова по разнице этих частотностей.
С википедией и башем я это пробовал, там в начале списка вылезают просто слова разговорной речи, которых полно на баше и мало (но есть) в википедии.

ur001 Sep 8 2013 at 00:39

Если сортировать по разнице, то в одном списке будут слова характерные только для 1-го или только для 2-го ресурса, и не характерные для обоих одновременно. И то, разница в данном случае — это неверно. Нам ведь важно во сколько раз слово популярнее, а не на сколько (например 20%-10% = 10%, 100%-90% = 10%, при этом в первом случае популярность выше в 2 раза, а во втором в 1.111...).

Я когда рассуждал, придумал такую простую визуализацию. 2 оси, по одной — популярность слова в первом списке, по второй — во втором. Пусть они нормированы [0:1], тогда слова около «точки» 1,1 — это максимально популярные общие для 2-х ресурсов слова, 1,0 — характерные для 1-го, и 0,1 для второго ресурса. Вроде всё просто, нужно только правильно поделить плоскость на 3 группы (например популярные слова Хабра, Лепры и обоих одновременно). Остаётся вопрос — как именно это сделать наиболее правильным образом :)

ur001 Sep 8 2013 at 00:45

…

gromozeka1980 Sep 8 2013 at 12:22

шикарно! sociation — это Ваш сайт?

ur001 Sep 8 2013 at 13:09

Ну да, такое маленькое хобби :)

gromozeka1980 Sep 8 2013 at 13:21

Нам ведь важно во сколько раз слово популярнее, а не на сколько
Вот совсем не уверен. Одно слово встретилось один раз, другое два раза. Ну да, второе популярней в два раза. При этом разница — с гулькин хрен, в пределах любых погрешностей. И другая ситуация — одно слово встретилась 10к раз, а другое 1к раз. Тут определённо первое слово намного популярней. Разница здесь, по-моему, лучше подходит, чем частное.
Хотя… Не знаю…

ur001 Sep 8 2013 at 14:27

Тогда проще на абсолютных числах:
— 500 и 1000 упоминаний (разность — 500, в 2 раза популярнее)
— 100500 и 101000 (разность 500, отношение 1.0049, т.е. «почти одинаково»)

Насчёт 1 и 2 — чем меньше частота, тем больше погрешность. Но нас же низкочастотные слова вообще не очень интересуют?

Если вечером будете экспериментировать, скину позже несколько формул

gromozeka1980 Sep 8 2013 at 13:23

Впрочем это всё можно проверить. Отранжировать так и так и посмотреть, где результат лучше выглядит. Вечером, наверное, сделаю.

ur001 Sep 8 2013 at 14:50

Вот тут можно посмотреть на js:
sociation.org/static/js/sociation/compare.js
Там основная функция принимает как аргумент функцию сравнения. Они идут ниже. Чем ниже тем новее и лучше :) Самый простой и эффективный пока — последний comporator11.

Kokker Sep 5 2013 at 16:51

порнохабр 28

Похоже, я что-то пропустил.

+11

Nord001 Sep 5 2013 at 16:58

Тут где-то на ресурсе, есть, наверное, самый популярный по добавлениям в избранное один большой комментарий, сожержащий большой список ссылок, к статье об блокировки или временной недоступности одного известного трекера. Вот мне кажется, что слово выше, относиться к нему, этому хорошему комментарию.

datacompboy Sep 5 2013 at 17:24

Причем непонятно, почему не давать сразу ссылку просто на www.tblop.com/

gromozeka1980 Sep 5 2013 at 17:30

Интересно, будут ли у этого комментария добавления в избранное? :)

datacompboy Sep 5 2013 at 17:31

Зачем? В закладки надо вносить только ссылку ))

ZayDen Sep 6 2013 at 11:00

поиск по слову порнохабр

Действительно 37 комментариев, 2 топика и 1 вопрос.

UFO just landed and posted this here

Stalker_RED Sep 5 2013 at 17:23

Хм… если просуммировать эти однокоренные слова, то выяснится что больше всего на хабре любят передергивать и противоречить.

gromozeka1980 Sep 5 2013 at 17:29

точняк!

spmbt Sep 5 2013 at 17:35

Изобличать других в передёргивании и противоречии. Да, это точно.

gromozeka1980 Sep 5 2013 at 17:37

Непонял! Придираетесь?

spmbt Sep 5 2013 at 17:40

Утрируете.

anarleen Sep 5 2013 at 18:24

Точняк.

spmbt Sep 5 2013 at 17:40

любовь здешних обитателей к созданию и употреблению «χ·слов», захотелось оценить масштабы явления.

Поэтому одна из функций HabrAjax — это сокращать такие приставки до одной греческой буквы «хи».

UFO just landed and posted this here

gromozeka1980 Sep 5 2013 at 19:27

Здорово!
Добавил в пост линк на этот комментарий.

gromozeka1980 Sep 6 2013 at 20:55

А что парсили, все разделы включая бездну? (насколько я помню, я парсил только то, что попадало на главную и «лучшее бездны»)
Каким инструментарием пользовались? Тоже Питон?

UFO just landed and posted this here

xappymah Sep 5 2013 at 19:19

Какое подозрительное совпадение в частотном словаре комментариев:

ахренеть 103
минуснули 103
!@#$%ы 103 (завуалировано)

ruikarikun Sep 5 2013 at 20:15

Как-то так должны выглядеть идеальные комментарии. Осторожно.

Минусаторы-холиварщики окститесь! Заебали оффтопить. Хуле утрируете?

Реквестую лосслесс жпг бубунты, правдо аеро! Ахренеть, миго непонял, ведроид пиратят, гнусмас похуй, хтц негодуе. Ахах, лучшеб ифон минуснули, пидорасы!

Яб нобелевку заплюсовал. Сраное иксбокс — совковая айрони. Спасибище, скайрим.

Ктож сусе линупс поубивал приватом?! Зачетно жжоте, ящитаю. Охх, опечаточка, слаку. Придираетесь? Огреб аккумом.

Бгг, передергивайте!

+15

gromozeka1980 Sep 5 2013 at 20:20

это прекрасно

Xazzzi Sep 6 2013 at 01:23

А в новом частотном словаре (ну предположим на секунду, что автор спарсит повторно) — увеличился бы счетчик или исчезли бы слова со списка?

gromozeka1980 Sep 6 2013 at 08:26

Счётчики бы увеличились. Слово исчезнет из списка если кто-нибудь напишет пост, в котором оно будет присутствовать :)

Michael134096 Sep 5 2013 at 20:46

Когда прочитал статью, придумал слово хабракадабра. Нашлась в списке.

Michael134096 Sep 5 2013 at 20:52

зато хабрахадабра отсутствует.

Alexeyslav Sep 6 2013 at 11:19

Да, это очень интересная тема, когда-то ради прикола составлял общий частотный словарь и поименный для местного IRC, так в топе слов были исключительно короткие слова(2-3 буквы) и слабо зависели от человека.

Примерно вот так распределились

НЕ 5414
И 4379
НА 2876
ТЫ 2100
ЭТО 1946
ЧТО 1719
НУ 1264
КАК 1215
ДА 1096
ПО 1071
ТАК 1040
ТО 967
ЕСТЬ 836

И еще заметил что словарь каждый день пополнялся на 100-200 слов. В активные дни, когда происходили какие-то события поток новых слов увеличивался до 400 в день.

Show the best of all time