Как стать автором
Обновить

Комментарии 40

Скажите, words.tar.gz содержит пометки из mistadataset.mat?
Потому что столкнулся с аналогичной задачей :) И пока нормального датасета с руганью не нашел.

Не содержит. Добавил в конце статьи ссылки на использованные mats и stopwords.
Добрый день, а вы не пробовали попросить данные у владельца сервиса?
Ну конкретно в этом проекте целью был процесс, а не результат. Да и думаю вряд ли бы владелец решил поделиться.
Огромная работа, но кажется нарушает 272 УК в части копирования информации.
Спасибо, почитаю.

Этот датасет может быть интересен, если сопоставить его с лексикой языка — чтобы понять, какие грабли популярны у мистян.
И еще сопоставить статистику успешных внедрений с оф.сайта 1С и вопросы по соответствующим конфигурациям.

И еще сопоставить статистику успешных внедрений с оф.сайта 1С и вопросы по соответствующим конфигурациям.

Корреляция примерна такая же как между результатом подбрасывания монетки и количеством вспышек на солнце за прошлую неделю.
В-третьих, 99.99% пользователей форума сторонники


Это не 99% сторонники, там банят не-сторонников, я два бана отхватил только за то что сказал пару слов с «опозиционной окраской» (на 10 лет и на полтора года, там с «изменниками» не церемонятся)
99.99% форума? Да ладно, там меньше сотни человек в политике срутся, еще некоторое количество в остальном лайфе типа ЗОЖ или авто. Остальным все равно и они получают информацию. Если уж зудит, то можно в настройках лайф просто выключить, останутся только тематические ветки. Кстати, интересна статистика по соотношению тематики и лайфа.
Да нет там никакого срача в политике. Любое несогласие — это бан и моментальный конец сралки. Вот до 2012 было эпично.
Ильдар, проанализируй сообщения от своих «пацанских» ников на мисте (Нуф-Нуф, Бешеная Нога, Бешеный Член и т.д.). Крайне интересна статистика по ругательствам.

И да, выкачивать гигабайты с сайта без спроса — это вандализм, излишняя нагрузка на сервер, который денег стоит, между прочим. Ты бы просто спросил, я бы тебе просто нужные таблички скинул в сжатом виде.
А что там анализировать, я на 17 месте, с учетом того, что я уже больше 3 лет не пишу (а про член не надо, это не мой ник, а вандалов).

Ну это же ради науки и прогресса. А сами таблички не особо нужны. Как я говорил, главное тут был процесс.
Плохой матофильтр… заколебаться туда попало почему-то :)
Согласен, фильтр не фонтан. А «заколебаться» наверно туда попал из-за разных взглядов на корень этого слова.
Ну видать успели нафлудить так, что эхо до сих пор. Надо бы сделать более актуальный срез — допустим за последний год-два и среди тех, кто был активный в течение последних 3 месяцев.
Сделай анализ флудеров по лайфу-тематике. Ну и в принципе соотношение по годам.
Скорее всего отток пользователей связан с альтернативной одаренностью хозяина площадки.
Давайте это обсудим. Каждый год звучит «Миста уже не та» и «Миста умирает», но посещаемость держится стабильно из года в год на уровне 50 тыс. в сутки. А то что стали меньше задавать тупых вопросов, это точно. Люди научились пользоваться поиском. Гугл и Яндекс часто выдают страницы мисты первыми ссылками.
люди никогда не научатся пользоваться поиском. тупые вопросы просто оперативно трут и банят, а зарегистрироваться повторно — утомительно
Да ладно! Первыми ссылками всегда идут инфостарта и devtrainingforum. Даже хабр с тостером на некоторые вопросы выше мисты.
Может на вас заявление в полицию написать? То, что какой-то элемент из вашей кодлы меня «наркоманом» назвал? И сделал это, скорее всего публично: перед вашим составом модераторов. Поразвлекаемся, поразбираемся? image
Лет десять назад по сложным вопросам искал инфу на форумах, но это в прошлом. Сейчас форумы смотрю лишь когда интересен именно живой опыт — физкультура, йога — как это делают реальные люди и что получают в итоге. Практически всё, что связано со стандартным софтом — быстрее решить с помощью гугла, а в поисковой выдаче форумы не часто бывают на верхних строчках, да и доверия к статьям больше, чем к форумам (при прочих равных). Так что просто нет смысла регистрироваться на форуме

"нафига нифига" — с какого боку мат, обычные фразеологизмы же.

Я писал, что словарь матов условный.
Знающие люди, как код в спойлеры засунуть? У меня Markdown.
Интересно, сколько постов с форума за 18 лет стало мусором…
Отличное исследование, поздравляю! Результаты и их интерпретация совпадают с субъективными ощущениями.
Не знаю, насколько это сложно, но на этом наборе данных, наверное, можно было бы определить пол, возраст, образование, место проживания, происхождение, службу в армии, род занятий и прочие данные профиля участника форума и построить зависимость позиции по конкретным вопросам (вера в лунный заговор, например).
Еще интересная задача — по триграммам дубликаты аккаунтов попытаться определить.
Спасибо за отзыв. Если вы Ildarovich с инфостарта, то такая оценка вдвойне ценнее. Про пол думаю машинное обучение справится (когда дойду до него), про заговор чуть сложнее будет)
Суперработа, прямо сминаю шляпу!
Интересно, а можно на основе анализа этой бигдаты формировать некий «типовой портрет пользователя»? К примеру, некий персонаж регистрирует пачку ников и начинает под ними флудить. Но, поскольку не все обладают талантами Каплея, некие общие черты в постах всё равно прослеживаются. Вот вычислять таких персонажей было бы интересно.
влажная мечта модераторов
Challenge accepted. Но чуть позже, когда скиллы в машинном обучении будут чуть сильнее)
А выкачать сайт банальным wget не пробовали или тут он не подошел бы?
А вы статью вообще читали?
После 20 запросов GET запросов форум переставал отвечать. В веб-бекэнде не силен, но подозреваю, что частые запросы с одного ИП отслеживались и на все, что было не похоже на запросы от обычного пользователя, ставился бан. Куча перебранных скачивалок и грабберов сайтов натыкались на те же грабли и шли в корзину. Нужна была свежая идея.
Спасибо за результаты интересной работы. Чувствуется знание внутренней кухни Мисты и трепетное продолжительное отслеживание истории общения ее пользователей. Но историю форума можно было рассказать и без результатов данных изысканий, жаль что исследование ушло в степь «кто кого троллил» и «за что забанили»…

Когда мне рассказывали про корпусную лингвистику, я мысленно крутил пальцем у виска — тысячам лингвистов нефиг делать как изучать частоту встречи словосочетаний в привязке к историческим событиям и прочие синтетические ресерчи. А вот на таком датасете столько всего интересного можно было бы выжать — как изменялась частота вопросов «о взломе», «сбросе паролей», «установке на линуксе» и прочих типовых вопросов при переходе между 8.0, 8.1, 8.2, 8.3. Как изменялись вопросы связанные с вебом, после выхода 8.2; как изменились вопросы связанные с мобильной разработкой после выхода 8.3. Как повлияло на частоту вопросов по построителю отчетов появление механизма компоновки. Как изменялось соотношение вопросов управляемого и обычного интерфейса после выхода типовых на управляемых формах. И так далее…
off\ Да, миста быстро начала расти и развиваться вслед за 1С, но увы, оказалась в руках запутинцев, мыслящих критериями запретить, посадить.
Результат оказался немного предсказуем, проект сливается, как и многое из того, что оказалось в руках у сторонников бронзовеющего.
Комментарий от пользователя, который по разными причинам не смог написать его тут и отправил личным сообщением:
1 Просьба к вам. Никогда, НИКОГДА не шарить файлы через гуглодиски, яндекс-драйвы и облака мейл ру и прочие сайты, специально не работающие без js. Это сделано специально чтобы шпионить за скачивающими (по принципу «нет js — нет скачивания»), хостить на них файлы — это неуважение к пользователям. Есть масса файловых хостингов, хостящих десятки гибибайт «бессрочно», без регистрации, без смс и без js. Атещё можно выкладывать в релизы на гитхабе. Ещё лучше выложить, взять абсолютную ссылку, и создать торрент-файл, прописав её в веб-сиды, и выложить торрент-файл или магнит-ссылку (убедитесь, чтобы в ней были вебсиды) в тот же релиз. Тогда можно будет качать через торрент, что быстрее, особенно если скачает больше одного человека, и держать свой комп включённым не нужно — торрент-клиент будет качать параллельно из вебсида и p2p.

2 файлы лучше перед всем сжать xz -9e. Некоторые дейтасеты сжимает больше чем в 10 раз.

3 а полные исходники то на гитхаб зальёте?

4 статья на самом деле выглядит как будто админ форума вас чем-то сильно разозлил и вы решили ему отмстить, написав статью. А на деле я уверен что у форума резко подскочила посещаемость из-за того, что всем стало интересно, что же это за форум такой.

5
>А теперь посмотрим на моральный облик «администрации» форума. А именно на то, какое у них отношение к нецензурной лексике.

Как будто что-то плохое.
1. Спасибо, принято. В дальнейшем буду использовать отличные от гугло-яндекса площадки. Гитхаб если не ошибаюсь дает хранить большие файлы, но за деньги.

2. Спасибо, проверю.

3. Исходники после приведения в порядок опубликую на гитхабе.

4. Админы на самом деле мне не нравится, но в целом мне пофиг, упадет или подрастет у них чего-нибудь там. Я форум использовал просто как площадку.

5. Да ничего плохого нет. Но я много раз видел как админы посылают в грубой форме. Имхо это низко.
Зарегистрируйтесь на Хабре , чтобы оставить комментарий

Публикации

Истории