Информация

Местоположение
Россия
Сайт
www.npo-echelon.ru
Численность
Неизвестно
Дата регистрации

Блог на Хабре

Обновить
Комментарии 25
Наверное, кто-то должен сказать эти очевидны вещи…
Итак, сколько информации мы потеряли по дороге:
1) Население хабра больше, чем одни лишь подписчики группы. Теряем всех неподписавшихся. А ещё могут быть подписчики, не захаживающие на хабр.
2) Теряем народ, не указавший свои персональные данные. А учитывая то, что среди программистов параноиков не мало — процент может быть существенным.
3) Подписка на ту или иную группу совсем не достоверно отражает интересы человека.
4) Информация о себе тоже часто недостоверно отражает информацию о человеке, зачастую люди пишут какими бы они хотели бы видеть себя со стороны.
В конечном шаге мы накапливаем огромную ошибку.
Ну и, сомневаюсь по поводу возраста, так как вконтакте в основном зарегистрированы люди именно этого возраста.
1) Согласен, но порядок один: на Хабре ~740 тыс, в группе ~670 тыс.
2) Для этого берем большую выборку, не 600 чел, а 3000.
3) Спорный тезис — зачем тогда человек подписывался? Коммерческих групп в топе нет практически — это не результат акций типа «подпишись и получи шанс выиграть что-нибудь».
4) По выявлению лжи — сделаем пост отдельный или парочку даже. Здесь считаем, что все пользователи Хабра исключительно честные.

1) Аккаунт на хабре ещё заработать надо. Если его нету, то, возможно, удобнее читать и комментить паблик вконтакте. При этом наврятли кто-то будет читать одну и туже статью дважды, смотреть две одинаковые ленты новостей, одну на хабре, другую в паблике. Возникает вопрос — кого анализировали? Хабравчан или желающих ими стать?
Ну если допустить, что в группе «ВКонтакте» совершенно другая аудитория нежели на Хабре, то как тогда объяснить совпадения по статистике, которая у нас получилась и которую сам Хабр ведет?
В группе хабра в контактике минимум у 50% вообще нет аккаунта на хабре. А ещё там полно тех, у кого аккаунт Readonly. Делайте выводы.
Разумеется две эти аудитории не идентичны, но на мой взгляд у них — серьёзное пересечение, т.к активные пользователи вконтакте могут вполне захотеть иметь возможность читать и хабровские посты в общей ленте активностей.

Вообще всё это — отдельная гипотеза, и было бы интересно её проверить в одной из дальнейших статей этого цикла) Хотя бы на уровне прямого вопроса о чтении хабра в соцсетях )

Интуитивно мне кажется, что эти аудитории весьма близки.
Это не разведка, это скорее опрос. Разведка — это узнать сведения, явно не указанные в открытых источниках.
Мне лично нравится больше такое определение: разведка — знание или предвидение окружающего нас мира, необходимое для принятия решений и действий. В статье дан пример так называемой разведки по открытым источникам (Open Source Intelligence или OSINT). В одной из следующих статей, раз это интересно, разберем другие разные виды разведок (там есть, и HUMINT, и FININT, и CYBERINT и другие INT'ы)

Лучше бы базу имён, IP, email, user-agent, (диз)лайков пользователей получили (нахождением пробоин в корпусе НЛО) и слили на peers.fm, а ссылку на лурк положили.
Вконьтакте далеко не все зарегистрированы.
Для уточнения картины желательно стырить заиметь привязки браузеров оппонентов к twitter, linkedin, facebook, ok.ru и госуслугам (ИНН, СНИЛС и т.д.).

Это не разведка, а усреднённый профиль хабраюзера.
Ваша проверка данных вызывает естественный вопрос — зачем всё усложнять, если сразу можно посмотреть на профили пользователей хабра? Нет никаких оснований полагать, что люди будут указывать о себе в разных социальных сетях противоречивые сведения. Кстати, выявить последних было бы куда интереснее!
Мы смотрели одну сеть: «ВКонтакте» и, как раз, привели методы, как это можно сделать несколькими простыми командами из среды R.
Прямо вот так совсем никаких оснований? :)

Женщин в исходном списке гипотез (исчерпывающем) вообще не было. А на деле их обнаружилась треть. После такого провала офицер разведки обязан застрелиться.

Shamov, Вам, плюс в карму!) В реальной жизни исчерпывающий список не всегда получается подготовить, многое открывается в последствии. Стараемся следовать MECE, а там как пойдет. Процесс тестирования гипотез итеративным получается, здесь не стал перегружать текст этим.
Обязан? Или уже обязана? :)

На 2/3 обязан и на 1/3 обязана...

новый пользователь Хабра, получив «минус в карму» еще до первого своего поста/комментария на ресурсе, решает узнать, а кто же скрывается за изощренно придуманными никами пользователей Хабра и задается вопросом: who is Mr./Ms. Habraman?

Не, он хочет узнать кто те 39 человек поставивших ему + и — в карму. Не облик, а ники и ip. И он их по ip вычислит ))
Наверняка, есть более оптимальное решение этой проблемы, кто знает – делитесь информацией в комментариях к статье.

Можно и не задействовать для перекодировки LibreOffice вообще, так как текстовый редактор встроенный в RStudio может пересохранить файл с любой кодировкой.

В опросе "Ваш возраст" сумма 105%.


далеко идущие выводы

Автор инопланетянин. И среди проголосовавших пользователей их до 5%.

А я нашёл человека-невидимку (наверное 33-го пола, он же занимает 5% темной материи аудитории).
Связан с НЛО или администрацией.


image


кстати о порче изображений НЛОшниками

это дурацкое хабро-объекто-хоронилище зачем-то пересчитывает картинку
из 31.54 KB 920x693 8bit PNG в 32bpp, делая её вдвое "толще".


P.S. по некоторым данным 40% россиян не пользуются соцсетями, а 10% — могильными телефонами. Разведчика на мыло в разведшколу.

Автор, поделитесь опытом, пожалуйста.
Делаю всё, как вы в R. Из вКонтакте загружается текст с некорректной кодировкой.
Вы пишете: «надо сохранить в CSV». Ок, но как?

Перепробовал все варианты write
Одна ошибка:
Error in if (inherits(X[[j]], «data.frame») && ncol(xj) > 1L) X[[j]] < — as.matrix(X[[j]]):
missing value where TRUE/FALSE needed

save какую-то ерунду сохраняет :(

Помогите, пожалуйста
Ох, разобрался :)
Только не понял, что делать с массивом, который по API «вытягивает» R в один столбец (это поле relatives, например). Он не сохраняется
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.