Как стать автором
Обновить

Комментарии 69

xxx: еще кто-нибудь диссертацию напишет на этих данных
yyy: Мде, лучше бы алгоритм генерации урлов поизучали, хоть какая-нибудь польза.
xxx: надеюсь хабр сольет этот пост
Диссертацию будут писать «внешние администраторы» Мегафона, у них сейчас много времени).
На наш взгляд, чем больше этой теме уделят внимания сейчас, тем меньше вероятность повторения в будущем.
С урлами разберемся, спасибо.
Ну а что плохого в диссертации по этим данным?) Мало, разве что…
Очень интересно читать тексты этих смс — мне-то такого не пишут, и сам не пишу.
Забавно, наткнулся на СМС где дан адрес заначки какой-то, наверное наркотики :)
Интересно было бы почитать подобные исследования Госнаркоконтроля по более широкой выборке)
Заголовок — для диссертации, содержание — введение в курсовой работе 1-ого курса. :)
Мы работаем над этим, подключили филилогов, может получится курса до 3-го дотянуть)
Почитаешь некоторые сообщения, и так грустно становится. Сколько ненависти в людях.
«Люблю тебя я и скучаю
Других парней не замечаю.
Мне нужен только ты любимый —
С тобою буду я счастливой!!!»
Отлично же!)
Да, по тегу добра настроение поднимается)
чаще приходят, чем уходят

А как же закон сохранения пользователей?
Здесь получается надвиртуальная реальность — проекция фантазии виртуальных пользователей, ведь это их желания и мечты, а действительность все ставит на свои места в выдачу поисковика.
Население планеты растет, не забывайте.
Видать не забыть этих СМС Яндексу!
> Тексты не отличаются грамотностью, что становится нормой, редкие сообщения написаны без ошибок.

Пичалька =(
Вот, кстати, да, поразила эта вопиющая безграмотность некогда «самого читающего народа».
А вот если бы он был «самым пишущим»…
Простите, но как понять фразу: «Добро, радость и счастье побеждают зло и проблемы.»?
А тут как с фразой «Добро побеждает зло», как подчеркнешь подлежащее и дополнение, так и будет)
Слова «Добро», «Радость» и «Счастье» имеют большее количество упоминаний, чем «Зло» и «Проблемы»
А я это дело скачал в txt, заменил что надо на точку с запятой, сохранил в csv и читал потом в екзеле отсортированным по телефонным номерам :)
Вы многого добились.
пиздецбля. вот это делать человеку нечего, кроме как тексты смскок анализировать да разноцветные диаграммки строить
Делать — 113, спать — 32. Не может быть!
делать детей и «че делаешь?» думаю входят в большую часть первой фразы =)
Мне интересно а каким образом эти смс попадают к вам? И как относятся отправители/получатели к этому?
А это разве не те самые СМС, которые яндексом проиндексировались?
да, это смс пользователей Мегафона, которые проиндексировал Яндекс. Они разошлись по рукам и лежат в открытом доступе вместе с номерами телефонов, мы скрыли номера, превратив их в анонимный набор текстов.
Почему нет голосования за СМС?
Сделали, ранжируется по количеству кликов на кнопки соц. сервисов
самая популярная смс Мегафона: «Люблю писать смс каждый день» ;]
В скором времени, я полагаю, появится пост «Выводим уплывшие SMS абонентов Мегафона на экран Vogue-плеера». Осуждаю вашу деятельность. Утекли SMS и ладно, зачем труп палочкой тыкать?
Спасибо за ваше мнение. Ситуация неоднозначная, согласен. Мы это делаем по следующим причинам:
1. Это интересный источник для исследования
2. Промо, мы это не скрываем
3. Чтобы историю не замяли по тихому, а сделали выводы, «утекли и ладно», мне кажется, не самая лучшая позиция.

И все-таки лучше, если сообщения будут расходиться по форумам без номеров, а не в полном виде как сейчас.
Исследовательский интерес поддерживаю, но был бы я на месте одного из адресатов этих сообщений, вряд ли мне было бы приятно, что про них не дают «забыть».
Сложный вопрос, у нас тоже мнения разделились. Но если нет номера, чем это отличается от башорга? Если бы я был на месте адресата (а подобные случаи были), думаю, я бы постарался отнестись к этому с юмором, это работает лучше всего.
Столбик «действие» похож на дневной ToDo обычного работяги :)
Точно! «думать» в конце списка :)
У вас на сайте есть группировка «по авторам», хотя на самом деле это получатели.
спасибо, поправим
буквально пару дней прошло, а вы уже сайтец замутили и проанализировали и пост на хабр написали и даже картинку славную сделали. офигеть. круто, ребят!
спасибо! но пока все сильно сырое
да это не так важно. фишка в том, что большинство людей прочитало про эти sms, поигрались и забили. а вы бац бац и замутили ресурс. причём не просто ресурс, где тупо смс описания, но ещё и проделали различную работу. это прям рядует. :)
*радует
Если сами сообщения веру в человечество убивали, тот этот пост возвращаёт её.
Было бы интересно, если бы у Вас велась такая статистика по смс, ежедневно отправляемым хотя бы одним оператором. Может, весь такой молодежный Мегафон пойдет молодежи навстречу и будет предоставлять выборку смс за сутки, без указаний номеров? Вырезая имена, цифры, информацию со спецномеров, таких как номер Сбербанка, например.

Да, я сам пользователь Мегафон. Пишу, в среднем, две смски в день.
Честнее было бы назвать статью «Анализ алгоритмов выборки Яндекса на основе базы СМС Мегафона». Вы же больше Яндекс исследуете, чем Мегафон.
По-моему тут стат. анализ самих текстов, а не их ранжирования в выдаче.
Тексты-то взяты из выдачи Яндекса. Выборка _очень_ нерепрезентативная. И подсчитывается частотность слов выбранных Яндексом, а не просто написанных в СМС.
В ограничениях мы написали, что репрезентативности здесь быть не может — в день Мегафон обрабатывает 40 млн. смс (132 тыс. с сайта), по их данным, а в базе почти за 10 дней — 862.

Тем не менее источник интересный в жанре современного приватного текста. Изучают же личную переписку Пушкина по имеющимся документам без точных цифр по генеральной совокупности источника.
Репрезентативность — не означает большой процент от исходного количества, а показывает равномерность выборки. Выборка и с данным числом СМС могла бы быть репрезентативной. И большая часть СМС была бы «Да», «Нет», «Я занят» или «Перезвони мне. Вася/Коля/Петя». А данная выборка — самые интересные СМС с точки зрения поисковой машины Яндекса, т.е. составляя статистику по употреблению каких-то слов — вы составляете статистику по составлению выборки Яндексом.
А источник интереснейший, нет сомнений: о).
Согласен, про репрезентативность не то написал. Имел в виду, что ошибка выборки на таком объеме будет очень большая. А репрезентативность отсутствует из-за того, что не знаем методику выборки, все верно.
Еще фактор — форма отправки через интернет, коротких односложных сообщений там скорее всего нет или крайне мало.
Исследуется не Мегафон и не Яндекс, исследуются тексты данной группы пользователей. Как на основе этих данных понять алгоритм выдачи Яндекса, честно, не представляю, нужны тогда хотя бы смс, которые проиндексили, но не попали в выдачу.
А почему только 832 сообщения? В свободном доступе до сих пор гуляет не менее 3000 же.
А можно поинтересоваться ссылочкой?
Ответил товарищу ниже.
Спасибо!
У нас получилось 832 из 1000 после исключения сервисных сообщений, были бы признательны за дополнительную информацию.
была таблица на googledocs, она ссылалась на rghost.ru/15005301
Спасибо! добавили
=^_^=
Заголовок заметки — Анализ текстов SMS пользователей ЗАО «Мегафон» — принципиально неверный. Эти сообщения могли быть отправлены кем угодно, например, абонентами Билайна, МТС, Скайлинка или вообще людьми, у которых нет сотового телефона. По этой причине они не могут называться SMS пользователей ЗАО «Мегафон». Иначе с таким же успехом, ночные сообщения а-ля «У меня проблемы, готовь бабки» и уведомления из СМС-банка можно назвать сообщениями абонентов ЗАО «Мегафон».
Не соглашусь, те, кто отправляли, пользовались сервисом Мегафона, мы не называем их абонентами. Полное название курсовой работы могло бы быть: «Анализ текстов SMS группы пользователей сервиса отправки сообщений ЗАО «Мегафон», опубликованных поисковым сервисом ООО «Яндекс» 18.07.2011 за период с 07.07.2011 по 18.07.2011».
Пользователи ЗАО «Мегафон» — это как? Пользователи компании? Они ее пользовали? В какие места? В веб-формы? Вы прекрасно поняли в чем смысл ошибки, и в вышерасположенном комментарии выдали корректный вариант, но почему-то этого стесняетесь.
KPEM, вы прекрасно поняли смысл словосочетания, пусть и не сразу. Вы не знаете, что некоторые слова опускаются, чтобы не писать километры текста?

На всякий случай: «опускаются» не имеет никакого сексуального контекста.
Какой вы, однако, упертый. Опустив слово, вы исказили смысл.
Вот бы иметь возможность видеть динамику всех этих объектов, эмоций и действий и расширить объем выборки на порядок.
Можно было бы отслеживать целые социальные тенденции.
Очень впечатляет.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Изменить настройки темы

Истории