Комментарии 69
xxx: еще кто-нибудь диссертацию напишет на этих данных
yyy: Мде, лучше бы алгоритм генерации урлов поизучали, хоть какая-нибудь польза.
xxx: надеюсь хабр сольет этот пост
+11
Диссертацию будут писать «внешние администраторы» Мегафона, у них сейчас много времени).
+20
На наш взгляд, чем больше этой теме уделят внимания сейчас, тем меньше вероятность повторения в будущем.
С урлами разберемся, спасибо.
С урлами разберемся, спасибо.
+2
Ну а что плохого в диссертации по этим данным?) Мало, разве что…
Очень интересно читать тексты этих смс — мне-то такого не пишут, и сам не пишу.
Очень интересно читать тексты этих смс — мне-то такого не пишут, и сам не пишу.
+2
Красиво
+1
Забавно, наткнулся на СМС где дан адрес заначки какой-то, наверное наркотики :)
+3
Заголовок — для диссертации, содержание — введение в курсовой работе 1-ого курса. :)
+6
Почитаешь некоторые сообщения, и так грустно становится. Сколько ненависти в людях.
+2
чаще приходят, чем уходят
А как же закон сохранения пользователей?
+2
Видать не забыть этих СМС Яндексу!
+6
> Тексты не отличаются грамотностью, что становится нормой, редкие сообщения написаны без ошибок.
Пичалька =(
Пичалька =(
+6
Простите, но как понять фразу: «Добро, радость и счастье побеждают зло и проблемы.»?
+3
Слова «Добро», «Радость» и «Счастье» имеют большее количество упоминаний, чем «Зло» и «Проблемы»
0
А я это дело скачал в txt, заменил что надо на точку с запятой, сохранил в csv и читал потом в екзеле отсортированным по телефонным номерам :)
0
пиздецбля. вот это делать человеку нечего, кроме как тексты смскок анализировать да разноцветные диаграммки строить
-14
Делать — 113, спать — 32. Не может быть!
+3
Мне интересно а каким образом эти смс попадают к вам? И как относятся отправители/получатели к этому?
0
Почему нет голосования за СМС?
+3
самая популярная смс Мегафона: «Люблю писать смс каждый день» ;]
+2
В скором времени, я полагаю, появится пост «Выводим уплывшие SMS абонентов Мегафона на экран Vogue-плеера». Осуждаю вашу деятельность. Утекли SMS и ладно, зачем труп палочкой тыкать?
0
Спасибо за ваше мнение. Ситуация неоднозначная, согласен. Мы это делаем по следующим причинам:
1. Это интересный источник для исследования
2. Промо, мы это не скрываем
3. Чтобы историю не замяли по тихому, а сделали выводы, «утекли и ладно», мне кажется, не самая лучшая позиция.
И все-таки лучше, если сообщения будут расходиться по форумам без номеров, а не в полном виде как сейчас.
1. Это интересный источник для исследования
2. Промо, мы это не скрываем
3. Чтобы историю не замяли по тихому, а сделали выводы, «утекли и ладно», мне кажется, не самая лучшая позиция.
И все-таки лучше, если сообщения будут расходиться по форумам без номеров, а не в полном виде как сейчас.
+1
Исследовательский интерес поддерживаю, но был бы я на месте одного из адресатов этих сообщений, вряд ли мне было бы приятно, что про них не дают «забыть».
0
Столбик «действие» похож на дневной ToDo обычного работяги :)
+1
У вас на сайте есть группировка «по авторам», хотя на самом деле это получатели.
0
буквально пару дней прошло, а вы уже сайтец замутили и проанализировали и пост на хабр написали и даже картинку славную сделали. офигеть. круто, ребят!
+1
Если сами сообщения веру в человечество убивали, тот этот пост возвращаёт её.
+1
Было бы интересно, если бы у Вас велась такая статистика по смс, ежедневно отправляемым хотя бы одним оператором. Может, весь такой молодежный Мегафон пойдет молодежи навстречу и будет предоставлять выборку смс за сутки, без указаний номеров? Вырезая имена, цифры, информацию со спецномеров, таких как номер Сбербанка, например.
Да, я сам пользователь Мегафон. Пишу, в среднем, две смски в день.
Да, я сам пользователь Мегафон. Пишу, в среднем, две смски в день.
+1
Честнее было бы назвать статью «Анализ алгоритмов выборки Яндекса на основе базы СМС Мегафона». Вы же больше Яндекс исследуете, чем Мегафон.
0
По-моему тут стат. анализ самих текстов, а не их ранжирования в выдаче.
+1
Тексты-то взяты из выдачи Яндекса. Выборка _очень_ нерепрезентативная. И подсчитывается частотность слов выбранных Яндексом, а не просто написанных в СМС.
0
В ограничениях мы написали, что репрезентативности здесь быть не может — в день Мегафон обрабатывает 40 млн. смс (132 тыс. с сайта), по их данным, а в базе почти за 10 дней — 862.
Тем не менее источник интересный в жанре современного приватного текста. Изучают же личную переписку Пушкина по имеющимся документам без точных цифр по генеральной совокупности источника.
Тем не менее источник интересный в жанре современного приватного текста. Изучают же личную переписку Пушкина по имеющимся документам без точных цифр по генеральной совокупности источника.
0
Репрезентативность — не означает большой процент от исходного количества, а показывает равномерность выборки. Выборка и с данным числом СМС могла бы быть репрезентативной. И большая часть СМС была бы «Да», «Нет», «Я занят» или «Перезвони мне. Вася/Коля/Петя». А данная выборка — самые интересные СМС с точки зрения поисковой машины Яндекса, т.е. составляя статистику по употреблению каких-то слов — вы составляете статистику по составлению выборки Яндексом.
А источник интереснейший, нет сомнений: о).
А источник интереснейший, нет сомнений: о).
0
Согласен, про репрезентативность не то написал. Имел в виду, что ошибка выборки на таком объеме будет очень большая. А репрезентативность отсутствует из-за того, что не знаем методику выборки, все верно.
Еще фактор — форма отправки через интернет, коротких односложных сообщений там скорее всего нет или крайне мало.
Еще фактор — форма отправки через интернет, коротких односложных сообщений там скорее всего нет или крайне мало.
0
Исследуется не Мегафон и не Яндекс, исследуются тексты данной группы пользователей. Как на основе этих данных понять алгоритм выдачи Яндекса, честно, не представляю, нужны тогда хотя бы смс, которые проиндексили, но не попали в выдачу.
0
А почему только 832 сообщения? В свободном доступе до сих пор гуляет не менее 3000 же.
0
А можно поинтересоваться ссылочкой?
0
У нас получилось 832 из 1000 после исключения сервисных сообщений, были бы признательны за дополнительную информацию.
0
была таблица на googledocs, она ссылалась на rghost.ru/15005301
0
Заголовок заметки — Анализ текстов SMS пользователей ЗАО «Мегафон» — принципиально неверный. Эти сообщения могли быть отправлены кем угодно, например, абонентами Билайна, МТС, Скайлинка или вообще людьми, у которых нет сотового телефона. По этой причине они не могут называться SMS пользователей ЗАО «Мегафон». Иначе с таким же успехом, ночные сообщения а-ля «У меня проблемы, готовь бабки» и уведомления из СМС-банка можно назвать сообщениями абонентов ЗАО «Мегафон».
-1
Не соглашусь, те, кто отправляли, пользовались сервисом Мегафона, мы не называем их абонентами. Полное название курсовой работы могло бы быть: «Анализ текстов SMS группы пользователей сервиса отправки сообщений ЗАО «Мегафон», опубликованных поисковым сервисом ООО «Яндекс» 18.07.2011 за период с 07.07.2011 по 18.07.2011».
0
Пользователи ЗАО «Мегафон» — это как? Пользователи компании? Они ее пользовали? В какие места? В веб-формы? Вы прекрасно поняли в чем смысл ошибки, и в вышерасположенном комментарии выдали корректный вариант, но почему-то этого стесняетесь.
0
Какой вы, однако, упертый. Опустив слово, вы исказили смысл.
0
Вот бы иметь возможность видеть динамику всех этих объектов, эмоций и действий и расширить объем выборки на порядок.
Можно было бы отслеживать целые социальные тенденции.
Очень впечатляет.
Можно было бы отслеживать целые социальные тенденции.
Очень впечатляет.
0
Давно хочу все своиномера телефонов перевести на мегафон. Билайн с МТС давно перестали удовлетворять…
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Публикации
Изменить настройки темы
Анализ текстов SMS пользователей ЗАО «Мегафон»