Комментарии 18
Вы бы данные выложили, на собственный сервер, а не на DropBox, который требует регистрацию. Не солидно.
Похоже у вас не хватает собственной фантазии для эвристик и вам нужны идеи, может лучше провести конкурс с призами? Чем обещать трудоустройство, которое лично меня не впечатляет нижней планкой.
1. DropBox позволяет скачать без регистрации. Ссылки на отказ от регистрации и перехода к процессу скачивания находятся внизу страниц.

2. К сожалению, у нас другая проблема: идей (собственных и клиентов) слишком много, чтобы успеть все реализовать :( Поэтому и принято стратегическое решение двигаться к предоставлению доступа к Платформам данных, чтобы сторонние команды могли покрыть существующие и новые потребности.

3. Впечатлитесь верхней планкой (которая тоже не предел). Было бы за что.
1. Поверьте таких как я будет много. Можете из-за банальной вещи — упустить кого-то стоящего. Но дело хозяйское, лично я использую свой сервер для подачи материалов, чтобы не было лишних проблем.

2. И какова мотивация сторонних команд?

3. Я скептик. Верхняя — средний уровень аутсорсера для США. Хорошая вполне, во ее бы и сделал нижней — мотивированных людей значительно прибавится, тем более, говорите, что и больше можно.
2. Заработать. PaaS — отичная схема множества стартапов и компаний для реализаций потребностей клиентов в Slack, Bitrix24, Google Adwords и множества других.
Мы — технологическая компания, и не можем покрыть растущий пул потребностей людей и различных индустрий. Обеспечить данными, лингвистикой, мета-данными — это для нас ближе.

P.S. Скопипастил небольшую подборку из списка запросов-хотелок людей, компаний, госструктур:
— Динамика распространения гриппа (аналог Google Flu) по городам России.
— Кто еще пойдет на мероприятие?
— Где родились и где живут сейчас – карта и волны миграции
— Автоклассификация интересов аккаунта.
— Родительский контроль за семейными аккаунтами, упоминаний ребенка
— Рейтинг сущностей (люди, предметы, события), используемых в данном/ых аккаунте/ах.
— Кластеризация и персонализация инфопотоков
— Подборка дня — что произошло у моих друзей и медиа-персон: лента, кластеризация по моим интересам — Топ-10.
— Нахождение «друзей по интересам», а не знакомых.
— Сообщения и фотки людей, находящихся рядом.

Спасибо за развернутый ответ.
Почему-то вспомнил мультик про козленка, который всех посчитал.
Один из самых прекрасных мульт-персонажей. Столько желающих «вломить» этому козленку было ;)
Если по серьезному, то (IMHO) сила новых направлений с подобными технологиями — в прогностике. Не в анализе (подсчете) прошлого, а в предсказании будущих процессов. Но это уже отдельный большой разговор.
Можно много всего красивого понаписать, покрасоваться, а потом узнать, что у вас эта ваша платформа сделано на пхп. и все как-то сразу плавно превращается в цирк…
P.S. Не очень понял насчет PHP — что в нем такого плохого? Разные части Платформ написаны на разных языках и средствах: и PHP, и C/С++, и Java, кое где и ассемблер встречается.

По теме: у Вас есть доступ к данным, соответственно Вы можете реализовать свою идею/эвристику на каком удобном Вам инструменте. Без всякого цирка.

Для аналитиков и лингвистов (для «гипсовых заготовок») удобен Python, поскольку доступно много готовых библиотек…
что же тут не понятного? делать сервисы на пхп — это не серьезно. это говорит о том, что нанять хороших специалистов вы не можете. поэтому разговоры по «нижняя планка 30K $ в год» и есть цирк.
проблема со скачиванием

Error (429)
This account's links are generating too much traffic and have been temporarily disabled!
Dropbox (бесплатный) выдал два письма-прежупреждения (слишком много загрузок) и закрыл доступ. Сейчас коллеги закачают на другой хостинг, ссылки поменяем.
CSV — доступен на Я.Диске. JSON заодно решили оптимизировать (из стандартного отчета SMA, который не особо оптимизирован для таких объемов) по весу
Подобные большие файлы лучше раздавать через торрентовские магнит-ссылки.
В вашей таблице есть уникальный ключ? Как вы собираетесь проверять результат исследований?
В JSON-файле 1 013 063 записей, при этом уникальных idExternal — 1 011 071.
Например — cat ./messages.json | grep \«idExternal\»:\«5-41:\» | wc -l
1205

Уникальных url еще меньше — 977462.

Поясните, как вы будете сопоставлять «эвристики» с исходными данными и, вообще, что вы подразумеваете под термином «эвристика»?
Никакого уникального ключа нет. Это обычный последовательный по времени поток данных соцмедиа с фильтром по слову «я» (с включенной морфологией). Механистический подход «взвесить в граммах» — никому не интересен.
Эвристика и эвристические методы — см. https://ru.wikipedia.org/wiki/%D0%AD%D0%B2%D1%80%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0

Стандартные инструменты SMA-систем автоматически используют статистические эвристики с использованием мета-данных, например:

и
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.