Как стать автором
Обновить
4
0

Пользователь

Отправить сообщение
Ага, спасибо за уточнение, теперь более понятно о чем речь. Данных на самом деле в несколько раз (3-5) больше, в том числе и «на входе». Поскольку, с одной стороны, в виду определенной специфики, распределенная система должна быть сильно децентрализована, во-вторых, символы =/= байты, и, главное, есть много сопутствующей информации (начиная от адреса ресурса и заканчивая гео-метками и списками друзей, читателей и пр.).

Кроме того, есть дополнительные расходы для оптимизации скорости Монго и Эластика, авторской базы и пр. и пр. Поэтому в нашей сфере мы обычно «не мыслим» Гбайтами трафика, а используем сущности «сообщение», «текст», «список», «автор» и пр. И лишь когда нужна грубая оценка ширины канала или дисковых массивов-кластеров, тогда «снижаемся» на уровень байт и бит.
Интересный аспект, спасибо за точный комментарий ))
Кстати, в этом аспекте переориентация 10 000 сотрудников IBM смотрится очень даже по Тутанхамонски ))
М-да, видимо с моей стороны совсем плохо с изъяснением. Будем над этим работать ))
Не очень понимаю используемый Вами термин «нафармили». Вы ожидаете подробного описания достаточно старых решений и применений? Типа — www.kommersant.ru/doc/2181606 — по итогам Прямой линии в 2013г в режиме реал-тайм?

Построение распределенной системы оперативного получения публичных данных соцмедиа — задача куда более сложная, чем, например, поисковые краулеры. Поэтому, видимо, и специализированных компаний в мире — по пальцам пересчитать. Задача хранения и оперативного поиска в миллиардах сообщениях — другой огромный пласт и проблематик. Лингвистическая обработка высоконагруженных потоков неструктурированных данных — отдельная песня. И т.д., и т.п.

Но все это вышеприведенное — это инструментарий для нового решения как старых задач, так и для новых задач, которые без этого инструментария решать, фактически, нереально. В сериале мы, вообщем-то, не ставили задачи показывать полноценные технологические цепочки, которые компании выстраивают годами, некоторые потом «плюют» на свои команды и покупают чужие решения или компании. Упор скорее делается на метафизический опыт и подхода к задачам, которые, по сути, определяют потенциальное будещее развитие индустрии/й.

Проблематика использования обсуждаемого «инструментария» для пост-фактумных или реал-тайм задач — схематична, усложняемая в некоторых случаях ограничениями по публичности. Например, по тем же «прямым линиям» — технологически это было интересно 2-3 года назад, когда в мире происходил выбор множества технократических (не всегда технологических) решений для решения подобных задач, с привлечением социологов, исследователей, психологов и пр. -ологов.

Одним из «бумов» 2015-го года (началось где-то осенью 14-го) — промышленная прогностика. Возможно сыграла роль активная и позитивная по результатам политическая прогностика. Другой мощный сформированный «бум» — оперативное реагирование на жалобы и просьбы клиентов. Этим не ограничивается, конечно, есть еще несколько интересных трендов (от маркетинга до фондового рынка). При этом «старые» тренды никуда не уходят — начиная от сентябрьских выборов в 57 регионах России до выборов в США (гонка началась).

Так что задач и направлений множество, расписывать подробно какое-то отдельное мини-направление, наверное, можно, но нужно ли?
У вас есть сильная необходимость и много денег, чтобы получить результаты подобного исследования? )) Brand Analytics совместно с ВЦИОМ предоставляли данные в реал-тайме по выступлениям президентов (и России, и США) в 2013 году — логистически удовольствие не дешевое, потому что требует много дополнительной работы, связанной с тем, что люди реагируют не одномоментно. Сказали про пенсии, например, тема в комменатриях начнется от 30 сек до 15 минут, когда в эфире уже совсем про другое. Исследование после завершения события — там все значительно проще, но все равно требует работы аналитиков (Data Sientist).
В трех предложениях Вы намешали и спутали столько… несуразностей, что нет смысла комментировать.
Речь не про конкретных клиентов DataSift (хотя потеря такого источника как Twitter — реальная беда, как бы Вам не казалось), а про ограничение доступа к данным в рамках компаний одной страны (США). Не вдаваясь в крутые конспирологические теории — уже несколько лет во всех странах (развитых интернет-инфраструктурно) мониторинг инфополя через соцсети/медиа — обязательный прогностический аппарат. Информация всегда была ценностью, а в объемах сотен миллионов людей — суперценна.
Лексика, конечно, впечатляющая. Имеет смысл обсуждать в том случае, если есть понимание проведения логистики подобных покупок. В любом случае, будь это 12, или 8, или 3 млрд $ — суммы отражают перспективы и тенденции. Не стоит также забывать, что период начала 10-х годов был этапом крупного передела hard/soft: Oracle «съела» Sun, IBM объявил о переориентации на услуги, HP не мог оставаться «вне игры» — покупкой Atonomy была попытка сохраниться в текущем статусе. По факту видим, что попытка не удалась, теперь новое решение — недавний раздел на 2 компании.

Мы достаточно давно работаем с коллегами из Autonomy, это хороший продукт, кое в чем он начинает сдавать, скандалы делу всегда помеха, но не зря у них в клиентах многие компании Fortune 500. Например, для Англии, с их патентными делами в судопроизводстве, продукт, на мой взгляд, идеален (не зря авторы продукта из Англии), то же по поводу обработки ТВ и видео, выявление связей между объектами и пр. Но входной билет — слишком дорогой. Последний год HP пытается опустить порог с $1млн до $50-100тыс для средних клиентов, — могут не успеть.
Конечно, законы мироздания существуют не зависимо от того, знаем мы о них или нет: думаем ли, что существует некий «теплород» или узнаем о химической реакции горения, считаем, что боги двигают Солнце и Луну или это «тупое» влияние физических законов… Ацтеки знали про колесо и про борьбу противоположностей, но не смогли «запустить колесо прогресса» и перетаскивали грузы волоком. Роль МЭЛ — в формировании и распространении уже существующих законов и приложение их к конкретике развития общества в эпоху промышленной революции, что позволили применять эти знания на практике.
Спасибо, хорошее описание впечатления от состояния :-)
Поскольку ни в коем случае не являюсь специалистом в разных Learning могу только добавить про последний абзац — нам пришлось проходить жесткую проблематику проверки неизведанных методологий: кстати, процесс удивительный по ощущениям и эйфории.

В нашей части задач, например, это касалось «предсказательной социологии» — кто победит на выборах в разных странах и регионах, какая реакция сформируется на выход нового телефона и т.д. Когда через часы-день-два-неделю видишь итоговые результаты (про 146% — это не к нам), близкие к прогнозным — кайф. Когда как в Шотландии — все наперекосяк — получаешь много материалов для работы и понимание, что остановились в развитии, поленились рассмотреть важные параметры по конкретной стране, этносу, мировоззрению.

Т.е. нет нового знания, пока на наработан «опыт — сын ошибок трудных» (Пушкин) и проверяемый результат.
Очередной кверти-выкрик из бесформенной толпы? Смысл?
rolechka, Вы открываете дверь в увлекательнейшую метафизическую вселенную философии знаний, над которой трудились со времен Аристотеля, поругали Канта с Юмом и воплотились в узнаваемую ноосферу Вернадского! Существуют ли знания сами по себе? Есть ли черная кошка в темной комнате? Публичные экспериментальные системы в основном фокусируются на «узнавании» — будь то задачи в робототехнике, или решения Яндекса по распознаванию текста на картинках. Системы наращивания онтологии, новых знаний о мире, активно развиваются, например, в (био)медицине, в астрономии, в высокочастотной физике, — здесь есть знаковые результаты. В «ширпотребной» области — мечт пока больше слоников.
P.S. Буду рад, если кто-то обладает более полной информацией о состоянии дел и поделится таковой.
Да, интересное было время — время больших мечтаний — в самом конце 80-х была большая буча от японцев, которых мало кто воспринимал на рынке больших софтовых решений (сейчас ситуация поменялась, но не на много), заявивших, что Prolog — язык будущего и что к 90-му году Япония сделает супер-пупер национальную всеобъемлющую умную систему на все случаи жизни. В Европе, кстати, «ставили» на Lisp.
На мой взгляд — не костюм делает человека, так и с ОС/языком-программирования/СУБД/HANA/Vertica/NoSQL и пр. — это все инструментарий. Да, наномикроскопом сложно забивать гвозди, но решения о забитии гвоздя тем или иным инструментарием принимает человек. В итоге — гвоздь будет забит.
Проблема современного человечества — чрезмерная вера в розовых слоников: что кто-то напишет универсальное нечто, которое именно меня освободит от принятия решения. Вот и падают самолеты при тайфуне на пути автопилота, сталкиваются поезда при сломе автострелок и т.д.
WA — новый хороший наномикроскоп, но гвозди нужно забивать.
Конечно, формализация — обязательный процесс масштабирования количества применимости любой технологии. Но для этапа становления новых индустрий, ранняя формализация может мешать — индустрия будет «окаменевать» раньше, чем выйдет каменный цветок.
С коллегами из Abbyy мы сотрудничаем много лет, у них одна из сильнейших команд и полезнейших разработок (больше всего мне нравится история про гигантское сокращение издержек для режиссера Бекмамбетова). Единственно надо понимать, какой инструментарий и где правильно использовать. В ноябре, на последней нашей встречи с коллегами, они демонстрировали чудесные решения новой версии, о которой объявили вчера. Но Compreno не подходит, например, для наших задач rtBD&A, поскольку скорость обработки 2кб текста составляет порядка 20 сек. А у нас «летит» 1000 сообщений в секунду. Но, повторюсь, на мой взгляд, Abbyy и Compreno в частности — это очень сильный продукт в нужном направлении.
Спасибо, запрос понятен, «сакссес стори» по получению новых (над)знаний из океана данных/результатов добавим в следующую серию.
Классификация — всегда сложный момент (один и тот же материал может быть развещен в «Общество», а в другом — в «Бизнес»).
TJournal не относится к IT-ресурсам, но занимает всокие позиции в другом рейтинге популярных изданий:
br-analytics.ru/blog/rejting-citiruemosti-populyarnyx-russkoyazychnyx-internet-resursov-fevral-2015/
Публикация с подробной разблюдовкой — это уже комерческое исследование, за которое денег платят и немаленькие. Вы настолько заитересованы в исследовании, что готовы оплатить несколько сотен Круб? ))
Это Ваше экспертное мнение? Можете раскрыть подробнее?
Большинство ссылок в соцмедиа на материалы 4PDA (и др. ресурсы рейтинга) — на статьи и обсуждения.
Для rutracker.org (47 999 упоминаний) большинство ссылок — на скачивание фильмов.
Очень верно подмечено. Мы уже видим, как серьезные изменения касается целых индустрий, например, в той же социологии: на ближайшей крупнейшей конференции (в марте, Грушинская) теме использования соцмедиа в социологических исследованиях посвящена первая, основная секция. То же сейчас происходит и в СМИ, FCMG, аналитике информационного поля вокрун брендов, продуктов, персон, анализе предпочтений, репутационные риски и пр. Не учитывать мнения людей — это путь в никуда.
Категоризация (рубрикация) — одна из самых субъективных вещей в тематических рейтингах и исследования. По TJournal -да, это издание уже сложно отнести к IT (ИКТ) ресурсам. Даже система автоклассификации относит большинство материалов TJ к «Обществу», а технические — к «Науке и технике».

По «аналогичности» с Медиалогией: рейтинг от Млг строится на ссылках СМИ на СМИ (указано в подвале рейтинга), а рейтинг Brand Analytics учитывает всё: и СМИ, и соцсети, и блоги, и форумы, и сайты отзывов, и рекомендательные сайты, и комментарии к статьям. Это на два-три ПОРЯДКА больше данных (обрабатывается ~1 млрд сообщений и ссылок), по сути представляя народный/пользовательский рейтинг интересов к изданиям.

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность