Зачем работать по 12 часов в сутки и без отпусков 8 лет? Не замыливается ли глаз от этого?
Как он относится в утверждению в книге «Карьера менеджера» (Ли Якокка), что если менеджер работает постоянно сверхурочно и без отпусков — это плохой менеджер, который не может делегировать полномочия и не умеет управлять своим временем.
я имел ввиду горизонтальное партицирование. Например, по id заказа. Чтобы работала быстрее мера distinct count кол-ва заказов, мне пришлось сделать 16 партиций по диапазону id заказа.
В итоге в кубе получилось порядка 50 партиций, т.к. еще были меры distinct count.
Простое агрегирование по мере ditinct count не работает :-(
Я имел ввиду именно Olap разработчика для разработки на готовом хранилище данных. ETL — это другая сфера, хранилище данных как правило используется не только для OLAP, но и для генерации отчетов например, или с прямым анализом данных через SQL.
Я работал с кубами объемом в десятки гигабайт и столкнулся с проблемой их медленной работы, т.к. все наши кубы содержат как правило не меньше 16 измерений и активно используются distinct count. Пришлось для этого применять партицирование. В итоге скорость работы возросла в десятки раз, вместо 10 минут ожидания, пользователи делали запросы за 10-30 секунд. Хотел статью про это написать, да все времени нет.
А как вы справляетесь с вопросами производительности?
PS: Очень интересно также, применять OLAP кубы в веб-аналитике. Система Sitecatalyst похоже так и работает.
а вот я, как бывший руководитель аналитического отдела ozon.ru, могу дать ссылку на то, как работают системы веб-аналитики на основе JS и куки: JS счетчики
Я вот работал в интернет ретейле Озоне и действительно могу сказать, что прогноз закупок очень неприятная вещь.
Из последнего, что там сделали, это запустили алгоритм «С этим товаром часто покупают»
на базе поиска подобия по косинусу угла в векторном пространстве клиентов и товаров :-)
Есть первоисточник?
Как он относится в утверждению в книге «Карьера менеджера» (Ли Якокка), что если менеджер работает постоянно сверхурочно и без отпусков — это плохой менеджер, который не может делегировать полномочия и не умеет управлять своим временем.
Если не ошибаюсь, они начали с гаража
В итоге в кубе получилось порядка 50 партиций, т.к. еще были меры distinct count.
Простое агрегирование по мере ditinct count не работает :-(
сам я занимался этим 4 года в Ozon.ru, про нас даже на сайте Microsoft писали: Кейс про OLAP в Ozon.ru
Здесь есть еще информация: Business Intelligence в электронной коммерции
Я работал с кубами объемом в десятки гигабайт и столкнулся с проблемой их медленной работы, т.к. все наши кубы содержат как правило не меньше 16 измерений и активно используются distinct count. Пришлось для этого применять партицирование. В итоге скорость работы возросла в десятки раз, вместо 10 минут ожидания, пользователи делали запросы за 10-30 секунд. Хотел статью про это написать, да все времени нет.
А как вы справляетесь с вопросами производительности?
PS: Очень интересно также, применять OLAP кубы в веб-аналитике. Система Sitecatalyst похоже так и работает.
у меня такое тоже было, деньги остались на карточке.
JS счетчики
Из последнего, что там сделали, это запустили алгоритм «С этим товаром часто покупают»
на базе поиска подобия по косинусу угла в векторном пространстве клиентов и товаров :-)
А на практике где это реализовано?
P.S.: Сам я видел такие теоретические выкладки еще в 2000 году.
лучше почитать алгоритмы из netflixprize.com, там хотя бы они жизненные.