Pull to refresh

Comments 16

Спасибо за материал. У меня вопрос несколько за гранью текста статьи: есть ли информация, ваши клиенты используют аналитику, которую они получают? Это эффективно для них? Спрашиваю не случайно — видела, как аналитические проекты заказываются «шоб былО» и лежат в столе, теряют актуальность…
Бывает, конечно, по-разному, но в большинстве случаев заказчик все же понимает, зачем ему это нужно, и заинтересован в том, чтобы использовать результат в продакшене.

Другое дело, что, как я отмечал в тексте, не всегда результат совпадает с изначальными ожиданиями. Особенно у клиентов, которые в первый раз «пробуют» такого рода клиентскую аналитику и ожидают мгновенного кратного увеличения всех своих бизнес-показателей.

Мы предпочтем не браться за проект, если сразу очевидно, что заказчик положит результаты «в стол» и решение не будет развиваться.
Методология активно продвигается компанией IBM. Например, она интегрирована в продукт IBM SPSS Modeler (бывший SPSS Clementine).
SPSS — успешно развивающийся продукт сегодня?
Да, более чем. Продукт SPSS Modeler наряду с SPSS Statistics – основные инструменты для аналитики от IBM. Если смотреть на отчет Gartner за 2017 год по data science платформам, IBM там позиционируется как лидер (конкурирующий только с SAS).
Гартнер показывает коммерческие продукты, но было бы интересно посмотреть вместе с Python и R.
Это принципиально разные классы инструментов. Коммерческие продукты — это преимущественно визуальные инструменты, основная ценность которых в ускорении процесса разработки и простоте интеграции. С другой стороны, R и Python — универсальные «рабочие лошадки», которые позволяют делать любую кастомизацию. Ну и открытые, что немаловажно.

Не уверен, что существует объективный критерий их сравнения, но я бы сформулировал его так — если есть деньги и важна скорость разработки, SPSS и SAS — ваш выбор, если нужен open-source и кастомизируемость — это, конечно, R и Python.
важна скорость разработки, SPSS и SAS
За счет чего они ускоряют разработку?
Главным образом, за счет того, что они визуальные. Понятно, что сделать несколько кликов мышью будет быстрее, чем писать соответствующий кусок кода.

Кроме того, они расширяют круг потенциальных пользователей — помимо программистов, их могут использовать, например, аналитики, не знающие ни R, ни Python.

Ну и к тому же ускоряют интеграцию, так как часто поставляются вместе с другими инструментами вендора: отчетность, BI, планировщики и прочее. Т.е. не нужно писать свои адаптеры.
Благодарю за подробный ответ — преимущества ясны. Насчёт языков — профессиональный аналитик, видимо, все же должен какой-то из языков (даже в СПСС ведь есть какой-то скриптовый язык) знать.
Да, почти все коммерческие продукты предоставляют возможность кастомизации скриптами. Это им необходимо, чтобы конкурировать со скриптовыми языками.

Нужно ли знать язык, зависит от того, какие задачи вы решаете. Если они стандартные (тот же кредитный скоринг в банках или модели отклика), то в принципе знание языков не нужно. Если вы разрабатываете какую-нибудь сложную систему рекомендаций для сайта, то там готовыми инструментами не обойтись, нужно писать всю логику самому.
Скажите, а перевод этой аббревиатуры как «чипсы» — это какой-то официальный перевод? Мне просто казалось, что тут имеется в виду другое значение этого слова, но я могу ошибаться.
Не официальный, это исключительно ради юмора=)
CRISP-DM — это акроним для CRoss Industry Standard Process for Data Mining
Основное значение crisp — это «чёткий», «не размытый». Картинки притянуты за уши, потому что ничего осмысленного не покажешь, а статьи без картинок народ читает гораздо менее активно.
Мы использовали картинки для иллюстрации процесса, о котором рассказывается в тексте. На входе сырой картофель, который нужно собрать, почистить, приготовить, на выходе — вкусный хрустящий продукт.

Насчет перевода — как и у многих английских слов, у слова crisp есть несколько значений. Одно из них то, которое вы отметили, другим называют хрустящие чипсы (особенно в ходу в Британии, там прямо на упаковках пишут).
С определением скоринга вы сильно погорячились
Возможно, получилось немного упрощенно. Задумка была объяснить это понятие «на пальцах» на примере всем известного кредитного скоринга.

В общем случае, это скорее процесс применения ранжирующей модели к неразмеченным данным. Вы это имели в виду?
Sign up to leave a comment.