wAngel Sep 28 2011 at 19:40

Анализ производительности программного обеспечения при помощи математического планирования эксперимента

8 min

16K

Programming*Mathematics*

From sandbox

+42

Comments 16

kir19890817 Sep 28 2011 at 20:08

Вы занимаетесь этим в рамках курсового?

wAngel Sep 28 2011 at 20:16

Читаю студентам планирование эксперимента. Появилась идея — написал статью.

kir19890817 Sep 28 2011 at 20:19

Просто интересно было бы посмотреть на эту модель с большим количеством значимых факторов.

pandy Sep 28 2011 at 20:32

Статья познавательна, спору нет. Но есть один вопрос: Когда исследуемых параметров 5-10 штук — все достаточно очевидно и доступно… А что если таких параметров сотни? А из них радикально влияющих на производительность — единицы, как в вашем примере с кешированием. Есть какие то методики, позволяющие хотя бы в первом приближении вычленить эти самые важные параметры, не строя матрицу гигантских размеров?

wAngel Sep 28 2011 at 20:34

Разумеется. Для сокращения матрицы планирования применяют т.н. дробные реплики. Если интересно, напишу отдельно.

pandy Sep 28 2011 at 20:59

Да, было бы неплохо.

kir19890817 Sep 28 2011 at 20:41

Кстати, хотел сказать насчет большого числа факторов. Тут можно было бы применить МГК и строить модель на основе только значимых, так сказать, произвести структурный анализ, хотя это не совсем то. А на основе регресионной модели хотелось бы иметь не только анализ коэффициентов регрессии, но и саму регресионную прямую. Просто мы да, получили тут явно высокий коэффициент регрессии по факту включения кеша, но это видно и сразу из экспериментальных данных. Дальше интересно было бы построить зависимость времени от размера кеша, откинув лишние факторы вообще (потому что они только отвлекают).

RomanL Sep 28 2011 at 21:59

Подход интересен, но мне кажется не отражает реальности. Линейная регрессия — это ооооочень сильное упрощение. Мне кажется что классические подходы теории массового обслуживание и имитационное моделирование даст картину более приближенную к реальности.

wAngel Sep 29 2011 at 06:41

Линейная регрессия это, разумеется, очень сильное упрощение. Но если мы проведем проверку статистической гипотезы и докажем, что наша модель (линейная) адекватна (в пределах требуемой нам точности), то почему мы не можем ее использовать?
Дело в том, что в ИТ, как правило, немного другие задачи перед экспериментатором. К примеру, в естественных науках планирование эксперимента используют для оптимизации некоторой выходной характеристики, например выход продукта химической реакции. В этом случае особенно важен вид уравнения регрессии, т.к. его мы используем для движения к оптимуму по градиенту.
В нашем случае все немного проще. Выявление главных влияющих факторов это уже хорошее дополнение к профайлингу. Плюс возможность выявить зависимости между факторами.
В конце концов, никто не заставляет использовать линейные модели. Пример в работе лишь показывает возможность применения МПЭ.
Про ТМО, спасибо, подумаю.

UFO just landed and posted this here

Akson87 Sep 29 2011 at 01:53

А я вот только сегодня думал о подобном подходе… только вот не линейно все… далеко не линейно… Но может попробую попозже реализовать. Вы случайно не знаете ПО, которое автоматизирует это дело? А то написать все можно и самому, но есть много других задач.

wAngel Sep 29 2011 at 06:32

А что именно вы хотите автоматизировать?
Если автоматическое проведение серии опытов, то вам будет необходимо менять свои, специфические для приложения факторы.

Akson87 Sep 29 2011 at 06:59

Я хочу протестировать разные наборы параметров и найти оптимальный набор. Само собой, что параметры будут специфические, я могу составить список параметров, сделать интерфейс для их выбора и отдать их внешнему приложению. Как-то читал я о такой штуке как OpenAutomate, но оно занимается только интерфейсом, но не анализом.
Собственно думал я о немного другом подходе, я могу отдавать не один параметр, а довольно много. Т.е. например рендерится кадр, я на выход могу отдать время каждого этапа обработки и хочется мне найти зависимости между каждым из параметров и временем обработки каждого этапа рендеринга. Тогда было бы гораздо проще искать глобальный оптимальный результат.
Пока сделаю интерфейс для получения статистики, а там возможно появится кто-нибудь, кто сможет анализ реализовать… вообще интересно было бы анализировать всю статистику всегда и подстраиваться на ее основе под каждую ситуацию, но до этого пока далеко.

alxkolm Sep 29 2011 at 08:06

+
Но по-моему вы пропустили самую «соль» метода — составление матрицы планирования.

sergeypid Sep 30 2011 at 12:20

Мне тоже так показалось. И еще мне показалось, что в статье эксперимент просто перебирает все 32 двоичные комбинации пяти переменных. Немного похоже не полный перебор.

Насколько я помню, планирование эксперимента позволяет добиться экспоненциального снижения количества требуемых экспериментов по сравнению с полным перебором (вернее, сложность задачи оптимального перебора вариантов пропорциональна логарифму от числа вариантов при полном переборе). Кстати, генетические алгоритмы оптимизации, похоже, имеют аналогичную производительность.

UFO just landed and posted this here

Show the best of all time