Pull to refresh

Comments 16

Читаю студентам планирование эксперимента. Появилась идея — написал статью.
Просто интересно было бы посмотреть на эту модель с большим количеством значимых факторов.
Статья познавательна, спору нет. Но есть один вопрос: Когда исследуемых параметров 5-10 штук — все достаточно очевидно и доступно… А что если таких параметров сотни? А из них радикально влияющих на производительность — единицы, как в вашем примере с кешированием. Есть какие то методики, позволяющие хотя бы в первом приближении вычленить эти самые важные параметры, не строя матрицу гигантских размеров?
Разумеется. Для сокращения матрицы планирования применяют т.н. дробные реплики. Если интересно, напишу отдельно.
Да, было бы неплохо.
Кстати, хотел сказать насчет большого числа факторов. Тут можно было бы применить МГК и строить модель на основе только значимых, так сказать, произвести структурный анализ, хотя это не совсем то. А на основе регресионной модели хотелось бы иметь не только анализ коэффициентов регрессии, но и саму регресионную прямую. Просто мы да, получили тут явно высокий коэффициент регрессии по факту включения кеша, но это видно и сразу из экспериментальных данных. Дальше интересно было бы построить зависимость времени от размера кеша, откинув лишние факторы вообще (потому что они только отвлекают).
Подход интересен, но мне кажется не отражает реальности. Линейная регрессия — это ооооочень сильное упрощение. Мне кажется что классические подходы теории массового обслуживание и имитационное моделирование даст картину более приближенную к реальности.
Линейная регрессия это, разумеется, очень сильное упрощение. Но если мы проведем проверку статистической гипотезы и докажем, что наша модель (линейная) адекватна (в пределах требуемой нам точности), то почему мы не можем ее использовать?
Дело в том, что в ИТ, как правило, немного другие задачи перед экспериментатором. К примеру, в естественных науках планирование эксперимента используют для оптимизации некоторой выходной характеристики, например выход продукта химической реакции. В этом случае особенно важен вид уравнения регрессии, т.к. его мы используем для движения к оптимуму по градиенту.
В нашем случае все немного проще. Выявление главных влияющих факторов это уже хорошее дополнение к профайлингу. Плюс возможность выявить зависимости между факторами.
В конце концов, никто не заставляет использовать линейные модели. Пример в работе лишь показывает возможность применения МПЭ.
Про ТМО, спасибо, подумаю.
UFO just landed and posted this here
А я вот только сегодня думал о подобном подходе… только вот не линейно все… далеко не линейно… Но может попробую попозже реализовать. Вы случайно не знаете ПО, которое автоматизирует это дело? А то написать все можно и самому, но есть много других задач.
А что именно вы хотите автоматизировать?
Если автоматическое проведение серии опытов, то вам будет необходимо менять свои, специфические для приложения факторы.
Я хочу протестировать разные наборы параметров и найти оптимальный набор. Само собой, что параметры будут специфические, я могу составить список параметров, сделать интерфейс для их выбора и отдать их внешнему приложению. Как-то читал я о такой штуке как OpenAutomate, но оно занимается только интерфейсом, но не анализом.
Собственно думал я о немного другом подходе, я могу отдавать не один параметр, а довольно много. Т.е. например рендерится кадр, я на выход могу отдать время каждого этапа обработки и хочется мне найти зависимости между каждым из параметров и временем обработки каждого этапа рендеринга. Тогда было бы гораздо проще искать глобальный оптимальный результат.
Пока сделаю интерфейс для получения статистики, а там возможно появится кто-нибудь, кто сможет анализ реализовать… вообще интересно было бы анализировать всю статистику всегда и подстраиваться на ее основе под каждую ситуацию, но до этого пока далеко.
+
Но по-моему вы пропустили самую «соль» метода — составление матрицы планирования.
Мне тоже так показалось. И еще мне показалось, что в статье эксперимент просто перебирает все 32 двоичные комбинации пяти переменных. Немного похоже не полный перебор.

Насколько я помню, планирование эксперимента позволяет добиться экспоненциального снижения количества требуемых экспериментов по сравнению с полным перебором (вернее, сложность задачи оптимального перебора вариантов пропорциональна логарифму от числа вариантов при полном переборе). Кстати, генетические алгоритмы оптимизации, похоже, имеют аналогичную производительность.
UFO just landed and posted this here
Sign up to leave a comment.

Articles

Change theme settings