Посыл статьи хороший — пользовательские сценарии и мотивы сегодня лежат в основе продукта.
Но структура статьи не позволила вникнуть в детали, не увидел акцентов. Тем не менее, спасибо за поднятие важной темы.
Ну да, сейчас примерно так же. Вообще, считается за тысячу показов, 1-2 доллара норм. Просто я обычно занимаюсь от миллиона сайтами, потому так написал и уже подзабыл :->
Продуктивность это не только конверсия, но и средний чек, возвраты, повторные покупки, рекомендации и т.д.
Цифры из моей головы, верить мне не надо, не папа римский.
Был такой вариант и он более логичный. Но с первого взгляда акцент на первоочередность изменений дает как раз более яркий синий цвет, далее по убывающей. Решил остановиться на нем.
Эффект новизны и эффект привыкания ААБ тестом не диагностируется, для этого надо делить старых пользователей и новых.
Они же одинаково влияют на А и А — расхождения из-за них не будет.
Весь фокус в том, что будет. Представим, что в ИЕ сайт работает некорректно, нельзя оформить заказ. А мы сравниваем и считаем конверсию. Юзер на ИЕ из группы А1 дошел до оформления и отвалился. Чтобы компенсировать эту ситуацию надо, чтобы другой юзер на ИЕ уже из А2 тоже не оформил заказ. Пока это не произошло возникает перекос, которого без этой проблемы с ИЕ не было бы.
Чем больше таких факторов, тем больше время/объем, которые необходимы для корректного теста.
Не бороться, а скорее диагностировать и нивелировать.
Видим, что А и А не сходятся даже при достаточной выборке, это значит есть факторы искажения. Смотрим другой период, если А и А сошлись, значит факторы были в первый период, думаем что это могло быть.
А нивелируются так: Если просто со временем/объемом продолженного теста А и А сошлись, значит влияние факторов стало статистически незначительным и и тест уже более-менее достоверный.
Можно еще сравнивать насколько расходятся А и А в процентах (после достижения значимой выборки), колебания их разницы, чтобы понимать силу искажающих факторов. Условно, если А и А разнятся на 10%, а Б у нас дает лучше результат на 20%, то нельзя считать, что изменение дало положительный результат.
То есть, я сам виноват, что вы не прочли статью прежде, чем судить о ней и кидать громкие заявления. И вообще она неинтересная, поэтому в первый раз в этом году вы откомментировали именно ее из тысячи других.
Хорошо, хорошо, я же не спорю. Только остановитесь, пожалуйста, это какой-то сюр.
Странная ситуация с этим постом, Тимур.
В комментариях просто повторяю то, что уже написано в статье. Продолжу:
По поводу АА-теста.
Именно он — лишний расход времени и ресурсов. Вы трижды делаете А, вместо двух. Кроме того, что гораздо важнее, условия при АА тесте и при АБ могут быть разные (они делаются в разное время), чего нет при ААБ.
Про расходовать в каждом тесте:
В выводе писал, что можно ААБ каждый раз не делать, только пока не отладится тест.
Одно радует. Вы хотя бы не анонимный комментатор, что по моему наблюдению здесь редкость.
Получить еще один инструмент, который поможет не сделать преждевременные выводы — вредно?
Для принятия решения об остановки теста достаточно расчёта необходимой выборки, например с помощью этого калькулятора.
Недостаточно. Калькулятор показал статистически значимую выборку. Практика показала, что А и А значительно расходятся. Смотрим, разбираемся где искажения.
Если А1 и А2 сравнялись по показателям, то без достаточного числа выборки это не значит ничего.
Да, если А1 и А2 сравнялись это не значит, что результат достоверный. Но если НЕ сравнялись — чрезвычайно высока вероятность, что он НЕдостоверный.
Фокус в том, что без достаточной выборки они могут сравняться только случайно. То есть, речь не об уменьшении выборки относительно калькулятора, скорее об увеличении.
Ну и непонятно каким образом введение второй А нейтрализует хотяб один из приведённых искажающих факторов.
Именно увеличением периода или объема для теста. Ну и дополнительным индикатором, который поможет выявить факторы влияния. В жизни их трудно избежать, идеальных условий для теста на реальном проекте не создать.
Но структура статьи не позволила вникнуть в детали, не увидел акцентов. Тем не менее, спасибо за поднятие важной темы.
Цифры из моей головы, верить мне не надо, не папа римский.
Также про нее регулярно пишу в своем телеграм-канале — https://t.me/t_shooting
Весь фокус в том, что будет. Представим, что в ИЕ сайт работает некорректно, нельзя оформить заказ. А мы сравниваем и считаем конверсию. Юзер на ИЕ из группы А1 дошел до оформления и отвалился. Чтобы компенсировать эту ситуацию надо, чтобы другой юзер на ИЕ уже из А2 тоже не оформил заказ. Пока это не произошло возникает перекос, которого без этой проблемы с ИЕ не было бы.
Чем больше таких факторов, тем больше время/объем, которые необходимы для корректного теста.
Видим, что А и А не сходятся даже при достаточной выборке, это значит есть факторы искажения. Смотрим другой период, если А и А сошлись, значит факторы были в первый период, думаем что это могло быть.
А нивелируются так: Если просто со временем/объемом продолженного теста А и А сошлись, значит влияние факторов стало статистически незначительным и и тест уже более-менее достоверный.
Можно еще сравнивать насколько расходятся А и А в процентах (после достижения значимой выборки), колебания их разницы, чтобы понимать силу искажающих факторов. Условно, если А и А разнятся на 10%, а Б у нас дает лучше результат на 20%, то нельзя считать, что изменение дало положительный результат.
Всего этого простой АБ-тест не даст.
Хорошо, хорошо, я же не спорю. Только остановитесь, пожалуйста, это какой-то сюр.
Никакого «может быть» в моем выводе нет. ААБ лучше, чем просто АБ. И лучше, чем АА + АБ, да.
В комментариях просто повторяю то, что уже написано в статье. Продолжу:
По поводу АА-теста.
Именно он — лишний расход времени и ресурсов. Вы трижды делаете А, вместо двух. Кроме того, что гораздо важнее, условия при АА тесте и при АБ могут быть разные (они делаются в разное время), чего нет при ААБ.
Про расходовать в каждом тесте:
В выводе писал, что можно ААБ каждый раз не делать, только пока не отладится тест.
Одно радует. Вы хотя бы не анонимный комментатор, что по моему наблюдению здесь редкость.
Получить еще один инструмент, который поможет не сделать преждевременные выводы — вредно?
Недостаточно. Калькулятор показал статистически значимую выборку. Практика показала, что А и А значительно расходятся. Смотрим, разбираемся где искажения.
Да, если А1 и А2 сравнялись это не значит, что результат достоверный. Но если НЕ сравнялись — чрезвычайно высока вероятность, что он НЕдостоверный.
Фокус в том, что без достаточной выборки они могут сравняться только случайно. То есть, речь не об уменьшении выборки относительно калькулятора, скорее об увеличении.
Именно увеличением периода или объема для теста. Ну и дополнительным индикатором, который поможет выявить факторы влияния. В жизни их трудно избежать, идеальных условий для теста на реальном проекте не создать.
Вы прочитали мое личное мнение, выраженное и аргументированное в виде статьи.
Ответы на все вопросы, что вы написали в ней есть.
Недостаточно. Кроме некорректной рандомизации есть еще масса факторов, искажающих тест. Этому посвящен целый абзац.
Отдельно АА занимает время и ресурсы. С его проведения до последующего проведения АБ ситуация может измениться. Тоже написано.
Да, для ААБ тратятся ресурсы, это тоже написано в выводах. Почему это имеет смысл написано вначале.
Хотите одинаковый, сделайте ААББ. Хотя, как раз в этом особенного смысла нет.
То, что у них с меню в сервисах бардак, это да. Никакой общей линии не прослеживается. Интересно, есть ли у них на этот счет гайды.