Skip to content

Эксперименты: A/A, A/B, мощность

Эксперименты: A/A, A/B, мощность

Section titled “Эксперименты: A/A, A/B, мощность”

Блок: Метрики и аналитика

Эксперименты — это инструмент для принятия решений на данных. Ты не тратишь ресурсы на догадки, а тестируешь гипотезу на реальных пользователях. Всегда держи в уме три вещи: отличаются ли группы до старта (A/A), действительно ли твой эксперимент надёжный (A/B), и можешь ли ты поймать нужный эффект (мощность теста).

  1. A/A-тест
  2. A/B-тест
  3. Мощность теста
  4. Минимально различимый эффект (MDE)
  5. Значимость (p-value)
  6. Конфидентность (confidence level)
  7. Размер выборки
  8. Метрики конверсии
  9. Контрольная группа
  10. Экспериментальная группа

A/B-тест — это способ сравнить две версии продукта, фичи или процесса: “А” (контроль) и “B” (новый вариант). Два набора пользователей случайно получают разные версии. Через время смотришь разницу в целевой метрике, например конверсии, и решаешь — дело в новой функциональности или в случайности.
A/A-тест — это особый случай: обе группы получают абсолютно одинаковый продукт. Такой тест не валидирует гипотезу, а проверяет саму систему экспериментов: всё ли рандомно, корректно ли считаются метрики.

Допустим, ты хочешь протестировать новый дизайн кнопки. В A/B раскатываешь старую и новую кнопку по 50% посетителей, сравниваешь конверсию.
Перед этим запускается A/A-тест — 100% пользователей видят старый дизайн, попадают в разные группы. Если система отчиталась, что конверсия сильно “разошлась”, что-то пошло не так: схема деления пользователей работает с ошибкой.

Почему важно проверять мощность

Section titled “Почему важно проверять мощность”

Мощность — это вероятность, что тест поймает реальный эффект, если он есть. Если мощность низкая, даже хороший эксперимент рискует ничего не обнаружить.
Мощность зависит от размера выборки, минимального различимого эффекта (MDE), разброса данных и уровня значимости.

Хочешь узнать, повышает ли новая онбординг-страница конверсию с 10% до 10.5%. Если у теста мало участников, эта разница потеряется в шуме. Заранее рассчитывай нужный размер выборки с помощью калькулятора мощности.

Главное условие для корректного A/B-теста — достаточное количество пользователей.
Optimizely Blog


Как запускать: пошаговая логика

Section titled “Как запускать: пошаговая логика”

A/A-тест: отработка системы

Section titled “A/A-тест: отработка системы”

Проведи тест с двумя идентичными группами, чтобы убедиться:

  • рандомизация работает
  • нет системных багов
  • нет неожиданного разброса в данных
    Если результат показывает значимую разницу, ищи сбой в распределении, баги, неучтённые переменные.

A/B-тест: создание надёжного эксперимента

Section titled “A/B-тест: создание надёжного эксперимента”

Сформируй гипотезу и выбери метрику, которую ждёшь изменить.
Определи минимально различимый эффект (какая разница тебе важна).
Вычисли размер выборки и мощность с помощью Statsig или Google Sample Size Calculator.
Проведи равномерное рандомное распределение участников.
Мониторь ход теста, не смотри на промежуточные цифры слишком рано (избегаешь ошибки переобучения).
Анализируй только после завершения эксперимента, иначе рискуешь ошибиться в выводах.

На рынке финтех-продуктов часто тестируют посадочные страницы. Меняют оффер, цвет CTA, пушат по трафику на две версии. До запуска А/В-теста обязательно проводят A/A, чтобы убедиться: группа А1 и А2 не отличаются по ключевым метрикам (возраст, страна, холдерство карты) ещё до изменения контента.

Хороший A/A-тест — не знак проблемы, а обязательный этап для любого серьёзного роста.
Лара Смит, Data Scientist, The Signal Group


Типичные ошибки и антипаттерны

Section titled “Типичные ошибки и антипаттерны”

Ошибка в интерпретации результатов

Section titled “Ошибка в интерпретации результатов”

Не ошибайся: статистическая значимость (p-value) и “на глаз” разница — не одно и то же. Маленькая разница бывает случайной, если не хватает мощности.

Недостаточный размер выборки

Section titled “Недостаточный размер выборки”

Поторопился завершить тест — высокий риск получить ложный эффект. Значение p-value не значит ничего, если тест короткий и группы маленькие.

В кампании малого бизнеса на 300 пользователей тестируют новую корзину. К концу недели p-value 0.04, но выигрыш получен случайно: мощности нет, вывод ошибочный.

Вмешательство в эксперимент

Section titled “Вмешательство в эксперимент”

Изменилась логика распределения участников, началась рекламная кампания, ушёл крупный клиент — сравнение обесценивается. Эксперименты надо защищать от таких влияний насколько возможно.


Работа с метриками и выводами

Section titled “Работа с метриками и выводами”

Цель теста — чётко выбранные метрики. Метрика должна быть чувствительной, бизнес-значимой и неподверженной манипуляциям.

Для онлайн-ритейла важный критерий — доход на пользователя, а не только конверсия в заказ. Часто проверяют сразу две: первичная (конверсия), вторичная (средний чек).

Не ориентируйся на разовые всплески. Всегда делай выводы по завершающему дата-срезу (например, неделю спустя), чтобы убрать сезонные колебания и внешние шумы.


Где брать бенчмарки и калькуляторы

Section titled “Где брать бенчмарки и калькуляторы”

Рекомендации и полезные ресурсы

Section titled “Рекомендации и полезные ресурсы”

Для цифр по мощности и расчёту минимального эффекта не существует универсальных табличек. Оцени параметры под свою нишу. Бенчмарки о конверсии смотри в отчетах Statista или Data.ai по своей отрасли.


Как отличить A/A-тест от A/B, когда его запускать

Section titled “Как отличить A/A-тест от A/B, когда его запускать”

A/A-тест — обе группы видят одно и то же. Запускай, если внедряешь новый фреймворк экспериментов, меняешь систему метрик или запускаешь первый тест на новой платформе. A/B нужен всегда, когда проверяешь гипотезу об изменениях.

Почему если A/A даёт разницу, система сломалась

Section titled “Почему если A/A даёт разницу, система сломалась”

Если результат A/A показывает значимое различие — твоя система распределения не случайна, считать тест недостоверным.

Как считать мощность теста

Section titled “Как считать мощность теста”

Используй онлайн-калькуляторы, например Statsig. Введи ожидаемую конверсию, минимальный значимый эффект, уровень значимости и посмотри нужный размер выборки.

Что считается хорошей мощностью

Section titled “Что считается хорошей мощностью”

Чаще всего целятся в мощность 80% или выше. Это значит: если есть эффект нужной величины, 4 из 5 подобных тестов его выявят.

Какая метрика самая “честная”

Section titled “Какая метрика самая “честная””

Ищи метрику, которая прямо связана с поведением пользователя или доходом. Для e-commerce — это конверсия в покупку и средний чек, для SaaS — активация функций или удержание.

Можно ли остановить тест раньше срока, если “всё ясно”

Section titled “Можно ли остановить тест раньше срока, если “всё ясно””

Не стоит. Преждевременное завершение эксперимента искажает p-value, добавляет риск ложноположительных результатов.