Аналитика / A/B-тесты
Мощность теста (power) для разности долей — концепт
Power отвечает на вопрос: с какой вероятностью тест обнаружит реальный эффект \Delta при заданном дизайне.
Формула
Поверхность или линии уровня, где увеличивающийся Δ и/или уменьшающийся SE повышают power.
Интуитивный ориентир: не делать очень маленькие тесты под очень маленькие эффекты.
Обозначения
- $\text{Power}$
- вероятность обнаружить эффект (1-β), доля
- $\beta$
- ошибка II рода, доля
- $\Delta$
- истинная разница конверсий, доля
- $SE_{\Delta}$
- стандартная ошибка разности, доля
- $\Phi$
- CDF стандартного нормального распределения, безразмерная
Условия применения
- Используется нормальное приближение для ориентировочного расчета.
- Нужен заранее зафиксированный target effect \Delta.
- Оценка справедлива при корректно посчитанных размерах групп.
Ограничения
- Это упрощенная формула; практические платформы используют более детальные расчеты.
- Для малых эффектов требуется большая n для разумного power.
- Не учитываются внешние шумы: спайки трафика, сезонность, технические срезы.
Подробное объяснение
Формула показывает остаточный риск пропуска эффекта (β). Чем больше Δ относительно шума SE_{\Delta}, тем выше power.
Как пользоваться формулой
- Задайте целевой эффект, α и структуру выборок.
- Оцените SE_{\Delta}.
- Посчитайте аргумент для функции Φ.
- Получите power и решите, достаточно ли длинен эксперимент.
Историческая справка
Концепция power выросла как инженерный стандарт планирования экспериментов после распространения практики онлайн-экспериментов.
Пример
Если |Δ|=0,004, SE=0,0018, α=0,05 ⇒ z_{1-α/2}=1,96, то внутреннее значение 1,96-2,22= -0,26, β≈0,397, power≈60%.
Частая ошибка
Считать power после запуска без предварительного расчета и затем оправдывать неудачный результат.
Практика
Задачи с решением
Низкая мощность
Условие. Δ=0,003, SE=0,0025, α=0,05.
Решение. Аргумент для Φ: 1,96-1,2=0,76, β≈0,776, power≈22,4%.
Ответ. Power очень низкая: тест почти не заметит такой эффект.
Улучшение power
Условие. Снизьте SE до 0,0015 при том же Δ и α.
Решение. Аргумент: 1,96-2,0=-0,04, β≈0,484, power≈51,6%.
Ответ. Power растет, но для надежного 80% нужно еще меньше SE (больше n).
Дополнительные источники
- OpenIntro Statistics, power and Type II error
- NIST/SEMATECH e-Handbook of Statistical Methods, power of statistical tests
Связанные формулы
Аналитика
Минимальный размер выборки для двух долей (базовый)
Базовая оценка числа участников в каждой группе для обнаружения минимально значимого эффекта с заданными \alpha и power.
Аналитика
MDE (минимально детектируемый эффект)
MDE показывает минимальную разницу конверсий, которую тест сможет обнаружить с заданным α и power.
Аналитика
p-value без калькулятора: ориентиры по z
Если нет точного калькулятора, используйте фиксированные пороговые значения |z| для быстрой оценки значимости.