Аналитика / A/B-тесты

Z-статистика для двух долей

Z-статистика показывает, насколько наблюдаемая разница конверсий удалена от нуля относительно дисперсии.

Опубликовано: Обновлено:

Формула

$$z = \frac{\hat p_B-\hat p_A}{SE_{\Delta}}$$
График Z относительно стандартного нормального порога

Ось z с порогами ±1.96 и значением наблюдаемого z.

По положению z относите результат к уровню значимости.

Обозначения

$z$
z-статистика, безразмерная величина
$\hat p_A$
конверсия контроля, доля
$\hat p_B$
конверсия теста, доля
$SE_{\Delta}$
стандартная ошибка разности двух долей, доля

Условия применения

  • Обе группы построены как независимые случайные подвыборки.
  • Используются корректно посчитанные SE_{\Delta}.
  • Крупные выборки и ожидаемое число успехов не слишком малые для нормальной аппроксимации.

Ограничения

  • При малых размерах выборки лучше использовать точный бинарный тест.
  • При множественных проверках требуется поправка на множественность.
  • Нельзя вручную подставлять любой p-value вместо z; лучше считать по нормальному приближению.

Подробное объяснение

В знаменателе стоит неопределенность разности. Если z по модулю больше порогов (1.96 для 95%), разница статистически заметна.

Как пользоваться формулой

  1. Вычислите разницу долей: \hat p_B-\hat p_A.
  2. Рассчитайте SE_{\Delta}.
  3. Подставьте в формулу и получите z.
  4. Передайте z в страницу интерпретации p-value.

Историческая справка

Z-статистика используется для нормированных сравнений разностей в классических A/B-исследованиях.

Пример

Если \hat p_B-\hat p_A=0{,}005 и SE_{\Delta}=0{,}0025, то z=2,00.

Частая ошибка

Считать значимым результат только по размеру абсолютного прироста без учета SE.

Практика

Задачи с решением

Простое z

Условие. \Delta=0{,}004, SE_{\Delta}=0{,}0015.

Решение. z=0{,}004/0{,}0015=2{,}67.

Ответ. z\approx2{,}67

Отрицательный эффект

Условие. \Delta=-0{,}001, SE_{\Delta}=0{,}001.

Решение. z=-1{,}00.

Ответ. z=-1{,}0

Дополнительные источники

  • OpenIntro Statistics, hypothesis testing for two proportions
  • NIST/SEMATECH e-Handbook of Statistical Methods, z-test for proportions

Связанные формулы

Аналитика

Z-статистика для двух долей

$z = \frac{\hat p_B-\hat p_A}{SE_{\Delta}}$

Z-статистика показывает, насколько наблюдаемая разница конверсий удалена от нуля относительно дисперсии.

Аналитика

p-value без калькулятора: ориентиры по z

$p \approx 2\,(1-\Phi(|z|)),\; \text{а без калькулятора: }|z|\approx1{,}64\Rightarrow p\approx0{,}10,\;1{,}96\Rightarrow0{,}05,\;2{,}58\Rightarrow0{,}01$

Если нет точного калькулятора, используйте фиксированные пороговые значения |z| для быстрой оценки значимости.

Аналитика

Мощность теста (power) для разности долей — концепт

$\text{Power} \approx 1-\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right),\;\beta\approx\Phi\left(z_{1-\alpha/2}-\frac{|\Delta|}{SE_{\Delta}}\right)$

Power отвечает на вопрос: с какой вероятностью тест обнаружит реальный эффект \Delta при заданном дизайне.