Аналитика / A/B-тесты

Стандартная ошибка доли

SE конверсии показывает, насколько оценка доли может «плавать» из-за случайного разброса выборки.

Опубликовано: Обновлено:

Формула

$$SE(\hat p)=\sqrt{\frac{\hat p(1-\hat p)}{n}}$$
Диаграмма SE как ширина разброса оценки доли

На графике видно, что при росте n ошибка падает, а значение p близкое к 0.5 дает максимальную дисперсию.

Малый SE — более надежная оценка конверсии.

Обозначения

$SE(\hat p)$
стандартная ошибка оценки доли, доля
$\hat p$
оценка доли в группе, доля
$n$
размер выборки группы, шт.

Условия применения

  • Используется для биномиальных данных при независимых наблюдениях.
  • Нормально применять как аппроксимацию при достаточно больших n.
  • При малых n лучше использовать точные биномиальные подходы.

Ограничения

  • При \hat p=0 или 1 стандартная ошибка равна нулю и формула теряет практическую ценность.
  • Не отражает дизайн-эффекты и кластеризацию трафика.
  • Не применяется напрямую при зависимых наблюдениях.

Подробное объяснение

Выражение выводится из дисперсии биномиального распределения: p(1-p)/n для среднего числа успехов на пользователя.

Как пользоваться формулой

  1. Вычислите \hat p для нужной группы.
  2. Подставьте в формулу SE.
  3. Сравните размер ошибки между группами.
  4. Используйте далее в CI и проверке значимости.

Историческая справка

Формула напрямую связана с биномиальной дисперсией и широко используется в классической биостатистике и анализе экспериментов.

Пример

Для \hat p=0{,}04 и n=2500: SE=\sqrt{0{,}04\cdot0{,}96/2500}=0{,}00392.

Частая ошибка

Вычислять SE для доли как для средних по непрерывной переменной без пересчета в доли.

Практика

Задачи с решением

Ошибка доли в средней группе

Условие. \hat p=0{,}25, n=400.

Решение. SE=\sqrt{0{,}25\cdot0{,}75/400}=0{,}02165.

Ответ. SE\approx0{,}0216

Ошибка редкого события

Условие. \hat p=0{,}01, n=10\,000.

Решение. SE=\sqrt{0{,}01\cdot0{,}99/10000}=0{,}000995.

Ответ. SE\approx0{,}0010

Дополнительные источники

  • OpenIntro Statistics, chapters on sampling variability
  • NIST/SEMATECH e-Handbook of Statistical Methods, statistics of proportions

Связанные формулы

Аналитика

Conversion rate (конверсия)

$\hat{p}=\frac{X}{n}$

Конверсия показывает долю пользователей, для которых событие (например, покупка или клик) произошло в группе.

Аналитика

Z-статистика для двух долей

$z = \frac{\hat p_B-\hat p_A}{SE_{\Delta}}$

Z-статистика показывает, насколько наблюдаемая разница конверсий удалена от нуля относительно дисперсии.