Аналитика / A/B-тесты
Стандартная ошибка доли
SE конверсии показывает, насколько оценка доли может «плавать» из-за случайного разброса выборки.
Формула
На графике видно, что при росте n ошибка падает, а значение p близкое к 0.5 дает максимальную дисперсию.
Малый SE — более надежная оценка конверсии.
Обозначения
- $SE(\hat p)$
- стандартная ошибка оценки доли, доля
- $\hat p$
- оценка доли в группе, доля
- $n$
- размер выборки группы, шт.
Условия применения
- Используется для биномиальных данных при независимых наблюдениях.
- Нормально применять как аппроксимацию при достаточно больших n.
- При малых n лучше использовать точные биномиальные подходы.
Ограничения
- При \hat p=0 или 1 стандартная ошибка равна нулю и формула теряет практическую ценность.
- Не отражает дизайн-эффекты и кластеризацию трафика.
- Не применяется напрямую при зависимых наблюдениях.
Подробное объяснение
Выражение выводится из дисперсии биномиального распределения: p(1-p)/n для среднего числа успехов на пользователя.
Как пользоваться формулой
- Вычислите \hat p для нужной группы.
- Подставьте в формулу SE.
- Сравните размер ошибки между группами.
- Используйте далее в CI и проверке значимости.
Историческая справка
Формула напрямую связана с биномиальной дисперсией и широко используется в классической биостатистике и анализе экспериментов.
Пример
Для \hat p=0{,}04 и n=2500: SE=\sqrt{0{,}04\cdot0{,}96/2500}=0{,}00392.
Частая ошибка
Вычислять SE для доли как для средних по непрерывной переменной без пересчета в доли.
Практика
Задачи с решением
Ошибка доли в средней группе
Условие. \hat p=0{,}25, n=400.
Решение. SE=\sqrt{0{,}25\cdot0{,}75/400}=0{,}02165.
Ответ. SE\approx0{,}0216
Ошибка редкого события
Условие. \hat p=0{,}01, n=10\,000.
Решение. SE=\sqrt{0{,}01\cdot0{,}99/10000}=0{,}000995.
Ответ. SE\approx0{,}0010
Дополнительные источники
- OpenIntro Statistics, chapters on sampling variability
- NIST/SEMATECH e-Handbook of Statistical Methods, statistics of proportions
Связанные формулы
Аналитика
Conversion rate (конверсия)
Конверсия показывает долю пользователей, для которых событие (например, покупка или клик) произошло в группе.
Аналитика
Z-статистика для двух долей
Z-статистика показывает, насколько наблюдаемая разница конверсий удалена от нуля относительно дисперсии.
Аналитика
Доверительный интервал разницы конверсий
Интервал показывает диапазон значимых значений разницы между группами на заданном уровне надежности.