Аналитика / Описательная статистика
Выборочное стандартное отклонение
Выборочное стандартное отклонение показывает типичный масштаб отклонения значений от среднего в исходных единицах показателя.
Формула
На оси показано среднее, а вокруг него отмечены интервалы плюс-минус одно стандартное отклонение.
Стандартное отклонение показывает масштаб разброса в исходных единицах.
Обозначения
- $s$
- выборочное стандартное отклонение, единица исходного показателя
- $x_i$
- отдельное наблюдение, единица исходного показателя
- $\bar{x}$
- среднее арифметическое выборки, единица исходного показателя
- $n$
- число наблюдений, шт.
Условия применения
- Данные числовые и сопоставимые по единицам.
- Набор рассматривается как выборка из более широкой совокупности.
- Среднее является осмысленной мерой центра для этих данных.
Ограничения
- Стандартное отклонение чувствительно к выбросам.
- Для сильно асимметричных распределений его лучше показывать вместе с медианой и IQR.
- Если данные категориальные или порядковые без равных расстояний между значениями, стандартное отклонение может быть неуместным.
Подробное объяснение
Стандартное отклонение получается как квадратный корень из дисперсии. Дисперсия измеряет средний квадрат отклонений, но ее единицы тоже квадратные. Корень возвращает показатель в исходную шкалу. Если данные измерены в рублях, стандартное отклонение тоже будет в рублях.
Интуитивно стандартное отклонение показывает масштаб рассеивания вокруг среднего. Малое s означает, что значения близки к среднему. Большое s означает, что значения сильно различаются. Но точная интерпретация зависит от формы распределения.
В нормальном распределении стандартное отклонение имеет особенно удобный смысл: значительная часть наблюдений лежит в пределах одного или двух стандартных отклонений от среднего. В реальных продуктовых и финансовых данных распределения часто скошены, поэтому это правило нельзя применять автоматически.
Для отчетов стандартное отклонение хорошо дополняет среднее. Среднее говорит о центре, s - о стабильности. Две команды могут иметь одинаковое среднее время ответа, но разное стандартное отклонение: одна отвечает предсказуемо, другая иногда очень быстро, а иногда очень долго.
Как пользоваться формулой
- Рассчитайте среднее значение.
- Найдите отклонение каждого наблюдения от среднего.
- Возведите отклонения в квадрат и сложите.
- Разделите сумму на n−1, чтобы получить выборочную дисперсию.
- Извлеките квадратный корень из дисперсии.
Историческая справка
Стандартное отклонение стало широко используемой мерой разброса благодаря развитию теории ошибок, нормального распределения и статистического вывода. Оно удобно тем, что связано с дисперсией математически, но выражается в исходных единицах данных. Это сделало его практичным для измерений, контроля качества, экспериментов и отчетности. В XX веке стандартное отклонение стало стандартным языком научных публикаций, инженерной статистики и бизнеса. Сегодня оно встроено в электронные таблицы, BI-системы и статистические пакеты, но его корректное применение по-прежнему требует понимания выборки, выбросов и формы распределения. Поэтому в прикладных материалах его часто объясняют вместе со средним и графиком распределения.
Историческая линия формулы
У стандартного отклонения как меры нет одного прикладного автора. Понятие связано с развитием теории ошибок, дисперсии и нормального распределения. В современной статистике выборочная формула использует n−1 как часть стандартной оценки разброса по выборке.
Пример
Для значений 4, 6 и 8 минут среднее равно 6 минут. Отклонения: -2, 0 и 2 минуты. Квадраты отклонений: 4, 0 и 4, сумма равна 8. Выборочная дисперсия равна 8/(3-1) = 4 мин². Стандартное отклонение s = sqrt(4) = 2 минуты. Это означает, что типичный масштаб разброса вокруг среднего составляет около 2 минут. Если добавить значение 30 минут, среднее и стандартное отклонение сильно вырастут. Поэтому перед выводом о стабильности процесса нужно проверить выбросы и понять, являются ли они ошибками или реальными редкими случаями.
Частая ошибка
Частая ошибка - воспринимать стандартное отклонение как среднее абсолютное отклонение. На самом деле оно основано на квадратах отклонений и квадратном корне. Вторая ошибка - сравнивать стандартные отклонения показателей с разными единицами или разными средними без коэффициента вариации. Третья ошибка - делать вывод о нормальном распределении только потому, что посчитано стандартное отклонение. Также нельзя забывать про n−1 для выборочной формулы, если цель - оценить разброс генеральной совокупности.
Практика
Задачи с решением
Стандартное отклонение простого ряда
Условие. Для значений 2, 4, 6 выборочная дисперсия равна 4. Найдите стандартное отклонение.
Решение. Стандартное отклонение s = sqrt(4) = 2. Единица та же, что у исходных данных.
Ответ. 2
Интерпретация разброса
Условие. У двух процессов среднее время 10 минут. У первого s = 1 минута, у второго s = 6 минут. Какой процесс стабильнее?
Решение. При одинаковом среднем меньший разброс у первого процесса. Его значения обычно ближе к 10 минутам.
Ответ. первый процесс стабильнее
Дополнительные источники
- OpenStax Introductory Statistics, раздел Standard Deviation
- NIST/SEMATECH e-Handbook of Statistical Methods, разделы о standard deviation
- OpenStax Statistics, раздел Measures of the Spread of the Data
Связанные формулы
Аналитика
Выборочная дисперсия
Выборочная дисперсия измеряет средний квадрат отклонений значений от среднего с поправкой на n−1 для оценки разброса по выборке.
Аналитика
Среднее арифметическое
Среднее арифметическое показывает типичный уровень числового показателя как сумму всех значений, деленную на количество наблюдений.
Аналитика
Коэффициент вариации
Коэффициент вариации показывает относительный разброс: стандартное отклонение делят на среднее и выражают результат в процентах.