Аналитика / Описательная статистика

Выборочная дисперсия

Выборочная дисперсия измеряет средний квадрат отклонений значений от среднего с поправкой на n−1 для оценки разброса по выборке.

Опубликовано: Обновлено:

Формула

$$s^2=\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1}$$
Отклонения Квадраты отклонений от среднего

Точки расположены вокруг линии среднего; вертикальные расстояния до среднего показаны и подписаны как отклонения.

Дисперсия складывает квадраты отклонений и делит их на n−1.

Обозначения

$s^2$
выборочная дисперсия, квадрат единицы исходного показателя
$x_i$
отдельное наблюдение, единица исходного показателя
$\bar{x}$
среднее арифметическое выборки, единица исходного показателя
$n$
число наблюдений в выборке, шт.

Условия применения

  • Данные числовые и измерены в одинаковых единицах.
  • Набор рассматривается как выборка, а не вся генеральная совокупность.
  • Среднее уже рассчитано по тем же наблюдениям.

Ограничения

  • Дисперсия выражается в квадратных единицах, поэтому ее трудно интерпретировать напрямую.
  • Формула чувствительна к выбросам, потому что отклонения возводятся в квадрат.
  • При n меньше 2 выборочная дисперсия не рассчитывается, так как знаменатель n−1 равен нулю или отрицателен.

Подробное объяснение

Дисперсия начинается с отклонений от среднего. Если значение выше среднего, отклонение положительное; если ниже - отрицательное. Простая сумма отклонений всегда равна нулю, поэтому отклонения возводят в квадрат. Так отрицательные и положительные отклонения не компенсируют друг друга.

Сумма квадратов отклонений показывает общий разброс, но зависит от количества наблюдений. Чтобы получить показатель на одно наблюдение, сумму делят на число степеней свободы. Для выборки используют n−1, потому что среднее уже подстроено под эти данные, и одно отклонение фактически определяется остальными.

Дисперсия важна математически, но не всегда удобна для бизнеса. Если время измеряется в минутах, дисперсия измеряется в квадратных минутах. Поэтому в отчетах чаще показывают стандартное отклонение, а дисперсию используют как промежуточный расчет.

Несмотря на сложность интерпретации, дисперсия является фундаментом многих методов. Она позволяет формально сравнивать разброс, строить модели ошибок и оценивать неопределенность. Поэтому важно понимать ее как средний квадрат отклонений, а не как самостоятельную пользовательскую метрику.

Как пользоваться формулой

  1. Рассчитайте среднее по выборке.
  2. Вычтите среднее из каждого наблюдения.
  3. Возведите каждое отклонение в квадрат.
  4. Сложите квадраты отклонений.
  5. Разделите сумму на n−1.

Историческая справка

Дисперсия стала центральным понятием статистики, когда исследователям потребовалось измерять не только центральный уровень, но и разброс наблюдений. Квадраты отклонений удобны математически: они убирают знаки и дают основу для методов наименьших квадратов, анализа ошибок и вероятностных моделей. В выборочной статистике деление на n−1 связано с оцениванием неизвестного среднего по тем же данным и известно как поправка Бесселя. В современной аналитике дисперсия часто скрыта внутри функций и моделей, но она продолжает работать в стандартном отклонении, A/B-тестах, регрессии, оценке неопределенности и контроле качества данных. Поэтому понимание дисперсии помогает читать не только отчеты, но и выводы моделей.

Историческая линия формулы

Формула выборочной дисперсии связана с развитием теории ошибок, метода наименьших квадратов и выборочной статистики. У нее нет одного прикладного автора; поправка n−1 известна как поправка Бесселя и используется для несмещенной оценки дисперсии совокупности по выборке.

Пример

Есть выборка времени обработки заявок: 4, 6, 8 минут. Среднее равно (4+6+8)/3 = 6 минут. Отклонения от среднего: -2, 0 и 2. Квадраты отклонений: 4, 0 и 4, сумма равна 8. Выборочная дисперсия s² = 8/(3-1) = 4 мин². Квадратные минуты неудобны для интерпретации, поэтому часто сразу берут квадратный корень и получают стандартное отклонение s = 2 минуты. Деление на n−1 используется потому, что по выборке оценивают разброс более широкой совокупности, а среднее уже было оценено из этих же данных. В отчете рядом стоит показать и исходные значения, чтобы было видно, откуда взялся разброс.

Частая ошибка

Частая ошибка - делить на n вместо n−1, когда нужна именно выборочная дисперсия. Деление на n используется для генеральной совокупности или в некоторых описательных расчетах по полному набору, но для оценки по выборке стандартная формула использует n−1. Вторая ошибка - интерпретировать дисперсию в исходных единицах, хотя единицы квадратные. Третья ошибка - не проверять выбросы: одно экстремальное значение резко увеличивает сумму квадратов. Также важно считать среднее и дисперсию по одному и тому же набору после одинаковой фильтрации.

Практика

Задачи с решением

Дисперсия трех значений

Условие. Найдите выборочную дисперсию для значений 2, 4, 6.

Решение. Среднее 4. Отклонения: -2, 0, 2. Квадраты: 4, 0, 4. Сумма 8. s² = 8/(3-1) = 4.

Ответ. 4

Почему n−1

Условие. Для выборки из 5 наблюдений сумма квадратов отклонений равна 40. Найдите выборочную дисперсию.

Решение. Для выборочной дисперсии делим на n−1 = 4. s² = 40/4 = 10.

Ответ. 10

Дополнительные источники

  • OpenStax Introductory Statistics, раздел Measures of the Spread of the Data
  • NIST/SEMATECH e-Handbook of Statistical Methods, разделы о sample variance
  • OpenStax Statistics, разделы о выборочной дисперсии и стандартном отклонении

Связанные формулы

Аналитика

Выборочное стандартное отклонение

$s=\sqrt{\frac{\sum_{i=1}^{n}(x_i-\bar{x})^2}{n-1}}$

Выборочное стандартное отклонение показывает типичный масштаб отклонения значений от среднего в исходных единицах показателя.

Аналитика

Среднее арифметическое

$\bar{x}=\frac{x_1+x_2+\dots+x_n}{n}$

Среднее арифметическое показывает типичный уровень числового показателя как сумму всех значений, деленную на количество наблюдений.

Аналитика

Z-оценка

$z=\frac{x-\bar{x}}{s}$

Z-оценка показывает, на сколько стандартных отклонений наблюдение находится выше или ниже среднего значения, и помогает сравнивать разные шкалы.