Аналитика / Описательная статистика
Размах вариации
Размах вариации показывает расстояние между максимальным и минимальным значением набора данных. Это самый простой показатель разброса.
Формула
На числовой линии отмечены минимум и максимум, расстояние между ними подписано как R.
Размах показывает полную ширину наблюдаемых значений.
Обозначения
- $R$
- размах вариации, единица исходного показателя
- $x_{max}$
- максимальное значение в наборе, единица исходного показателя
- $x_{min}$
- минимальное значение в наборе, единица исходного показателя
Условия применения
- Данные числовые и измерены в одинаковых единицах.
- Минимум и максимум являются реальными наблюдениями, а не ошибками ввода.
- Размах используется как грубая оценка, а не единственный показатель вариативности.
Ограничения
- Размах зависит только от двух крайних значений и игнорирует все остальные наблюдения.
- Один выброс может резко увеличить размах.
- Для сравнения стабильности групп лучше дополнительно смотреть стандартное отклонение, IQR или квантили.
Подробное объяснение
Размах является самым простым способом оценить разброс: он показывает полную ширину наблюдаемых данных от минимума до максимума. Если минимальный чек 500 рублей, а максимальный 5000 рублей, размах равен 4500 рублей.
Преимущество размаха - скорость и понятность. Его легко объяснить человеку без статистической подготовки. Он особенно полезен на этапе первичного контроля данных: слишком большой размах может указать на выброс, ошибку импорта или необычный случай.
Недостаток размаха в том, что он не знает ничего о середине данных. Наборы 1, 2, 3, 4, 100 и 1, 50, 51, 52, 100 имеют одинаковый размах 99, но выглядят совершенно по-разному. Поэтому размах редко используют один.
В аналитическом отчете размах хорошо работает вместе с минимумом, максимумом, медианой и квартилями. Тогда видно не только крайние границы, но и то, где находится основная масса данных. Если размах резко отличается между сегментами, это повод проверить качество данных и реальные различия процессов.
Как пользоваться формулой
- Проверьте, что все значения числовые и в одинаковых единицах.
- Найдите минимальное значение.
- Найдите максимальное значение.
- Вычтите минимум из максимума.
- Проверьте крайние значения на выбросы и ошибки ввода.
Историческая справка
Размах как показатель разброса появился из практической потребности видеть границы наблюдений. До сложных статистических расчетов минимум и максимум уже давали полезную информацию: самые низкие и самые высокие цены, температуры, размеры или результаты. В промышленном контроле, метеорологии, торговле и управлении запасами диапазон значений был быстрым способом заметить нестандартную ситуацию. Позже статистика предложила более устойчивые меры разброса, такие как дисперсия, стандартное отклонение и межквартильный размах. Но размах сохранился как простой диагностический показатель, особенно на первом экране анализа данных, где нужно быстро увидеть крайние границы и решить, требуется ли более глубокая проверка.
Историческая линия формулы
У размаха вариации нет одного автора. Это базовая описательная мера, основанная на сравнении максимального и минимального наблюдения. Исторически она связана с практикой учета диапазонов и ранним описанием распределений.
Пример
Время обработки пяти заявок: 8, 10, 9, 11 и 35 минут. Минимальное значение равно 8, максимальное равно 35. Размах R = 35 - 8 = 27 минут. Это быстро показывает, что между самой короткой и самой долгой заявкой большая разница. Но по одному размаху нельзя понять, что четыре заявки находятся в узком диапазоне 8-11 минут, а одна заявка длится 35 минут. Поэтому для такой выборки полезно дополнительно посчитать медиану и межквартильный размах. Размах подсвечивает проблему, но не описывает всю форму распределения.
Частая ошибка
Частая ошибка - воспринимать размах как устойчивую характеристику процесса. Если добавится один технический сбой, максимум вырастет, и размах резко изменится. Вторая ошибка - сравнивать размах групп разного размера без осторожности: в большой группе шанс увидеть экстремум выше. Третья ошибка - не проверять максимум и минимум на ошибки ввода, например лишний ноль или неправильную единицу измерения. Также нельзя по размаху делать вывод, что все значения равномерно распределены между минимумом и максимумом.
Практика
Задачи с решением
Размах оценок
Условие. Оценки качества: 3, 4, 5, 4, 2, 5. Найдите размах.
Решение. Минимум равен 2, максимум равен 5. Размах R = 5 - 2 = 3.
Ответ. 3
Размах времени
Условие. Время доставки: 22, 25, 24, 28 и 60 минут. Найдите размах и укажите риск.
Решение. Минимум 22, максимум 60. Размах 38 минут. Значение 60 может быть реальным редким случаем или ошибкой, его нужно проверить.
Ответ. 38 минут; максимум требует проверки
Дополнительные источники
- OpenStax Introductory Statistics, раздел Measures of the Spread of the Data
- OpenStax Contemporary Mathematics, раздел Descriptive Statistics
- NIST/SEMATECH e-Handbook of Statistical Methods, разделы о exploratory data analysis
Связанные формулы
Аналитика
Квартили и межквартильный размах
Межквартильный размах показывает ширину средней половины данных: это разница между третьим и первым квартилем, устойчивее полного размаха.
Аналитика
Выборочное стандартное отклонение
Выборочное стандартное отклонение показывает типичный масштаб отклонения значений от среднего в исходных единицах показателя.
Аналитика
Медиана
Медиана делит упорядоченный набор данных пополам: половина значений не больше медианы, а половина не меньше ее. Это устойчивая мера типичного значения.