Аналитика / Описательная статистика
Медиана
Медиана делит упорядоченный набор данных пополам: половина значений не больше медианы, а половина не меньше ее. Это устойчивая мера типичного значения.
Формула
Упорядоченные точки на линии; центральная точка выделена как медиана, крайний выброс расположен далеко справа.
Медиана показывает середину по позиции, поэтому устойчива к крайним значениям.
Обозначения
- $Me$
- медиана, единица исходного показателя
- $x_{(i)}$
- i-е значение после сортировки по возрастанию, единица исходного показателя
- $n$
- количество наблюдений, шт.
Условия применения
- Значения можно упорядочить по возрастанию.
- Для четного числа наблюдений медиана обычно равна среднему двух центральных значений.
- Все наблюдения относятся к одной шкале и одной единице измерения.
Ограничения
- Медиана устойчивее к выбросам, но не использует величину всех значений так подробно, как среднее.
- Для маленьких выборок медиана может заметно меняться при добавлении одного наблюдения.
- Если данные сгруппированы в интервалы, медиану приходится оценивать приближенно по распределению.
Подробное объяснение
Медиана отвечает на позиционный вопрос: где находится середина упорядоченного ряда. Если наблюдений нечетное число, есть одно центральное значение. Если наблюдений четное число, центральных значений два, и медиану обычно берут как их среднее.
В отличие от среднего, медиана почти не реагирует на величину крайних значений. Если максимальное значение увеличится с 120 до 300 минут, медиана в примере останется 21 минутой. Именно поэтому медиана полезна для скошенных распределений: доходы, цены недвижимости, время ожидания и чеки часто имеют длинный правый хвост.
Медиана не заменяет среднее, а отвечает на другой вопрос. Среднее связано с общей суммой, медиана - с типичной позицией. Если бизнесу важна суммарная выручка, средний чек полезен. Если важно понять типичного клиента, медианный чек часто честнее.
Хороший отчет может показывать оба показателя. Большая разница между средним и медианой является сигналом: распределение асимметрично, есть крупные значения или выбросы. Тогда стоит добавить квартили, IQR и график распределения.
Как пользоваться формулой
- Очистите данные от явных ошибок ввода, не удаляя реальные выбросы без причины.
- Отсортируйте значения по возрастанию.
- Посчитайте количество наблюдений n.
- Для нечетного n возьмите центральное значение.
- Для четного n найдите среднее двух центральных значений.
Историческая справка
Медиана стала важным статистическим показателем там, где среднее плохо описывало данные с сильной асимметрией. В демографии, экономике и социальной статистике медианные доходы, цены и возраста часто понятнее для широкой аудитории, чем средние значения. Причина практическая: распределения реальной жизни редко бывают идеально симметричными. Исторически позиционные меры вроде медианы развивались вместе с ранжированием наблюдений и таблицами распределений. В современной аналитике медиана особенно полезна для продуктовых метрик, времени ответа, чеков и зарплат, где один редкий экстремум может сделать среднее почти непохожим на опыт большинства пользователей.
Историческая линия формулы
У медианы нет одного автора. Это позиционная мера центра, возникшая в статистической практике ранжирования данных и анализа распределений. Ее корректно связывать с развитием описательной статистики и устойчивых показателей.
Пример
Есть семь значений времени доставки в минутах: 18, 22, 20, 19, 120, 21, 23. Сначала сортируем ряд: 18, 19, 20, 21, 22, 23, 120. Наблюдений 7, центральная позиция (7+1)/2 = 4. Медиана равна четвертому значению, то есть 21 минуте. Среднее при этом равно 243/7 ≈ 34,7 минуты, потому что одна доставка на 120 минут сильно сдвигает сумму. Для ответа на вопрос, как обычно доставляют заказы, медиана в этом примере полезнее среднего. Для контроля качества, наоборот, выброс 120 минут нельзя игнорировать: его нужно анализировать отдельно.
Частая ошибка
Частая ошибка - искать медиану без сортировки данных. Вторая ошибка - при четном числе наблюдений выбирать одно из двух центральных значений вместо среднего этих двух, если методика не говорит иначе. Третья ошибка - считать медиану заменой анализа выбросов: медиана устойчива, но плохие экстремальные значения все равно могут быть важны для бизнеса. Еще одна ошибка - сравнивать медианы групп без указания размера выборок и распределения, потому что одинаковая медиана может скрывать разный разброс.
Практика
Задачи с решением
Нечетное число значений
Условие. Найдите медиану ряда: 12, 9, 15, 10, 11.
Решение. Сортируем: 9, 10, 11, 12, 15. Наблюдений 5, центральное третье значение. Медиана равна 11.
Ответ. 11
Четное число значений
Условие. Найдите медиану ряда: 4, 8, 6, 10.
Решение. Сортируем: 4, 6, 8, 10. Центральные значения 6 и 8. Медиана = (6+8)/2 = 7.
Ответ. 7
Дополнительные источники
- OpenStax Introductory Statistics, раздел Measures of the Center of the Data
- NIST/SEMATECH e-Handbook of Statistical Methods, разделы о median
- OpenStax Contemporary Mathematics, раздел Descriptive Statistics
Связанные формулы
Аналитика
Среднее арифметическое
Среднее арифметическое показывает типичный уровень числового показателя как сумму всех значений, деленную на количество наблюдений.
Аналитика
Квартили и межквартильный размах
Межквартильный размах показывает ширину средней половины данных: это разница между третьим и первым квартилем, устойчивее полного размаха.
Аналитика
Мода
Мода — это значение, которое встречается в наборе данных чаще всего. Она полезна для категорий, популярных вариантов и повторяющихся числовых значений.