Аналитика / Описательная статистика

Квартили и межквартильный размах

Межквартильный размах показывает ширину средней половины данных: это разница между третьим и первым квартилем, устойчивее полного размаха.

Опубликовано: Обновлено:

Формула

$$IQR=Q_3-Q_1$$
Box plot Квартили на коробчатой диаграмме

Коробка от Q1 до Q3, линия медианы внутри и отдельная дальняя точка как возможный выброс.

IQR — ширина коробки между первым и третьим квартилем.

Обозначения

$Q_1$
первый квартиль, ниже которого находится около 25% данных, единица исходного показателя
$Q_3$
третий квартиль, ниже которого находится около 75% данных, единица исходного показателя
$IQR$
межквартильный размах, единица исходного показателя

Условия применения

  • Данные можно упорядочить по возрастанию.
  • Метод вычисления квартилей должен быть выбран явно, потому что в программах возможны разные варианты.
  • IQR особенно полезен для скошенных распределений и данных с выбросами.

Ограничения

  • Разные программы могут немного по-разному считать квартильные позиции на малых выборках.
  • IQR не показывает крайние значения и не заменяет минимум/максимум.
  • Для очень маленьких наборов квартильная интерпретация может быть грубой.

Подробное объяснение

Квартили делят упорядоченные данные на четыре части. Первый квартиль Q1 находится около границы 25%, медиана - около 50%, третий квартиль Q3 - около 75%. Разница Q3-Q1 показывает ширину центральной половины данных.

IQR устойчивее размаха, потому что не зависит напрямую от самого маленького и самого большого значения. Если один заказ доставлялся 120 минут, полный размах резко вырастет, но Q1 и Q3 могут почти не измениться. Поэтому IQR хорошо подходит для скошенных данных.

На основе IQR часто строят коробчатую диаграмму. Коробка идет от Q1 до Q3, линия внутри показывает медиану, а отдельные точки могут обозначать выбросы. Это компактный способ увидеть центр, разброс и необычные значения.

Важно помнить, что квартиль - это не всегда одно наблюдение из ряда. В разных методиках он может вычисляться интерполяцией между позициями. Для больших наборов различия обычно малы, а для маленьких их лучше явно описывать.

Как пользоваться формулой

  1. Отсортируйте данные по возрастанию.
  2. Найдите первый квартиль Q1.
  3. Найдите третий квартиль Q3.
  4. Вычтите Q1 из Q3.
  5. Используйте IQR вместе с медианой и минимумом/максимумом.

Историческая справка

Квартили и межквартильный размах стали важной частью описательной статистики и разведочного анализа данных. Они особенно полезны там, где среднее и стандартное отклонение плохо описывают асимметричные данные. В XX веке идеи позиционного описания распределений получили широкое практическое применение в коробчатых диаграммах, которые популяризировал Джон Тьюки в контексте exploratory data analysis. Для современной аналитики IQR удобен тем, что быстро показывает центральную часть распределения и помогает говорить о выбросах без чрезмерной зависимости от крайних значений. Показатель закрепился в BI-отчетах, продуктовой аналитике и контроле качества как компактный способ описать данные с длинными хвостами.

Историческая линия формулы

Квартили как позиционные характеристики не имеют одного автора. Коробчатые диаграммы и практическое использование IQR тесно связаны с традицией разведочного анализа данных и работами Джона Тьюки, но сама формула IQR является простой разностью Q3 и Q1.

Пример

Есть отсортированный ряд времени доставки: 18, 19, 20, 21, 22, 23, 120. Медиана равна 21. Нижняя половина без медианы: 18, 19, 20, ее медиана Q1 = 19. Верхняя половина без медианы: 22, 23, 120, ее медиана Q3 = 23. Межквартильный размах IQR = 23 - 19 = 4 минуты. Хотя максимум 120 сильно увеличивает полный размах, IQR показывает, что центральная половина доставок находится в узком диапазоне. Это помогает отделить типичную вариативность от редкого экстремального случая. Для короткого отчета рядом можно указать медиану 21 минуту и максимум 120 минут, чтобы не потерять сигнал задержки.

Частая ошибка

Частая ошибка - считать IQR как максимум минус минимум. Это размах, а не межквартильный размах. Вторая ошибка - не указывать метод расчета квартилей при маленьких наборах, из-за чего Excel, Python, R или учебный метод могут дать немного разные значения. Третья ошибка - думать, что IQR удаляет выбросы: он лишь описывает центральную часть данных. Выбросы нужно анализировать отдельно, особенно если они отражают реальные проблемы сервиса или процесса.

Практика

Задачи с решением

Простой IQR

Условие. Для набора данных Q1 = 12, Q3 = 20. Найдите межквартильный размах.

Решение. IQR = Q3 - Q1 = 20 - 12 = 8.

Ответ. 8

Интерпретация

Условие. У времени доставки медиана 30 минут, Q1 = 24, Q3 = 38. Что означает IQR?

Решение. IQR = 38 - 24 = 14 минут. Центральные 50% доставок лежат примерно между 24 и 38 минутами.

Ответ. IQR = 14 минут; средняя половина доставок в диапазоне 24-38 минут

Дополнительные источники

  • OpenStax Introductory Statistics, раздел Quartiles and Interquartile Range
  • NIST/SEMATECH e-Handbook of Statistical Methods, разделы о box plot и exploratory data analysis
  • OpenStax Statistics, раздел Measures of the Location of the Data

Связанные формулы

Аналитика

Медиана

$Me=x_{(\frac{n+1}{2})}\quad\text{для нечетного }n$

Медиана делит упорядоченный набор данных пополам: половина значений не больше медианы, а половина не меньше ее. Это устойчивая мера типичного значения.

Аналитика

Размах вариации

$R=x_{max}-x_{min}$

Размах вариации показывает расстояние между максимальным и минимальным значением набора данных. Это самый простой показатель разброса.

Аналитика

Правило выбросов по IQR

$x<Q_1-1.5\cdot IQR\quad\text{или}\quad x>Q_3+1.5\cdot IQR$

Правило 1,5 IQR помечает значения как возможные выбросы, если они лежат ниже Q1−1,5·IQR или выше Q3+1,5·IQR, без предположения о нормальности.