Аналитика / Описательная статистика
Правило выбросов по IQR
Правило 1,5 IQR помечает значения как возможные выбросы, если они лежат ниже Q1−1,5·IQR или выше Q3+1,5·IQR, без предположения о нормальности.
Формула
Коробчатая диаграмма с нижней и верхней границей; точки за границами выделены отдельно.
Правило IQR помечает необычные значения для дальнейшей проверки.
Обозначения
- $Q_1$
- первый квартиль, единица исходного показателя
- $Q_3$
- третий квартиль, единица исходного показателя
- $IQR$
- межквартильный размах Q3-Q1, единица исходного показателя
- $x$
- проверяемое наблюдение, единица исходного показателя
Условия применения
- Квартили Q1 и Q3 уже рассчитаны согласованным методом.
- Данные числовые или порядковые с осмысленными расстояниями.
- Правило используется как диагностический фильтр, а не автоматическое решение об удалении.
Ограничения
- Выброс по правилу IQR может быть реальным важным наблюдением, а не ошибкой.
- Для некоторых распределений правило может помечать слишком много или слишком мало значений.
- Временные ряды, сезонность и сегменты лучше проверять отдельно, потому что общий IQR может скрыть структуру.
Подробное объяснение
Правило 1,5 IQR строит устойчивый диапазон вокруг центральной половины данных. Сначала находят Q1 и Q3, затем межквартильный размах IQR. После этого от Q1 отступают вниз на 1,5 IQR, а от Q3 вверх на 1,5 IQR. Значения за этими границами считают потенциальными выбросами.
Это правило связано с коробчатыми диаграммами. Усы box plot часто тянутся до последних значений внутри допустимых границ, а точки за пределами показываются отдельно. Такой график быстро показывает необычные наблюдения.
Сила правила в устойчивости: оно опирается на квартили, а не на среднее и стандартное отклонение. Поэтому один экстремум не так сильно меняет границы, как при методах, основанных на среднем.
Но правило не знает предметной области. Для финансовых операций крупный платеж может быть нормальным для корпоративного клиента, но выбросом для розницы. Поэтому после математической пометки нужно перейти к бизнес-проверке: сегмент, источник, дата, ошибка ввода, реальное событие или аномалия процесса.
Как пользоваться формулой
- Рассчитайте Q1 и Q3.
- Найдите IQR = Q3 - Q1.
- Посчитайте нижнюю границу Q1 - 1,5*IQR.
- Посчитайте верхнюю границу Q3 + 1,5*IQR.
- Проверьте значения за границами как возможные выбросы, не удаляя их автоматически.
Историческая справка
Правило 1,5 IQR известно по практике коробчатых диаграмм и разведочного анализа данных. Оно стало популярным потому, что дает простой устойчивый способ выделять необычные наблюдения без предположения о нормальном распределении. В отличие от правил на основе стандартного отклонения, IQR-границы хорошо работают как первичный визуальный фильтр для скошенных данных. В современной аналитике правило используют в отчетах, data quality проверках и исследовательском анализе. При этом профессиональная практика все чаще подчеркивает: математическая метка выброса не равна решению удалить наблюдение. Выброс может быть ошибкой, но может быть и самым важным сигналом.
Историческая линия формулы
Правило связано с традицией exploratory data analysis и коробчатыми диаграммами, популяризированными Джоном Тьюки. Сама формула является практическим эвристическим правилом на основе квартилей и межквартильного размаха, а не строгим законом удаления данных.
Пример
Для времени доставки Q1 = 24 минуты, Q3 = 38 минут. IQR = 38 - 24 = 14 минут. Нижняя граница: 24 - 1,5*14 = 3 минуты. Верхняя граница: 38 + 1,5*14 = 59 минут. Доставка на 62 минуты будет возможным выбросом, потому что 62 > 59. Это не значит, что значение нужно удалить. Возможно, это реальная задержка, которую нужно разобрать: проблема склада, адреса, курьера или пробок. Правило лишь говорит аналитику: это наблюдение необычно относительно центральной половины данных. Следующий шаг - открыть строку, проверить источник и понять, ошибка это или важный случай.
Частая ошибка
Частая ошибка - автоматически удалять все значения за границами 1,5 IQR. В продуктовой аналитике выбросы часто являются самыми важными случаями: сбои, VIP-заказы, крупные платежи, редкие ошибки. Вторая ошибка - считать границы по всем данным вместе, хотя разные сегменты имеют разные нормальные диапазоны. Третья ошибка - использовать правило на маленькой выборке без осторожности. Также важно помнить, что разные методы расчета квартилей могут слегка изменить границы.
Практика
Задачи с решением
Границы выбросов
Условие. Q1 = 10, Q3 = 18. Найдите границы по правилу 1,5 IQR.
Решение. IQR = 18 - 10 = 8. Нижняя граница 10 - 1,5*8 = -2. Верхняя граница 18 + 1,5*8 = 30.
Ответ. нижняя граница -2, верхняя 30
Проверить значение
Условие. Для предыдущих границ значение 35 является выбросом?
Решение. Верхняя граница равна 30. Значение 35 больше 30, значит оно является возможным выбросом по правилу IQR.
Ответ. да, возможный выброс
Дополнительные источники
- OpenStax Introductory Statistics, раздел Box Plots and Outliers
- NIST/SEMATECH e-Handbook of Statistical Methods, разделы о box plot
- OpenStax Statistics, раздел Quartiles and Interquartile Range
Связанные формулы
Аналитика
Квартили и межквартильный размах
Межквартильный размах показывает ширину средней половины данных: это разница между третьим и первым квартилем, устойчивее полного размаха.
Аналитика
Размах вариации
Размах вариации показывает расстояние между максимальным и минимальным значением набора данных. Это самый простой показатель разброса.
Аналитика
Выборочное стандартное отклонение
Выборочное стандартное отклонение показывает типичный масштаб отклонения значений от среднего в исходных единицах показателя.