Аналитика / Описательная статистика

Мода

Мода — это значение, которое встречается в наборе данных чаще всего. Она полезна для категорий, популярных вариантов и повторяющихся числовых значений.

Опубликовано: Обновлено:

Формула

$$Mo=\text{значение с максимальной частотой}$$
Столбчатая диаграмма Мода как самый высокий столбец

Категории показаны столбцами частот; самый высокий столбец отмечен как мода.

Мода — значение или категория с максимальной частотой.

Обозначения

$Mo$
мода набора данных, единица или категория исходного признака
$f(x)$
частота значения x, шт. или доля
$x$
конкретное значение или категория, зависит от признака

Условия применения

  • Нужно посчитать частоту каждого значения или категории.
  • Мода существует, если хотя бы одно значение встречается чаще остальных.
  • Набор может иметь несколько мод, если несколько значений имеют одинаковую максимальную частоту.

Ограничения

  • Для непрерывных данных без повторов мода отдельного значения может быть бесполезной.
  • Мода не показывает порядок и расстояние между значениями.
  • Если частоты близки, одна мода может создавать ложное ощущение явного лидера.

Подробное объяснение

Мода отвечает на вопрос частоты: какое значение встречается чаще всего. Для числовых данных это может быть самая частая оценка от 1 до 5. Для категориальных данных - самый частый тариф, город, статус, тип ошибки или причина обращения.

В отличие от среднего, мода не требует числовой шкалы. Это делает ее полезной для аналитики категорий. Если нужно понять самый распространенный канал продаж, среднее и медиана не помогут, а частоты и мода дадут прямой ответ.

Мода может быть неустойчивой в маленьких выборках. Если наблюдений мало, один дополнительный ответ способен изменить лидера. Поэтому в отчетах лучше показывать не только саму моду, но и частоту или долю: например, Basic — 50% ответов.

Для непрерывных величин, таких как время или сумма заказа, точные повторы могут быть редкими. Тогда моду ищут по интервалам: например, самый частый диапазон чека 1000-1500 рублей. Но выбор ширины интервала влияет на результат, поэтому метод группировки нужно описывать.

Как пользоваться формулой

  1. Составьте список значений или категорий.
  2. Посчитайте частоту каждого значения.
  3. Найдите максимальную частоту.
  4. Выберите значение или значения с этой частотой.
  5. Укажите частоту или долю моды, чтобы показать силу результата.

Историческая справка

Мода как показатель выросла из частотного описания данных. Когда статистика стала работать не только с измерениями, но и с категориями, понадобился простой ответ на вопрос о самом распространенном значении. В торговле это мог быть самый ходовой размер, в демографии - наиболее частая группа, в опросах - самый популярный ответ. В современной аналитике мода особенно важна для категориальных признаков: статусы, тарифы, устройства, причины ошибок и сегменты пользователей. Она не заменяет среднее или медиану, потому что отвечает на другой вопрос: не где центр числовой шкалы, а что чаще всего встречается в данных. Поэтому мода закрепилась в отчетах как короткий способ показать наиболее частый выбор рядом с таблицей частот.

Историческая линия формулы

У моды нет одного автора. Это базовая частотная мера описательной статистики, связанная с развитием таблиц частот, категориального анализа и практики описания наиболее распространенных значений в переписях, опросах, торговой статистике и прикладных отчетах.

Пример

В опросе 12 пользователей выбрали тарифы: Basic, Pro, Basic, Plus, Pro, Basic, Basic, Plus, Pro, Basic, Plus, Basic. Частоты: Basic — 6 раз, Pro — 3 раза, Plus — 3 раза. Мода равна Basic, потому что этот тариф встречается чаще всего. Если бы Basic и Pro встретились по 5 раз, набор был бы бимодальным: две категории имели бы одинаковую максимальную частоту. Для продуктовой аналитики мода показывает самый популярный вариант, но не объясняет причины выбора. Поэтому рядом часто смотрят доли, сегменты пользователей и динамику по времени.

Частая ошибка

Частая ошибка - пытаться считать среднее по категориям вместо моды. Например, для тарифов Basic, Pro и Plus среднее не имеет смысла, а мода имеет. Вторая ошибка - считать моду всегда единственной: у данных может быть две или больше мод. Третья ошибка - объявлять значение популярным без учета размера выборки; если опрошено пять человек, мода может быть случайной. Еще одна ошибка - использовать моду для непрерывных метрик с уникальными значениями без предварительного группирования в интервалы.

Практика

Задачи с решением

Мода оценок

Условие. Оценки клиентов: 5, 4, 5, 3, 5, 4, 2, 5. Найдите моду.

Решение. Оценка 5 встречается 4 раза, 4 встречается 2 раза, 3 и 2 — по одному разу. Мода равна 5.

Ответ. 5

Две моды

Условие. Категории обращений: доставка, оплата, доставка, возврат, оплата, возврат. Есть ли одна мода?

Решение. Каждая из трех категорий встречается по 2 раза. Максимальная частота одинаковая, поэтому набор имеет три моды и одного лидера нет.

Ответ. одной моды нет; три категории имеют одинаковую частоту

Дополнительные источники

  • OpenStax Introductory Statistics, раздел Measures of the Center of the Data
  • OpenStax Contemporary Mathematics, раздел Descriptive Statistics
  • NIST/SEMATECH e-Handbook of Statistical Methods, разделы о частотных распределениях

Связанные формулы

Аналитика

Среднее арифметическое

$\bar{x}=\frac{x_1+x_2+\dots+x_n}{n}$

Среднее арифметическое показывает типичный уровень числового показателя как сумму всех значений, деленную на количество наблюдений.

Аналитика

Медиана

$Me=x_{(\frac{n+1}{2})}\quad\text{для нечетного }n$

Медиана делит упорядоченный набор данных пополам: половина значений не больше медианы, а половина не меньше ее. Это устойчивая мера типичного значения.

Аналитика

Размах вариации

$R=x_{max}-x_{min}$

Размах вариации показывает расстояние между максимальным и минимальным значением набора данных. Это самый простой показатель разброса.