Нормальное распределение

Понятие нормального распределения
Стандартизация
Правила двух и трех сигм, использование стандартизации

Нормальное распределение - это унимодальное и симметричное распределение, у которого отклонение наблюдений от среднего подчиняются определенному вероятностному закону.

Интересен тот факт, что в реальным мире, реально распределены нормальным образом. Например, встретить очень высокого человека маловероятно, как и очень низкого. Но гораздо интереснее то, что действительно сохраняется это вероятностное распределение, и этот вероятностный закон, также предоставляет очень интересные возможности для статистического анализа.

z-стандартизация - это преобразование наших данных, которое позволяет нам любую нашу шкалу перевести на Z шкалу - где среднее значение будет равняться нулю, а стандартное отклонение равняться единице.

M_x = 0 \\ D_z = 1

z_i = \frac{x_i - \overline{X}}{sd_x}

Если из каждого наблюдения из нашей выборки отнимем среднее значение, и разделим получившееся выражение на стандартное отклонение, мы получим z-шкалу, где новое новое среднее будет 0, а дисперсия - 1.

На этом графике результат преобразование наших данных. Как видим не изменилось форма распределения.

Выберите верные утверждения:

Z значение может быть рассчитано без знания стандартного отклонения по выборке
Для каждого наблюдения в выборке можно рассчитать соответствующее z значение
Если все выборочные значения положительные, то и после z преобразования все значения останутся положительными.
Если для некоторого наблюдения z значение равняется нулю, следовательно это наблюдение совпадает со средним значением по выборке

z-преобразование позволяет ответить на вопрос, какой процент наблюдений лежит в абсолютно любом интересующим нас диапазоне.

На рисунке видно, что в пределах одного среднеквадратического отклонения лежит 68,26% значений, принимаемых нормально распределенной случайной величиной (соответствует доли площади под кривой распределения). В пределах двух среднеквадратических отклонений - уже 95,44%, а в пределах трёх - 99,72%. Это означает, что вероятность того, что случайная величина примет значение, отклоняющееся от математического ожидания больше, чем на три среднеквадратических отклонения, не превышает 0,28%, т.е. пренебрежимо мала.

Например, пусть имеется выборка наблюдений за ежедневными продажами в магазине. Значения наблюдений распределены по нормальному закону со средним значением 150000 руб. и среднеквадратическим отклонением 20000 руб. Тогда в соответствии с правилом 3-х сигм продажи ниже, чем 150 000 - 20 000 x 3 = 90 000, и выше, чем 150 000 + 20 000 х 3 = 210 000, являются практически невозможными событиями. Фактически это означает, что рассматривать данные объемы продаж как потенциально возможные не имеет смысла.

PreviousКвартили распределения и график box-plot NextЦентральная предельная теорема

Last updated 6 years ago