Нормальное распределение

  • Понятие нормального распределения

  • Стандартизация

  • Правила двух и трех сигм, использование стандартизации

Нормальное распределение - это унимодальное и симметричное распределение, у которого отклонение наблюдений от среднего подчиняются определенному вероятностному закону.

Интересен тот факт, что в реальным мире, реально распределены нормальным образом. Например, встретить очень высокого человека маловероятно, как и очень низкого. Но гораздо интереснее то, что действительно сохраняется это вероятностное распределение, и этот вероятностный закон, также предоставляет очень интересные возможности для статистического анализа.

z-стандартизация - это преобразование наших данных, которое позволяет нам любую нашу шкалу перевести на Z шкалу - где среднее значение будет равняться нулю, а стандартное отклонение равняться единице.

Mx=0Dz=1M_x = 0 \\ D_z = 1
zi=xiXsdxz_i = \frac{x_i - \overline{X}}{sd_x}

Если из каждого наблюдения из нашей выборки отнимем среднее значение, и разделим получившееся выражение на стандартное отклонение, мы получим z-шкалу, где новое новое среднее будет 0, а дисперсия - 1.

На этом графике результат преобразование наших данных. Как видим не изменилось форма распределения.

Выберите верные утверждения:

z-преобразование позволяет ответить на вопрос, какой процент наблюдений лежит в абсолютно любом интересующим нас диапазоне.

На рисунке видно, что в пределах одного среднеквадратического отклонения лежит 68,26% значений, принимаемых нормально распределенной случайной величиной (соответствует доли площади под кривой распределения). В пределах двух среднеквадратических отклонений - уже 95,44%, а в пределах трёх - 99,72%. Это означает, что вероятность того, что случайная величина примет значение, отклоняющееся от математического ожидания больше, чем на три среднеквадратических отклонения, не превышает 0,28%, т.е. пренебрежимо мала.

Например, пусть имеется выборка наблюдений за ежедневными продажами в магазине. Значения наблюдений распределены по нормальному закону со средним значением 150000 руб. и среднеквадратическим отклонением 20000 руб. Тогда в соответствии с правилом 3-х сигм продажи ниже, чем 150 000 - 20 000 x 3 = 90 000, и выше, чем 150 000 + 20 000 х 3 = 210 000, являются практически невозможными событиями. Фактически это означает, что рассматривать данные объемы продаж как потенциально возможные не имеет смысла.

Last updated