Shad-ml
  • Shad-ml
  • Основы статистики (часть 1)
    • Основы статистики (часть 1)
    • Генеральная совокупность и выборка
    • Типы переменных. Количественные и номинативные переменные
    • Описательная статистика
    • Меры центральной тенденции
    • Меры изменчивости
    • Квартили распределения и график box-plot
    • Нормальное распределение
    • Центральная предельная теорема
    • Доверительные интервалы для среднего
    • Идея статистического вывода, p-уровень значимости
Powered by GitBook
On this page

Was this helpful?

  1. Основы статистики (часть 1)

Нормальное распределение

PreviousКвартили распределения и график box-plotNextЦентральная предельная теорема

Last updated 5 years ago

Was this helpful?

  • Понятие нормального распределения

  • Стандартизация

  • Правила двух и трех сигм, использование стандартизации

Нормальное распределение - это унимодальное и симметричное распределение, у которого отклонение наблюдений от среднего подчиняются определенному вероятностному закону.

Интересен тот факт, что в реальным мире, реально распределены нормальным образом. Например, встретить очень высокого человека маловероятно, как и очень низкого. Но гораздо интереснее то, что действительно сохраняется это вероятностное распределение, и этот вероятностный закон, также предоставляет очень интересные возможности для статистического анализа.

z-стандартизация - это преобразование наших данных, которое позволяет нам любую нашу шкалу перевести на Z шкалу - где среднее значение будет равняться нулю, а стандартное отклонение равняться единице.

Если из каждого наблюдения из нашей выборки отнимем среднее значение, и разделим получившееся выражение на стандартное отклонение, мы получим z-шкалу, где новое новое среднее будет 0, а дисперсия - 1.

На этом графике результат преобразование наших данных. Как видим не изменилось форма распределения.

Выберите верные утверждения:

z-преобразование позволяет ответить на вопрос, какой процент наблюдений лежит в абсолютно любом интересующим нас диапазоне.

На рисунке видно, что в пределах одного среднеквадратического отклонения лежит 68,26% значений, принимаемых нормально распределенной случайной величиной (соответствует доли площади под кривой распределения). В пределах двух среднеквадратических отклонений - уже 95,44%, а в пределах трёх - 99,72%. Это означает, что вероятность того, что случайная величина примет значение, отклоняющееся от математического ожидания больше, чем на три среднеквадратических отклонения, не превышает 0,28%, т.е. пренебрежимо мала.

Например, пусть имеется выборка наблюдений за ежедневными продажами в магазине. Значения наблюдений распределены по нормальному закону со средним значением 150000 руб. и среднеквадратическим отклонением 20000 руб. Тогда в соответствии с правилом 3-х сигм продажи ниже, чем 150 000 - 20 000 x 3 = 90 000, и выше, чем 150 000 + 20 000 х 3 = 210 000, являются практически невозможными событиями. Фактически это означает, что рассматривать данные объемы продаж как потенциально возможные не имеет смысла.

Mx=0Dz=1M_x = 0 \\ D_z = 1Mx​=0Dz​=1
zi=xi−X‾sdxz_i = \frac{x_i - \overline{X}}{sd_x}zi​=sdx​xi​−X​
Нормальное распределение
Стандартизация
Форма распределения после преобразования
Правило 2 и 3 сигм, таблица нормального распределения