Доверительные интервалы для среднего

Построение доверительных интервалов

Целью статистики является возможность сделать выводы относительно ГС основываясь только на выборочных данных. Очень часто исследователя интересует чему равняется среднее значение исследуемого признака во всей ГС.

Пример:

Предположим в некотором исследовании приняло участие 64 человека - мужчины и женщины в возрасте от 18 до 30 лет и у каждого добровольца измерялся уровень экспрессии некоторого гена. И таким образом у нас есть данные 64 наблюдений со средним равным 100, и стандартным отклонением равным 4.

Однако исследователя интересует куда более глобальный вопрос - а чему равен средний уровень экспрессии этого гена в всей ГС?

Исходя из примера, ГС это будет все женщины и мужчины во возрасте [18; 30]. И пригласить всех этих людей непростая задача. К сожалению мы не можем абсолютно точно сказать чему именно равняется средний в ГС. Но мы сможем посчитать такой интервал, относительно которого можем быть уверены в том что он включает интересующий нас параметр.

Для этого нужно знать свойство нормального распределения и центрально предельную теорему.

И так мы знаем, что если бы многократно повторяли наш эксперимент, то все выборочные средние распределились бы нормальным образом вокруг среднего ГС (нас интересует этот параметр) и со стандартной ошибкой среднего $se = \frac{sd_{x}}{\sqrt{n}}$ . И также знаем что 95% всех выборочных средних по свойству нормального распределения лежали бы в диапазоне нашей средней ГС $\mu \pm 1.96\sigma$ или в нашем случае $\mu \pm 1.96se$ .

Мы как раз таки не знаем чему равняется среднее ГС. Но мы можем взглянуть на эту картинку немного по другому.

Предположим что мы рассчитывали бы такой показатель для каждого из выборочных средних. Пусть зеленый столбик выборочное среднее равняется $x_1$ , если бы мы рассчитали интервал для такого выборочного среднего $x_1 \pm 1.96se$ , то как видим, этот интервал включил бы в себя среднее ГС. Если бы мы рассчитали такой интервал для среднего $x_2$ , то такой интервал также включил в себя среднее ГС. Таким образом 95% процентов всех выборочных средних включили бы в себя среднее ГС, если бы рассчитывали такой интервал и только те выборочные средние, которые очень далеко отклонились от среднего ГС например $x_4$ и не включили бы в свой 95% интервал среднее ГС.

Таким образом если бы многократно извлекали бы выборки одинакового размера из ГС, в каждой выборке рассчитывали бы среднее и для него свой 95% доверительный интервал, то в 95% всех случаях такой интервал включал бы в себя среднее ГС.

Рассчитаем доверительный интервал для наших выборных данных.

Если мы рассчитали 95% доверительный интервал для среднего значения, то какие из следующих утверждений являются верными?

Среднее значение в генеральной совокупности точно превышает нижнюю границу 95% доверительного интервала.
Если многократно повторять эксперимент, то 95 % выборочных средних значений будут принадлежать рассчитанному нами доверительному интервалу.
Если многократно повторять эксперимент, для каждой выборки рассчитывать свой доверительный интервал, то в 95 % случаев истинное среднее будет находиться внутри доверительного интервала.
Мы можем быть на 95% уверены, что среднее значение в генеральной совокупности принадлежит рассчитанному доверительному интервалу.
Среднее значение в генеральной совокупности точно принадлежит рассчитанному доверительному интервалу.

PreviousЦентральная предельная теорема NextИдея статистического вывода, p-уровень значимости

Last updated 6 years ago