Позволяет нам ответить на вопрос, насколько в принципе высокие значение принимает переменная
Мода
Медиана
Среднее значение
Выбор меры центральной тенденции
Свойства среднего
Распределение количественного признака, для этого используется гистограмма частот.
Гистограмма частот
Этот график позволяет сделать первое впечатление о том, какая форма распределения нашего количественного признака.
Симметричное распределение - когда большинство наблюдений в центре распределения, и чем дальше мы отклоняемся от середины распределения, тем реже встречаются значения признака.
Симметричное распределение
Асимметричное распределение
Мода (mode) – значение признака, которое встречается максимально часто.
Мода - Dot plot
Медиана (median) – значение признака, которое делит упорядоченное множество данных пополам.
Медиана
Медиана при четном количестве
Среднее значение (mean) – сумма всех значений признака, деленная на количество измеренных значений.
X=n∑inxi
Выборочное среднее:
X
Среднее ГС:
Mx
Две моды - красные линии
В каких случаях вместо среднего значения лучше использовать моду или медиану в качестве центральной тенденции?
Свойства среднего:
Mx=n1∑xiMx+C=Mx+CMx∗C=Mx∗C∑(xi−Mx)=0
Свойства среднего
Задача
Предположим, вы провели исследование с целью выяснить, какой доход у граждан, проживающих в двух разных городах (по 100 человек из каждого города). Распределение заработной платы изображено на графике. Какую из мер центральной тенденции осмысленнее всего использовать для описания полученных данных?
Ну явно тенденция - это два пика. И соответственно 2 моды отобразят ее лучше, чем серединка между пиками в виде среднего значения и медианы.