0:00
[МУЗЫКА]
[МУЗЫКА] Теперь
рассмотрим основной коэффициент корреляции — корреляцию r-Пирсона.
На экране вы видите ее формулу.
На первый взгляд, она носит несколько угрожающий характер.
На самом деле она очень проста,
и мы сейчас с вами рассмотрим логику ее построения.
Предположим, на выборке в 20 человек измерено два показателя:
вербальный интеллект и невербальный интеллект.
Таблицу исходных данных вы видите на экране.
Прежде всего посчитаем среднее значение для той
и другой переменной и построим диаграмму рассеяния.
Вот вы видите ее на экране.
Каждой точке соответствует один человек, один испытуемый,
который характеризуется двумя показателями: показателем вербального
интеллекта и показателем невербального интеллекта.
Теперь проведем пунктирные линии, которые соответствуют средним значениям.
Вот вы видите на экране диаграмму рассеяния и средние значения,
которые проведены пунктирной линией.
Как только мы провели линии средних, сразу же видно,
какие точки о какой связи свидетельствуют.
Например, те точки, которые попадают в правый верхний квадрант, свидетельствуют
о положительной связи, так же как точки, которые попадают в левый нижний квадрант.
Чем они характеризуются?
Тем, что отклонения от средних и по той
и по другой переменной имеют одинаковый знак.
В правом верхнем квадранте отклонение от средних положительное,
а в левом нижнем — отрицательное.
Соответственно, произведения отклонений являются положительными для
того и другого квадранта и свидетельствуют о прямой пропорции, о положительной связи.
Напротив, точки в левом верхнем квадранте и в правом нижнем
квадранте свидетельствуют об отрицательной связи,
и произведения отклонений от средних являются отрицательными.
Если просуммировать все произведения отклонений по выборке,
то мы получим сумму отклонений, и если она положительная,
то это будет свидетельством положительной связи, прямой пропорции двух переменных,
если же она будет отрицательная, эта сумма,
то это будет свидетельствовать об отрицательной связи, обратной пропорции.
В данном случае, видимо, эта сумма будет положительной.
Однако эта сумма, естественно, будет зависеть от количества наблюдений,
и для того, чтобы избавиться от влияния количества наблюдений,
вполне логично поделить ее на (N – 1), так же как в формуле дисперсии.
Итак, сумма произведения отклонений, деленная на (N – 1), — это ковариация,
ковариация как мера совместной изменчивости двух переменных.
Вот вы видите ее на экране.
Ковариация по своему смыслу сходна с понятием «дисперсия».
Если мы посчитаем, скажем,
произведение отклонений для одной и той же переменной, мы получим дисперсию.
Ковариация — это весьма информативная
мера совместной изменчивости двух переменных, однако есть одно неудобство.
Ковариация зависит от единиц измерения, от дисперсий той и другой переменной.
Как избавиться от этой зависимости?
Нормировать отклонения.
Точно так же, как бы поступали при z-преобразовании: нормировать
отклонения по x сигмой x, а отклонения по y — сигмой y.
И, таким образом, нормируя отклонения, мы получаем корреляцию r-Пирсона.
Таким образом, корреляция Пирсона — это нормированная, или стандартизированная,
ковариация.
Вот вы видите формулу на экране.
Отметим, что на величину корреляции дисперсия не влияет.
Не влияет также и линейное преобразование той и другой переменной.
Например, мы можем на одной и той же выборке измерить рост в сантиметрах,
а вес в килограммах, и посчитать корреляцию, затем измерить рост в дюймах,
а вес в фунтах, посчитать корреляцию — мы получим одно и то же значение.
Обратим внимание, что после z-преобразования той и другой переменной
формула в существенной степени упрощается, вы ее видите внизу экрана.
Сейчас вы видите последовательность расчета корреляции r-Пирсона.
Расчет корреляции Пирсона — весьма трудоемкое занятие,
если это производится вручную.
Сначала подсчитываются суммы для той и другой переменной,
чтобы посчитать в дальнейшем средние значения,
затем для каждого значения подсчитываются отклонения от
среднего по одной переменной и по другой переменной (это последующие два столбца),
затем эти отклонения для каждого наблюдения возводятся в квадрат,
затем квадраты отклонений суммируются для того,
чтобы получить значение дисперсий для той и другой переменной, и, наконец,
вычисляются произведения отклонений для каждого наблюдения.
Затем все это суммируется и подставляется в формулу.
В данном случае корреляция между вербальным и невербальным
интеллектом составляет 0,517.
Статистическая значимость корреляции r-Пирсона может определяться
по таблицам критических значений для
данного числа наблюдений или по критерию t-Стьюдента и в таблице Excel, а внизу
приведена табличка вычисления коэффициента корреляции при помощи программы SPSS.
Мы видим, что каждая клеточка,
каждая ячейка этой таблицы содержит три значения: это, собственно,
сама величина корреляции, статистическая значимость и объем выборки.
Важным приложением коэффициента корреляции является понятие «регрессия».
Вот рассмотрим это понятие.
На экране вы видите график двумерного рассеяния для задачи изучения
связи IQ (интеллекта) и средней отметки.
Прямая линия — это линия регрессии.
Вот рассмотрим основные обозначения.
Коэффициент корреляции для данного графика двумерного рассеяния равен 0,610,
yi — это истинное значение для испытуемого с номером i,
yi с шапочкой — это оценка этого i-того значения по значению x при
помощи линии регрессии, то есть yi с шапочкой находится на прямой линии.
Вот, скажем, для значения IQ 10 оценка y по x составляет 4.
Хотя на самом-то деле мы видим,
что истинные значения отметки несколько отклоняются от этой прямой линии, их три.
ei — это ошибка оценки, она равна
разности между истинным значением y и оцененным при помощи линии регрессии.
Линия регрессии, прямая, аппроксимирует точки методом наименьших квадратов,
то есть сумма квадратов отклонений, сумма квадратов ошибок,
является минимальной для этой самой линии.
На экране вы видите уравнение регрессии.
Уравнение регрессии — это уравнение прямой линии.
В левой части — это оценки y, в правой части — bxi + a,
где b — это коэффициент регрессии, a — свободный член.
Коэффициент регрессии для двумерной регрессии выражается
через описательные статистики и пропорционален корреляции,
а свободный член (вот вы видите его) равен My – bMx.
Коэффициент регрессии b определяет наклон линии регрессии,
а свободный член a определяет тот отрезок,
который отсекает линия регрессии от вертикальной оси,
точнее, расстояние от этой точки до среднего значения.
Обратим внимание, что если коэффициент корреляции будет равен 0, то линия
регрессии пройдет параллельно оси x через среднее значение зависимой переменной y.
Это так называемый тривиальный случай предсказания, когда
информация об интеллекте, скажем, ничего нам не дает для предсказания отметки.
В этом случае при любом значении интеллекта в отношении отметки,
в отношении успеваемости, мы можем сказать только одно: успеваемость равна четырем,
то есть среднему значению.
Также важной особенностью является то, что rxy,
то есть коэффициент корреляции между x и y,
равен коэффициенту корреляции между y и оценками y,
поскольку линейные преобразования не влияют на коэффициент корреляции.
Мы запомним это обстоятельство, поскольку оно широко используется в множественной
регрессии, в оценке криволинейности и так далее.
Обратим внимание, что после z-преобразования уравнение регрессии в
существенной степени упрощается,
и остается только один коэффициент регрессии,
который в данном случае равен коэффициенту корреляции после z-преобразования.
Такой коэффициент регрессии называется еще стандартизированным
коэффициентом регрессии, и это понятие мы будем использовать,
когда будем рассматривать множественную регрессию.
И еще одно замечание.
Если коэффициент корреляции равен 1, то все точки будут лежать на одной прямой,
ошибки предсказания будут равны 0, и это тот случай,
когда зависимая переменная целиком и полностью
детерминирована независимой переменной, то есть это случай,
когда если бы отметка зависела исключительно от интеллекта и больше ни
от каких других обстоятельств.