[МУЗЫКА] [МУЗЫКА]
[ЗВУК] Здравствуйте!
В рамках прошлой лекции мы познакомились с такими понятиями,
как коэффициенты корреляции Пирсона, Спирмена и Кендалла.
И сегодня мы поговорим про то, как проверить их значимость.
Для начала мы всегда предполагаем,
что у нас есть некоторая генеральная совокупность, недоступная нам.
И в этой генеральной совокупности интересующие нас
переменные x и y имеют некоторую корреляционную зависимость,
то есть некоторое истинное значение коэффициента корреляции.
Обозначим его за ρ.
Соответственно, мы работаем с некоторой выборкой из этой генеральной совокупности,
и всё, что мы можем посчитать, то есть коэффициент корреляции Пирсона, Спирмена,
Кендалла, по сути своей являются некоторой оценкой истинного значения коэффициента
корреляции.
И как мы можем проверить его значимость?
Допустим, у нас мы предполагаем, что в генеральной совокупности нет
корреляционной связи между этими переменными,
то есть истинное значение коэффициента корреляции у нас равно нулю.
Но с чем мы работаем, то есть выборочные коэффициенты корреляции,
по сути своей являются случайными величинами.
Как вы помните,
любая функция от выборки случайных величин является случайной величиной.
Соответственно, даже если у нас в генеральной совокупности корреляционной
связи нет и истинное значение коэффициента корреляции равно нулю,
то по имеющейся у нас выборке мы легко можем получить значение
коэффициента корреляции, отличное от нуля.
Также проверить, является ли это допустимым разбросом
или на самом деле корреляция значима.
В таком случае мы можем сформулировать нулевую гипотезу о том,
что различие между нашим выборочным коэффициентом корреляции
и истинным значением коэффициента корреляции незначительно,
и при этом истинное значение у нас равно нулю, то есть корреляции нет.
И, соответственно, альтернативная гипотеза, она состоит в том, что различие
это значимо и в данных у нас присутствует значимая корреляционная связь.
Чтобы проверить такую гипотезу, нам необходимо сформулировать
некоторый статистический критерий, и, скорее всего, его статистика
будет каким-то образом зависеть от выборочного коэффициента корреляции.
А как вы помните, для того, чтобы проверить любой критерий,
нам необходимо знать предельное распределение.
Чтобы нам знать предельное распределение статистики критерия,
которое зависит от выборочного коэффициента корреляции, нам хорошо было
бы знать, а как распределён собственно сам по себе коэффициент корреляции.
И оказывается, что коэффициенты корреляции распределены следующим образом,
то есть они имеют нормальный закон распределения,
у которого среднее значение, то есть параметр сдвига, равен истинному
значению коэффициента корреляции в нашей генеральной совокупности,
а разброс, то есть параметр масштаба, он зависит как от истинного
значения коэффициента корреляции, так и от объёма выборки.
Раз мы знаем распределение коэффициента корреляции,
можем предложить некоторую статистику,
некоторый критерий для проверки интересующей нас гипотезы о значимости.
На самом деле, гипотезу о значимости коэффициентов корреляции всегда проверяют
с помощью статистики Стьюдента.
Выглядит она следующим образом и в пределе она имеет распределение
Стьюдента с n−2 степенями свободы, где n — это у нас объём нашей выборки.
И как мы видим, данный критерий у нас является двухсторонним.
Что это значит?
То есть мы можем проверить нашу нулевую гипотезу о том, что истинное значение
коэффициента корреляции равно нулю против общей альтернативы о неравенстве его нулю.
И в таком случае мы получаем двусторонний критерий, у которого есть
критическая область слева, справа, и доверительная область посередине.
Но бывают ситуации, когда мы,
например, хотим проверить одну из двух других альтернатив.
Например, мы хотим проверить нашу нулевую гипотезу против альтернативы,
состоящей в том, что у нас в данных отрицательная корреляционная связь,
то есть истинное значение корреляции у нас является меньше нуля.
В таком случае мы получаем левосторонний критерий.
Либо, наоборот, мы хотим проверить гипотезу о том, что у нас положительная
корреляция в данных, и в таком случае мы получаем правосторонний критерий.
И раз уж мы упомянули о том, что статистика критерия
значимости имеет в пределе распределение Стьюдента,
стоит сказать о том, что же это за распределение.
Данное распределение было предложено Уильямом Госсетом в начале
двадцатого века и своё название получило из-за того,
что Уильям Госсет печатала свои работы под псевдонимом Стьюдент.
И, на самом деле, с этим человеком, его вкладом в статистику,
мы ещё будем встречаться в дальнейшем.
Так что же это за распределение?
Допустим у нас есть следующий набор случайных величин,
независимых друг от друга, и все они имеют стандартное нормальное распределение,
то есть нормальное распределение с параметрами 0, 1.
Тогда случайная величина x, которая выглядит следующим образом,
как раз-таки имеет распределение Стьюдента с k степенями свободы.
На самом деле, распределение Стьюдента очень много где используется в статистике,
и мы будем очень много встречаться с ним в дальнейшем.
И, на самом деле, мы уже встречались с ним.
Помните, когда мы говорили с вами про выборки из генеральных совокупностей,
мы рассматривали такое понятие, как коэффициент доверия Стьюдента.
Так вот коэффициент доверия Стьюдента — это не что иное,
как квантили распределения Стьюдента.
И в следующий раз мы поговорим с вами о том, что же делать,
если при поиске зависимости в данных мы сталкиваемся с номинальными переменными,
а также подробно рассмотрим такое понятие, как таблица сопряжённости.