0:00
[МУЗЫКА]
[МУЗЫКА] Продолжаем
с вами рассматривать основные идеи проверки
статистических гипотез, свойства нормального распределения.
И попробуем посмотреть,
как же все-таки осуществлять проверку статистических гипотез.
Сейчас мы с вами поговорим о достаточно сложных вещах.
Было бы очень здорово, если бы вы внимательно прослушали лекционный курс,
относящийся к этой теме, несколько раз прослушали этот видеоролик.
Кроме того, внимательно выполнили задание для самостоятельной работы.
Чем лучше вы поймете эту достаточно важную тему, тем легче вам будет понимать
в целом применение математических методов психологии.
И начнем мы с вами с описания трех краеугольных камней идеи
статистической проверки гипотез.
Первая часть, первый камень в основании
этого самого элемента — это следствие центральной предельной теоремы.
Вы можете видеть на экране сейчас три важные формулы.
Самая важная для нас именно сейчас формула — это третья формула в ряду.
По этой формуле мы можем с вами осуществлять расчеты по выборке.
Если первые две формулы позволяют лишь нам прогнозировать некоторые параметры
генеральной совокупности,
то третья формула позволяет оперировать данными выборки.
А именно, мы можем с вами оценить стандартную ошибку среднего
для нашей генеральной совокупности, можем ее вычислить.
Второй важный элемент идеи проверки гипотез — это
поиск вероятностей того или иного события.
Основан этот поиск вероятности на уже известных нам свойствах нормального
распределения.
В данном случае вы видите сейчас перед собой две формулы.
Первая формула — это формула стандартного z-преобразования.
Вторая формула — модифицированная формула.
По этой модифицированной формуле мы можем с вами
спрогнозировать стандартные значения нашего среднего по генеральной
совокупности на основании имеющихся у нас данных по выборке.
А именно, средних значений по выборке и стандартных отклонений по выборке.
Окончательный вариант подобной формулы определения стандартных
значений среднего значения по генеральной совокупности для его прогнозов
вы видите сейчас на экране в виде третьей формулы во втором ряду наших формул.
Другими словами, значение формулы, которая у нас имеется,
является еще формулой z-критерия.
Третий краеугольный камень,
третье основание идеи проверки статистических гипотез — это знание о
доверительных интервалах или о вероятности, которую мы можем рассчитать,
для того чтобы определить, насколько все-таки вероятно то или иное событие,
которое мы с вами рассчитываем с помощью приведенного выше критерия.
То есть рассчитав z-критерий, мы с вами можем определить, насколько
сильно отличается предсказываемое нами значение по средней, например,
по генеральной совокупности, от среднего значения по выборке, имеющейся у нас.
С помощью доверительных интервалов и расчета вероятности мы сможем
с вами определить, насколько это событие, насколько эта разница вероятна,
более часто может встречаться по выборке или менее часто.
Кроме того, доверительные интервалы позволяют нам устанавливать пороги, при
которых мы можем принимать определенного типа гипотезы, либо одну гипотезу,
либо противоположную ей другую гипотезу.
Рассмотрим всё это на примере решения задачи.
Условие задачи вы сейчас видите на экране.
Внимательно прочитайте его.
По условию задачи нас просят рассчитать,
насколько среднее значение по выборке отличается от предсказанного нами,
установленного заранее 20 баллов.
То есть мы можем теоретически предполагать,
что среднее значение исследуемого признака у людей равняется
определенному количеству баллов, в нашем случае это 20.
Мы проводим выборочное исследование, определяем среднее значение по выборке,
и после этого можем сопоставить два этих числа и узнать насколько вероятно
подобного рода событие, существует ли достоверная разница между этими числами
или достоверной разницы не обнаруживается.
Какую информацию мы можем получить сейчас из имеющихся условий задачи?
Во-первых, информация о том, что у нас распределение в целом соответствует
нормальному виду, соответственно мы можем применять z-критерий; информацию о том,
что установлено пороговое значение α-ошибки первого рода 0,5.
То есть наши значения должны попадать в интервал 95%-го доверительного интервала.
Также уже подсчитаны параметры по выборке.
Как вы видите, не приведена таблица исходных данных для экономии нашего
времени и для экономии ваших ресурсов.
Сразу приведены параметры.
И на что мы обязательно должны обратить внимание: гипотеза
представлена в виде не направленной гипотезы.
То есть нас сейчас в условии задачи не спрашивают,
в какую именно сторону происходит отличие.
Наше среднее по выборке больше установленного в 20 баллов значения,
либо меньше.
Нас просят лишь найти различия.
Итак, приступаем к расчетам.
На первом этапе наша задача перевести все словесные формулировки на математический
язык, перевести нашу содержательную гипотезу в статистические гипотезы.
Статистических гипотез выделяют всего две.
Первая статистическая гипотеза обозначается H с индексом ноль.
Называется нулевая, или основная гипотеза.
И, как правило, она говорит об огромном
возможном числе влияний переменных друг на друга.
Другими словами, если мы из этого моря возможных влияний переменных друг на
друга вычленим какую-то из переменных и будем говорить о том, что ,возможно,
присутствует какая то закономерность, как раз таки нулевая гипотеза будет
утверждать, что никаких закономерностей не присутствует в нашей выборке.
Она будет отрицать их.
Противоположная ей гипотеза с литерой H с индексом
1 — альтернативная гипотеза, будет утверждать противоположное.
О том, что на самом деле, при вычленении из всего возможного варианта
случайных воздействий переменных друг на друга,
вычленяя какую-то переменную из этого списка,
мы будем обнаруживать закономерности в изменчивости в этой переменной.
То есть переменная будет меняться по каким-то правилам.
Обратите внимание на экран,
что мы уже сформулировали эти статистические гипотезы, записали их уже.
Самое главное, на что стоит обратить внимание, это то, что в процессе
расчета статистического критерия всегда проверяется нулевая гипотеза,
поскольку она простая.
Она утверждает лишь какое-то одно утверждение.
В данном случае, утверждение о том,
что разница между нашим предполагаемым средним значением по генеральной
совокупности и средним значением по выборке будет равна нулю.
То есть никакой разницы между ними мы не обнаружим.
Альтернативная же гипотеза предполагает множество вариантов ответов,
и она принимается обычно в том случае, если мы отказываемся, отвергаем нулевую
гипотезу, и в этом случае принимаем как альтернативу гипотезу альтернативную — H1.
На следующем этапе мы проводим расчет нашего z-критерия по
известной нам уже формуле.
Кроме того, для того чтобы узнать, насколько вероятно, собственно говоря,
событие, которое мы изучаем, мы также рассчитываем и вероятности этого события.
Вероятности мы с вами ищем по уже использованной нами таблице стандартных
нормальных вероятностей для z-значений.
Видим, что вероятность этого равняется 0,0013,
но при этом помним, что стандартные нормальные вероятности
подсчитаны для одностороннего z-критерия, то есть для тех случаев,
когда проверяется только одно направление, один вариант.
Помним о том, что нас интересует сейчас оба варианта.
То есть и тот вариант, когда среднее значение больше установленного числа,
больше прогноза нашего, а также тот вариант, когда среднее значение меньше.
Поэтому для того, чтобы грамотно записывать выводы, нам обязательно нужно
добавить к имеющемуся варианту о том, что среднее значение больше или
меньше установленного числа, второй вариант — альтернативный вариант,
тем самым увеличив p-уровень значимости или вероятность этого события в два раза.
Другими словами, для нашей задачи, p-уровень значимости будет равен 0,0026.
Другими словами, мы можем сказать,
что при проверке нулевой гипотезы мы с вами увидели,
что вероятность верности этой гипотезы равняется 0,26 %.
Это достаточно маловероятное событие.
Но насколько оно маловероятное, позволяют нам судить доверительные интервалы.
Вы сейчас видите на экране результаты расчета доверительных интервалов.
Видим, что наше значение, предсказанное значение среднего по генеральной
совокупности в доверительный интервал 95%-ый не попадает.
Другими словами, указанная нами в условии задачи ошибка α первого рода,
равная 0,5 не позволяет нам принять нулевую гипотезу.
P-уровень значимости, просчитанный по нашей выборке,
значительно меньше, чем установленная нами ошибка α первого рода.
В этом случае мы отказываемся, отклоняем нулевую гипотезу и принимаем
альтернативную гипотезу как более вероятную, как более истинную.
Подведем небольшие итоги.
Что же мы проделали с вами?
Мы проделали с вами расчет параметров по выборке, среднее значение,
стандартное отклонение.
Мы с вами применили статистический критерий для того,
чтобы попытаться ответить на вопрос гипотезы задачи.
Мы определили вероятность той ситуации, которую мы описывали в гипотезе,
вероятность или достоверность нашего критерия.
Мы сопоставили эту вероятность с граничным значением ошибки α первого рода,
и в итоге мы сформулировали окончательный вывод, полноценный,
полный содержательный вывод о том, что обнаружены статистически достоверные
различия по нашей выборке, то есть наше среднее значение по выборке достоверно
отличается от спрогнозированного нами.