[МУЗЫКА]
[МУЗЫКА] [МУЗЫКА] До сих пор под проверкой
статистической гипотезы мы подразумевали определение p-уровня значимости.
Но в конечном итоге исследователь, ориентируясь на p-уровень значимости,
должен принять решение: отклонять нулевую гипотезу или не отклонять.
В случае отклонения нулевой гипотезы он получает подтверждение содержательной,
в случае неотклонения нулевой гипотезы содержательная гипотеза не подтверждается.
Ну, к какому исходу стремится исследователь,
нетрудно догадаться: конечно же, он стремится к отклонению нулевой гипотезы.
Рассмотрим возможные исходы принятия решения в зависимости от действительного
положения дел.
На экране вы видите таблицу, которая связывает
между собой решение исследователя
и ситуацию в действительности.
Какие исходы вызывают беспокойство?
Ну, прежде всего обратим внимание на левый верхний квадрат таблицы,
когда нулевая гипотеза истинна, а исследователь ее отклоняет.
Это то, что называется ошибкой первого рода,
и вероятность этой ошибки обозначается, как α.
Вот эту вероятность правильнее будет трактовать,
как допустимую вероятность ошибки первого рода, потому что исследователь еще
до исследования задает допустимую вероятность ошибки первого рода,
ну и научное сообщество как бы контролирует поведение исследователя
именно по значению этой допустимой вероятности ошибки первого рода.
Как работает α, как допустимая вероятность ошибки первого рода?
Если получаемый в исследовании результат p-уровня значимости не превышает α,
то в этом случае исследователь вправе отклонять нулевую гипотезу.
Если же p-уровень значимости превышает α, то увы,
исследователь не вправе отклонять нулевую гипотезу.
[БЕЗ_ЗВУКА] Нижний
левый квадрат соответствует вероятности 1 − α — это когда исследователь не отклоняет
нулевую гипотезу, которая на самом-то деле в генеральной совокупности верна.
Вот эта вероятность, 1 − α, называется доверительной вероятностью,
поскольку она задает интервал значений,
в которых исследователь обязан принять
нулевую гипотезу и не вправе ее отклонять.
Теперь рассмотрим еще одно ошибочное решение исследователя, то,
что называется ошибкой второго рода.
Это случай, когда исследователь не смог отклонить нулевую гипотезу, которая на
самом-то деле в генеральной совокупности не верна, а верна альтернативная гипотеза.
Это тоже неправильное решение,
и называется это решение ошибкой второго рода.
Вероятность этой ошибки β обозначается, и,
к величайшему сожалению, β нам остается неизвестной.
То есть когда исследователь не смог отклонить
нулевую гипотезу, альтернативная гипотеза,
ну и соответственно, содержательная гипотеза вполне вероятно, что верна,
и вероятность этого, к сожалению, нам остается неизвестной.
Единственное, что мы можем сказать — что чем меньше α,
тем больше β.
Ну, также, чем больше объем выборки,
тем при прочих равных условиях меньше β.
Ну и чем больше величина эффекта, то есть величина отклонения от того,
что утверждает нулевая гипотеза, тем меньше β.
Таким образом в любом случае: и в случае,
когда мы отклонили нулевую гипотезу, остается вероятность ошибки того,
что она не верна, вероятность ошибки первого рода.
И в том случае, когда мы не смогли отклонить нулевую гипотезу,
остается вероятность (и в этом случае она неизвестна), вероятность того,
что нулевая гипотеза все-таки не верна, а верна альтернативная гипотеза.
То есть остается всегда больший или меньший уровень неуверенности.
И любое решение подразумевает, в общем-то, немалую вероятность ошибки.
Вот, скажем, в случае отклонения нулевой гипотезы эта
ошибка определяется уровнем α и составляет 0,05.
Кстати, казалось бы, довольно большая величина, поскольку это означает,
что каждое двадцатое из опубликованных исследований на самом-то деле не
соответствует действительности, поскольку α задана на уровне 0,05.
И казалось бы, следовало бы уменьшить α, ну, скажем, до 0,001.
Но в этом случае мы непредсказуемым образом увеличиваем вероятность
ошибки второго рода.
Поэтому в научном сообществе и принят такой лояльный уровень допустимой
ошибки первого рода, допустимой вероятности ошибки первого рода.
В данной ситуации возникает закономерный вопрос: а возможно ли движение к
истине в такой ситуации неопределенности?
Ну, здесь следует отметить,
что более точные сведения о том,
что называется величина эффекта, то есть вот на рисунке это расстояние от A до B,
расстояние от нулевого состояния природы до альтернативного.
Вот величина эффекта, она может быть оценена,
но для этого необходимо проведение не одного выборочного исследования,
а целой серии выборочных исследований.
Как это делается, например, в фармакологии?
Вы бы не стали бы, наверное, доверять лекарству, которое...
эффективность которого была бы подтверждена лишь одним выборочным
исследованием.
Проводится множество выборочных исследований,
и по их результатам строится по точкам альтернативное распределение.
И это альтернативное распределение позволяет достаточно точно оценить
величину эффекта, вот эту самую величину эффекта от A до B.
Также более точные результаты можно получить при помощи метаанализа.
Метаанализ — это техника объединения множества исследований одной и той же
проблемы, которая позволяет также выяснить реальное положение дел в действительности.
На экране вы видите таблицу, которая иллюстрирует традиционную интерпретацию
различных значений p-уровня значимости при заданном α 0,05.
Понятное дело, что рубежом для противоположных
интерпретаций является p-уровень значимости 0,05.
Если p > 0,05, то мы не вправе отклонять нулевую гипотезу,
тем самым наша содержательная гипотеза не подтверждается.
Если же p-уровень значимости не превышает α,
то в этом случае мы вправе отклонять нулевую гипотезу.
Однако есть нюансы, которые вот изображены на экране, да?
Если p-уровень значимости больше 0,1, в этом случае у нас нет никаких сомнений в
том, что нулевая гипотеза не верна, и в этом случае мы делаем
решительный вывод: «Статистически достоверные различия не обнаружены».
Если p-уровень значимости лишь незначительно превышает α,
находится в диапазоне от 0,05 до 0,1, в этом случае исследователь вправе выразить
свое сомнение в истинности нулевой гипотезы, и обычно это выражается
в таких терминах, как «Различия обнаружены на уровне статистической тенденции» или
«Различия лишь немного не достигают статистической значимости» и т.д.
Наконец, если p-уровень значимости в пределах 5α,
в этом случае мы отклоняем нулевую гипотезу и делаем вывод: «Обнаружены
статистически достоверные или статистически значимые различия» или
«статистически достоверная, статистически значимая взаимосвязь».
Ну и наконец еще один нюанс: когда p-уровень значимости совсем маленький,
скажем, в пределах 0,01, в этом случае мы констатируем высокую значимость и
более решительно отклоняем нулевую гипотезу и интерпретируем этот результат,
как «Различия обнаружены на высоком уровне статистической значимости»
или «Взаимосвязь обнаружена на высоком уровне статистической значимости».
Еще один нюанс: направленные и ненаправленные альтернативы.
До сих пор мы предполагали так называемую ненаправленную или
двунаправленную альтернативу, да?
Обратим внимание, что нулевая гипотеза — это утверждение об
отсутствии связи или об отсутствии различий.
Естественно, отклоняя нулевую гипотезу, мы можем предполагать
две альтернативы: либо M₁ > M₂, либо M₂ > M₁.
В связи с тем, что до начала исследования мы не можем с уверенностью сказать,
какое среднее больше, какое меньше, то есть в какую сторону будет отклоняться
нулевая гипотеза по результатам исследований,
мы обязаны предполагать двустороннюю альтернативу.
Соответственно, p-уровень значимости определяется по двум хвостам
теоретического распределения.
Однако в редких случаях мы вправе заранее утверждать,
в какую сторону мы получим отклонение от нулевой гипотезы.
Например, если это репликация исследования, повторение исследования,
которое было проведено, скажем, ранее на несколько иной выборке: скажем,
что коммуникативная компетентность девушек выше, чем у юношей.
Это было получено в предшествующем исследовании,
и мы проводим исследование для того, чтобы подтвердить это предположение.
В таких случаях мы вправе предполагать одностороннюю альтернативу.
И в этом случае p-уровень значимости определяется по одному из хвостов
распределения.
Ну, нетрудно догадаться, какая ситуация более выгодна для исследования.
При одном и том же эмпирическом результате,
если альтернатива двусторонняя, то p-уровень значимости будет в два
раза больше, чем в случае односторонней альтернативы.
p-уровень значимости будет в два раза меньше, чем в первом случае.
Естественно, что один и тот же результат в первом случае будет иметь меньшую
статистическую значимость,
во втором случае — большую статистическую значимость.
Ну и наконец рассмотрим вкратце последовательность любого
эмпирического исследования.
Она представлена на экране.
Первое — это формулировка содержательной гипотезы,
второе — это операционализация понятий, определение списка переменных, в том числе
предварительная формулировка доступной проверки статистической гипотезы.
Третье — это проведение измерений и накопление исходных данных,
далее — окончательная формулировка статистической гипотезы, выбор
статистического критерия, установление α-уровня статистической значимости.
Затем — определение p-уровня статистической значимости в результате
применения статистического критерия, и наконец — статистический вывод,
статистическое решение о принятии или отклонении нулевой гипотезы.
[БЕЗ_ЗВУКА]