[МУЗЫКА] [МУЗЫКА]
Уважаемые слушатели,
данный урок посвящен критериям проверки нормальности выборки или соответствия
выборки нормальному закону распределения в пакете Statistica.
Для начала сгенерируем выборку,
которая точно будет подчиняться нормальному закону распределения.
Для того чтобы сгенерировать выборку в данном пакете,
мы должны сначала задать таблицу нужной размерности, то есть чтобы она содержала
такое количество строк, сколько наблюдений мы хотим в нашей выборке.
Я закрою имеющуюся таблицу и создам просто новую нужной размерности.
Допустим, я хочу сгенерировать 100 наблюдений.
Количество переменных в данном случае не важно,
мы будем делать всего одну переменную.
Пусть останется десять столбцов, они нам не помешают.
И сейчас в первой переменной Var1 мы сформируем выборку,
подчиняющуюся нормальному закону распределения.
Для этого, как это уже было рассмотрено в предыдущих уроках,
мы дважды нажимаем на имени переменной.
Назовем эту переменную Normal и в строке
функции зададим функцию генерации
случайной величины, подчиняющейся нормальному закону распределения.
Это функция RndNormal, мы начинаем ее набирать,
она появляется в строке подсказок.
И здесь в скобочках в качестве аргумента мы
должны задать среднее квадратическое отклонение.
Допустим, я хочу сформировать выборку с произвольными параметрами,
я задам среднее квадратическое отклонение, равное трем, то есть дисперсия у нас
будет равна девяти, а математическое ожидание пусть будет равно пяти.
Соответственно, для того чтобы сдвинуть нашу выборку, мы должны добавить пять.
Нажимаем OK.
Выражение в порядке, и у нас в первом столбце генерируется
случайная величина, подчиняющаяся стандартному закону распределения
с математическим ожиданием пять и дисперсией девять.
Для начала проведем предварительный анализ и построим
гистограмму и квантильный график, для того чтобы посмотреть,
насколько наша выборка соответствует нормальному распределению.
Для построения гистограммы, заходим в раздел Графика, Гистограммы,
выбираем первую переменную Normal,
все остальные настройки оставляем по умолчанию и смотрим на график.
Как видим, что, в принципе, наши данные достаточно неплохо соответствуют
гауссовскому «колокольчику», хотя, конечно же, имеются выбросы.
Теперь построим квантильный график для данной выборки: графика,
двумерные графы, квантильный график.
Выбираем переменную нормальную,
распределение также нормальное в данном случае, мы проверяем.
Нажимаем OK.
И как видим, все точки достаточно неплохо лежат вдоль линии.
Это также не противоречит нормальному закону, но данная
проверка является недостаточно строгой, и мы должны проверить по критериям,
соответствует ли наша выборка нормальному распределению или нет.
Для этого мы будем использовать критерий хи-квадрат, критерий Шапиро
— Уилка и поправки Лиллиефорса критерия Колмогорова — Смирнова.
Для начала используем критерий хи-квадрат, или критерий согласия Пирсона.
Для того чтобы использовать этот критерий, мы заходим в статистику,
Distributon Fitting, или подгонка распределения.
Как видите, все распределения, для которых может быть осуществлена
проверка по данному критерию, у нас расположены в двух окнах, соответственно,
непрерывным и дискретным распределением: Continuous distributions и Discrete.
Выбираем нормальное распределение,
нажимаем OK, далее задаем переменную.
Это первая переменная, которую мы назвали Normal.
И прежде чем подводить итог, нажимая на клавишу Summary,
мы можем перейти на вкладку Parameters.
Здесь у нас будут предложены оценки параметров,
а также оценки математического ожидания и дисперсии.
Но дело в том, что для нормального закона параметрами как раз таки и являются
основные числовые характеристики матожиданий и дисперсии.
Соответственно, вот эти два окна для нормального распределения будут совпадать.
Мы задавали математическое ожидание, равное пяти, его оценка получилась 5,26.
Дисперсию мы задавали, равную девяти.
Оценка получилась немного завышенная — 10,15.
Теперь мы можем перейти собственно к результатам анализа.
Нажимаем на клавишу Summary.
И здесь мы видим большую таблицу, которая содержит наблюдаемые частоты,
накопленные частоты, наблюдаемые частоты в процентах,
накопленные частоты в процентах, теоретические частоты и так далее.
Здесь все эти столбики подписаны.
И, соответственно,
в последнем столбце мы видим отклонения наблюдаемых и теоретических частот.
Это и есть основа статистики хи-квадрат.
Она проверяет, насколько сильны эти отклонения.
Само значение статистики хи-квадрат у нас указано в шапке таблицы.
Для нашего случая оно равно 13,25.
Число степеней свободы равно восьми.
Значение p-value равно 0,10,
значение p-value равно 1/10.
Как на основании этих результатов мы можем принять либо отклонить гипотезу о виде
распределения?
Если подходить к решению задачи в соответствии с классическим алгоритмом
проверки гипотез, мы должны определить критическое значение и сравнить
выборочное значение статистики с критическим.
Поскольку статистика хи-квадрат описывает отклонение выборочного распределения
от теоретического, соответственно, чем меньше будут отклонения, тем более надежно
мы будем принимать гипотезу о виде соответствующего распределения.
Следовательно, нам сейчас нужно определить критическое значение.
В пакете Statistics это можно сделать с помощью вероятностного калькулятора.
Мы заходим в раздел Statistics, вероятностный калькулятор, распределения.
Наша статистика подчиняется распределению хи-квадрат, поэтому
здесь мы должны выбрать не нормальное распределение, с которым идет проверка,
а должны указать распределение статистики, то есть хи-квадрат.
Выбираем здесь это значение.
Дальше, если мы хотим проверить гипотезу на уровне значимости 0,05,
соответственно, мы должны указать значение
вероятности 1 − α, то есть 0,95.
Далее, число степеней свободы берется то, которое посчитано у нас в таблице.
В данном случае число степеней свободы равно восьми.
Следовательно, в этом окошке мы указываем восемь и нажимаем клавишу Compute.
Вот это критическое значение, которое мы можем допустить,
для того чтобы принять гипотезу о нормальности.
Оно равно 15,5.
В нашем случае значение хи-квадрат равно 13,25,
что меньше, чем критическое, соответственно,
у нас нет оснований отклонить нулевую гипотезу,
и мы можем вынести решение о том, что наши данные не противоречат нормальному закону.
Но можно было сделать и проще,
нам само по себе критическое значение в данном случае не нужно.
Оно нужно только для сравнения, для того чтобы принять, либо отклонить гипотезу.
Сделать такой вывод: принять или отклонить гипотезу,
мы могли и на основании только значения p-value, если p-value меньше,
чем 005 — гипотеза отклоняется, если больше, чем 0,05 — принимается.
Соответственно, в нашем случае значение p-value равно 1/10,
то есть больше чем уровень значимости 0,05,
то есть у нас нет оснований отклонить нулевую гипотезу, и мы можем
сделать вывод о том, что наша выборка не противоречит нормальному закону.
Как еще можно было проверить нашу выборку на нормальность?
Если мы зайдем в раздел Statistics, основные статистики таблицы,
таблицы частот,
и пройдём на вкладку нормальность,
мы увидим основные критерии: критерий Колмогорова — Смирнова,
критерий Лиллиефорса и критерий Шапиро — Уилка.
Критерий Колмогорова — Смирнова используется для
проверки нормальности в случае,
когда теоретические и математические ожидания дисперсии, известны.
В нашем случае мы не знаем математическое ожидание и дисперсию,
соответственно, мы выбираем критерий Лиллиефорса.
Также мы можем добавить сюда критерий Шапиро — Уилка.
По умолчанию он не предлагается,
но мы можем поставить галочку в соответствующем окне.
Далее, нажимаем на клавишу теста нормальности,
выбираем переменную и видим следующие выводы.
Для построенной выборки по критерию Лиллиефорса нормальность отклоняется,
так как значение вероятности у нас получилось меньше, чем 0,05.
А вот по критерию Шапиро — Уилка мы можем принять нормальность данного
распределения.
То есть получилось,
что два из трех критериев признают эту выборку как нормальную.
В принципе, мы можем продолжить дальше работу с ней,
как с выборкой, сделанной из нормальной генеральной совокупности.
Также результаты анализа по этим
двум критериям мы могли добавить и к гистограмме.
Когда мы строили гистограмму, если мы перейдем на вкладку Advanced,
как видите, мы можем добавить к картинке еще и значение Statistics,
в частности, статистики Шапиро — Уилка и Колмогорова — Смирнова.
И у нас помимо гистограммы на графике
сразу появляется информация о результатах анализа и проверки на нормальность.
Здесь у нас указывается вероятность для критерия Колмогорова — Смирнова.
Указано, что p меньше значимого, то есть гипотеза о нормальности по
критерию Колмогорова — Смирнова отклоняется.
По критерию Лиллиефорса вероятность также меньше, чем 0,05,
то есть также является незначимой.
А по статистике Шапиро — Уилка вероятность больше, чем 0,05,
то есть мы получаем абсолютно аналогичные выводы.
То есть по данному критерию мы принимаем предположение о нормальности
данного распределения.
[МУЗЫКА]
[МУЗЫКА]