0:13
Перейдём к свойствам,
которые требуют нормальности ошибок ε.
Опять же это свойство для конечных выборок.
Мы говорили о том,
что можно проверять гипотезы о значимости отдельного коэффициента или строить
доверительные интервалы для отдельного коэффициента с помощью t-статистики.
Раньше t-статистика считалась как оценка коэффициента β_j минус предполагаемое
значение коэффициента — если тестировалась гипотеза о незначимости данного фактора,
то, естественно, предполагаемое значение равнялось нулю,
— делить на стандартную ошибку оценки коэффициента.
Так выглядела t-статистика.
Если мы, игнорируя нарушение предпосылки,
будем по-прежнему использовать эту t-статистику, то окажется, к сожалению,
что она только называется t-статистикой, а t-распределения она не имеет.
И проверять таким образом гипотезу с помощью неё о значимости отдельного
коэффициента или строить доверительные интервалы для значимости
отдельного коэффициента сейчас нельзя.
Также мы говорили, что RSS, делённое на σ² при фиксированных регрессорах,
имеет хи-квадрат распределение с n – k степенями свободы, что позволяло нам,
например, построить доверительный интервал для неизвестного параметра σ².
На этот раз это снова не так.
К сожалению, для конечных выборок, несмотря на то,
что ε нормально, в силу того, что нарушена одна из предпосылок,
оказывается, что RSS, деленное на σ² при фиксированном X,
уже не имеет хи-квадрат распределение с n – k степенями свободы.
И очередная неприятная новость — если мы
раньше могли проверить гипотезу о нескольких ограничениях сразу,
построив две регрессии, — одну ограниченную, другую неограниченную,
— и посчитав f-статистику по формуле RSS ограниченной регрессии
минус RSS неограниченной регрессии, делённое на количество ограничений,
и в знаменателе RSS неограниченной регрессии, делённое на степени свободы,
на (n – k), — и мы могли быть уверены раньше, при выполнении всех предпосылок,
что эта статистика, недаром она называется F,
имеет F-распределение с r и n – k степенями свободы, в текущей ситуации,
в ситуации гетероскедастичности, к сожалению,
эта дробь уже не имеет F-распределение с r и n – k степенями свободы.
То есть,
можно подвести краткий итог, все свойства, которые
связаны с точным законом распределения в конечной выборке, перестали выполняться.
Дробь, которая раньше была t-статистикой,
теперь не t-статистика, а только так называется, а t-распределения не имеет.
Дробь, которая раньше была, называлась
хи-квадрат и была хи-квадрат статистикой, теперь не имеет такого распределения.
И дробь, которая называлась F-статистикой, — её по-прежнему можно называть
F-статистикой, — но F-распределения она уже не имеет,
и проверять гипотезы с помощью неё уже нельзя.
Перейдём к асимптотическим свойствам.
Асимптотические свойства — это свойства наших оценок при
большом количестве наблюдений, при n, стремящемся к бесконечности.
Первая новость хорошая.
К счастью, как и раньше, при росте числа наблюдений,
если сделать наблюдений всё больше и больше, и больше,
если у вас очень много наблюдений, то β с крышкой стремится по вероятности
к неизвестному параметру β, который мы хотим оценить.
То есть, несмотря на нарушение предпосылки о гетероскедастичности,
если у вас много наблюдений, то вам хорошо, ваша β с крышкой примерно
похожа на то, что вы хотите оценить, на настоящий вектор β.
Вторая хорошая новость.
По-прежнему, несмотря на нарушение одной из предпосылок,
несмотря на условную гетероскедастичность, дробь RSS,
делённое на n – k, по вероятности стремится к σ².
То есть, если ваша задача узнать, чему равен разброс дисперсии ε_i безусловная,
то эта задача также решается очень легко при большом количестве наблюдений.
Дальше идут две плохие новости.
t-статистика, а именно оценка коэффициента β_j с крышкой
минус β_j делить на стандартную ошибку β_j с крышкой, раньше при большом
количестве наблюдений становилась нормально распределена,
то есть даже не предполагая нормальность отдельно взятых ε,
можно было при большом количестве наблюдений проверять гипотезы,
используя не t-распределение, а нормальное.
На этот раз это, увы, не так.
Статистика t, которая называется t и имеет вид β_j с крышкой
минус β_j делить на стандартную ошибку β_j с крышкой, даже при большом
количестве наблюдений на этот раз не имеет нормального распределения,
и проверять с помощью неё гипотезы, используя
нормальные критические значения, или строить доверительные интервалы, нельзя.
Точно так же, если мы не предполагали нормальность ε,
но при этом мы были уверены раньше, что у нас много наблюдений,
мы по-прежнему могли проверять гипотезу о нескольких ограничениях сразу.
Для этого нам надо было построить две регрессии, ограниченную и неограниченную,
и разница сумм квадрат остатков, деленное на сумму квадратов
остатков в неограниченной модели, подправленная на степени свободы n – k,
имела при большом количестве наблюдений хи-квадрат распределение с r степенями
свободы, где r — это количество ограничений, которое вы проверяли.
В нашем случае это снова не работает,
то есть дробь посчитать можно без проблем, но она даже
при большом количестве наблюдений не имеет хи-квадрат распределение.