Рассмотрим построение доверительных интервалов для прогнозов на примере.
Исследователь оценил по 2040 наблюдениям
модель стоимости квартир в Москве и получил следующие результаты.
Оценка цены квартиры равна минус 62 плюс 2.6
умножить на общую площадь квартиры, при этом известно также,
что оценка неизвестной дисперсии ε, σ² с крышкой, равна
1154 и ковариационная матрица,
точнее ее оценка для неизвестных коэффициентов, равна следующей
матрице: 13.78 минус 0.18,
минус 0.18 и 0.0025.
И по имеющимся данным нам нужно ответить на следующие вопросы.
Наша цель — мы хотим спрогнозировать стоимость квартиры площадью 60 метров.
То есть у нас есть некая квартира,
для которой мы хотим строить прогнозы, поэтому я обозначу индексом F,
общей площадью 60 метров, мы для данных регрессоров,
для данного значения регрессоров хотим посчитать прогноз точечный
price F с крышечкой и хотим посчитать два интервала.
Один 95 %-ный доверительный интервал
для неизвестной средней стоимости
квартиры с площадью 60 метров.
И хотим посчитать 95 %-ный предиктивный,
предиктивный интервал для фактической стоимости
одной случайно выбираемой квартиры опять же с площадью 60 метров.
Еще раз, в чем разница между этими объектами?
Первое — это средняя стоимость квартиры в Москве с площадью 60 метров.
А это площадь случайно выбираемой квартиры, это стоимость случайно
выбираемой квартиры в Москве с площадью 60 метров.
То есть это некая характеристика скорее города, а это вот,
если вы собрались покупать одну квартиру,
то вот y_F — это ее будущая цена.
Давайте приступим.
Получить точечный прогноз очень легко, price_f с крышечкой, надо просто
подставить значение объясняющих переменных в уравнение регрессии.
Минус 62 плюс 2.6 умножить на 60 и мы получаем примерно 94.
Теперь перейдем к построению доверительного интервала,
у нас в каждом случае, в случае b и в случае c, есть ошибка прогноза.
В первом случае — это на сколько наша спрогнозированная цена отличается
от средней стоимости по Москве для квартиры размера 60 метров.
А второй, на сколько наш прогноз отличается от конкретно выбранной
случайной квартиры с площадью 60 метров.
Насколько отличается спрогнозированная цена от ее цены.
И во втором случае ошибка больше.
Соответственно, давайте посчитаем сначала
дисперсию β нашего,
точнее прогноза price с крышечкой при фиксированных иксах.
За счет чего наш прогноз случаен?
Шестьдесят не случайно — это то, что мы выбрали, у нас регрессоры фиксированы.
Соответственно, случаен он за счет того,
что коэффициенты минус 62 и 2.6 на самом деле — это результаты оценивания.
И минус 62 и 2.6 зависели от вот этой выборки в 2040 наблюдений.
Если бы нам попалась другая выборка, у нас были бы здесь не минус 62 и 2.6
а какие-то другие числа, случайность и следовательно,
не нулевая дисперсия прогноза связана с тем, что мы оцениваем коэффициенты не по
всем наблюдениям Москвы, а по случайной выборке.
Соответственно, наша дисперсия — это дисперсия β₁ с крышкой
плюс β₂ с крышкой помножить на 60 при фиксированных иксах.
И она равняется по свойствам дисперсии, это дисперсия
β₁ с крышечкой при фиксированных иксах плюс 60
в квадрате на дисперсию β₂ с крышечкой при фиксированных иксах
плюс 2 умножить на 60 на ковариацию β₁ с крышечкой,
β₂ с крышечкой при фиксированных иксах.
Настоящую дисперсию мы не знаем и никогда не узнаем.
Зато вместо настоящей дисперсии мы можем посчитать оценку
дисперсии var с крышкой от price с крышкой при фиксированных иксах.
Тогда все компоненты в этой формуле получат крышку над ними.
Вот так я могу везде поставить крышку, крышка,
крышка, крышка, крышка, крышка.
А оценка дисперсии, оценка ковариации есть в ковариационной матрице в оцененной.
Соответственно, мы получаем 13.78 плюс
60 в квадрате помножить на оценку дисперсии второго коэффициента 0.025
плюс 120 помножить на оценку ковариации на минус 0.18.
Если это вычисление выполнить, то у нас получится примерно 1.
Зная оценку дисперсии прогноза,
мы можем легко оценить дисперсию ошибки прогноза в
первом случае и дисперсию ошибки прогноза во втором случае.
Давайте мы их сразу оценим.
Значит, на сколько прогноз наш не похож на среднюю стоимость
квартиры с площадью 60 метров в Москве.
Это var с крышкой,
E от y_F при условии, что totalspan
F равно 60 минус наш
прогноз y_F так,
здесь мне крышечка не нужна,
и от y_F и соответственно,
при опять же фиксированных регрессорах.
При фиксированных регрессорах,
вот эта величина является константой.
Соответственно, она не влияет на дисперсию.
А дисперсию y_F с крышечкой,
дисперсию price с крышечкой мы уже посчитали — это примерно 1.
Вторая дисперсия чуть-чуть сложнее.
Это дисперсия фактического значения y_F минус y_F
с крышечкой при фиксированных иксах.
Но, поскольку фактический y_F, это есть, то есть фактическая
стоимость какой-нибудь случайно выбираемой квартиры в Москве — это что такое?
Это среднестатистическая стоимость квартиры с данными параметрами плюс
случайная составляющая, вызванная тем, что мы случайным образом выбираем квартиры
с данными характеристиками и минус ŷ при фиксированных иксах.
Опять же, при фиксированных иксах, вот эта случайная величина, ее значение известно,
поэтому она не влияет на дисперсию и следовательно, на оценку дисперсии и нам
остается просто var с крышкой ε_F минус y_F с крышкой.
Поскольку мы строим прогнозы вот эти по 2040 наблюдениям,
а это мы строим прогнозы для какой-то новой квартиры,
которая не входит в наши 2040 наблюдений.
Это некое наблюдение, условно 2041,
то есть мы строим прогнозы не для той квартиры, которая у нас есть в выборке.
Поэтому эти случайные величины независимы,
поэтому это есть просто сумма оценок дисперсии
var с крышкой y_F при фиксированных
иксах и здесь тоже при фиксированных иксах.
И мы получаем — это σ² с крышкой,
11154 плюс 1155.
И теперь мы легко можем построить оба доверительных интервала.
Доверительные интервалы у нас строятся по принципу.
Доверительный интервал в b.
Поскольку у нас очень много наблюдений, n = 2040, то мы можем спокойно
использовать нормальные распределения для 95-% значения,
критические для статистики нормального распределения, равны примерно 2,
но если быть точным: 1.96 и, соответственно,
первый доверительный интервал мы строим по принципу ŷ минус 1.96
помножить на стандартную ошибку для первого случая,
а стандартная ошибка для первого случая — это корень из единички
до y_F с крышечкой плюс 1.96 помножить на корень из единички.
А в случае с мы используем стандартную ошибку,
равную корню из второй дисперсии.
Соответственно, у нас получается y_F с крышечкой минус 1.96
помножить на корень из 1155,
и y_F с крышечкой плюс 1.96 помножить на корень из 1155.
Вот у меня получается два доверительных интервала.
Из них первый выходит 94-точечный
прогноз минус 2.94 плюс 2,
а второй доверительный интервал выходит: корень из 1155 — это примерно 34.
Соответственно, 34 умножаем на 2, это получается 68.
Здесь 94 минус 68, а здесь 94 плюс 68.
То есть ширина доверительного интервала и ширина прогнозного интервала
резко отличается.
Почему?
Потому что наша модель довольно хорошо точно оценивает среднюю
стоимость квартиры с площадью 60 метров.
И вот про среднюю стоимость квартиры в Москве, мы уверены, что она от 92 до 96.
Однако если мы возьмем не некую мифическую среднестатистическую квартиру,
а просто выберем наугад из всех предложений квартиру
с площадью 60 метров, она, естественно, не среднестатистическая.
Она может отличаться от среднестатистической как в плюс — быть
дороже ее, так и быть дешевле нее.
Поэтому наш доверительный интервал, наш предиктивный интервал для конкретного
значения y, он оказывается шире и он соответственно равен от 94 минус 68,
до 94 плюс 68.