[ЗАСТАВКА] Продолжим разбираться с тем,
что же такое получается в качестве ответа в задаче регрессии.
Начнем снова с метода наименьших квадратов.
Разберемся со среднеквадратичной ошибкой.
Чтобы разбираться было проще,
давайте сделаем некоторые упрощающие предположения.
Пусть для начала у нас нет никаких признаков x, а a — это просто константа.
Пусть кроме того у нас есть бесконечная выборка из y, то есть фактически
и не выборка вовсе, а полностью известно распределение случайной величины y.
Пусть оно задается плотностью f (t).
В таком случае среднеквадратичная ошибка принимает следующий вид.
Нетрудно показать, раскрыв квадрат
под знаком интеграла и продифференцировав полученное выражение,
что минимум такому функционалу доставляет математическое ожидание y.
То есть наилучшая константа, которая аппроксимирует
значение y в смысле среднеквадратичной ошибки — это математическое ожидание.
Пусть теперь a — это не константа,
а некоторая произвольная функция от наших признаков x.
Можно показать, что в этом случае минимумом среднеквадратичной
ошибки является условное математическое ожидание y по x.
То есть среднее значение y при таких x.
Теперь, если мы имеем дело с конечной выборкой, получается, оценка,
которую мы получаем, минимизируя среднеквадратичную ошибку — это
наша лучшая аппроксимация условного математического ожидания.
Если регрессия линейная,
то есть отклик y моделируется линейной комбинацией наших признаков x с весами w,
то w*, минимизирующее среднеквадратичную ошибку,
задает наилучшую линейную аппроксимацию условного математического ожидания.
В каком-то смысле этот результат интуитивно понятен.
Пусть, например, y = 2.
Поскольку среднеквадратичная ошибка будет симметрична относительно 2,
мы будем одинаково штрафовать наши модельные предсказания a (x) за
большие отклонения от 2 как в большую, так и в меньшую сторону.
Неудивительно, что минимизируя симметричную функцию потерь,
мы получаем в ответе какое-то среднее.
Однако оказывается, что условное математическое ожидание доставляет
минимум не только среднеквадратичной ошибке,
но и более широкому классу функций потери, которые называются дивергенциями Брегмана.
Дивергенции Брегмана порождаются любой непрерывной дифференцируемой
выпуклой функцией φ.
Среднеквадратичная ошибка является ее частным случаем.
Таким образом, минимизируя любую дивергенцию Брегмана,
мы получаем какую-то оценку для условного математического ожидания.
И вот это уже довольно странно, потому что в семействе дивергенций Брегмана
можно найти функции, которые относительно y несимметричны.
Они могут выглядеть вот так или так или так, то есть они сильнее
штрафуют за отклонение нашей модели от y в какую-то из сторон.
Тем не менее, наилучшей оценкой является все еще условное математическое ожидание.
Этот результат достаточно контринтуитивен, и получен он был не так давно.
А вот средняя абсолютная ошибка в семейство дивергенций Брегмана не входит.
Минимизируя вот эту среднюю абсолютную ошибку,
график которой представляет собой такой треугольник,
мы получаем тоже оценку какого-то среднего, но другого.
Это уже оценка не условного математического ожидания,
а условной медианы y|x.
Треугольник, описывающий среднюю абсолютную ошибку,
можно попробовать наклонить в какую-то из сторон на угол τ.
Минимизируя такой функционал, мы получаем оценку для
условного квантиля y|x порядка τ.
τ, естественно, меняется от 0 до 1, поскольку это квантиль.
Итак, в этом видео мы узнали,
что решение задачи регрессии наименьших квадратов представляет собой
наилучшую возможную по выборке оценку условного матожидания y при условии x.
Решение задачи квантильной регрессии дает оценку условного квантиля y|x.
А при использовании средней абсолютной ошибки мы получаем оценку условной медианы
med (y|x).
Далее в программе: регуляризация.