[БЕЗ_ЗВУКА] Продолжим развивать
тему «Восстановление распределений».
Мы оттолкнулись от проблемы нехватки данных и уже выяснили,
что можно решать ее с помощью наивного байесовского классификатора,
сводя задачу восстановления многомерной плотности к задаче восстановления
многих одномерных плотностей.
В предыдущем видео мы также рассмотрели случай бинарных признаков,
знакомый нам по примеру со спам-фильтром.
Но вот какая беда — не все признаки бинарные, бывают признаки,
которые принимают больше двух значений, бывают вообще вещественные признаки,
тогда наши формулы для восстановления вероятности уже не подойдут.
Мы можем предположить, что распределение признаков похоже на какое-то стандартное
— пуассоновское, экспоненциальное, нормальное.
И попробовать восстановить его.
В этом заключается метод параметрического восстановления распределений.
Ну, действительно,
нормальное распределение зависит всего от двух параметров: матожидания и дисперсии.
Ну давайте возьмем, например, оценки максимального правдоподобия для этих
параметров и с их помощью оценим параметры по обучающей выборке.
Другой пример: распределение Бернулли.
У этого распределения вообще один параметр: вероятность того,
что случайная величина принимает значение 1.
Этот параметр можно оценить просто долей случаев,
в которых случайная величина равнялась 1.
Получаем, что рассмотренные нами ранее оценки для бинарных признаков — это
просто частный случай параметрического восстановления плотности,
если рассматривать распределение Бернулли.
Как можно выбрать распределение?
Ну, если вы решаете задачу,
связанную с текстами или какими-то другими разряженными дискретными признаками,
то хорошо подходит мультиномиальное распределение.
Если у вас непрерывные признаки с небольшим разбросом,
то подходит нормальное распределение.
Если у вас непрерывные признаки, но с выбросами,
то можно попробовать распределение более «размазанное», нежели нормальное.
При этом мы можем решать проблему с нехваткой данных не только с помощью
наивного байесовского классификатора, мы можем развить тему параметрической оценки
распределений и восстанавливать многомерное распределение,
но искать решение действительно в каком-то узком классе,
в котором решение будет определяться небольшим набором параметров.
Ну, например, можно принять гипотезу о том, что распределение нормальное,
и оценивать по выборке параметры многомерного нормального распределения.
Ну, то есть вектор средних и матрицу ковариаций.
При оценке многомерного распределения возникает все же больше параметров,
чем в «наивном» подходе.
Для нормального распределения, например,
это будет n средних и n дисперсий в «наивном» подходе против вектора средних
размерности n и матрицы ковариаций n х n в случае многомерного распределения.
Оценка каких-то параметров может получиться неправильной из-за нехватки
данных.
Часто возникают различные неустойчивые операции.
Ну, например, обращение матриц, которые почти вырождены.
Другой подход заключается в том, чтобы оценивать распределение не в точке,
а в ее окрестности, таким образом набирая больше примеров.
Те примеры, которые ближе к точке, можно оценивать с большим весом, а те,
которые дальше — с меньшим.
Такой подход фактически представляет собой построение
некоторой гистограммы и сглаживание ее.
Мы поговорим об этом подробнее в дальнейшем.
Проблема нехватки данных для восстановления распределения может
решаться несколькими способами.
Можно воспользоваться наивным байесовским классификатором и оценивать одномерные
распределения.
Можно зафиксировать класс, в котором мы будем искать наше распределение,
то есть применить метод параметрического восстановления распределения.
Можно использовать непараметрическую оценку плотности.
Подробнее о восстановлении распределений мы поговорим в курсе «Поиск структуры в
данных».