0:00
[МУЗЫКА]
[МУЗЫКА]
[МУЗЫКА] Здравствуйте!
Приветствую вас в пятой неделе нашего курса,
которая посвящена задаче обучения без учителя.
Меня зовут Вольф Дмитрий Александрович.
Я сотрудник Санкт-Петербургского государственного университета.
В этом модуле мы уделим внимание задаче,
в которой исходный набор данных не имеет правильного ответа.
Задача обучения без учителя отличается от классификации тем,
что метки исходных объектов Yi-тое изначально не заданы, и даже,
может быть, неизвестно само множество данных меток.
Поэтому эту задачу можно назвать дополняющей задачу обучения с учителем,
если в задаче обучения с учителем отсутствуют или плохо определимы метки для
обучающей выборки.
Целью методов обучения задачи без учителя являются ответы на следующие
вопросы: существует ли информативный способ визуализации данных?
Например, можем ли мы многомерную выборку отобразить на двумерную плоскость,
при этом сохранив все основные закономерности исходного набора данных?
Также важным является вопрос такого плана: возможно
ли сформулировать правила-ассоциации, описывающие большую часть данных?
Например, клиенты склонны покупать продукт X1 и также склонны покупать продукт X2.
И последним вопросом является следующий:
можем ли мы выделить подгруппы среди переменных исходного набора данных?
Ответу на последний вопрос мы уделим основное время в данном разделе.
Рассмотрим наиболее распространенный класс метода задач обучения без
учителя — кластерный анализ,
который используется для восстановления скрытой структуры данных.
Кластерный анализ и также сегментация имеет множество приложений,
например в биоинформатике для сегментации геномов, в медицинской визуализации либо в
компьютерном зрении для распознавания объектов.
Также эти задачи очень часто встречаются в маркетинге, к примеру,
для сегментации рынка и многие другие.
Такое широкое распространение на практике обусловлено тем, что зачастую легче
ответить, что изображения принадлежат одному объекту, нежели сформулировать на
основе каких признаков данные объекты на изображениях идентичны.
Центральным понятием для всех целей кластерного
анализа является понятие сходства либо различия между объектами.
Таким образом,
введем следующее определение: расстоянием между двумя объектами x и x' мы будем
называть результат применения некоторой метрики в пространстве признаков.
Также фундаментальным определением данной области является понятие кластера.
Кластером мы будем называть подмножество точек исходного набора данных,
то есть такое подмножество y, состоящее из таких пар x и x',
где каждый из этих объектов принадлежит пространству признаков и расстояние
между этими объектами меньше некоего порогового значения σ.
Таким образом, данная величина σ является некой мерой сходства этих двух объектов.
Также для понятия кластера являются фундаментальными два свойства,
а именно: внутренняя однородность и внешняя изолированность.
Давайте сформулируем непосредственно нашу задачу.
Таким образом в пространстве признаков мы имеем n-ное количество независимых
наблюдений, каждый из этих объектов имеет p количество признаков.
Таким образом, наша задача будет состоять в следующем: нам надо будет
разбить данную выборку на непересекающиеся подмножества, называемые кластерами, так,
чтобы каждый кластер состоял из объектов, близких по метрике ρ.
Таким образом, алгоритм кластеризации — это функция,
которая к любому объекту из пространства признаков ставит в
соответствие метку кластера y из множества Y.
Данное множество в некоторых случаях известно заранее, но однако чаще всего
на практике эта задача более сложная, и нам необходимо определить оптимальное
количество кластеров с точки зрения того или иного критерия качества кластеризации.
Поэтому данное множество не всегда определимо.
Рассмотрим данную задачу на классическом примере из матстатистики,
а именно на «Ирисы Фишера».
Суть этих данных заключается в следующем: у нас есть множество признаков,
где каждый объект из данного пространства содержит в себе 4 признака,
а именно: длину и ширину чашелистника и длину и ширину лепестка.
И в зависимости от этих параметров мы должны сказать,
какой из объектов к какому виду растения принадлежит.
А именно у нас всего существует три вида ирисов,
а именно: это ирис щетинистый, ирис разноцветный и ирис вердинский.
Таким образом, на основании этого набора данных требуется определить вид
растения по данным измерениям.
Методы кластеризации могут различаться в зависимости от типов кластеризации.
Задачи кластеризации можно классифицировать по следующим трем
характеристикам, а именно: эксклюзивность, вложенность и полнота.
Разделение, основанное на такой характеристики, как вложенность, включает
два типа кластеризации, а именно: это иерархическая кластеризация и разделяющая.
Иерархическая кластеризация представляет собой набор вложенных кластеров,
которые удобно представлять в виде дерева.
Таким образом, кластеры формируются на разных семантических уровнях.
Например, если рассмотреть задачу тематического моделирования,
то есть на входе мы подаем некую коллекцию документов, и нам нужно определить,
к какой из темы принадлежит данный текст.
К примеру, если мы выделим две темы, такие как спорт и политика,
нам надо будет сказать, что каждая из этих тем будет содержать некую свою подтему,
а именно: тема спорта может содержать такую подтему, как баскетбол,
хоккей или бейсбол.
Также в свою очередь мы можем поступить и с темой политики.
В итоге, мы выстраиваем некую иерархию этих тем.
Таким образом, получаем иерархическую кластеризацию.
В то время разделяющая кластеризация делит данные в неперекрывающие кластеры так,
что каждый объект данных находится в одном подмножестве.
В данном случае все объекты разделены так,
что между кластерами не существует иерархии.
Данным примером такой кластеризации может послужить следующая задача.
Нам надо будет разделить всех клиентов некоего магазина на такие группы,
чтобы формировать для них более целенаправленные предложения.
Следующий тип кластеризации основан на такой характеристике, как эксклюзивность,
который позволяет объекту данных принадлежать
одному и более одному кластеру.
Непосредственно эксклюзивная кластеризация уже из названия предполагает,
что каждый объект данных принадлежит ровно одному кластеру.
При кластеризации клиентов в группы,
для того чтобы назначить для каждой данной группы своего определенного менеджера,
необходимо применять именно эксклюзивную кластеризацию.
Следующим типом данной характеристики является кластеризация,
именуемая перекрытием, которая использует нечеткие множества,
что позволяет группировать объекты данных в два и более кластеров.
В таких ситуациях кластеры могут быть неэксклюзивными и объект данных может
принадлежать более чем одному кластеру.
Например, при кластеризации документов в коллекции по темам
используется именно такой способ кластеризации.
Также еще основным типом кластеризации является нечеткая кластеризация.
Главное отличие его состоит в том, что объекты данных имеют вес,
принадлежащий промежутку от 0 до 1.
где 0 у нас означает, что данный объект абсолютно не принадлежит данному кластеру,
а, соответственно, если 1, то, соответственно, это значит,
что данный объект абсолютно принадлежит этому подмножеству.
Данное разделение основано на такой характеристике, как полнота,
которая требует кластеризации всех объектов.
К примеру, полная кластеризация предполагает,
что каждый объект будет назначен тому или другому кластеру.
Все предыдущие примеру по факту являются примерами полной кластеризации.
Противоположная кластеризация, а именно частичная, либо неполная, кластеризация
позволяет все-таки некоторым объектам оставаться без каких-либо кластеров,
то есть не иметь некой метки того или иного кластера.