Методы машинного обучения — будь то алгоритмы классификации или регрессии, методы кластеризации или алгоритмы понижения размерности — применяются к подготовленным данным с вычисленными признаками для решения уже сформулированной задачи. Однако специалисты по анализу данных редко оказываются в такой идеальной ситуации. Обычно перед ними ставят задачи, которые нуждаются в уточнении формулировки, выборе метрики качества и протокола тестирования итоговой модели. Данные, с которыми нужно работать, часто представлены в непригодном виде: они зашумлены, содержат ошибки и выбросы, хранятся в неудобном формате и т. д.
В этом курсе мы разберем прикладные задачи из различных областей анализа данных: анализ текста и информационный поиск, коллаборативная фильтрация и рекомендательные системы, бизнес-аналитика, прогнозирование временных рядов. На их примере вы узнаете, как извлекать признаки из разнородных данных, какие при этом возникают проблемы и как их решать. Вы научитесь сводить задачу заказчика к формальной постановке задачи машинного обучения и поймёте, как проверять качество построенной модели на исторических данных и в онлайн-эксперименте. На каждой задаче мы изучим плюсы и минусы пройденных алгоритмов машинного обучения.
Прослушав этот курс, вы познакомитесь с распространенными типами прикладных задач и будете понимать схемы их решения.
From the lesson
Анализ текстов
Данная неделя посвящена работе с особым видом данных — текстами. Тексты встречаются во многих задачах, и при этом свести их к стандартной матрице с объектами и признаками не так просто. В этом модуле мы изучим основы работы с текстовыми данными, способы генерации признаков на их основе, поговорим о нейросетевых подходах (в частности, word2vec и рекуррентные сети). Также мы обсудим несколько конкретных прикладных задач анализа текстов, среди которых будут анализ тональности и аннотирование.