0:00
[МУЗЫКА] [МУЗЫКА]
[МУЗЫКА] Здравствуйте!
Мы очень рады, что вы заинтересовались нашей специализацией, и в этой лекции я
вам коротко расскажу о том, что вас ждёт, если вы решите с нами поучиться.
Специализация посвящена статистическому анализу данных и состоит из четырёх
курсов, каждый из которых, с одной стороны, завершённая вещь,
то есть он рассматривает определённый класс задач и завершается проектом,
где вы сможете своими руками что-то поделать на реальных данных и
закрепить полученные в курсе знания.
С другой стороны, всё-таки она распложены немножко по уровню сложности: если первый
курс самый базовый, то второй, третий и четвёртый как бы немножечко посложнее.
Давайте, я коротко расскажу вам про каждый из курсов, что будет, собственно, внутри.
Первый курс будет полезен тем из вас,
чей опыт работы с данными может быть не очень большой,
или если вы не уверенно чувствуете себя в основах и хотели бы их закрепить.
Здесь мы говорим о теории вероятности, об основах,
о случайных величинах и признаках, о характеристиках распределений.
Дальше мы говорим об основах математической статистики,
говорим о мерах центра и вариативности.
Ну и, конечно же, говорим о том, как визуализировать распределение,
немножечко о графическом анализе данных.
В завершение мы поговорим ещё и о выборках, о том,
как грамотно строить выборки, о том, как гарантировать корректную процедуру отбора,
какие возможности и ограничения следуют из разных логик отбора.
И, конечно же, о том, как работать с неопределёнными,
нетипичными или отсутствующими данными, так тоже бывает.
Если первый курс описательный, то второй, здесь мы уже переходим к статистике.
Здесь мы начинаем с проверки статистических гипотез.
Что такое гипотеза, как их проверять, какие бывают критерии, какая логика,
какие принципы.
И затем вот эту вот теорию начинаем разворачивать на рассмотрение конкретных
инструментов, как исследовать взаимосвязи линейные и нелинейные.
И в завершение посмотрим на то, как можно не только исследовать взаимосвязи,
но и прогнозировать значение одного признака, зная значение других.
То есть мы поговорим о корреляциях, таблицах сопряжённости,
линейных регрессиях.
И если вам интересно узнать, например, связаны ли счастье и богатство,
или связана ли активность пользователя с днём недели или с временем года.
Или вы хотите узнать, способствует ли наличие страницы в социальных сетях
популярности корпоративного сайта.
То вот за такого рода вопросами вам во второй курс.
Приходите, пожалуйста.
Третий курс касается сравнения и формирования групп,
и здесь у нас есть тоже как бы две содержатильных части.
В первой части мы говорим о сравнении групп или категорий,
мы говорим о критериях параметрических и непараметрических,
о возможностях и ограничениях.
И если вас интересуют вроде вопросы, по разному ли ищут работу в городе или на
селе или различаются ли регионы или целевые группы по доходу,
возрасту или там социально демографическому составу, то вам сюда.
Здесь мы подробнее поговорим о классах задач и о способах их решений.
Вторая половина третьего курса посвящена уже формированию групп.
Если в первом случае, мы знаем, что группы существуют,
и сравниваем их характеристики, то во втором случае мы говорим о том, что,
возможно, есть какая-то структура в наших данных, в которой мы не уверены,
но мы подозреваем, что она есть.
И мы пытаемся выявить эти группы, допустим, там людей или университетов,
или компаний, или ещё чего-то, или рубрик по сходным характеристикам,
которыми эти объекты обладают.
И мы поговорим об основных алгоритмах кластеризации, посмотрим, как стоить
кластеры, как их описывать и как понимать, что же за группы, собственно, получились.
Ну и четвёртый курс.
Он такой, условно, самый сложный,
и здесь мы поговорим об анализе трендов и о применении классификаторов.
Тренды — это про что?
Тренды — это, в общем-то, слово популярное, и здесь мы рассматриваем,
допустим, такие вопросы как, растут ли наши продажи или там стабилен ли приток
клиентов, тенденция это или случайность.
Есть ли какие-то сезонные закономерности в том, как развивается там показатель,
который нас интересует, как выявить эти тренды, как описать и как понять,
что за ними стоит.
Также в этом курсе мы поговорим о факторном анализе,
который позволяет узнать, если ли какие-нибудь скрытые переменные за
проявлением каких-то вот мелких видимых характеристик.
Понять, как найти эти переменные, понять, как описать, что за ними стоит,
и как интерпретировать то, что, собственно, получается.
Ну и в завершение поговорим о классификаторах.
Классификаторы позволяют нам отнести объект к той или иной категории с заданной
вероятностью, исходя из нашего знания о некоторых характеристиках этого объекта.
Ну, например, отдаст заёмщик кредит или нет, закончит студент курс или нет,
сработает лекарство или нет, и вот такие вот прочие задачи.
Мы поговорим об основных методах, о простых классификаторах.
К примеру, мы рассмотрим деревья решений,
как они устроены и как они помогают в принятии решений.
Мы поговорим о простых бинарных классификаторах,
о логистической регрессии и на данных построим модель,
которая позволит нам классифицировать и прогнозировать.
Также, что важно, в конце каждого курса у нас будут не только теоретические,
но и практические лекции.
И вам будет предложено видео, в котором будет показано, как на практике решать то,
что мы рассматриваем в двух продуктах: при помощи SPSS и при помощи R.
Насколько мне известно, во многих университетах, по крайнем мере,
социологам анализ данных предподают с применением SPSS.
В МГУ это, по крайнем мере, так.
Если в вашей организации есть этот пакет или если вы хотите им овладеть,
то вы сможете пойти по SPSS-ному треку и попробовать посмотреть
эти практические видео.
SPSS — это, к сожалению, платный продукт.
Ну как к сожалению?
Это реальность такова.
Но есть бесплатная версия 14-дневная, которую вы можете,
зарегистрировавшись на сайте, скачать — в материалах курсов есть инструкция,
как это делать — и попрактиковаться.
Но, поскольку срок жизни бесплатной версии достаточно короткий, лучше устанавливать
её поближе к тому моменту, когда вы решите делать практические задания.
Ну и R, второй продукт, второй инструмент.
Это, наверное, самый или, по крайнем мере, один из самых распространённых методов,
способов анализа данных сейчас, и он бесплатный.
И при помощи R вы можете анализировать данные в любом месте практически без
дополнтиельных финансовых затрат.
Правда, он потребует от вас некоторой дополнительной подготовки,
материалы для которой мы, разумеется, предоставим.
Для R есть большое количество сред, RStudio, к примеру,
ставится или ещё что-то.
Мы будем показывать практику на Jupyter Notebooks,
и также вы сможете практиковаться, прямо не выходя из курса, прямо в среде курса
решать какие-то задачки, которые мы будем разбирать на лекции.
Итак, вот такая наша специализация.
Добро пожаловать!
Еще раз спасибо за интерес к нашей специализации, и мы уже с
нетерпением ждём возможности поработать с вами и пообщаться с вами на форуме.