About this Course
2,604 recent views

100% online

Start instantly and learn at your own schedule.

Flexible deadlines

Reset deadlines in accordance to your schedule.

Intermediate Level

Approx. 26 hours to complete

Suggested: 6 недель обучения, 6-8 часов в неделю...

Russian

Subtitles: Russian

100% online

Start instantly and learn at your own schedule.

Flexible deadlines

Reset deadlines in accordance to your schedule.

Intermediate Level

Approx. 26 hours to complete

Suggested: 6 недель обучения, 6-8 часов в неделю...

Russian

Subtitles: Russian

Syllabus - What you will learn from this course

Week
1
5 hours to complete

Введение, булев поиск

Этим занятием открывается цикл лекций, посвященных информационному поиску. Мы начнем с небольшого экскурса в историю возникновения вэб-поиска, изучим базовые понятия и узнаем, как можно классифицировать разные поисковые системы. Базовый вид поиска – это булев поиск. Мы рассмотрим, как он устроен и как можно исполнять запросы пользователей к такому поиску. Но недостаточно использовать оригинальный текст – чтобы учесть разные морфологические формы одного и того же слова, применяются различные этапы нормализации текста. Это применимо не только к документам, но и к запросам. Отдельно стоит рассмотреть такие важные усовершенствования булева поиска, как координатный поиск, которые учитывает, где именно в тексте находятся конкретные слова, и обработку полноценных фразовых запросов.

...
14 videos (Total 70 min), 2 readings, 5 quizzes
14 videos
МФТИ1m
История поисковых систем5m
Базовые понятия4m
Классификация поисковых систем4m
Основы булева поиска. Логические операции3m
Матрица инцидентности и переход к обратному индексу3m
Обработка запросов с обратным индексом4m
Зачем нужна нормализация18m
Определение языка3m
Стемминг2m
Лемматизация текста4m
Фразовые запросы4m
Координатный индекс3m
2 readings
Mail.Ru Group5m
Решение10m
4 practice exercises
Базовые понятия информационного поиска8m
Булев поиск и матрица инцидентности14m
Нормализация текста. Стемминг. Лемматизация10m
Фразовые запросы. Координатный индекс6m
Week
2
4 hours to complete

Поисковый индекс

В основе текстового информационного поиска лежит концепция обратного индекса. Эта неделя посвящена разным методам его построения, расширения за счет дополнительной информации и улучшения работы с ним благодаря сжатию словаря и ускорению работы с обратным индексом.

...
9 videos (Total 48 min), 1 reading, 3 quizzes
9 videos
Построение индекса на реальной коллекции документов8m
Блочное индексирование. Распределенное индексирование6m
Инкрементальная индексация3m
Параметрические индексы и зонные индексы2m
Сокращение индекса, стоп-слова5m
Сжатие словаря6m
Сжатие инвертированного файла7m
Skip-листы2m
1 reading
Решение10m
2 practice exercises
Обратный индекс, индексация10m
Сжатие индекса12m
Week
3
5 hours to complete

Нечёткий поиск

Эта неделя посвящена двум большим темам, связанным между собой: исправление опечаток в запросах пользователей и выполнение неточных запросов, в которых пользователь сознательно скрывает часть слова за специальным знаком – "*".

...
9 videos (Total 54 min), 1 reading, 4 quizzes
9 videos
Структуры для словарей. Деревья8m
Нечёткий поиск5m
Перестановочный индекс3m
K-граммный индекс5m
Расстояние редактирования10m
Динамический алгоритм нахождения расстояние между словами3m
Фонетические исправления3m
Исправления в контексте4m
1 reading
Решение10m
3 practice exercises
Структуры данных8m
Нечеткий поиск8m
Исправление ошибок14m
Week
4
4 hours to complete

Ранжирование

Выполнение запросов пользователей на большом корпусе документов часто приводит к тому, что запросу удовлетворяет слишком много документов. Для того, чтобы пользователю не пришлось просматривать все найденные документы, поисковая система может отобрать из них только лучшие и показать пользователю в порядке "полезности". Этим занимается ранжирование, о котором и пойдет речь в этой неделе.

...
8 videos (Total 41 min), 1 reading, 3 quizzes
8 videos
Текстовое ранжирование5m
Модель мешка слов6m
Представление документов в виде векторов. Расстояние между документами3m
Tf-Idf4m
Принцип вероятностного ранжирования3m
Бинарная модель независимости6m
Переход от BIM к BM258m
1 reading
Решение10m
2 practice exercises
Текстовое ранжирование10m
Вероятностная модель ранжирования14m

About Moscow Institute of Physics and Technology

Московский физико-технический институт (Физтех) является одним из ведущих вузов страны и входит в основные рейтинги лучших университетов мира. Институт обладает не только богатой историей – основателями и профессорами института были Нобелевские лауреаты Пётр Капица, Лев Ландау и Николай Семенов – но и большой научно-исследовательской базой. Основой образования в МФТИ является уникальная «система Физтеха», сформулированная Петром Капицей: кропотливый отбор одаренных и склонных к творческой работе абитуриентов; участие в обучении ведущих научных работников; индивидуальный подход к отдельным студентам с целью развития их творческих задатков; воспитание с первых шагов в атмосфере технических исследований и конструктивного творчества с использованием потенциала лучших лабораторий страны. Среди выпускников МФТИ — нобелевские лауреаты Андрей Гейм и Константин Новоселов, основатель компании ABBYY Давид Ян, один из авторов архитектурных принципов построения вычислительных комплексов Борис Бабаян и др....

About Mail.Ru Group

Mail.Ru Group, международный бренд My.com – крупнейший холдинг в России по дневной мобильной аудитории. В рамках стратегии communitainment Mail.Ru Group развивает единую интегрированную платформу коммуникационных и развлекательных интернет-сервисов. Компании принадлежат лидирующий почтовый сервис, один из крупнейших порталов в рунете, крупнейшие русскоязычные социальные сети – ВКонтакте, Одноклассники и Мой Мир, а также два популярных в России и СНГ мессенджера – Агент Mail.Ru и ICQ....

Frequently Asked Questions

  • Once you enroll for a Certificate, you’ll have access to all videos, quizzes, and programming assignments (if applicable). Peer review assignments can only be submitted and reviewed once your session has begun. If you choose to explore the course without purchasing, you may not be able to access certain assignments.

  • When you purchase a Certificate you get access to all course materials, including graded assignments. Upon completing the course, your electronic Certificate will be added to your Accomplishments page - from there, you can print your Certificate or add it to your LinkedIn profile. If you only want to read and view the course content, you can audit the course for free.

More questions? Visit the Learner Help Center.