Избранные выпускные работы

Кафедра «Интеллектуальные системы» ФУПМ МФТИ
Кафедра «Математические методы прогнозирования» ВМиК МГУ

Научный руководитель — К. В. Воронцов.

[1] Егорова Е. В.
Cравнительный анализ методов алгебраической коррекции для одного класса алгоритмов прогнозирования. — ВМиК МГУ. — 2005.
www.ccas.ru/frc/papers/students/egorova05diplom.pdf
При прогнозировании зашумленных нестационарных временных рядов возникает проблема выбора адекватной модели временного ряда. Известные модели нестационарных процессов существенно опираются на априорные предположения о природе нестационарности (например, гипотезу о непостоянстве дисперсии) и потому являются в той же степени эвристическими, что и классические стационарные модели. В данной работе рассматриваются методы построения динамически адаптируемых композиций алгоритмов прогнозирования. Их преимущество в том, что они позволяют автоматически выбирать наиболее адекватную модель временного ряда. Исследуется влияние регуляризации и дополнительного ограничения монотонности (неотрицательности коэффициентов) на обобщающую способность композиции. Наилучшее качество обучения при тестировании скользящим контролем показал алгоритм локальной адаптации весов с регуляризацией. Предложенные алгоритмы реализованы в среде MATLAB и протестированы на реальных данных в прикладной задаче прогнозирования объемов продаж сети супермаркетов.
[2] Каневский Д. Ю.
Генетические алгоритмы синтеза локальных базисов в алгебраическом подходе к проблеме распознавания. — ВМиК МГУ. — 2005.
www.ccas.ru/frc/papers/students/kanevskiy05diplom.pdf
Предлагается новый метод построения композиций алгоритмов классификации, в котором оптимизация всех базовых алгоритмов производится одновременно. Это принципиально отличает данный метод от известных — бустинга, баггинга, метода случайных подпространтсв (RSM), а также проблемно-ориентированных методов алгебраического подхода. Предлагаемый метод основан на специальном генетическом алгоритме, называемом кооперативной коэволюцией. Основная идея состоит в том, чтобы применить генетическую оптимизацию для выбора подмножеств объектов и признаков, по которым производится обучение базовых алгоритмов. При этом каждый базовый алгоритм получает возможность специализироваться на классификации определенной части объектов в определенном подпространстве признаков. Важным достоинством предлагаемого метода является то, что он требует значительно меньшего числа базовых алгоритмов — от 2 до 6 против 100–200 для бустинга и баггинга. Тестирование в режиме скользящего контроля на реальных задачах из репозитория UCI показало, что данный метод обладает также и лучшей обобщающей способностью.
[3] Колосков А. О.
Применение комбинаторных оценок обобщающей способности для повышения качества метрических алгоритмов классификации. — ВМиК МГУ. — 2005.
www.ccas.ru/frc/papers/students/koloskov05diplom.pdf
Рассматриваются алгоритмы классификации, основанные на методе ближайших соседей. Предлагается новый метод отбора опорных объектов, основанный на понятии профиля компактности и комбинаторных формулах для эффективного вычисления функционала скользящего контроля. Показано, что данный метод разделяет обучающие объекты на три категории: шумовые выбросы, неинформативные (периферийные) объекты и опорные объекты. Исключение шумовых и периферийных объектов из обучающей выборки повышает обобщающую способность метода ближайших соседей и существенно снижает затраты времени на классификацию новых объектов.
[4] Лексин В. А.
Методы выявления взаимосогласованных структур сходства в системах взаимодействующих объектов. — ФУПМ МФТИ. — 2005.
www.ccas.ru/frc/papers/students/lexin05bachelor.pdf
В работе развиваются и исследуются алгоритмы обработки данных, предназначенные для решения задач Анализа Клиентских Сред (АКС). Клиентская среда — это совокупность двух множеств: множества клиентов и множества ресурсов, которыми эти клиенты регулярно пользуются. Предполагается, что все факты пользования протоколируются в электронном виде. Технология АКС предназначена для выявления структур сходства между клиентами и между ресурсами на основе имеющихся данных. Рассматривается частная прикладная задача — применение АКС для обработки логов поисковой машины Яндекс. В основе анализа лежит принцип «схожи те пользователи, которые посещают схожие множества ресурсов, и схожи те ресурсы, на которые заходят схожие пользователи». Предлагаемые методы оценивания сходства позволяют строить достаточно адекватные Карты Интернета, на которых близким по тематике сайтам, оказывается, соответствуют близкие точки. Рассматриваются и другие перспективные возможности, открывающиеся с применением технологии АКС: персонализация поиска, направленное предложение ресурсов пользователям, поиск схожих ресурсов, навигация в сети Интернет по картам сходства.
[5] Ульянов Ф. М.
Связь информативности и обобщающей способности в метрических алгоритмах классификации. — ФУПМ МФТИ. — 2005.
www.ccas.ru/frc/papers/students/ulianov05bachelor.pdf
В работе предлагается новый алгоритм приближенной оптимизации модели алгоритмов вычисления оценок (АВО). Все параметры АВО поделены на три группы и настраиваются с помощью известных алгоритмов, считающихся одними из лучших, каждый в своем классе: (1) коэффициенты взвешенного голосования настраиваются с помощью алгоритма бустинга; (2) опорные множества формируются методом случайного поиска с адаптацией; (3) параметры функций близости оптимизируются по статистическим критериям информативности. Такое «разделение переменных» в модели АВО стало возможным, главным образом, благодаря бустингу с его стратегией последовательного добавления функций близости. Идея применения бустинга для оптимизации АВО предлагается в данной работе впервые. Результаты тестирования предложенного алгоритма на реальных данных показали, что его качество сравнимо со стандартными логическими алгоритмами классификации.