Список докладов, представленных на конференциях
Matching entries: 0
settings...

2015

Kuznetsov M., Clasel M., Amini M.-R., Gaussier E., Strijov V. Supervised topic classification for modeling a hierarchical conference structure // International Conference on Neural Information Processing, 2015. Conference
Abstract: In this paper we investigate the problem of supervised latent modelling for extracting topic hierarchies from data. The supervised part is given in the form of expert information over document-topic correspondence. To exploit the expert information we use a regularization term that penalizes the di erence between a predicted and an expertgiven model. We hence add the regularization term to the log-likelihood function and use a stochastic EM based algorithm for parameter estimation. The proposed method is used to construct a topic hierarchy over the proceedings of the European Conference on Operational Research and helps to automatize the abstract submission system.
BibTeX:
@conference{Kuznetsov2015,
  author = {Kuznetsov, M.P. and Clasel, M. and Amini, M.-R. and Gaussier, E. and Strijov, V.V.},
  title = {Supervised topic classification for modeling a hierarchical conference structure},
  booktitle = {International Conference on Neural Information Processing},
  year = {2015},
  url = {http://www.machinelearning.ru/wiki/images/e/ef/Kuznetsov2015ICONIP.pdf}
}
Адуенко А.А., Стрижов В.В. Анализ пространства параметров в задачах выбора мультимоделей // Математические методы распознавания образов, г. Светлогорск, 2015 — 10-11. Conference
BibTeX:
@conference{Адуенко2015,
  author = {Адуенко, А. А. and Стрижов, В. В.},
  title = {Анализ пространства параметров в задачах выбора мультимоделей},
  booktitle = {Математические методы распознавания образов, г. Светлогорск},
  year = {2015},
  pages = {10-11},
  url = {http://www.machinelearning.ru/wiki/images/6/6b/02.Aduenko2015MMPR.pdf}
}
Адуенко А.А., Стрижов В.В. Анализ пространства параметров в задачах выбора мультимоделей // 58-я научная конференция МФТИ, 2015. Conference
Abstract: В работе рассматривается задача выбора мультимоделей при построении моделей в задачах двухклассовой классификации. Мультимодели являются интерпретируемым обобщением случая одной модели, позволяющим учитывать неоднородности в данных. Признаковые пространства моделей в мультимодели могут не совпадать. Кроме того, мультимодель может содержать большое число близких моделей, что ведет к низкому качеству прогноза и отсутствию интерпретируемости. Для решения этой проблемы предлагается метод статистического сравнения моделей для прореживания мультимодели. Вводится понятие адекватной мультимодели, то есть мультимодели, все модели в которой являются попарно статистически различимыми.
Для статистического сравнения моделей предлагается ввести функцию близости между апостериорными распределениями параметров моделей. Такая функция должна быть определена для случая пары распределений с несовпадающими носителями, а также не различать два распределения, одно из которых является малоинформативным. Показано, что дивергенция Кульбака-Лейблера, расстояния Дженсона-Шеннона, Хеллингера, Бхаттачарайа не удовлетворяют этому требованию. Предлагается функция близости для пары распределений, которая удовлетворяет этим требованиям. Доказаны асимптотические свойства распределения введенной функции близости в условиях истинности гипотезы о совпадении моделей. Использование предлагаемой функции близости распределений для сравнения моделей проиллюстрировано на синтетических данных. С помощью статистических свойств распределения введенной функции близости получены оценки на максимальное количество попарно различимых моделей в мультимодели для выборки фиксированного размера. Доказана оценка снизу на количество различимых моделей путем построения набора различимых моделей. Для использования в задаче сравнения новой модели с базовой предложена несимметричная версия введенной функции близости.

Литература
1. Bishop C.M. Pattern recognition and machine learning. // Springer, 2006.
2. Bishop C.M., Nasrabadi N.M. Pattern recognition and machine learning. // Journal of electronic imaging, 2007. Vol. 16. No. 4.
3. Gelman A., Hill J. Data analysis using regression and multilevel/hierarchical models // Cambridge University Press, 2006.
4. Siddiqi N. Credit risk scorecards: developing and implementing intelligent credit scoring // Wiley, 2006.
5. Hosmer D.W., Lemeshow S. Applied logistic regression // A Wiley-Interscience Publication, 2000.
6. Hastie T., Tibshirani R., Friedman J.H. The Elements of Statistical Learning // Springer, 2001.
7. Motrenko A., Strijov V., Weber G.W. Bayesian sample size estimation for logistic regression.
8. Van den Noortgate W., De Boeck P., Meulders M. Cross-classification multilevel logistic models in psychometrics // Journal of Educational and Behavioral Statistics, 2003. Vol. 28. No. 4. Pp. 369--386.
9. Moerbeek M., Van Breukelen G.J.P., Berger M.P.F. Optimal experimental designs for multilevel logistic models // Journal of the Royal Statistical Society: Series D (The Statistician), 2001. Vol. 50. No. 1. Pp. 17--30.
10. Link W.A., Barker R.J. Model weights and the foundations of multimodel inference // Ecology, 2006. Vol. 87. No. 10. Pp. 2626--2635.

BibTeX:
@conference{Адуенко2015a,
  author = {Адуенко, А. А. and Стрижов, В. В.},
  title = {Анализ пространства параметров в задачах выбора мультимоделей},
  booktitle = {58-я научная конференция МФТИ},
  year = {2015},
  url = {http://www.machinelearning.ru/wiki/images/6/68/Aduenko_multimodels_20151126.pdf}
}
Гончаров А.В., Стрижов В.В. Метрическая классификация временных рядов с выравниванием относительно центроидов классов // 58-я научная конференция МФТИ, 2015. Conference
Abstract: В работе рассматривается задача многоклассовой классификации временных рядов. Классификация производится с помощью метрических методов, использующих матрицу попарных расстояний между временными рядами. Вычисление такой матрицы является трудоемким, так как ее размерность равна числу объектов выборки. С целью снижения размерности предлагается предварительно выделять эталонные объекты, а именно центроиды каждого класса, и строить матрицу попарных расстояний между объектами выборки и эталонными объектами классов.
Для вычисления попарных расстояний между объектами предлагается использовать метод динамического выравнивания временных рядов. Этот метод находит наилучшее соответствие между двумя временными рядами, если они нелинейно деформированы друг относительно друга – растянуты, сжаты или смещены вдоль оси времени.
Процедура классификации выполняется в три шага. Первый – отбор эталонных объектов каждого класса. Второй – построение матрицы попарных расстояний сниженной размерности между временными рядами и эталонными объектами каждого класса. Третий – классификация временных рядов методом k ближайших соседей с помощью матрицы попарных расстояний.
В качестве прикладной задачи рассматривается задача распознавания типа движения по данным акселерометра мобильного телефона. Метрический алгоритм классификации, исследованный в этой работе, сравнивается по точности с алгоритмом разделяющей классификации.
Вычислительный эксперимент показал, что у построенной модели качество классификации выше, чем у модели разделяющей классификации.
BibTeX:
@conference{Гончаров2015,
  author = {Гончаров, А. В. and Стрижов, В. В.},
  title = {Метрическая классификация временных рядов с выравниванием относительно центроидов классов},
  booktitle = {58-я научная конференция МФТИ},
  year = {2015},
  url = {http://svn.code.sf.net/p/mlalgorithms/code/Group274/Goncharov2015Centroids/doc/GoncharovAlexey2015Presentationautumn.pdf}
}
Задаянчук А., Попова М., Стрижов В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // 58-я научная конференция МФТИ, 2015. Conference
Abstract: Работа посвящается исследованию методов построения нейронной сети оптимальной структуры для решения задачи классификации временных рядов. В работе исследуются и сравниваются методы изменения размерности пространства параметров двухслойных нейронных сетей.
Оптимизировать размерность пространства можно на разных уровнях — на уровне нейронов (наборов параметров) и отдельных параметров. В настоящей работе рассматривается оптимизация размерности на уровне нейронов с помощью прореживания. Базовыми алгоритмами прореживания нейронных сетей являются оптимальное прореживание (англ. «Optimal Brain Damage» и «Optimal Brain Surgery»), основанные на вычислении вторых производных функции ошибки. Базовые алгоритмы находят локальный минимум функции ошибки. В случае же, когда функция ошибки имеет значительное число локальных минимумов, найденный минимум может не совпадать с глобальным. Для нахождения глобального минимума используется генетический алгоритм.
В вычислительном эксперименте рассматривается задача классификации физической активности человека по измерениям акселерометра. В вычислительном эксперименте оцениваются значения критериев качества для нейронных сетей, порождаемых друмя алгоритмами: OBD и генетическим алгоритмом.

Вычислительный эксперимент показал, что OBD позволяет значительно уменьшить количество активных нейронов, не увеличивая функцию ошибки модели, а генетический алгоритм позволяет получить модель с таким же количеством нейронов, как и OBD, при этом уменьшая значения функции ошибки модели. Наиболее точные результаты получаются при использовании метрической выборки и генетического алгоритма.

BibTeX:
@conference{Задаянчук2015,
  author = {Задаянчук, А.И. and Попова, М.С. and Стрижов, В.В.},
  title = {Выбор оптимальной модели классификации физической активности по измерениям акселерометра},
  booktitle = {58-я научная конференция МФТИ},
  year = {2015},
  url = {http://svn.code.sf.net/p/mlalgorithms/code/Group274/Zadayanchuk2015Covariance/doc/Zadayanchuk2015Presentation.pdf}
}
Кузнецов М.П. Комбинирование отношений порядка для восстановления предпочтения на наборе объектов // Математические методы распознавания образов, г. Светлогорск, 2015 — 18-19. Conference
BibTeX:
@conference{Кузнецов2015,
  author = {Кузнецов, М. П.},
  title = {Комбинирование отношений порядка для восстановления предпочтения на наборе объектов},
  booktitle = {Математические методы распознавания образов, г. Светлогорск},
  year = {2015},
  pages = {18-19},
  url = {http://www.machinelearning.ru/wiki/images/c/c7/Kuznetsov2015MMPR.pdf}
}
Кузьмин А.А., Адуенко А.А., Стрижов В.В. Построение иерархических тематических моделей крупных конференций // Математические методы распознавания образов, г. Светлогорск, 2015 — 224-225. Conference
BibTeX:
@conference{Кузьмин2015,
  author = {Кузьмин, А. А. and Адуенко, А. А. and Стрижов, В. В.},
  title = {Построение иерархических тематических моделей крупных конференций},
  booktitle = {Математические методы распознавания образов, г. Светлогорск},
  year = {2015},
  pages = {224-225},
  url = {http://www.machinelearning.ru/wiki/images/a/a3/Kuzmin2015MMPR.pdf}
}
Кузьмин А.А., Адуенко А.А., Стрижов В.В. Построение иерархических тематических моделей крупных конференций // 58-я научная конференция МФТИ, 2015. Conference
Abstract: Программный комитет крупной конференции ежегодно сталкивается с задачей построения ее тематической модели. При этом экспертам необходимо определить положение каждого нового доклада в иерархической структуре тем конференции. Предполагая, что структура конференции меняется из года в год незначительно, предлагается построить экспертную систему для поиска наиболее подходящих тем для нового доклада с помощью экспертных тематических моделей конференций прошлых лет и методов текстового анализа.
Иерархическую структуру конференции можно представить в виде дерева, листами которого являются доклады, а узлами – темы. Для классификации документа в подобной иерархической структуре тем можно использовать различные методы: ввести функцию сходства [4] документа с кластером нижнего уровня иерархии и отнести новый документ к кластеру с наибольшим сходством, использовать дивизимный метод [1], идущий сверху вниз по дереву, выбирая на каждом шаге наиболее подходящий кластер среди дочерних кластеров текущего [3]. Однако, когда кластеры нижнего уровня содержат небольшое число объектов, данные подходы не являются устойчивыми, так как при добавлении нового объекта к такому кластеру, его терминологический состав может значительно измениться, что приведет к изменению сходства данного кластера с объектами, уже находящимися в данном кластере.
Помимо этого, используя подобные алгоритмы классификации, для каждого нового документа мы получаем один прогнозный кластер. Однако, в силу большого числа тем и малого числа обучающих объектов для каждой темы, результаты данного алгоритма будут часто не совпадать с экспертным решением. Поэтому целью данной работы является предложить эксперту набор наиболее подходящих тем для новых документов. Для этого необходимо построить оператор релевантности, возвращающий ранжированный список кластеров нижнего уровня иерархии в порядке убывания их релевантности новому документом. Для оценки качества такого оператора предлагается два критерия.
В данной работе рассматривается три способа построения оператора релевантности: с помощью иерархического мультиклассового SVM [3], вероятностной тематической модели ARTM [2], и предлагаемой иерархической взвешенной функции сходства, позволяющей считать сходство документа сразу со всей веткой дерева иерархии, а не только с кластером заданного уровня. Веса данной функции настраиваются по тематическим моделям конференций прошлых лет с помощью предлагаемой энтропийной модели.
Для проверки предлагаемого алгоритма строится модель конференции ЕВРО 2010 по экспертным моделям конференций ЕВРО 2012 и ЕВРО 2013. Результаты оператора релевантности, построенного с помощью предложенной иерархической функции сходства, сравниваются с результатами операторов, построенных на основе алгоритмов SVM и ARTM.

Литература
1. Кузьмин А. А. [и др.] Проверка адекватности тематических моделей коллекции документов. // Программная инженерия. – 2013. – № 4. – С. 16-20.
2. Vorontsov K. V. [at al.] Additive Regularization of Topic Models for Topic Selection and Sparse Factorization // Statistical Learning and Data Sciences. – 2015. – V. 9047. – 193-202p.
3. Hao Pei-Yi [at al.] SVM classification based on support vector clustering method and its application to document categorization // Expert Systems with Applications. – 2007. – V. 33, № 3. – 627-635p.
4. Wen-tau Yih Learning Term-weighting Functions for Similarity Measures // Conference on Empirical Methods in Natural Language Processing. – 2009.

BibTeX:
@conference{Кузьмин2015a,
  author = {Кузьмин, А. А. and Адуенко, А. А. and Стрижов, В. В.},
  title = {Построение иерархических тематических моделей крупных конференций},
  booktitle = {58-я научная конференция МФТИ},
  year = {2015}
}
Мотренко А.П. Оценка объема выборки в задачах классификации // Математические методы распознавания образов, г. Светлогорск, 2015(28-29). Conference
BibTeX:
@conference{Мотренко2015,
  author = {Мотренко, А. П.},
  title = {Оценка объема выборки в задачах классификации},
  booktitle = {Математические методы распознавания образов, г. Светлогорск},
  year = {2015},
  number = {28-29},
  url = {http://www.machinelearning.ru/wiki/images/8/8e/Motrenko2015MMPR.pdf}
}
Нейчев Р.Г., Стрижов В.В., Катруца А.М. Отбор признаков в условиях мультиколлинеарности в задаче прогнозирования // 58-я научная конференция МФТИ, 2015. Conference
Abstract: В работе рассматривается проблема прогнозирования временных рядов. Для получения устойчивого прогноза входные временные ряды рассматриваются как матрица объект-признак и используется отбор признаков.
Представим входной временной ряд в виде матрицы объект-признак. Решается задача линейной регрессии. Признаки, которым соответсвуют ненулевые члены вектора параметров, будем называть активными, а остальне признаки будем считать исключенными. Функцию ошибки зададим как квадрат вектора регрессионных остатков.

Для решения задачи линейной регрессии необходимо найти множество активных признаков , минимизирующее функию ошибки S. Так как поставлена задача линейной регрессии, функция фиксирована. Назовем моделью пару и обозначим ее . Модель будем называть устойчивой, если лубые малые изменения веткора параметров приводят к слабым изменениям целевого вектора. Для нахождения подмножества поставим задачу отбора признаков.

Для отбора предлагается применить модифицированную версию шаговой регрессии Add-Del. Добавление признаков производится с помощью FOS. Он последовательно добавляет признаки, масимально коррелирующие с вектором регрессионных остатков. Удаление признаков производится с помощью метода Белсли. Сложность предлагаемого метода линейно зависит от длины входа.
Метод Белсли используется для решения проблемы мультиколлинеарности, наличие которой между признаками негативно влияет на устойчивость модели. Рассмотрим сингулярное разложение матрицы объект-признак. На основе анализа свойств ковариационной матрицы признаков, можно сформулировать следующее утверждение:
Исключение из модели признаков, максимально влияющих на минимальное сингулярное число матрицы , доставляет максимальную устойчивость модели.
В ходе вычислительного эксперимента были оценены результаты работы предлагаемого метода. Так же произведено сравнение качества моделей, полученных с помощью предлагаемого метода Add-Del, и алгоритмов LARS и Lasso. Предлагаемый метод получает модель, включающую меньшее количество признаков, но предоставляющую при этом сравнимые по качеству результаты. Из теоретического описания метода следует, что область его применения не ограничивается задачами прогнозирования, и он может быть использован в любых задачах, требующих отбора признаков при построении модели по признаковому описанию.

Работа поддержана грантом РФФИ №14-07-31264.

BibTeX:
@conference{Нейчев2015,
  author = {Нейчев, Р. Г. and Стрижов, В. В. and Катруца, А. М.},
  title = {Отбор признаков в условиях мультиколлинеарности в задаче прогнозирования},
  booktitle = {58-я научная конференция МФТИ},
  year = {2015},
  url = {http://svn.code.sf.net/p/mlalgorithms/code/Group274/Neychev2015FeatureSelection/doc/Neychev2015FSPresentation.pdf}
}
Плавин А.В., Потапенко А.А., Воронцов К.В. Энтропийный регуляризатор отбора тем в вероятностных тематических моделях // Математические методы распознавания образов, г. Светлогорск, 2015 — 228-229. Conference
BibTeX:
@conference{Плавин2015,
  author = {Плавин, А. В. and Потапенко, А. А. and Воронцов, К. В.},
  title = {Энтропийный регуляризатор отбора тем в вероятностных тематических моделях},
  booktitle = {Математические методы распознавания образов, г. Светлогорск},
  year = {2015},
  pages = {228-229},
  url = {http://www.machinelearning.ru/wiki/images/a/a3/Plavin2015.pdf}
}
Стрижов В.В., Стенина М.М., Мотренко А.П., Кузнецов М.П., Каширин Д.О., Корчагин А.Д., Рудаков К.В. Разработка и исследование свойств системы прогнозирования объемов спроса на грузовые железнодорожные перевозки // Математические методы распознавания образов, г. Светлогорск, 2015 — 198-199. Conference
BibTeX:
@conference{Стрижов2015,
  author = {Стрижов, В. В. and Стенина, М. М. and Мотренко, А. П. and Кузнецов, М. П. and Каширин, Д. О. and Корчагин, А. Д. and Рудаков, К. В.},
  title = {Разработка и исследование свойств системы прогнозирования объемов спроса на грузовые железнодорожные перевозки},
  booktitle = {Математические методы распознавания образов, г. Светлогорск},
  year = {2015},
  pages = {198-199},
  url = {http://www.machinelearning.ru/wiki/images/0/00/Strijov2015MMPR.pdf}
}
Целых В.Р., Воронцов К.В., Успенский В.М. Сравнение информационного анализа электрокардиосигналов и анализа вариабельности сердечного ритма как методов диагностики заболеваний внутренних органов // Математические методы распознавания образов, г. Светлогорск, 2015 — 218-219. Conference
BibTeX:
@conference{Целых2015,
  author = {Целых, В. Р. and Воронцов, К. В. and Успенский, В. М.},
  title = {Сравнение информационного анализа электрокардиосигналов и анализа вариабельности сердечного ритма как методов диагностики заболеваний внутренних органов},
  booktitle = {Математические методы распознавания образов, г. Светлогорск},
  year = {2015},
  pages = {218-219},
  url = {http://www.machinelearning.ru/wiki/images/c/c2/CelyhMMPR2015.pdf}
}
Черных В.Ю., Стенина М.М. Прогнозирование нестационарных временных рядов при несимметричных функциях потерь // 58-я научная конференция МФТИ, 2015. Conference
Abstract: В данной работе рассматривается задача прогнозирования временных рядов при несимметричных функциях потерь и предлагается метод ее решения, основанный на композиции двух базовых алгоритмов.
Суть предлагаемого алгоритма состоит в последовательном применении алгоритмов ARIMA [1] и Hist к временному ряду , который может иметь нестационарные особенности (сезонность, тренд и т.д.). Ищется регресионная модель
,
где – вектор параметров, а функция распадается на две части и .
Алгоритм авторегресионного интегрированного скользящего среднего ARIMA позволяет хорошо прогнозировать нестационарные временные ряды, но настройка параметров осуществляется путем минимизации квадратичной функции потерь

При этом итоговый прогноз будет несмещенным [1], а в случае несимметричной функции потерь оптимальный прогноз может быть смещенным [2]. Модификации же алгоритма, использующие истинную функцию потерь, слишком сложны в реализации и требуют отдельной модели для каждой конкретной функции [3]. Таким образом, после первого этапа прогноз учитывает характерные особенности временного ряда, но не функции потерь .
На втором этапе предлагается обучить алгоритм Hist на регресионных остатках модели ARIMA. Если модель ARIMA была выбрана правильно, то этот ряд будет обладать некоторыми свойствами [1], в частности он будет стационарным. Hist минимизирует математическое ожидание потерь.
Для решения этой задачи используется свертка [4] функции потерь с гистограммой [5] ряда регресионных остатков. Такая добавка к начальному прогнозу позволит учесть особенности несимметричной функции потерь.
Вычислительный эксперимент проведен для различных рядов (рис. 1) с разными видами нестационарности и нескольких функции потерь – квадратичной, абсолютной и асимметричной кусочно-линейной. В ходе эксперимента получено экспериментальное подтверждение того, что при несимметричных потерях использование двухэтапного ARIMA+Hist позволяет существенно уменьшить средние потери.

1. Box G.E.P., Jenkins G.M., Reinsel G.C. Time Series Analysis: Forecasting and Control. // Englewood Cliffs. – 1994. – 598 p.
2. Patton A.J., Timmermann A. Properties of optimal forecasts under asymmetric loss and nonlinearity. // Journal of Econometrics. – 2007. – Vol. 140, № 2. – P. 884–918.
3. Koenker R., Xiao Zhijie Quantile autoregression. // Journal of the American Statistical Association. – 2006. – Vol. 101, № 475. – P. 980–990.
4. Diebold F.X., Christoffersen P.F. Further results on forecasting and model selection under asymmetric loss. // Journal of applied econometrics. – 1996. – Vol. 11, № 5. – P. 561–571.
5. Biau G. [et al.] Nonparametric sequential prediction of time series. // Journal of Nonparametric Statistics. – 2010. – Vol. 22, № 3. – P. 297–317.

BibTeX:
@conference{Черных2015,
  author = {Черных, В. Ю. and Стенина, М. М.},
  title = {Прогнозирование нестационарных временных рядов при несимметричных функциях потерь},
  booktitle = {58-я научная конференция МФТИ},
  year = {2015},
  url = {http://svn.code.sf.net/p/mlalgorithms/code/Group274/Chernykh2015TimeSeriesPrediction/doc/presentation/Chernykh2015Presentation.pdf}
}
Швец М.Ю., Зухба А.В., Воронцов К.В. Построение монотонного классификатора для задач медицинской диагностики // Математические методы распознавания образов, г. Светлогорск, 2015 — 42-43. Conference
BibTeX:
@conference{Швец2015,
  author = {Швец, М. Ю. and Зухба, А. В. and Воронцов, К. В.},
  title = {Построение монотонного классификатора для задач медицинской диагностики},
  booktitle = {Математические методы распознавания образов, г. Светлогорск},
  year = {2015},
  pages = {42-43},
  url = {http://www.machinelearning.ru/wiki/images/1/18/Shvets2015MMPR.pdf}
}