Бурнаев Е.В., Оленев Н.Н. Меры близости для временных рядов на основе вейвлет коэффициентов // Труды XLVIII научной конференции МФТИ, 25-26 ноября 2005 г. Ч.VII.

Мера близости для временных рядов на основе вейвлет коэффициентов

Е.В. Бурнаев, Н.Н. Оленев

Московский физико-технический институт (государственный университет)

Введение. Мера близости между данными является центральным понятием большинства data mining алгоритмов. Для ⌠сложных■ данных, таких как финансовые временные ряды, обычная мера близости типа евклидова расстояния, зачастую не применима. На рис.1. изображены обменные курсы South Africa rand и Switzerland franc по отношению к US dollar с 01.01.90 по 29.10.93, 1000 отсч╦тов. Очевидно, что подсчитанное для этих рядов евклидово расстояние значительно, хотя, если удалить тренд и провести подходящее масштабирование по оси ординат, окажется, что эти временные ряды близки.

Рис.1. Слева: обменные курсы South Africa rand и Switzerland franc vs US dollar с 01.01.90 по 29.10.93, 1000 отсч╦тов. Справа: те же обменные курсы, но с вычетом тренда и подходящим масштабированием по оси ординат.

Из вышеприведенного примера ясно, что меру близости временного ряда следует рассчитывать на основе некоторых характеристик временного ряда, а не на основе значений ряда. Причем эти характеристики должны быть робастны по отношению к изменениям в уровне, масштабе и тренде ряда. В работе предлагаются меры близости для временных рядов на основе вейвлет коэффициентов, рассчитываемых с помощью дискретного вейвлет преобразования и обладающих этими свойствами.

Дискретное вейвлет преобразование. Пусть ═- временной ряд, ═для некоторого целого ═и . Пусть ═- матрица дискретного вейвлет преобразования размера , определенная на основе вейвлет и масштабного фильтров длины ═[1]. Вектор вейвлет и масштабных коэффициентов равен , где ═и ═- вектора длины ═и ═соответственно. Пусть , тогда ═- пропорционально среднему ряда, причем если в векторе ═обнулить , а потом сделать обратное вейвлет преобразование, то это равносильно вычитанию среднего из ряда . Коэффициент ═пропорционален разности смежных взвешенных средних длины , то есть указывает на изменение значений ряда на масштабе . Модуль ═показывает, сколько энергии ряда ═содержится в отрезке частот ═в момент времени . Для широкого класса стохастических процессов ═независимы, и распределены как , где ═- некоторая константа [1]. Коэффициент ═пропорционален взвешенному среднему длины , а его модуль показывает, сколько энергии ряда ═содержится в отрезке частот ═в момент времени . В работе будут использоваться вейвлет и масштабные фильтры Добеши 4 (). В этом случае ═не чувствительны к линейному тренду, то есть если ряд ═суть значения некоторой линейной функции, то . При подсчете вектора коэффициентов ═неявно делается предположение о возможности циклического продолжения ряда :. Если это не так, то значения ⌠граничных■ вейвлет коэффициентов будут подсчитаны неверно. Для фильтров Добеши 4 это коэффициенты , ═и .

Алгоритм подсчета мер близости между временными рядами.

Тестирование мер близости. Для тестирования введенных мер близости использовались ряды обменных курсов 30 валют по отношению к US dollar, взятые с сайта Federal Reserve Statistical Release, USA c 26.02.91 по 31.12.98, 2048 отсчетов (www.federalreserve.gov/releases/h10/hist/default1999.htm). В табл.1. приведены значения мер близости ═и ═между курсом Switzerland franc и остальными обменными курсами. Также в таблице приведены результаты разбиения рядов на 10 кластеров с помощью алгоритма k-Means [2] (в столбцах указаны номера кластеров, к которым принадлежат ряды). При разбиении на кластеры использовались два типа расстояния между рядами: cs √ на основе косинуса угла и cr √ на основе коэффициента корреляции между рядами. Из табл.1 видно, что между введенными мерами близости и разбиением на кластеры, по крайней мере для первых 10 валют, существует разумное соответствие. На рис.2. изображена зависимость мер близости ═и ═между Switzerland franc и Australia dollar, Austria schilling, China yuan, Finland markka, France franc, Hong-Kong dollar от времени. Значения ═и ═оценивались в скользящем окне длиной 256 отсчетов, для подсчета использовались 401 отсчет с 01.01.90 по 15.07.91. Из рис.2. видно, что курсы валют образуют кластеры, которые зависят от времени. По всей видимости, это основная причина, из-за которой в табл.1. для последних 15-20 валют соответствие между значениями мер близости , ═и номерами кластеров, полученных с помощью алгоритма K-means, не очень хорошее.

Работа поддержана грантом РФФИ ╧ 04-07-90346, программой НШ-1843.2003.01, целевой программой Президиума РАН ╚Информатизация╩.

Табл.1. Значения мер близости ═и ═и результаты кластерного анализа.

Рис.2. Зависимость мер близости ═и ═от времени.

Литература.

1.      Vidakovic B. Statistical modeling by wavelets, Wiley, 1999.

2.      Kaufman L., Rousseeuw P.J., Finding Groups in Data: An Introduction to Cluster Analysis, Wiley, 1990.