Разработка и исследование сегментных моделей фонов для распознавания слитной речи.

В основе практически всех современных методов распознавания речи лежит представление речевого сигнала сетью (марковских) моделей звуков речи. Существенными недостатками распознавания на основе скрытых марковских моделей является предположение об условной независимости параметров наблюдений при заданной последовательности состояний, а также использование параметров сигнала, вычисляемых на основе последовательного анализа, с заданным размером шага и длиной окна.
Для преодоления указанных ограничений предлагается использовать сегментные модели речевого сигнала. Основная идея сегментных моделей состоит в том, чтобы использовать в качестве наблюдения не отдельный вектор параметров, вычисленный в окне кадре анализа фиксированного размера, а функцию или последовательность таких векторов, образующих сегмент, вообще говоря, переменной длины.Сегментные модели могут рассматриваться как марковские модели высшего порядка, когда отдельное состояние марковской цепи генерирует случайную последовательность векторов наблюдений.
Процедуры обучения (подстройки) параметров марковских моделей (алгоритм Баума-Уэлча на основе EM- оценивания) и алгоритмы декодирования речевого сигнала (процедура Витерби и метод прямого-обратного хода) можно обобщить на случай сегментных моделей.
По-сегментная стратегия кодирования сигнала также представляется более эффективной, чем общепринятая стратегия использования локальных кратковременных параметров сигнала. Можно надеяться, что применение сегментных моделей приведет к выигрышу как в точности распознавания так и в помехоустойчивости постронных на этой основе систем распознавания речи.
Работа выполняется при поддержке Гранта РФФИ, 00-01-00648.