Подготовка данных и реализация глобальной климатической модели ECHAM-HOPE на многопроцессорном кластере ВЦ РАН
Г. М. Михайлов, В. П. Пархоменко, Н. П. Тучкова, К. П. Беляев, В. А. Соколов, А. М. Чернецов

Аннотация
Обсуждаются вопросы подготовки данных и проблемы реализации версии модели ECHAM-HOPE на кластере ВЦ РАН. Проведена модификация блока MPI для среды Linux, отладка и тестирование океанской и атмосферной части модели и блока совместности. Осуществлено тестирование и предварительные контрольные эксперименты. Развитие наблюдаемой базы и математических методов усвоения информации сделало актуальным создание оперативной системы 4-мерного анализа всех основных физических характеристик геосферы, их мониторинг и постоянную коррекцию. В данной работе используется схема обобщенного фильтра Калмана с построением уравнения для ковариационной функции ошибки (разности между модельным и наблюдаемым значениями исследуемой характеристики). Предлагается также новая технология фильтрации гидрологических массивов данных, реализованная на основе объемного статистического совместного анализа массивов значений температуры, солености и плотности морской воды (T-S-? анализ).
Ключевые слова
кластерная система ВЦ РАН, Linux, MPI, глобальная климатическая модель, ОЦА, EGMAM, усвоение данных, метод обобщенного фильтра Калмана, совместный статистический анализ данных наблюдений
Содержание
1. Введение
2. Описание глобальной климатической модели
3. Структурная схема кластера ВЦ РАН
4. Результаты тестовых расчетов
5. Задача усвоения данных в глобальной модели
6. Применение совместного статистического анализа термохалинных и плотностных полей для фильтрации и представления массивов данных морских гидрологических наблюдений
7. Заключение
8. Литература




1.Введение

Объектом исследований являются информационно-математическое и визуально-диагностическое программное обеспечение для высокопроизводительных вычислительных систем и анализ климатических процессов методами и средствами математического моделирования.
Задачи, связанные с изменением климата и глобальной экологии в результате естественно-природного и антропогенно - техногенного воздействий, а также с техногенной опасностью, чрезвычайными стихийными бедствиями и экологическими катастрофами, выходят на первый план во всех сферах человеческой деятельности. Интенсивное социально-экономическое, агротехническое и промышленное развитие оказывает на окружающую среду глобальное воздействие. Проблемы выживания человека требуют конкретных ответов на вопросы о происходящих изменениях. Математическое моделирование является наиболее перспективным направлением решения таких задач по своим возможностям прогнозирования, а также экономичности материальных затрат и безопасности для человека проводимых прогностических экспериментов. По своей природе задачи экологической и технологической безопасности и оценки состояния окружающей среды не допускают проведения полномасштабных измерений для оценки ситуационных рисков, прогнозирования последствий природных и техногенных натурных экспериментов.
С 1860 г. средняя температура воздуха у земной поверхности возросла на 0.6 o C. Существуют также некоторые свидетельства увеличения частоты и силы неблагоприятных явлений (сильная жара и засуха, наводнения и ураганы, оттепели и заморозки).
Основная доля солнечной энергии поглощается поверхностными слоями океана и суши и затем излучается обратно в пространство в виде длинноволновой (инфракрасной) радиации. Определенная часть уходящей радиации поглощается в атмосфере так называемыми парниковыми газами (в первую очередь, водяным паром, углекислым газом СО2, метаном СН4 и некоторыми другими), что обеспечивает дополнительный нагрев у поверхности Земли - естественный парниковый эффект. Количественная оценка этого потепления весьма сложна, поскольку в процессе потепления проявляются многочисленные положительные и отрицательные обратные связи в биосфере и климатической системе, связанные с концентрацией водяного пара и облачностью, а также изменением альбедо земной поверхности при ее загрязнении и уменьшении снежно-ледового и растительного покрова. Выбросы аэрозолей (твердых и жидко-капельных частиц, взвешенных в атмосфере) естественно-природного и антропогенно - техногенного происхождения могут приводить как к относительному похолоданию, так и потеплению.
Невозможно с уверенностью сказать, какой уровень потепления является опасным и, в связи с этим, какого уровня потепления не следует допускать. Последствия неясны и противоречивы. В любом случае будут заметные социально-экономические последствия. По значимости для дестабилизации климата разрушение экосистем более важно, чем рост выбросов. Столь многофакторную задачу перед наукой природа еще не ставила. Глобальные изменения и глобальная экология окружающей среды и увеличение частоты и силы неблагоприятных стихийных бедствий последних лет свидетельствуют о неготовности науки, поскольку исследования по проблемам глобальных климатических изменений и экологических катастроф находятся на начальной стадии развития и пока ни одна модель в мире полностью не смогла ни спрогнозировать, ни объяснить происходящие катаклизмы.
Разработка базовых основ информационно-моделирующей системы современного понимания ситуации способствует развитию нового направления в науке. Научные основы проблем глобальных изменений и ключевые аспекты глобальной экологии предполагают, что наряду с "парниковой" гипотезой глобального потепления необходимо изучать климатическую систему "атмосфера - океан - суша - ледяной покров - биосфера" с учетом всей сложности обратных связей между ее интерактивными компонентами. Требуются серьезные исследования и анализ результатов глобальных систем наблюдений и численного моделирования.
Реализации проектов, связанных с существенным воздействием на природную среду, должно предшествовать создание математической модели и проведение серии вычислительных экспериментов - основы математического моделирования, - позволяющих оценить все аспекты этого воздействия как в перспективе, так и при возникновении всевозможных кризисных и экстремальных ситуаций. Экономическая эффективность математического моделирования велика. Зачастую ее нельзя точно определить, так как методами математического моделирования можно решать задачи, считавшиеся ранее неразрешимыми.
Системный подход, математическое моделирование позволяют выделить основные процессы в рассматриваемой системе и ее существенные характеристики. Отметим широкий пространственный и временной спектр процессов в системе. Это затрудняет ее исследование. Изменения климата, химического состава атмосферы, подстилающей поверхности, наземных и морских биологических систем имеют характерные времена от нескольких лет до тысячелетий. Погодные явления, нестационарные вихревые движения в океане, сезонные изменения морских льдов, поверхностный сток воды, годичный цикл роста растений от нескольких дней до года. Наконец, процессы, описывающие потоки массы, импульса, энергии на суше, в океане, на поверхности льда, в атмосфере и биоте, происходят с масштабом времени менее одних суток.
В настоящее время разработаны многочисленные модели общей циркуляции атмосферы. В них учитываются все существенные процессы в атмосфере. Эти модели достаточно хорошо описывают циркуляцию атмосферы, температурный режим, осадки, поле давлений, облачность и т.д. Однако слабым местом этих моделей является, в частности, адекватное воспроизведение взаимодействия атмосферы с подстилающей поверхностью, региональных особенностей климата, а также описания облачности и связанных с ней мелкомасштабных конвективных процессов в атмосфере. Как известно, облачно радиационная обратная связь является одним из важнейших факторов формирования состояния атмосферы. Характерный масштаб циклонических образований составляет несколько сот километров, масштаб атмосферных фронтов десятки километров, масштаб отдельных кучевых облаков порядка одного километров, масштаб микрофизических процессов в облаках порядка метров, масштаб вертикальных конвективных движений во влажной атмосфере от сотен метров до километров.
Таким образом, для адекватного описания только крупномасштабных течений в атмосфере необходима расчетная сетка с горизонтальным шагом порядка 50 км и несколько десятков уровней по вертикали в тропосфере и стратосфере. Это при условии идеального описания подсеточных процессов. По оценкам американских ученых для успешного моделирования климата необходимы ЭВМ в 1000 раз превосходящие по быстродействию современные суперкомпьютеры.
Увеличение мощности ЭВМ является одним из важнейших требований для более надежных результатов и поэтому важно развивать методы распараллеливания для решения поставленных задач. Использование многопроцессорных компьютеров в климатических исследованиях, в частности при расчете циркуляции атмосферы, представляет собой один из перспективных путей. Это позволяет создать более адекватные вычислительные модели, которые могут быть использованы как в исследованиях, связанных с физикой Земли и океана, так и в проводимых экологических оценках.
Предлагаемый проект основывается на работе с европейской совместной моделью ECHAM-HOPE, созданной в научно-исследовательских центрах Европы, среди которых "Европейский центр среднесрочных прогнозов" (Рединг, Великобритания) и "Институт метеорологии им. М.Планка" (Гамбург, Германия) [1]. Совместное моделирование динамики "океан-лед-атмосфера-материки" стало одним из приоритетных направлений в геофизике с конца ХХ в. [2, 3]. Разработка мощных суперкомпьютеров и появление новых баз данных измерений дало возможность создавать и проводить расчеты по глобальным моделям циркуляции с учетом сложных взаимосвязей между физическими средами [4]. Более того, развитие наблюдаемой базы и математических методов усвоения информации сделало актуальным создание оперативной системы 4-мерного анализа всех основных физических характеристик геосферы, их мониторинг и постоянную коррекцию. Имеющаяся совместная модель реализована в настоящий момент на суперкомпьютерах в европейских вычислительных центрах на базе NEC и CRAY. Однако объем и масштабы работ в области моделирования климата оказались настолько велики, что вышли за пределы моделирования на одном или нескольких суперкомпьютерах. Стало понятно, что для проведения численных экспериментов и их осмысления необходимо привлекать новые научные коллективы, создавать различные варианты моделей на различных платформах и организовывать возможности широкого доступа к моделям и данным экспериментов и наблюдений.

2. Описание глобальной климатической модели

EGMAM - совместная (атмосфера/океан) глобальная климатическая модель, включает в себя ECHAM- модель общей циркуляции атмосферы и глобальную версию HOPE (Hamburg Ocean Primitive Equations) океанской модели [1], которая включает термодинамическую модель морского льда с учетом снежного покрытия.



Рис. 1. Схема интегрирования модели по времени


EGMAM может быть использована для численного исследования климатических изменений, моделирования мирового климата с масштабированием по времени и по пространству. Модель использует данные усредненных ежегодных тепловых потоков и данные потоков пресной воды в низких и средних широтах. В высоких широтах во взаимодействии океана и атмосферы учитывается ледовое покрытие. В частности, тепловые потоки с учетом льда моделируются с помощью разномасштабных сеток.
Компоненты модели могут использоваться как отдельные версии для моделирования океана и атмосферы. Реализация совместной версии осуществляется благодаря блоку интерфейса OASIS (coupling interface). OASIS - это гибкий инструментарий, позволяющий менять число компонентов модели, метод интерполяции и частоту обмена данными в модели, а также изменять стратегию совместного взаимодействия атмосферной и океанской части (the coupling strategy.)
Подготовка данных, необходимых для счета модели, реализуется в два этапа:
1. Интерполяция полученных GRIB данных и подготовка новых полей в GRIB формате.
2. Данные в формате из GRIB конвертируются в специальный бинарный формат с использованием ECHAM специального модуля (nudging module).
Интерполированный после первого шага результат архивируется в двух вариантах: один файл для спектральных полей и другой - для точек пространственной сетки.
Спектральные данные содержат:
╥ давление воздуха на подстилающей поверхности, один уровень (log surface pressure [ln(Pa)], single level),
╥ поверхностный геопотенциал, один уровень (surface geopotential [(m*m)/(s*s)], single level),
╥ температуру многоуровневую (temperature [K], multi level),
╥ завихренность многоуровневую (vorticity [1/s], multi level),
╥ дивергенцию скорости многоуровневую (divergence [1/s], multi level).
Точки сетки содержат:
╥ маску рельефа, один уровень (х0=sea, 1=land, single level),
╥ поверхностный геопотенциал, один уровень ([(m*m)/(s*s)], single level),
╥ температуру подстилающей поверхности, один уровень (skin temperature [K], single level),
╥ влажность многоуровневую (specific humidity [kg/kg], multi level),
╥ балл облачности многоуровневой (cloud cover (optional) [fraction], multi level),
╥ содержание влаги многоуровневое (liquid water content (optional) [kg/kg], multi level),
╥ содержание льда многоуровневое (ice content (optional) [kg/kg], multi level).
Преобразование в бинарный формат изменяет внутреннюю структуру файла и помещает данные в четыре файла:
╥ температура и давление у поверхности (temperature and log surface pressure (additional level, multi level),
╥ дивергенция скорости многоуровневая (divergence, multi level),
╥ завихренность многоуровневая (vorticity, multi level),
╥ температура подстилающей поверхности, один уровень (skin temperature, single level).
При распараллеливании данной программы был использован метод пространственной декомпозиции. При этом на каждом временном слое обмены информацией между процессорами необходимы только при выполнении конвективных шагов, все области представляются идентичными с вычислительной точки зрения, а количество передаваемой между процессорами информации не велико, а именно передаются только те участки счетных массивов, которые соответствуют граничным точкам подобластей. Это обеспечивает высокую эффективность алгоритма.
В качестве средства реализации распараллеливания была использована библиотека MPI (LAM 7.1.1/MPI 2, Linux). В параллельном варианте программы предусмотрена возможность разбиения на различное число подобластей, в зависимости от количества задействованных процессоров. Программа написана на FORTRAN90 и С++. Были проведены тестовые запуски программы на шести процессорах.
Создаваемые вычислительные средства ориентированы на обеспечение преемственности реализуемого математического обеспечения и возможностей его развития и переноса на иные высокопроизводительные ЭВМ с операционной системой UNIX. Проводимые исследования связаны с решением фундаментальных проблем информационных технологий и использованием новой вычислительной техники (ПК и суперкомпьютеров с параллельной структурой).

3. Структурная схема кластера ВЦ РАН

На рис. 2 представлена структурная схема кластера, развернутого на площадке Вычислительного центра им. А.А. Дородницына РАН. Как можно заметить из представленной функциональной схемы кластера, в ней полностью сохранена классическая концепция разделов для системы МВС-1000М.
Параметры кластерной системы:
╥ количество узлов 8
╥ общее количество процессоров 16
╥ общий размер оперативной памяти 16GB
╥ общий размер дискового пространства 288GB
╥ сетевой интерфейс (вычислительный) Myrinet 2000
╥ сетевой интерфейс (управляющий) Fast Ethernet

Узел кластера представляет двухпроцессорную систему, выполненную на новых технологиях и реализованную на базе современных микропроцессоров класса Intel Xeon 2600 MHz , имеющих тактовую частоту в 3.9 раза превышающую этот параметр по сравнению с Alpha 21264. В то же время известно, что частота не является единственным параметром, который определяет пиковую производительность процессора. Не менее важна и его архитектура, заложенная во внутреннюю структуру процессора.
Кластер имеет следующую архитектуру [5]:



Рис.2 Структурная схема кластера - ВЦ РАН


4. Результаты тестовых расчетов

Достоверность модели общей циркуляции атмосферы (ОЦА) исследовалась по качеству воспроизведения ею современного климата в режиме реального сезонного хода. Это общепринятая процедура, которая позволяет проверить адекватность модели по большому количеству параметров климатической системы путем сравнения с данными наблюдений. Проверка имеет статистический характер, поскольку все расчетные характеристики стохастически меняются. Все модели ОЦА подвергаются такой проверке. Сезонные колебания климатических характеристик вокруг их среднегодовых значений весьма значительны. От зимнего к летнему сезону характер циркуляции атмосферы качественно изменяется. Поэтому если модель удовлетворительно описывает сезонный ход основных климатических характеристик, как в рассматриваемом случае, то можно рассчитывать на пригодность ее для исследования чувствительности климата.
На рис. 3, 4 показано распределение поля поверхностной температуры и приземного давления на январь 1998 г.[4].



Рис. 3. Распределение поля поверхностной температуры (январь 1998 г.)



Рис. 4. Распределение приземного давления (январь 1998 г.)


5. Задача усвоения данных в глобальной модели

Коррекция расчетов математической модели данными измерений представляет собой одну из наиболее актуальных и интересных задач в современной математической геофизике. В мировой практике такие задачи получили название "задачи усвоения" и им посвящена обширная литература. Тем не менее данная область исследования по-прежнему актуальна и сравнительно молода. Более того, в последние годы наблюдается заметный всплеск интереса к данным исследованиям. Связано это, в первую очередь, с развитием компьютерных сетей и систем, развитием суперкомпьютеров и значительным прогрессом в области численных методов. Также важно отметить появление больших массивов наблюдаемой геофизической информации, систем спутниковых наблюдений и измерений, скоростных средств связи и т.д. Все это требует развития соответствующего математического аппарата, разработки надежных алгоритмов и их реализации.
Задача усвоения данных в геофизической (численной) модели является одной из таких актуальных и непростых задач. Несмотря на многочисленные исследования в данной области, все еще остается нерешенным целый ряд как теоретических, так и практических вопросов. Более того, в последние годы стал заметен большой разрыв между хорошо разработанными теоретическими моделями усвоения и их практической реализацией. Даже хорошо разработанные с теоретической точки зрения схемы при их практической реализации зачастую не дают должного эффекта и по качеству уступают более простым алгоритмам, которые, однако, недостаточно математически оправданы. Все это требует дальнейших шагов в понимании, разработке и реализации методов и алгоритмов усвоения. К данному направлению принадлежит и предлагаемая работа.
В целом методы усвоения можно разделить на две большие группы. Одна группа методов основана на вариационных принципах (поиск минимума некоторого функционала, описывающего "близость" модельного решения и данных измерений в некоторой заданной метрике), и получившей название в литературе как "вариационный метод" решения задач усвоения (в англоязычной литературе используется термин "ajoint method"). Этот метод (группа методов) сравнительно хорошо теоретически разработан и успешно применяется на практике, хотя он требует очень значительных технических средств (время счета, оперативной памяти и т.п.) для своей реализации. Кроме того, данный подход, вообще говоря, не устойчив с точки зрения малых возмущений в данных измерений - малые погрешности могут привести с течением времени к значительным отклонениям построенного решения. Чтобы сделать решение устойчивым, приходится применять различные теоретические схемы (например, методы регуляризации) а это, в свою очередь, ведет к дополнительным техническим сложностям. Тем не менее данный подход реализуем, его последняя версия 4D-var применяется, например в метеобюро Франции.
Другим альтернативным подходом к решению задач усвоения является схема, основанная на статистической теории оценивания и фильтрации процессов на фоне "шума" с известными статистическими свойствами. Этот подход, получивший название "фильтрации Калмана" (Kalman filtering) значительно проще реализуем, и он устойчив к малым возмущениям наблюдаемых данных. Тем не менее, его корректное обоснование проведено в настоящий момент только для линейных моделей, в случае же сильной нелинейности модели проходится использовать дополнительные, во многом эвристические дополнения. Тем не менее, данная схема, получившая в литературе название "обобщенного фильтра Калмана" (Extended Kalman filtering) с успехом применяется в целом ряде институтов и метеоцентров (например, в Королевском институте метеорологии Нидерландов (KNMI) или метеобюро Австралии (BMA)).
В данной работе также предлагается использовать схему обобщенного фильтра Калмана с некоторыми отличиями от общепринятой. Главным отличием является схема построения уравнения для ковариационной функции ошибки, разности между модельным и наблюдаемым значениями исследуемой характеристики. В данной схеме использован так называемый стохастический принцип, сводящий искомое уравнение к параболическому уравнению 2-го порядка Фоккера-Планка [6].
При постановке задачи предполагается, что заданы уравнения модели

и реальное (истинное) поле задается соотношением
(1)

Применение совместного статистического анализа термохалинных и плотностных полей для фильтрации и представления массивов данных морских гидрологических наблюдений
Заключение
Литература