Упражнения лабораторной работы: MPI коллективный обмен сообщениями I

Вычислительный центр им. А.А. Дородницына РАН

Раздел виртуального курса
Параллельное программирование в интерфейсе MPI

Лабораторная работа № 4:
MPI коллективный обмен сообщениями I

Содержание

Предварительные требования
Цели
Упражнение 1
Упражнение 2
Упражнение 3
Очистка

Предварительные требования

Эта работа следует за теорией, изложенной в модуле MPI коллективный обмен сообщениями I. Требуется вначале завершить работу по модулю Основы программирования в MPI , включая упражнения, прежде чем начинать данную лабораторную работу.

Цели

Упражнение 1 лабораторной работы ознакомит вас с основными функциями коллективной коммуникации: операциями широкой рассылки (broadcast), сбора (gather) и глобального приведения (global reduction).

В упражнении 2 требуется вычислить π.

В упражнении 3 изучается метод Лапласа.

Упражнение 1

Рабочий файл на C: ex1.c
Название рабочего файла на С для записи решения: ex1_solved.c
Название файла С для записи решения C: ex1_c.data
Файл входных данных для программы на C: c.seed
Файл построения C программы: ex1_c.mak

Структура этой программы следующая:

Задача ноль считывает по случайному порядку номер - исходник
Исходник отправляют всем задачам (проект лабораторной работы)
Каждая задача вычисляет одно случайное число, основанное на исходнике и разряде
Задача с наибольшим рангом вычисляет среднее значение случайных чисел (проект лабораторной работы)
4 дальнейших случайных числа производятся каждой задачей
Максимальная значение и стандартное отклонение всех сгенерированных случайных чисел рассчитывается, и результаты делаются доступными всем задачам (проект лабораторной работы)

Пожалуйста, при выполнении упражнения следуйте таким шагам :

Просмотрите программу с тем, чтобы идентифицировать какие отделы программы соответствуют каждому элементу структуры, перечисленным выше. Отметьте, в частности, сервисную функцию GetStats, которую используют, чтобы вычислить максимальное значение и стандартное отклонение массива чисел.
Вставьте соответствующие вызовы функций коллективной коммуникации в MPI в указанных точках.
Используя программу WinSCP скопируйте файл ex1_solved.c в вашу директорию на кластерном компьютере.
Откомпилируйте программу, используя командную строку
mpicc -o ex1_solved.exe ex1_solved.c -lm
или соответствующий файл построения, например:
nmake /f ex1_c.mak
Ключ -lm указывает на необходимость прикрепления математической библиотеки.
Определитесь как много задач вы желаете использовать (от 1 до 8).
С помощью SSH клиента (putty.exe) запустите программу на счет из командной строки
mpirun -np 4 ex1_solved.exe -maxtime 5
Здесь выбрано 4 задачи и установлено максимальное время счета, после которого программа будет удалена в случае зацикливания. (Указание максимального допустимого времени счета, это обязательное требование!)
Скопируйте выходной файл на ваш компьютер.

Упражнение 2:

Вычисление `π`

Краткая аннотация

Существует два примера программ для вычисления π:

dboard_pi:
Это - очень простая параллельная программа, в которой каждая задача независимо приближает решение. Объем работы, сделанный каждой задачей остается тем же самым как число увеличений задач, но усредненное решение оказывается более правильным. Есть две версии: одна демонстрирует отправки и получения (pi_send), а другая использует коллективные коммуникации (pi_reduce).
int_pi:
Вычисляет π используя интегральную аппрксимацию. Этот код имеет особый интерес, так как включено несколько программ, которые иллюстрируют конверсию последовательного кода int_pi в параллельный. Конечная версия есть int_pi2.c.

Описание проблемы

dboard_pi:
Нарисуйте круг с радиусом 1 с центром в начале. Круг вписан в квадрат, углы которого в (-1,-1), (-1,1), (1,1) и (1,-1). Площадь круга, разделенного на клощадь квадрата равна π/4.
Представьте себе это, как мишень. Дротики попадая в мишень, дают x и y координаты, которые являются случайными числами между-1 и 1. Дротики должны находиться в пределах квадрата, а могут также находиться в пределах круга. Программа приближает значение π, деля число дротиков, которые находятся в пределах круга на полное число брошенных дротиков, и умножая результат на четыре.
int_pi:
int_pi использует простую интегральную аппроксимацию для расчета π.

Параллелная реализация

dboard_pi:
Есть два способа извлечь выгоду из параллелизма: Вы можете управлять той же самой программой скорее, или управлять большей программой за том же самое времени. Этот пример использует последний подход.
Последовательное вычисление π включает бросание 5000 дротиков для каждой итерации из десяти, с совокупным средним числом проявленном в каждой итерации. Для параллельного выполнения, каждая задача выполняет этот процесс независимо, сообщая о его расчетном значении π задаче-мастеру (ID задачи равен 0). Мастер печатает совокупное среднее число. Чем больше задач, которые участвуют, тем более точно расчетное значение π.
Код относится к SPMD, то есть каждая задача запускает одни и те же команды. Есть две версии. Pi_send использует низкого уровня отправки и получения, чтобы собрать значения π. Pi_reduce использует aeyrwb. коллективнjq коммуникации, с предопределенной функцией приведения для дополнения вектора двойной точности с плавающей точкой.

Инструкции по компиляции и запуску dboard_pi

Files:

Откомпилируйте используя файл построения:

Для C:

nmake /f pi_c.mak

Определитесь с числом узлов для выполнения и исполните одну из учебных программ:

pi_send.exe

pi_reduce.exe

Инструкции по компиляции и запуску int_pi

Файлы:

int_pi.c есть оригинальная последовательная версия кода int_pi.
int_pi1.c есть частично параллелизованный код, сведенный к SPMD, но без разделения работы и без передачи сообщений.
int_pi2.c - название файла для финальной параллелизованной версии.
int_pi_c.mak файл построения.

Компиляция кода:

mpicc int_pi2.c -o int_pi2.exe -maxtime 5

или:

nmake /f int_pi_c.mak

Определитесь как много узлов использовать и выполните программу-мастер:

int_pi2.exe

Упражнение 3:

Метод Лапласа

Каждый рабочий процесс решает для себя, является ли он краем, углом или внутренним узлом, а так же то, с какими другими рабочими процессами он должен сообщаться. Краевые узлы получают их "локальные" граничные значения от "глобальных" граничных значений, а также как сообщаясь с их соседними внутренними узлами. Начальное значение всех точек установлено на среднее значение глобальных граничных величин. Последовательность итераций такова:

Каждый рабочий обменивает краевые значения с его четырьмя соседями. Тогда новые значения рассчитываются для верхнего левого и нижнего правого углов ("красных" углов) матрицы у каждого узла. Рабочие обменивают краевые значения снова. Затем рассчитываются верхний правый и нижний левый углы ("черные" углы) .

Через каждые 20 итераций, узлы вычисляют среднее различие каждой точки с его значением 20 итераций назад. Эти локальные средние различия собираются задачей 0, и глобальное среднее различие находится. Если оно меньше, чем некоторое приемлемое значение, то задача 0 собирает куски матрицы. В противном случае, еще 20 итераций прогоняются.

Инструкции по компиляции и запуску

файлы C:

parallel_laplace.c файл параллельной реализации
parallel_laplace.mak файл построения

Откомпилируйте, используя предоставленный файл построения.

nmake /f parallel_laplace.mak
Отпределите 4 процессора для запуска программы (mpirun -np 4 ...)
Выполнить программу parallel_laplace.exe.
mpirun -np 4 parallel_laplace.exe -maxtime 3
Результаты запомнить в parallel_laplace.out.

Очистка

После завершения работы программ и отправки решения преподавателю не забудьте очистить ваш рабочий каталог на кластерном компьютере ВЦ РАН. Исходные тексты программ можно хранить на сервере Fast в вашем каталоге.