Производные типы данных MPI

Вычислительный центр им. А.А. Дородницына РАН

Раздел виртуального курса
Параллельное программирование в интерфейсе MPI

Производные типы данных MPI

Содержание

Цели и предварительные требования
Зачем использовать производные типы данных?

2.1 Основные типы данных MPI
2.2 Мотивация

Что такое производные типы данных?

3.1 Общие типы данных и карты типов
3.2 Диапазон типа данных

Как и когда использовать производные типы данных?

4.1 Когда использовать
4.2 Как использовать
4.3 Правила согласования

Ключевые моменты

1. Цели и предварительные требования

Цель этого материала состоит в том, чтобы познакомить Вас с понятием производные типы данных MPI. После завершения изучения этого материала, Вы должны знать чем являются производные типы данных, а также зачем, как и когда использовать их. Упражннения на C дадут Вам практический опыт. Чтобы узнать больше о производных типах данных обратитесь к ссылкам, помещенным в конце этого материала.

Создание производных типов данных есть основной способ ознакомления с аргументами функций, которые Вы хотите использовать, назначив им соответствующие значения. Часто люди, начиная изучение производных типов данных, думают, что они очень сложны, но испытав их, понимают, что они довольно просты.

В качестве предварительных условий для выполнения этого материала, вы должны быть знакомы с материалом Основы программирования в MPI, и знать основные типы данных в MPI.

ПРЕДУПРЕЖДЕНИЕ

MPI-2 вводит несколько новых функций для использования при создании производных типов данных. Они не описаны в данном модуле. Описание в модуле удовлетворяет MPI-1. Код, который использует эти функции, должен работать в любой реализации MPI, поскольку в стандарте требуется обратная совместимость. Тем не менее, MPI-2 резко осуждает использование функций, которые были заменены, поэтому каждый, кто пишет код, который будет использован только в реализации стандарта MPI-2 должен будет использовать эти новые функции.
В настоящее время (2003 год), у нас нет свободно распространяемых стабильных реализаций MPI-2.

2. Зачем использовать производные типы данных?

2.1 Основные типы данных MPI

Напомним, кратко, основные типы данных MPI, показанные ниже:

основные предопределенные типы данных MPI для C

Тип данных MPI тип данных C
MPI_CHAR signed char

MPI_DOUBLE double

MPI_FLOAT float

MPI_INT signed int

MPI_LONG signed long int

MPI_LONG_DOUBLE long double

MPI_LONG_LONG_INT signed long long int

MPI_SHORT signed short int

MPI_UNSIGNED unsigned int

MPI_UNSIGNED_CHAR unsigned char

MPI_UNSIGNED_LONG unsigned long int

MPI_UNSIGNED_SHORT unsigned short int

MPI_BYTE

MPI_PACKED

Тип данных MPI	тип данных C
MPI_CHAR	signed char
MPI_DOUBLE	double
MPI_FLOAT	float
MPI_INT	signed int
MPI_LONG	signed long int
MPI_LONG_DOUBLE	long double
MPI_LONG_LONG_INT	signed long long int
MPI_SHORT	signed short int
MPI_UNSIGNED	unsigned int
MPI_UNSIGNED_CHAR	unsigned char
MPI_UNSIGNED_LONG	unsigned long int
MPI_UNSIGNED_SHORT	unsigned short int

MPI_BYTE
MPI_PACKED

Зная заданные здесь типы данных и их число, Вы можете отправлять сообщения с непрерывными (смежными) данными одного и того же типа.

2.2 Мотивация

Связана с тем, что Вам может понадобиться определение:

несмежных данных единственного типа
смежных данных смешанных типов
несмежных данных смешанных типов

Некоторые возможные решения напрашиваются сами:

Вы можете сделать множественные вызовы отправок и получений MPI для каждого элемента данных по-очереди.
Вы можете скопировать данные в буфер перед их отправкой. Один из двух MPI-определенных основных типов данных, MPI_PACKED, можно использовать, чтобы отправить данные, которые были явно упакованы, или получать данные, которые будут явно распакованы.
Вы можете воспользоваться MPI_BYTE, чтобы получить правила соотвествия для типов данных. Подобно MPI_PACKED, MPI_BYTE (другой MPI-специфичный основной тип данных) может быть использован для связи любого байта памяти (на машине с байтовой адресацией), независимо от типа данных переменной, которая содержит этот байт.

Вообще говоря, тем не менее, эти решения медленны, неуклюжи, и расточительны по памяти. Использование MPI_BYTE или MPI_PACKED может также привести к созданию программы, которая не будет переносимой на неоднородную систему машин.

Идея производных типы данных MPI должна обеспечить переносимый и эффективный способ передачи сообщения, состоящего из нескольких несмежных или смешанных типов данных. Производные типы данных MPI обеспечивают более простой, более чистый, более изящный и эффективный способ обработать этот тип данных, которые являются обычными в приложениях. Хотя Вы и можете прожить без производных типов данных, Вы не сможете сделать это легко.

[ ПРЕДУПРЕЖДЕНИЕ: в некоторых реализациях MPI использование производных типов данных не является настолько эффективным, как оно должно быть, в частности в терминах времени ожидания по операциям ввода/вывода. Как только Вы заполучите правильно работающий код вашей программы, Вам может захотеться преобразовать некоторые из производных типов данных в горячих точках вашего кода к MPI_BYTE или MPI_PACKED. Сравните синхронизацию переделанного вами кода и кода, использующего производные типы данных MPI, и выберите тот код, который даст Вам оптимальную эффективность работы. ]

3. Что такое производные типы данных?

Производные типы данных – это типы данных, которые построены из основных типов данных MPI. Для лучшего понимания того, что Вам необходимо для построения такого типа данных, Вам необходимо понимать общее понятие типа данных MPI, а также нечто, называемого картой типа(typemap).

3.1 Общие типы данных и карты типов

Формально выражаясь, стандарт MPI определяет общий тип данных как объект, который определяет две вещи:

последовательность основных типов данных
последовательность целых (байт) смещений

Наилегчайший способ представить такой объект есть последовательность пар основных типов данных и смещений. MPI называет эту последовательность картой типов (Typemap).

Typemap = {(type0, disp0), (type1, disp1), ..., (typeN, dispN)}

Эти смещения заданы относительно буфера, который этот тип данных описывает. Например, MPI_INT является предопределенным управителем (handle) для типа данных с картой типов {(int,0)} с одним вводом типа int с нулевым смещением. Другие основные типы данных определяются аналогично. В соответствии с этим способом, производные типы данных являются общими типами данных с более чем одной парой (type, disp).

3.2 Диапазон типа данных

Вышеприведеннного материала достаточно, чтобы ответить на вопрос "Что такое производные типы данных?" Время от времени, однако, Вам может понадобиться немного больше знания для успешного применения более сложных производных типов данных. В частности, полезно понимание понятия диапазона (extent) производного типа данных. Для этого нам понадобятся дальнейшие определения.

lb(Typemap) = min(disp0, disp1, ..., dispN)

ub(Typemap) = max(disp0 + sizeof(type0), disp1 + sizeof(type1), ..., dispN + sizeof(typeN))

extent(Typemap) = ub(Typemap) - lb(Typemap) + pad

Здесь
lb устанавливает нижнюю границу карты типа Typemap. Вы можете представлять ее как расположение первого байта, описанного этим типом данных.
ub устанавливает верхнюю границу карты типа Typemap. Это расположение последнего байта, описанного этим типом данных.
sizeof – есть размер основного типа данных в байтах. (Заметим: это верно для основных типов данных.)
Диапазон extent – есть разница между этими двумя установками, возможно увеличенная на величину pad, чтобы удовлетворить требованиям выравнивания. Некоторые языки, подобно C, требуют, чтобы их типы данных были выравнены в памяти некоторым особым способом. Обычно, они требуют, чтобы адрес переменной (в байтах) был множителем ее длины (в байтах). MPI использует pad, чтобы учесть это, так что диапазон типа данных есть промежуток от первого байта до последнего байта, занятого входами в этом datatype, округленном так, чтобы удовлетворить требованиям выравнивания. Для всех основных типов данных, подобных MPI_DOUBLE, MPI_INT, это – просто число байтов в них.

Рассмотрим пример производного типа данных. Предположим, диапазоны extent(double) = 8, extent(int) = 4, – и машина требует, чтобы числа сточностью doubles были выровнены по 8-байтным границам. Если производный тип данных имеет карту типа typemap = {(int,0) (double,4)}, то осюда следует, что lb = min(0,4) = 0 и = max(0+4,4+8) = 12. Однако, поскольку числа с точностью doubles должны быть выровнены по 8-байтным границам, диапазн extent этого производного типа данных равен 16, а не 12. Существуют вызовы MPI, чтобы получить значения lb, ub и extent. Таким образом, вам нет нужды беспокоиться о том, как некая частная машина или язык располагают данные в памяти.

Здесь указан синтаксис для функции диапазона extent:

int MPI_Type_extent(MPI_Datatype datatype, MPI_Aint *extent)

где

datatype – указатель на входной тип данных
extent – специальный целый тип MPI_Aint для C, который может содержать произвольный адрес

4. Как и когда использовать производные типы данных?

4.1 Когда использовать

Когда Вы хотите создать тип данных в C, Вы делаете это, объявляя тип данных перед выполнением любых инструкций. Ваши объявления читаются компилятором, который устанавливает память для вашего типа данных. Напротив, производные типы данных MPI создаются во время выполнения через вызовы функций из библиотеки MPI. Поскольку производные типы данных MPI часто используются, чтобы отправить или получить типы данных C, то в типичном сценарии, Вы сначала объявляете вашы типы данных C. Позже, во время выполнения вашей программы между вызовами MPI_INIT и MPI_FINALIZE, Вы создаете и используете ваши производные типы данных MPI.

4.2 Как использовать

Перед тем как использовать производный тип данных, вы должны создать его. Здесь указаны шаги, которые вы при этом проходите:

Создайте тип данных.
Разместите тип данных.
Используйте тип данных.
Освободите тип данных.

Вам следует создать и разместить тип данных перед его использованием. С другой стороны, если вы создали и разместили тип данных, то от вас не требуется использовать или освобождать его.

Пройдем по этим шагам более подробно:

4.2.1 Создайте тип данных

Как говорилось выше, производные типы данных – типы данных, которые сформированы из основных типов данных MPI. Карты памяти (typemaps) – наиболее общий способ сделать это, но они не очень удобны, если мы имеем большое количество входов. К счастью, MPI обеспечивает множество функций, чтобы создать общие типы данных из основных типов данных, не будучи обязанным создавать typemap. Новые определения типа данных строятся на основе существующих типов данных (или производных или основных) используя вызов или рекурсивную серию вызовов функций, описанных ниже:

Смежный (непрерывный):

Вызовы MPI_Type_contiguous создают новый тип данных посредством замены существующего типа данных в смежных расположениях.

int MPI_Type_contiguous(int count, MPI_Datatype oldtype,
    MPI_Datatype *newtype)

где

count – входная переменная, определяющая количество дублей
oldtype – входная переменная, определяющая указатель на старый тип данных
newtype – выходная переменная, определяющая указатель на новый тип данных

Векторный:

Вызовы MPI_Type_vector, подобно вызовам MPI_Type_contiguous, создают новый тип данных посредством дублирования существующего; тем не менее, MPI_Type_vector позволяет учитывает промежутки в смещении. Такие промежутки – множители степени существующего типа данных.

int MPI_Type_vector(int count, int blocklength, int stride,
    MPI_Datatype oldtype, MPI_Datatype *newtype)

где

count – входная переменная, определяющая число блоков
blocklength – входная переменная, определяющая число элементов в каждом блоке
stride – входная переменная, определяющая число элементов между началом последовательных блоков.

Пример:

Иллюстрирует вызов с count = 2, blocklength = 3, и stride = 5

Сделайте следующее:

Используя бумагу и карандаш, проиллюстрируйте вызов:

MPIERROR = MPI_Type_vector(2, 4, 4, OLDTYPE, NEWTYPE)

Что это скажет о вызове MPI_Type_contiguous?

Предостережение

Этот конструктор типа данных и те, что будут описаны ниже, могут использоваться с объектами, которые можно размещать (C) , обеспечив то, чтобы полный объект был распределен сразу. Большой шаг в фактической памяти между частями, которые были распределены в разное время, не может быть предсказан. Таким образом, чтобы распределить такую матрицу на C, для которой MPI_Type_vector мог использоваться при определении типа данных, который представляет подматрицу, можно было бы распределить объект, размер которого равен числу строк, помноженное на число столбцов и помноженное на размер матричного элемента. Массив указателей на строки может быть установлен впоследствии.

H-векторный:

подобен MPI_Type_vector, за исключением того, что смещение определено в байтах. Функция C, MPI_Type_hvector, идентична MPI_Type_vector, данной выше, за тем исключением, что stride указан в байтах.

Проиндексированный:

Вызовы MPI_Type_indexed копируют существующий тип данных в последовательность блоков, где каждый блок – конкатенация существующего типа данных. Каждый блок может содержать различное число копий и иметь различное смещение; однако, все блочные смещения – множители диапазона существующего типа данных

int MPI_Type_indexed(int count, int *array_of_blocklengths,
    int *array_of_displacements, MPI_Datatype oldtype,
    MPI_Datatype *newtype)

где

count – входная переменная, определяющая число блоков
array_of_blocklengths – входная переменная, определяющая число элементов, приходящихся на блок
array_of_displacements – входная переменная, определяющая смещение каждого блока в множителях диапазона старого типа данных

H-проиндексированный:

Подобен MPI_Type_indexed, за исключением того, что смещение определено в байтах. Функция C, MPI_Type_hindexed, идентична MPI_Type_indexed, данной выше, за исключением того, что array_of_displacements указан в байтах.

Структурный:

Когда Вы вызываете MPI_Type_struct, Вы можете собрать соединение различных типов данных, рассеянных во многих местах в памяти в один тип данных, который может использоваться для того, чтобы отправить сообщения. Это – самый общий тип данных и единственный, который позволяет больше одного типа данных на входе. Отметьте, что, если входные параметры – основные типы данных MPI, то вход есть только некая карта типа (typemap).

int MPI_Type_struct(int count, int *array_of_blocklengths,
    MPI_Aint *array_of_displacements, MPI_Datatype *array_of_types,
    MPI_Datatype *newtype)

где

count – входная переменная, определяющая число блоков
array_of_blocklengths i – входная переменная, определяющая число элементов, приходящихся на каждый блок
array_of_displacements – входная переменная, определяющая байтовое смещение каждого блока
array_of_types – входная переменная, определяющая тип элементов в каждом блоке

Если отношения к памяти среди элементов определены компилятором (C struct), то байтовые значения для массива array_of_displacements могут быть рассчитаны программистом. Однако, если эти элементы – независимо объявленные переменные, то должна использоваться функция MPI_ADDRESS для определения абсолютного адреса каждого элемента для использования в массиве array_of_displacements. Используя типы данных, содержащие абсолютные адреса в array_of_displacements, должен быть определен буферный адрес как MPI_BOTTOM.

Пример:

иллюстрирует вызов с:

count = 2
array_of_blocklengths[0] = 1
array_of_types[0] = MPI_INT
array_of_blocklengths[1] = 3
array_of_types[1] = MPI_DOUBLE

Предупреждение

Производные типы данных, определенные используя абсолютные смещения НЕ должны содержать переменные, которые не являются статическими (например, они находятся в стеке данных), если тип данных не определен и используется в пределах единственного вызова функции, переменные которой объявлены. Причина для этого – то, что, если контекст не идентичен, указатель вершины стека будет иметь различное значение после повторного входа в функцию, и абсолютные адреса, определенные ранее, будут недопустимы.

Сделайте это:

Используя бумагу и карандаш, проиллюстрируйте вызов MPI_Type_struct, где:

count = 2,

array_of_blocklengths[0] = 1,

array_of_types[0] = новый тип, проиллюстрированный выше,

array_of_blocklengths[1] = 2, и

array_of_types[1] = MPI_INT.

4.2.2 Разместите тип данных

Созданный тип данных должен быть размещен в системе прежде, чем его можно использовать в коммуникации. Созданный тип данных размещен с вызовом MPI_Type_commit. (Нет никакой потребности передавать основные типы данных; они предпереданы.) Затем его можно использовать в любом числе передач сообщений. Форма MPI_Type_commit такова:

int MPI_Type_commit (MPI_datatype *datatype)

4.2.3 Используйте тип данных

Производные типы данных могут использоваться во всех операциях отправки иполучения. Вы просто используете указатель для производного типа данных как параметр в операции отправки или получения вместо основного аргумента для типа данного. Ниже указан пример сегмента кода на С:

MPI_Type_vector(count, blocklength, stride, oldtype, &newtype);
MPI_Type_commit (&newtype);
MPI_Send(buffer, 1, newtype, dest, tag, comm);

Что случится, если бы Вы использовали производный тип данных и count в MPI_SEND больше, чем один? Будьте счастливы, это как раз то, что Вы бы ожидали: MPI_SEND действует, как будто это передавали новый тип данных, который является count-ом конкатенации для типа данных datatype.

4.2.4 Освободите тип данных

Наконец, существует дополнительная функция к MPI_Type_commit, а именно, MPI_TYPE_FREE, которая отмечает тип данных для освобождения. Форма MPI_TYPE_FREE такова:

int MPI_Type_free (MPI_datatype *datatype)

Любые типы данных производные из освобожденного типа данных перестает действовать, когда его освобождают, как любая коммуникации, которая использует освобожденный тип данных в момент освобождения. datatype является как входным, так и выходным аргументом. Он возвращается как MPI_DATATYPE_NULL.

4.3 Правила согласования

Отправка и получение правильно согласованы, если карты типов указанных типов данных, с игнорируемыми смещениями, соответствуют согласно обычным правилам соответствия основным типам данных; то есть, соответствие типов не зависит от размещения типа данных в памяти.

В то время как тип данных может определить накладывающиеся входы, использование такого типа данных в операции получения ошибочно.

Нет нужды, чтобы полученное сообщение заполняло буфер получателя полностью. MPI определяет две функции, чтобы помочь Вам обрабатывать эту ситуацию. Функция MPI_Get_count возвращает число полученных элементов типа данных, определенного в запросе получения. Если Вы хотите узнать, сколько основных элементов в пределах этого типа данных было получено, используйте функцию MPI_Get_elements.

int MPI_Get_count(MPI_Status *status, 
                  MPI_Datatype datatype, int *count)
int MPI_Get_elements(MPI_Status *status, 
                  MPI_Datatype datatype, int *count)

5. Ключевые моменты

Производные типы данных предоставляют переносимый и элегантный способ передачи несмежных или смешанных типов в сообщении.
Производные типы данных должны давать эффективный метод отправки данных, поскольку эти данные могут быть перемещены из их расположения в памяти одного процессора в расположение в пямяти другого процессора без любой промежуточной буфферизации. (Заметим, тем не менее, что вы можете захотеть сравнить скорость использования MPI_BYTE с соответствующей скоростью при использовании производного типа данных.)
Производные типы данных – это типы данных, которые строятся из основных типов данных MPI.
Производные типы данных дают шаблон для данных, которые следует отправить. Все the data in the datatype is identified by its offset from the base address. The base address is the address which is passed to the MPI routine using the производные datatype. This allows the same MPI datatype to be used for any number of variables of the same form.
MPI provides a number of different routines for creating производные типы данных, each aimed at certain types of data, i.e., contiguous data, non-contiguous data, and non-contiguous mixed data.
Every производные datatype must be committed before it can be used.
The MPI routine MPI_TYPE_EXTENT is useful for calculating displacements as it takes into account any alignment issues.

Литература

Book

Using MPI: Portable Parallel Programming with the Message-Passing Interface, by William Gropp, Ewing Lusk, and Anthony Skjellum. Published 10/21/94 by MIT Press, 328 pages.

World Wide Web
MPI Home Page at Argonne National Labs http://www.mcs.anl.gov/mpi
MPI-2: Extensions to the Message-Passing Interface, HTML version, 08/97;
http://www.mpi-forum.org/docs/mpi-20-html/mpi2-report.html

Specifically, under this page you can find:

MPI: A Message-Passing Interface Standard, HTML version with index, from Argonne National Laboratory, 06/95

Writing Message-Passing Parallel Programs with MPI: A two-day course by Neil MacDonald, Elspeth Minty, Tim Harding, and Simon Brown. Edinburgh Parallel Computing Centre, The University of Edinburgh, 08/25/95
This is part of a nice set of materials on MPI and HPF at the Training and Education Centre of the Edinburgh Parallel Computing Centre.

Вычислительный центр им. А.А. Дородницына РАН

Раздел виртуального курса Параллельное программирование в интерфейсе MPI