矩阵相乘并行算法

由天下分享时间：2025/1/4 10:09:21 加入收藏我要投稿点赞

. . .

并行处理技术课程设计分析报告

课程设计题目姓名学号专业任课教师所在学院报告提交日期

word格式资料

矩阵相乘并行算法设计廖杰 M201372880 计算机技术金海石宣化

计算机科学与技术学院 2014-01-13

. . .

一、实验目的

1、学习使用集群；

2、掌握并行处理或分布计算的编程方法； 3、学会以并行处理的思想分析问题。

二、实验要求

1、自行生成矩阵作为算法的输入；

2、使用并行处理技术编程，例如：MPI、OpenMP、MR； 3、矩阵大小至少为1000*1000； 4、加速比越大成绩越高。

三、实验内容

3.1、矩阵的划分：

对于矩阵相乘的并行算法，可以有三种：对矩阵按行划分、按列划分和棋盘式分块划分。和按行或列划分相比，棋盘式划分可以开发出更高的并行度。对于一个n×n的方阵，棋盘划分最多可以使用n^2个处理器进行并行计算，但使用按行或列分解最多可以使用n个。对矩阵相乘采用棋盘式划分的算法通常称作Cannon算法。

A）行列划分

又叫带状划分（Striped Partitioning），就是将矩阵整行或者整列分成若干个组，每个组指派给一个处理器。下图所例为4个CPU，8×8矩阵的带状划分。

word格式资料

. . .

在带状划分情况下，每个CPU将会均匀分配到2行(列)数据。8×8矩阵变成了一个1×4或4×1的分块矩阵，每个CPU所属的分块矩阵大小为8×2或2×8。

word格式资料

. . .

B）棋盘划分

就是将矩阵分成若干个子矩阵，每个子矩阵指派给一个处理器，此时任一处理器均不包含整行或者整列。下图所示即为4个处理器情况下8×8矩阵的棋盘划分，其中处理器阵列为2×2，每个处理器分配到的子矩阵大小为4×4。

矩阵划分成棋盘状可以和处理器连成二维网孔相对应。对于一个n×n维矩阵和p×p的二维处理器阵列，每个处理器均匀分配有（n/p）×(n/p)=n^2/p^2个元素。使用棋盘式划分的矩阵相乘算法一般有两种，Cannon算法和Summa算法。SUMMA算法能够计算m*l的A矩阵和l*n的B矩阵相乘（m、l、n可不相等），而cannon算法只能实现n*n的A矩阵和n*n的B矩阵相乘，具有很大的局限性。

3.2、算法原理

A) 行划分法

假设是M*N，计算前，将矩阵N发送给所有从进程，然后将矩阵M分块，将M中数据按行分给各从进程，在从进程中计算M中部分行数据和N的乘积，最后将结果发送给主进程。这里为了方便，有多少进程，就将M分了多少块，除最后一块外的其他数据块大小都相等，最后一块是剩下的数据，大小大于等于其他数据块大小，因为矩阵行数不一定整除进程数。最后一块数据在主进程中计算，其他的在从进程中计算。

定义两个矩阵M和N，N所有进程都需要，M可以只在主进程中定义。其他的变量视主进程和从进程需要按要求定义在合适的位置。

word格式资料

. . .

代码参见附录部分。

B) Cannon算法

Cannon算法的基本思想可以如下表示：假设两个矩阵A和B相乘，把A和B矩阵划分成

p个方块，进程的编号从到，并在最初把子矩阵和分配给。虽然第i行

的每个进程需要全部的个子矩阵，但我们还是能调度第i行个进程的计算，使得

每个进程在任何时刻都是用不同的。每完成一次矩阵乘法，这些块在各进程之间被轮流

。对列使用同样的调度，则在任何时

。

使用，似的每次轮流之后每个进程都可以得到新的