/src/pfact/HPL_pdrpancrN.c - Annoter - HPL sur GPU - Forge du Centre Blaise Pascal

1

equemene

/*

2

1

equemene

 * -- High Performance Computing Linpack Benchmark (HPL)

3

1

equemene

 *    HPL - 2.0 - September 10, 2008

4

1

equemene

 *    Antoine P. Petitet

5

1

equemene

 *    University of Tennessee, Knoxville

6

1

equemene

 *    Innovative Computing Laboratory

7

1

equemene

 *    (C) Copyright 2000-2008 All Rights Reserved

8

1

equemene

9

1

equemene

 * -- Copyright notice and Licensing terms:

10

1

equemene

11

1

equemene

 * Redistribution  and  use in  source and binary forms, with or without

12

1

equemene

 * modification, are  permitted provided  that the following  conditions

13

1

equemene

 * are met:

14

1

equemene

15

1

equemene

 * 1. Redistributions  of  source  code  must retain the above copyright

16

1

equemene

 * notice, this list of conditions and the following disclaimer.

17

1

equemene

18

1

equemene

 * 2. Redistributions in binary form must reproduce  the above copyright

19

1

equemene

 * notice, this list of conditions,  and the following disclaimer in the

20

1

equemene

 * documentation and/or other materials provided with the distribution.

21

1

equemene

22

1

equemene

 * 3. All  advertising  materials  mentioning  features  or  use of this

23

1

equemene

 * software must display the following acknowledgement:

24

1

equemene

 * This  product  includes  software  developed  at  the  University  of

25

1

equemene

 * Tennessee, Knoxville, Innovative Computing Laboratory.

26

1

equemene

27

1

equemene

 * 4. The name of the  University,  the name of the  Laboratory,  or the

28

1

equemene

 * names  of  its  contributors  may  not  be used to endorse or promote

29

1

equemene

 * products  derived   from   this  software  without  specific  written

30

1

equemene

 * permission.

31

1

equemene

32

1

equemene

 * -- Disclaimer:

33

1

equemene

34

1

equemene

 * THIS  SOFTWARE  IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS

35

1

equemene

 * ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES,  INCLUDING,  BUT NOT

36

1

equemene

 * LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR

37

1

equemene

 * A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE UNIVERSITY

38

1

equemene

 * OR  CONTRIBUTORS  BE  LIABLE FOR ANY  DIRECT,  INDIRECT,  INCIDENTAL,

39

1

equemene

 * SPECIAL,  EXEMPLARY,  OR  CONSEQUENTIAL DAMAGES  (INCLUDING,  BUT NOT

40

1

equemene

 * LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,

41

1

equemene

 * DATA OR PROFITS; OR BUSINESS INTERRUPTION)  HOWEVER CAUSED AND ON ANY

42

1

equemene

 * THEORY OF LIABILITY, WHETHER IN CONTRACT,  STRICT LIABILITY,  OR TORT

43

1

equemene

 * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE

44

1

equemene

 * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.

45

1

equemene

 * ---------------------------------------------------------------------

46

1

equemene

*/

47

1

equemene

/*

48

1

equemene

 * Include files

49

1

equemene

*/

50

1

equemene

#include "hpl.h"

51

1

equemene

52

1

equemene

#ifdef STDC_HEADERS

53

1

equemene

void HPL_pdrpancrN

54

1

equemene

55

1

equemene

   HPL_T_panel *                    PANEL,

56

1

equemene

   const int                        M,

57

1

equemene

   const int                        N,

58

1

equemene

   const int                        ICOFF,

59

1

equemene

   double *                         WORK

60

1

equemene

61

1

equemene

#else

62

1

equemene

void HPL_pdrpancrN

63

1

equemene

( PANEL, M, N, ICOFF, WORK )

64

1

equemene

   HPL_T_panel *                    PANEL;

65

1

equemene

   const int                        M;

66

1

equemene

   const int                        N;

67

1

equemene

   const int                        ICOFF;

68

1

equemene

   double *                         WORK;

69

1

equemene

#endif

70

1

equemene

71

1

equemene

/*

72

1

equemene

 * Purpose

73

1

equemene

 * =======

74

1

equemene

75

1

equemene

 * HPL_pdrpancrN HPL_pdrpancrN recursively  factorizes  a panel of columns  using  the

76

1

equemene

 * recursive  Crout  variant of the usual one-dimensional algorithm. The

77

1

equemene

 * lower triangular  N0-by-N0  upper block  of  the  panel  is stored in

78

1

equemene

 * no-transpose form (i.e. just like the input matrix itself).

79

1

equemene

80

1

equemene

 * Bi-directional  exchange  is  used  to  perform  the  swap::broadcast

81

1

equemene

 * operations  at once  for one column in the panel.  This  results in a

82

1

equemene

 * lower number of slightly larger  messages than usual.  On P processes

83

1

equemene

 * and assuming bi-directional links,  the running time of this function

84

1

equemene

 * can be approximated by (when N is equal to N0):

85

1

equemene

86

1

equemene

 *    N0 * log_2( P ) * ( lat + ( 2*N0 + 4 ) / bdwth ) +

87

1

equemene

 *    N0^2 * ( M - N0/3 ) * gam2-3

88

1

equemene

89

1

equemene

 * where M is the local number of rows of  the panel, lat and bdwth  are

90

1

equemene

 * the latency and bandwidth of the network for  double  precision  real

91

1

equemene

 * words, and  gam2-3  is  an estimate of the  Level 2 and Level 3  BLAS

92

1

equemene

 * rate of execution. The  recursive  algorithm  allows indeed to almost

93

1

equemene

 * achieve  Level 3 BLAS  performance  in the panel factorization.  On a

94

1

equemene

 * large  number of modern machines,  this  operation is however latency

95

1

equemene

 * bound,  meaning  that its cost can  be estimated  by only the latency

96

1

equemene

 * portion N0 * log_2(P) * lat.  Mono-directional links will double this

97

1

equemene

 * communication cost.

98

1

equemene

99

1

equemene

 * Arguments

100

1

equemene

 * =========

101

1

equemene

102

1

equemene

 * PANEL   (local input/output)          HPL_T_panel *

103

1

equemene

 *         On entry,  PANEL  points to the data structure containing the

104

1

equemene

 *         panel information.

105

1

equemene

106

1

equemene

 * M       (local input)                 const int

107

1

equemene

 *         On entry,  M specifies the local number of rows of sub(A).

108

1

equemene

109

1

equemene

 * N       (local input)                 const int

110

1

equemene

 *         On entry,  N specifies the local number of columns of sub(A).

111

1

equemene

112

1

equemene

 * ICOFF   (global input)                const int

113

1

equemene

 *         On entry, ICOFF specifies the row and column offset of sub(A)

114

1

equemene

 *         in A.

115

1

equemene

116

1

equemene

 * WORK    (local workspace)             double *

117

1

equemene

 *         On entry, WORK  is a workarray of size at least 2*(4+2*N0).

118

1

equemene

119

1

equemene

 * ---------------------------------------------------------------------

120

1

equemene

*/

121

1

equemene

/*

122

1

equemene

 * .. Local Variables ..

123

1

equemene

*/

124

1

equemene

   double                     * A, * Aptr, * L1, * L1ptr;

125

1

equemene

#ifdef HPL_CALL_VSIPL

126

1

equemene

   vsip_mview_d               * Av0, * Lv0, * Av1, * Av2, * Lv1;

127

1

equemene

#endif

128

1

equemene

   int                        curr, ii, ioff, jb, jj, lda, m, n, n0, nb,

129

1

equemene

                              nbdiv, nbmin;

130

1

equemene

/* ..

131

1

equemene

 * .. Executable Statements ..

132

1

equemene

*/

133

1

equemene

   if( N <= ( nbmin = PANEL->algo->nbmin ) )

134

1

equemene

   { PANEL->algo->pffun( PANEL, M, N, ICOFF, WORK ); return; }

135

1

equemene

/*

136

1

equemene

 * Find  new recursive blocking factor.  To avoid an infinite loop,  one

137

1

equemene

 * must guarantee: 1 <= jb < N, knowing that  N  is greater than  NBMIN.

138

1

equemene

 * First, we compute nblocks:  the number of blocks of size  NBMIN in N,

139

1

equemene

 * including the last one that may be smaller.  nblocks  is thus  larger

140

1

equemene

 * than or equal to one, since N >= NBMIN.

141

1

equemene

 * The ratio ( nblocks + NDIV - 1 ) / NDIV  is thus larger than or equal

142

1

equemene

 * to one as  well.  For  NDIV >= 2,  we  are guaranteed  that the quan-

143

1

equemene

 * tity ( ( nblocks + NDIV  - 1 ) / NDIV ) * NBMIN  is less  than N  and

144

1

equemene

 * greater than or equal to NBMIN.

145

1

equemene

*/

146

1

equemene

   nbdiv = PANEL->algo->nbdiv; ii = jj = 0; m = M; n = N;

147

1

equemene

   nb = jb = ( (((N+nbmin-1) / nbmin) + nbdiv  - 1) / nbdiv ) * nbmin;

148

1

equemene

149

1

equemene

   A     = PANEL->A;   lda = PANEL->lda;

150

1

equemene

   L1    = PANEL->L1;  n0  = PANEL->jb;

151

1

equemene

   L1ptr = Mptr( L1, ICOFF, ICOFF, n0 );

152

1

equemene

   curr  = (int)( PANEL->grid->myrow == PANEL->prow );

153

1

equemene

154

1

equemene

   if( curr != 0 ) Aptr = Mptr( A, ICOFF, ICOFF, lda );

155

1

equemene

   else            Aptr = Mptr( A,     0, ICOFF, lda );

156

1

equemene

/*

157

1

equemene

 * The triangular solve is replicated in every  process row.  The  panel

158

1

equemene

 * factorization is  such that  the first rows of  A  are accumulated in

159

1

equemene

 * every process row during the (panel) swapping phase.  We  ensure this

160

1

equemene

 * way a minimum amount  of communication during the entire panel facto-

161

1

equemene

 * rization.

162

1

equemene

*/

163

1

equemene

do

164

1

equemene

165

1

equemene

      n -= jb; ioff = ICOFF + jj;

166

1

equemene

/*

167

1

equemene

 * Local update - Factor current panel - Replicated update and solve

168

1

equemene

*/

169

1

equemene

#ifdef HPL_CALL_VSIPL

170

1

equemene

/*

171

1

equemene

 * Admit the blocks

172

1

equemene

*/

173

1

equemene

      (void) vsip_blockadmit_d( PANEL->Ablock,  VSIP_TRUE );

174

1

equemene

      (void) vsip_blockadmit_d( PANEL->L1block, VSIP_TRUE );

175

1

equemene

/*

176

1

equemene

 * Create the matrix views

177

1

equemene

*/

178

1

equemene

      Av0 = vsip_mbind_d( PANEL->Ablock,  0, 1, lda, lda, PANEL->pmat->nq );

179

1

equemene

      Lv0 = vsip_mbind_d( PANEL->L1block, 0, 1,  n0,  n0, n0              );

180

1

equemene

/*

181

1

equemene

 * Create the matrix subviews

182

1

equemene

*/

183

1

equemene

      if( curr != 0 )

184

1

equemene

185

1

equemene

         Av1 = vsip_msubview_d( Av0, PANEL->ii+ICOFF+ii, PANEL->jj+ICOFF,

186

1

equemene

                                m,  jj );

187

1

equemene

         Av2 = vsip_msubview_d( Av0, PANEL->ii+ICOFF+ii, PANEL->jj+ioff,

188

1

equemene

                                m, jb );

189

1

equemene

190

1

equemene

      else

191

1

equemene

192

1

equemene

         Av1 = vsip_msubview_d( Av0, PANEL->ii+ii, PANEL->jj+ICOFF, m, jj );

193

1

equemene

         Av2 = vsip_msubview_d( Av0, PANEL->ii+ii, PANEL->jj+ioff,  m, jb );

194

1

equemene

195

1

equemene

      Lv1 = vsip_msubview_d( Lv0, ICOFF, ioff, jj, jb );

196

1

equemene

197

1

equemene

      vsip_gemp_d( -HPL_rone, Av1, VSIP_MAT_NTRANS, Lv1, VSIP_MAT_NTRANS,

198

1

equemene

                   HPL_rone, Av2 );

199

1

equemene

/*

200

1

equemene

 * Destroy the matrix subviews

201

1

equemene

*/

202

1

equemene

      (void) vsip_mdestroy_d( Lv1 );

203

1

equemene

      (void) vsip_mdestroy_d( Av2 );

204

1

equemene

      (void) vsip_mdestroy_d( Av1 );

205

1

equemene

/*

206

1

equemene

 * Release the blocks

207

1

equemene

*/

208

1

equemene

      (void) vsip_blockrelease_d( vsip_mgetblock_d( Lv0 ), VSIP_TRUE );

209

1

equemene

      (void) vsip_blockrelease_d( vsip_mgetblock_d( Av0 ), VSIP_TRUE );

210

1

equemene

/*

211

1

equemene

 * Destroy the matrix views

212

1

equemene

*/

213

1

equemene

      (void) vsip_mdestroy_d( Lv0 );

214

1

equemene

      (void) vsip_mdestroy_d( Av0 );

215

1

equemene

#else

216

1

equemene

      HPL_dgemm( HplColumnMajor, HplNoTrans, HplNoTrans, m, jb, jj,

217

1

equemene

                 -HPL_rone, Mptr( Aptr, ii, 0, lda ), lda, Mptr( L1ptr,

218

1

equemene

                 0, jj, n0 ), n0, HPL_rone, Mptr( Aptr, ii, jj, lda ),

219

1

equemene

                 lda );

220

1

equemene

#endif

221

1

equemene

      HPL_pdrpancrN( PANEL, m, jb, ioff, WORK );

222

1

equemene

223

1

equemene

      if( n > 0 )

224

1

equemene

225

1

equemene

#ifdef HPL_CALL_VSIPL

226

1

equemene

/*

227

1

equemene

 * Admit the blocks

228

1

equemene

*/

229

1

equemene

         (void) vsip_blockadmit_d( PANEL->L1block, VSIP_TRUE );

230

1

equemene

/*

231

1

equemene

 * Create the matrix views

232

1

equemene

*/

233

1

equemene

         Lv0 = vsip_mbind_d( PANEL->L1block, 0, 1,  n0,  n0, n0 );

234

1

equemene

/*

235

1

equemene

 * Create the matrix subviews

236

1

equemene

*/

237

1

equemene

         Av1 = vsip_msubview_d( Lv0, ioff,  ICOFF,   jb, jj );

238

1

equemene

         Av2 = vsip_msubview_d( Lv0, ioff,  ioff+jb, jb,  n );

239

1

equemene

         Lv1 = vsip_msubview_d( Lv0, ICOFF, ioff+jb, jj,  n );

240

1

equemene

241

1

equemene

         vsip_gemp_d( -HPL_rone, Av1, VSIP_MAT_NTRANS, Lv1, VSIP_MAT_NTRANS,

242

1

equemene

                      HPL_rone, Av2 );

243

1

equemene

/*

244

1

equemene

 * Destroy the matrix subviews

245

1

equemene

*/

246

1

equemene

         (void) vsip_mdestroy_d( Lv1 );

247

1

equemene

         (void) vsip_mdestroy_d( Av2 );

248

1

equemene

         (void) vsip_mdestroy_d( Av1 );

249

1

equemene

/*

250

1

equemene

 * Release the blocks

251

1

equemene

*/

252

1

equemene

         (void) vsip_blockrelease_d( vsip_mgetblock_d( Lv0 ), VSIP_TRUE );

253

1

equemene

/*

254

1

equemene

 * Destroy the matrix views

255

1

equemene

*/

256

1

equemene

         (void) vsip_mdestroy_d( Lv0 );

257

1

equemene

#else

258

1

equemene

         HPL_dgemm( HplColumnMajor, HplNoTrans, HplNoTrans, jb, n,

259

1

equemene

                    jj, -HPL_rone, Mptr( L1ptr, jj, 0, n0 ), n0,

260

1

equemene

                    Mptr( L1ptr, 0, jj+jb, n0 ), n0, HPL_rone,

261

1

equemene

                    Mptr( L1ptr, jj, jj+jb, n0 ), n0 );

262

1

equemene

#endif

263

1

equemene

         HPL_dtrsm( HplColumnMajor, HplLeft, HplLower, HplNoTrans,

264

1

equemene

                    HplUnit, jb, n, HPL_rone, Mptr( L1ptr, jj, jj,

265

1

equemene

                    n0 ), n0, Mptr( L1ptr, jj, jj+jb, n0 ), n0 );

266

1

equemene

267

1

equemene

/*

268

1

equemene

 * Copy back upper part of A in current process row - Go the next block

269

1

equemene

*/

270

1

equemene

      if( curr != 0 )

271

1

equemene

272

1

equemene

         HPL_dlacpy( ioff, jb, Mptr( L1, 0, ioff, n0 ), n0,

273

1

equemene

                     Mptr( A, 0, ioff, lda ), lda );

274

1

equemene

         ii += jb; m -= jb;

275

1

equemene

276

1

equemene

      jj += jb; jb = Mmin( n, nb );

277

1

equemene

278

1

equemene

   } while( n > 0 );

279

1

equemene

/*

280

1

equemene

 * End of HPL_pdrpancrN

281

1

equemene

*/

282

1

equemene

Centre Blaise Pascal » HPL sur GPU

root / src / pfact / HPL_pdrpancrN.c @ 1

-equemene
+/*
-equemene
+ * -- High Performance Computing Linpack Benchmark (HPL)
-equemene
+ *    HPL - 2.0 - September 10, 2008
-equemene
+ *    Antoine P. Petitet
-equemene
+ *    University of Tennessee, Knoxville
-equemene
+ *    Innovative Computing Laboratory
-equemene
+ *    (C) Copyright 2000-2008 All Rights Reserved
 equemene
-equemene
+ * -- Copyright notice and Licensing terms:
 equemene
-equemene
+ * Redistribution  and  use in  source and binary forms, with or without
-equemene
+ * modification, are  permitted provided  that the following  conditions
-equemene
+ * are met:
 equemene
-equemene
+ * 1. Redistributions  of  source  code  must retain the above copyright
-equemene
+ * notice, this list of conditions and the following disclaimer.
 equemene
-equemene
+ * 2. Redistributions in binary form must reproduce  the above copyright
-equemene
+ * notice, this list of conditions,  and the following disclaimer in the
-equemene
+ * documentation and/or other materials provided with the distribution.
 equemene
-equemene
+ * 3. All  advertising  materials  mentioning  features  or  use of this
-equemene
+ * software must display the following acknowledgement:
-equemene
+ * This  product  includes  software  developed  at  the  University  of
-equemene
+ * Tennessee, Knoxville, Innovative Computing Laboratory.
 equemene
-equemene
+ * 4. The name of the  University,  the name of the  Laboratory,  or the
-equemene
+ * names  of  its  contributors  may  not  be used to endorse or promote
-equemene
+ * products  derived   from   this  software  without  specific  written
-equemene
+ * permission.
 equemene
-equemene
+ * -- Disclaimer:
 equemene
-equemene
+ * THIS  SOFTWARE  IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-equemene
+ * ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES,  INCLUDING,  BUT NOT
-equemene
+ * LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-equemene
+ * A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE UNIVERSITY
-equemene
+ * OR  CONTRIBUTORS  BE  LIABLE FOR ANY  DIRECT,  INDIRECT,  INCIDENTAL,
-equemene
+ * SPECIAL,  EXEMPLARY,  OR  CONSEQUENTIAL DAMAGES  (INCLUDING,  BUT NOT
-equemene
+ * LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-equemene
+ * DATA OR PROFITS; OR BUSINESS INTERRUPTION)  HOWEVER CAUSED AND ON ANY
-equemene
+ * THEORY OF LIABILITY, WHETHER IN CONTRACT,  STRICT LIABILITY,  OR TORT
-equemene
+ * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-equemene
+ * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-equemene
+ * ---------------------------------------------------------------------
-equemene
+ */
-equemene
+/*
-equemene
+ * Include files
-equemene
+ */
-equemene
+#include "hpl.h"
 equemene
-equemene
+#ifdef STDC_HEADERS
-equemene
+void HPL_pdrpancrN
 equemene
-equemene
+   HPL_T_panel *                    PANEL,
-equemene
+   const int                        M,
-equemene
+   const int                        N,
-equemene
+   const int                        ICOFF,
-equemene
+   double *                         WORK
 equemene
-equemene
+#else
-equemene
+void HPL_pdrpancrN
-equemene
+( PANEL, M, N, ICOFF, WORK )
-equemene
+   HPL_T_panel *                    PANEL;
-equemene
+   const int                        M;
-equemene
+   const int                        N;
-equemene
+   const int                        ICOFF;
-equemene
+   double *                         WORK;
-equemene
+#endif
 equemene
-equemene
+/*
-equemene
+ * Purpose
-equemene
+ * =======
 equemene
-equemene
+ * HPL_pdrpancrN HPL_pdrpancrN recursively  factorizes  a panel of columns  using  the
-equemene
+ * recursive  Crout  variant of the usual one-dimensional algorithm. The
-equemene
+ * lower triangular  N0-by-N0  upper block  of  the  panel  is stored in
-equemene
+ * no-transpose form (i.e. just like the input matrix itself).
 equemene
-equemene
+ * Bi-directional  exchange  is  used  to  perform  the  swap::broadcast
-equemene
+ * operations  at once  for one column in the panel.  This  results in a
-equemene
+ * lower number of slightly larger  messages than usual.  On P processes
-equemene
+ * and assuming bi-directional links,  the running time of this function
-equemene
+ * can be approximated by (when N is equal to N0):
 equemene
-equemene
+ *    N0 * log_2( P ) * ( lat + ( 2*N0 + 4 ) / bdwth ) +
-equemene
+ *    N0^2 * ( M - N0/3 ) * gam2-3
 equemene
-equemene
+ * where M is the local number of rows of  the panel, lat and bdwth  are
-equemene
+ * the latency and bandwidth of the network for  double  precision  real
-equemene
+ * words, and  gam2-3  is  an estimate of the  Level 2 and Level 3  BLAS
-equemene
+ * rate of execution. The  recursive  algorithm  allows indeed to almost
-equemene
+ * achieve  Level 3 BLAS  performance  in the panel factorization.  On a
-equemene
+ * large  number of modern machines,  this  operation is however latency
-equemene
+ * bound,  meaning  that its cost can  be estimated  by only the latency
-equemene
+ * portion N0 * log_2(P) * lat.  Mono-directional links will double this
-equemene
+ * communication cost.
 equemene
-equemene
+ * Arguments
-equemene
+ * =========
 equemene
-equemene
+ * PANEL   (local input/output)          HPL_T_panel *
-equemene
+ *         On entry,  PANEL  points to the data structure containing the
-equemene
+ *         panel information.
 equemene
-equemene
+ * M       (local input)                 const int
-equemene
+ *         On entry,  M specifies the local number of rows of sub(A).
 equemene
-equemene
+ * N       (local input)                 const int
-equemene
+ *         On entry,  N specifies the local number of columns of sub(A).
 equemene
-equemene
+ * ICOFF   (global input)                const int
-equemene
+ *         On entry, ICOFF specifies the row and column offset of sub(A)
-equemene
+ *         in A.
 equemene
-equemene
+ * WORK    (local workspace)             double *
-equemene
+ *         On entry, WORK  is a workarray of size at least 2*(4+2*N0).
 equemene
-equemene
+ * ---------------------------------------------------------------------
-equemene
+ */
-equemene
+/*
-equemene
+ * .. Local Variables ..
-equemene
+ */
-equemene
+   double                     * A, * Aptr, * L1, * L1ptr;
-equemene
+#ifdef HPL_CALL_VSIPL
-equemene
+   vsip_mview_d               * Av0, * Lv0, * Av1, * Av2, * Lv1;
-equemene
+#endif
-equemene
+   int                        curr, ii, ioff, jb, jj, lda, m, n, n0, nb,
-equemene
+                              nbdiv, nbmin;
-equemene
+/* ..
-equemene
+ * .. Executable Statements ..
-equemene
+ */
-equemene
+   if( N <= ( nbmin = PANEL->algo->nbmin ) )
-equemene
+   { PANEL->algo->pffun( PANEL, M, N, ICOFF, WORK ); return; }
-equemene
+/*
-equemene
+ * Find  new recursive blocking factor.  To avoid an infinite loop,  one
-equemene
+ * must guarantee: 1 <= jb < N, knowing that  N  is greater than  NBMIN.
-equemene
+ * First, we compute nblocks:  the number of blocks of size  NBMIN in N,
-equemene
+ * including the last one that may be smaller.  nblocks  is thus  larger
-equemene
+ * than or equal to one, since N >= NBMIN.
-equemene
+ * The ratio ( nblocks + NDIV - 1 ) / NDIV  is thus larger than or equal
-equemene
+ * to one as  well.  For  NDIV >= 2,  we  are guaranteed  that the quan-
-equemene
+ * tity ( ( nblocks + NDIV  - 1 ) / NDIV ) * NBMIN  is less  than N  and
-equemene
+ * greater than or equal to NBMIN.
-equemene
+ */
-equemene
+   nbdiv = PANEL->algo->nbdiv; ii = jj = 0; m = M; n = N;
-equemene
+   nb = jb = ( (((N+nbmin-1) / nbmin) + nbdiv  - 1) / nbdiv ) * nbmin;
 equemene
-equemene
+   A     = PANEL->A;   lda = PANEL->lda;
-equemene
+   L1    = PANEL->L1;  n0  = PANEL->jb;
-equemene
+   L1ptr = Mptr( L1, ICOFF, ICOFF, n0 );
-equemene
+   curr  = (int)( PANEL->grid->myrow == PANEL->prow );
 equemene
-equemene
+   if( curr != 0 ) Aptr = Mptr( A, ICOFF, ICOFF, lda );
-equemene
+   else            Aptr = Mptr( A,     0, ICOFF, lda );
-equemene
+/*
-equemene
+ * The triangular solve is replicated in every  process row.  The  panel
-equemene
+ * factorization is  such that  the first rows of  A  are accumulated in
-equemene
+ * every process row during the (panel) swapping phase.  We  ensure this
-equemene
+ * way a minimum amount  of communication during the entire panel facto-
-equemene
+ * rization.
-equemene
+ */
-equemene
+   do
 equemene
-equemene
+      n -= jb; ioff = ICOFF + jj;
-equemene
+/*
-equemene
+ * Local update - Factor current panel - Replicated update and solve
-equemene
+ */
-equemene
+#ifdef HPL_CALL_VSIPL
-equemene
+/*
-equemene
+ * Admit the blocks
-equemene
+ */
-equemene
+      (void) vsip_blockadmit_d( PANEL->Ablock,  VSIP_TRUE );
-equemene
+      (void) vsip_blockadmit_d( PANEL->L1block, VSIP_TRUE );
-equemene
+/*
-equemene
+ * Create the matrix views
-equemene
+ */
-equemene
+      Av0 = vsip_mbind_d( PANEL->Ablock,  0, 1, lda, lda, PANEL->pmat->nq );
-equemene
+      Lv0 = vsip_mbind_d( PANEL->L1block, 0, 1,  n0,  n0, n0              );
-equemene
+/*
-equemene
+ * Create the matrix subviews
-equemene
+ */
-equemene
+      if( curr != 0 )
 equemene
-equemene
+         Av1 = vsip_msubview_d( Av0, PANEL->ii+ICOFF+ii, PANEL->jj+ICOFF,
-equemene
+                                m,  jj );
-equemene
+         Av2 = vsip_msubview_d( Av0, PANEL->ii+ICOFF+ii, PANEL->jj+ioff,
-equemene
+                                m, jb );
 equemene
-equemene
+      else
 equemene
-equemene
+         Av1 = vsip_msubview_d( Av0, PANEL->ii+ii, PANEL->jj+ICOFF, m, jj );
-equemene
+         Av2 = vsip_msubview_d( Av0, PANEL->ii+ii, PANEL->jj+ioff,  m, jb );
 equemene
-equemene
+      Lv1 = vsip_msubview_d( Lv0, ICOFF, ioff, jj, jb );
 equemene
-equemene
+      vsip_gemp_d( -HPL_rone, Av1, VSIP_MAT_NTRANS, Lv1, VSIP_MAT_NTRANS,
-equemene
+                   HPL_rone, Av2 );
-equemene
+/*
-equemene
+ * Destroy the matrix subviews
-equemene
+ */
-equemene
+      (void) vsip_mdestroy_d( Lv1 );
-equemene
+      (void) vsip_mdestroy_d( Av2 );
-equemene
+      (void) vsip_mdestroy_d( Av1 );
-equemene
+/*
-equemene
+ * Release the blocks
-equemene
+ */
-equemene
+      (void) vsip_blockrelease_d( vsip_mgetblock_d( Lv0 ), VSIP_TRUE );
-equemene
+      (void) vsip_blockrelease_d( vsip_mgetblock_d( Av0 ), VSIP_TRUE );
-equemene
+/*
-equemene
+ * Destroy the matrix views
-equemene
+ */
-equemene
+      (void) vsip_mdestroy_d( Lv0 );
-equemene
+      (void) vsip_mdestroy_d( Av0 );
-equemene
+#else
-equemene
+      HPL_dgemm( HplColumnMajor, HplNoTrans, HplNoTrans, m, jb, jj,
-equemene
+                 -HPL_rone, Mptr( Aptr, ii, 0, lda ), lda, Mptr( L1ptr,
-equemene
+, jj, n0 ), n0, HPL_rone, Mptr( Aptr, ii, jj, lda ),
-equemene
+                 lda );
-equemene
+#endif
-equemene
+      HPL_pdrpancrN( PANEL, m, jb, ioff, WORK );
 equemene
-equemene
+      if( n > 0 )
 equemene
-equemene
+#ifdef HPL_CALL_VSIPL
-equemene
+/*
-equemene
+ * Admit the blocks
-equemene
+ */
-equemene
+         (void) vsip_blockadmit_d( PANEL->L1block, VSIP_TRUE );
-equemene
+/*
-equemene
+ * Create the matrix views
-equemene
+ */
-equemene
+         Lv0 = vsip_mbind_d( PANEL->L1block, 0, 1,  n0,  n0, n0 );
-equemene
+/*
-equemene
+ * Create the matrix subviews
-equemene
+ */
-equemene
+         Av1 = vsip_msubview_d( Lv0, ioff,  ICOFF,   jb, jj );
-equemene
+         Av2 = vsip_msubview_d( Lv0, ioff,  ioff+jb, jb,  n );
-equemene
+         Lv1 = vsip_msubview_d( Lv0, ICOFF, ioff+jb, jj,  n );
 equemene
-equemene
+         vsip_gemp_d( -HPL_rone, Av1, VSIP_MAT_NTRANS, Lv1, VSIP_MAT_NTRANS,
-equemene
+                      HPL_rone, Av2 );
-equemene
+/*
-equemene
+ * Destroy the matrix subviews
-equemene
+ */
-equemene
+         (void) vsip_mdestroy_d( Lv1 );
-equemene
+         (void) vsip_mdestroy_d( Av2 );
-equemene
+         (void) vsip_mdestroy_d( Av1 );
-equemene
+/*
-equemene
+ * Release the blocks
-equemene
+ */
-equemene
+         (void) vsip_blockrelease_d( vsip_mgetblock_d( Lv0 ), VSIP_TRUE );
-equemene
+/*
-equemene
+ * Destroy the matrix views
-equemene
+ */
-equemene
+         (void) vsip_mdestroy_d( Lv0 );
-equemene
+#else
-equemene
+         HPL_dgemm( HplColumnMajor, HplNoTrans, HplNoTrans, jb, n,
-equemene
+                    jj, -HPL_rone, Mptr( L1ptr, jj, 0, n0 ), n0,
-equemene
+                    Mptr( L1ptr, 0, jj+jb, n0 ), n0, HPL_rone,
-equemene
+                    Mptr( L1ptr, jj, jj+jb, n0 ), n0 );
-equemene
+#endif
-equemene
+         HPL_dtrsm( HplColumnMajor, HplLeft, HplLower, HplNoTrans,
-equemene
+                    HplUnit, jb, n, HPL_rone, Mptr( L1ptr, jj, jj,
-equemene
+                    n0 ), n0, Mptr( L1ptr, jj, jj+jb, n0 ), n0 );
 equemene
-equemene
+/*
-equemene
+ * Copy back upper part of A in current process row - Go the next block
-equemene
+ */
-equemene
+      if( curr != 0 )
 equemene
-equemene
+         HPL_dlacpy( ioff, jb, Mptr( L1, 0, ioff, n0 ), n0,
-equemene
+                     Mptr( A, 0, ioff, lda ), lda );
-equemene
+         ii += jb; m -= jb;
 equemene
-equemene
+      jj += jb; jb = Mmin( n, nb );
 equemene
-equemene
+   } while( n > 0 );
-equemene
+/*
-equemene
+ * End of HPL_pdrpancrN
-equemene
+ */
 equemene