/ETSN/MyDFT_3.py - Annoter - Bench4GPU - Forge du Centre Blaise Pascal

    return(np.power(np.sqrt(np.log(np.exp(np.arctanh(np.tanh(np.arcsinh(np.sinh(np.arccosh(np.cosh(np.arctan(np.tan(np.arcsin(np.sin(np.arccos(np.cos(x))))))))))))))),2))

10

270

equemene

11

270

equemene

# Native Operation under Numpy (for prototyping & tests

12

270

equemene

def NativeAddition(a_np,b_np):

13

270

equemene

    return(a_np+b_np)

14

270

equemene

15

270

equemene

# Native Operation with MySillyFunction under Numpy (for prototyping & tests

16

270

equemene

def NativeSillyAddition(a_np,b_np):

17

270

equemene

    return(MySillyFunction(a_np)+MySillyFunction(b_np))

18

270

equemene

19

270

equemene

# Naive Discrete Fourier Transform

20

270

equemene

def MyDFT(x,y):

21

270

equemene

    from numpy import pi,cos,sin

22

270

equemene

    size=x.shape[0]

23

270

equemene

    X=np.zeros(size).astype(np.float32)

24

270

equemene

    Y=np.zeros(size).astype(np.float32)

25

270

equemene

    for i in range(size):

26

270

equemene

        for j in range(size):

27

270

equemene

            X[i]=X[i]+x[j]*cos(2.*pi*i*j/size)-y[j]*sin(2.*pi*i*j/size)

28

270

equemene

            Y[i]=Y[i]+x[j]*sin(2.*pi*i*j/size)+y[j]*cos(2.*pi*i*j/size)

29

270

equemene

    return(X,Y)

30

270

equemene

31

270

equemene

# Numpy Discrete Fourier Transform

32

270

equemene

def NumpyDFT(x,y):

33

270

equemene

    size=x.shape[0]

34

270

equemene

    X=np.zeros(size).astype(np.float32)

35

270

equemene

    Y=np.zeros(size).astype(np.float32)

36

270

equemene

    nj=np.multiply(2.0*np.pi/size,np.arange(size)).astype(np.float32)

37

270

equemene

    for i in range(size):

38

270

equemene

        X[i]=np.sum(np.subtract(np.multiply(np.cos(i*nj),x),np.multiply(np.sin(i*nj),y)))

39

270

equemene

        Y[i]=np.sum(np.add(np.multiply(np.sin(i*nj),x),np.multiply(np.cos(i*nj),y)))

40

270

equemene

    return(X,Y)

41

270

equemene

42

270

equemene

# Numba Discrete Fourier Transform

43

270

equemene

import numba

44

270

equemene

@numba.njit(parallel=True)

45

270

equemene

def NumbaDFT(x,y):

46

270

equemene

    size=x.shape[0]

47

270

equemene

    X=np.zeros(size)

48

270

equemene

    Y=np.zeros(size)

49

270

equemene

    nj=np.multiply(2.0*np.pi/size,np.arange(size)).astype(np.float32)

50

270

equemene

    for i in numba.prange(size):

51

270

equemene

        X[i]=np.sum(np.subtract(np.multiply(np.cos(i*nj),x),np.multiply(np.sin(i*nj),y)))

52

270

equemene

        Y[i]=np.sum(np.add(np.multiply(np.sin(i*nj),x),np.multiply(np.cos(i*nj),y)))

53

270

equemene

    return(X,Y)

54

270

equemene

55

270

equemene

# CUDA complete operation

56

270

equemene

def CUDAAddition(a_np,b_np):

57

270

equemene

    import pycuda.autoinit

58

270

equemene

    import pycuda.driver as drv

59

270

equemene

    import numpy

60

270

equemene

61

270

equemene

    from pycuda.compiler import SourceModule

62

270

equemene

    mod = SourceModule("""

63

270

equemene

    __global__ void sum(float *dest, float *a, float *b)

64

270

equemene

65

270

equemene

  // const int i = threadIdx.x;

66

270

equemene

  const int i = blockIdx.x;

67

270

equemene

  dest[i] = a[i] + b[i];

68

270

equemene

69

270

equemene

""")

70

270

equemene

71

270

equemene

    # sum = mod.get_function("sum")

72

270

equemene

    sum = mod.get_function("sum")

73

270

equemene

74

270

equemene

    res_np = numpy.zeros_like(a_np)

75

270

equemene

    sum(drv.Out(res_np), drv.In(a_np), drv.In(b_np),

76

270

equemene

        block=(1,1,1), grid=(a_np.size,1))

77

270

equemene

    return(res_np)

78

270

equemene

79

270

equemene

# CUDA Silly complete operation

80

270

equemene

def CUDASillyAddition(a_np,b_np):

81

270

equemene

    import pycuda.autoinit

82

270

equemene

    import pycuda.driver as drv

83

270

equemene

    import numpy

84

270

equemene

85

270

equemene

    from pycuda.compiler import SourceModule

86

270

equemene

    TimeIn=time.time()

87

270

equemene

    mod = SourceModule("""

88

270

equemene

__device__ float MySillyFunction(float x)

89

270

equemene

90

270

equemene

    return(pow(sqrt(log(exp(atanh(tanh(asinh(sinh(acosh(cosh(atan(tan(asin(sin(acos(cos(x))))))))))))))),2));

91

270

equemene

92

270

equemene

93

270

equemene

__global__ void sillysum(float *dest, float *a, float *b)

94

270

equemene

95

270

equemene

  const int i = blockIdx.x;

96

270

equemene

  dest[i] = MySillyFunction(a[i]) + MySillyFunction(b[i]);

97

270

equemene

98

270

equemene

""")

99

270

equemene

    Elapsed=time.time()-TimeIn

100

270

equemene

    print("Definition of kernel : %.3f" % Elapsed)

101

270

equemene

102

270

equemene

    TimeIn=time.time()

103

270

equemene

    # sum = mod.get_function("sum")

104

270

equemene

    sillysum = mod.get_function("sillysum")

105

270

equemene

    Elapsed=time.time()-TimeIn

106

270

equemene

    print("Synthesis of kernel : %.3f" % Elapsed)

107

270

equemene

108

270

equemene

    TimeIn=time.time()

109

270

equemene

    res_np = numpy.zeros_like(a_np)

110

270

equemene

    Elapsed=time.time()-TimeIn

111

270

equemene

    print("Allocation on Host for results : %.3f" % Elapsed)

112

270

equemene

113

270

equemene

    TimeIn=time.time()

114

270

equemene

    sillysum(drv.Out(res_np), drv.In(a_np), drv.In(b_np),

115

270

equemene

             block=(1,1,1), grid=(a_np.size,1))

116

270

equemene

    Elapsed=time.time()-TimeIn

117

270

equemene

    print("Execution of kernel : %.3f" % Elapsed)

118

270

equemene

    return(res_np)

119

270

equemene

120

270

equemene

# OpenCL complete operation

121

270

equemene

def OpenCLAddition(a_np,b_np):

122

270

equemene

123

270

equemene

    # Context creation

124

270

equemene

    ctx = cl.create_some_context()

125

270

equemene

    # Every process is stored in a queue

126

270

equemene

    queue = cl.CommandQueue(ctx)

127

270

equemene

128

270

equemene

    TimeIn=time.time()

129

270

equemene

    # Copy from Host to Device using pointers

130

270

equemene

    mf = cl.mem_flags

131

270

equemene

    a_g = cl.Buffer(ctx, mf.READ_ONLY | mf.COPY_HOST_PTR, hostbuf=a_np)

132

270

equemene

    b_g = cl.Buffer(ctx, mf.READ_ONLY | mf.COPY_HOST_PTR, hostbuf=b_np)

133

270

equemene

    Elapsed=time.time()-TimeIn

134

270

equemene

    print("Copy from Host 2 Device : %.3f" % Elapsed)

135

270

equemene

136

270

equemene

    TimeIn=time.time()

137

270

equemene

    # Definition of kernel under OpenCL

138

270

equemene

    prg = cl.Program(ctx, """

139

270

equemene

__kernel void sum(

140

270

equemene

    __global const float *a_g, __global const float *b_g, __global float *res_g)

141

270

equemene

142

270

equemene

  int gid = get_global_id(0);

143

270

equemene

  res_g[gid] = a_g[gid] + b_g[gid];

144

270

equemene

145

270

equemene

""").build()

146

270

equemene

    Elapsed=time.time()-TimeIn

147

270

equemene

    print("Building kernels : %.3f" % Elapsed)

148

270

equemene

149

270

equemene

    TimeIn=time.time()

150

270

equemene

    # Memory allocation on Device for result

151

270

equemene

    res_g = cl.Buffer(ctx, mf.WRITE_ONLY, a_np.nbytes)

152

270

equemene

    Elapsed=time.time()-TimeIn

153

270

equemene

    print("Allocation on Device for results : %.3f" % Elapsed)

154

270

equemene

155

270

equemene

    TimeIn=time.time()

156

270

equemene

    # Synthesis of function "sum" inside Kernel Sources

157

270

equemene

    knl = prg.sum  # Use this Kernel object for repeated calls

158

270

equemene

    Elapsed=time.time()-TimeIn

159

270

equemene

    print("Synthesis of kernel : %.3f" % Elapsed)

160

270

equemene

161

270

equemene

    TimeIn=time.time()

162

270

equemene

    # Call of kernel previously defined

163

270

equemene

    knl(queue, a_np.shape, None, a_g, b_g, res_g)

164

270

equemene

    Elapsed=time.time()-TimeIn

165

270

equemene

    print("Execution of kernel : %.3f" % Elapsed)

166

270

equemene

167

270

equemene

    TimeIn=time.time()

168

270

equemene

    # Creation of vector for result with same size as input vectors

169

270

equemene

    res_np = np.empty_like(a_np)

170

270

equemene

    Elapsed=time.time()-TimeIn

171

270

equemene

    print("Allocation on Host for results: %.3f" % Elapsed)

172

270

equemene

173

270

equemene

    TimeIn=time.time()

174

270

equemene

    # Copy from Device to Host

175

270

equemene

    cl.enqueue_copy(queue, res_np, res_g)

176

270

equemene

    Elapsed=time.time()-TimeIn

177

270

equemene

    print("Copy from Device 2 Host : %.3f" % Elapsed)

178

270

equemene

179

270

equemene

    return(res_np)

180

270

equemene

181

270

equemene

# OpenCL complete operation

182

270

equemene

def OpenCLSillyAddition(a_np,b_np):

183

270

equemene

184

270

equemene

    # Context creation

185

270

equemene

    ctx = cl.create_some_context()

186

270

equemene

    # Every process is stored in a queue

187

270

equemene

    queue = cl.CommandQueue(ctx)

188

270

equemene

189

270

equemene

    TimeIn=time.time()

190

270

equemene

    # Copy from Host to Device using pointers

191

270

equemene

    mf = cl.mem_flags

192

270

equemene

    a_g = cl.Buffer(ctx, mf.READ_ONLY | mf.COPY_HOST_PTR, hostbuf=a_np)

193

270

equemene

    b_g = cl.Buffer(ctx, mf.READ_ONLY | mf.COPY_HOST_PTR, hostbuf=b_np)

194

270

equemene

    Elapsed=time.time()-TimeIn

195

270

equemene

    print("Copy from Host 2 Device : %.3f" % Elapsed)

196

270

equemene

197

270

equemene

    TimeIn=time.time()

198

270

equemene

    # Definition of kernel under OpenCL

199

270

equemene

    prg = cl.Program(ctx, """

200

270

equemene

201

270

equemene

float MySillyFunction(float x)

202

270

equemene

203

270

equemene

    return(pow(sqrt(log(exp(atanh(tanh(asinh(sinh(acosh(cosh(atan(tan(asin(sin(acos(cos(x))))))))))))))),2));

204

270

equemene

205

270

equemene

206

270

equemene

__kernel void sillysum(

207

270

equemene

    __global const float *a_g, __global const float *b_g, __global float *res_g)

208

270

equemene

209

270

equemene

  int gid = get_global_id(0);

210

270

equemene

  res_g[gid] = MySillyFunction(a_g[gid]) + MySillyFunction(b_g[gid]);

211

270

equemene

212

270

equemene

213

270

equemene

__kernel void sum(

214

270

equemene

    __global const float *a_g, __global const float *b_g, __global float *res_g)

215

270

equemene

216

270

equemene

  int gid = get_global_id(0);

217

270

equemene

  res_g[gid] = a_g[gid] + b_g[gid];

218

270

equemene

219

270

equemene

""").build()

220

270

equemene

    Elapsed=time.time()-TimeIn

221

270

equemene

    print("Building kernels : %.3f" % Elapsed)

222

270

equemene

223

270

equemene

    TimeIn=time.time()

224

270

equemene

    # Memory allocation on Device for result

225

270

equemene

    res_g = cl.Buffer(ctx, mf.WRITE_ONLY, a_np.nbytes)

226

270

equemene

    Elapsed=time.time()-TimeIn

227

270

equemene

    print("Allocation on Device for results : %.3f" % Elapsed)

228

270

equemene

229

270

equemene

    TimeIn=time.time()

230

270

equemene

    # Synthesis of function "sillysum" inside Kernel Sources

231

270

equemene

    knl = prg.sillysum  # Use this Kernel object for repeated calls

232

270

equemene

    Elapsed=time.time()-TimeIn

233

270

equemene

    print("Synthesis of kernel : %.3f" % Elapsed)

234

270

equemene

235

270

equemene

    TimeIn=time.time()

236

270

equemene

    # Call of kernel previously defined

237

270

equemene

    CallCL=knl(queue, a_np.shape, None, a_g, b_g, res_g)

238

270

equemene

239

270

equemene

    CallCL.wait()

240

270

equemene

    Elapsed=time.time()-TimeIn

241

270

equemene

    print("Execution of kernel : %.3f" % Elapsed)

242

270

equemene

243

270

equemene

    TimeIn=time.time()

244

270

equemene

    # Creation of vector for result with same size as input vectors

245

270

equemene

    res_np = np.empty_like(a_np)

246

270

equemene

    Elapsed=time.time()-TimeIn

247

270

equemene

    print("Allocation on Host for results: %.3f" % Elapsed)

248

270

equemene

249

270

equemene

    TimeIn=time.time()

250

270

equemene

    # Copy from Device to Host

251

270

equemene

    cl.enqueue_copy(queue, res_np, res_g)

252

270

equemene

    Elapsed=time.time()-TimeIn

253

270

equemene

    print("Copy from Device 2 Host : %.3f" % Elapsed)

254

270

equemene

255

270

equemene

    return(res_np)

256

270

equemene

257

270

equemene

import sys

258

270

equemene

import time

259

270

equemene

260

270

equemene

if __name__=='__main__':

261

270

equemene

262

270

equemene

    # Size of input vectors definition based on stdin

263

270

equemene

    import sys

264

270

equemene

    try:

265

270

equemene

        SIZE=int(sys.argv[1])

266

270

equemene

        print("Size of vectors set to %i" % SIZE)

267

270

equemene

    except:

268

270

equemene

        SIZE=50000

269

270

equemene

        print("Size of vectors set to default size %i" % SIZE)

270

equemene

271

270

equemene

    # a_np = np.random.rand(SIZE).astype(np.float32)

272

270

equemene

    # b_np = np.random.rand(SIZE).astype(np.float32)

273

270

equemene

274

270

equemene

    a_np = np.ones(SIZE).astype(np.float32)

275

270

equemene

    b_np = np.ones(SIZE).astype(np.float32)

276

270

equemene

277

270

equemene

    # Native & Naive Implementation

278

270

equemene

    print("Performing naive implementation")

279

270

equemene

    TimeIn=time.time()

280

270

equemene

    c_np,d_np=MyDFT(a_np,b_np)

281

270

equemene

    NativeElapsed=time.time()-TimeIn

282

270

equemene

    NativeRate=int(SIZE/NativeElapsed)

283

270

equemene

    print("NativeRate: %i" % NativeRate)

284

270

equemene

285

270

equemene

    # Native & Numpy Implementation

286

270

equemene

    print("Performing Numpy implementation")

287

270

equemene

    TimeIn=time.time()

288

270

equemene

    e_np,f_np=NumpyDFT(a_np,b_np)

289

270

equemene

    NumpyElapsed=time.time()-TimeIn

290

270

equemene

    NumpyRate=int(SIZE/NumpyElapsed)

291

270

equemene

    print("NumpyRate: %i" % NumpyRate)

292

270

equemene

293

270

equemene

    print(np.linalg.norm(c_np-e_np))

294

270

equemene

    print(np.linalg.norm(d_np-f_np))

295

270

equemene

296

270

equemene

    # Native & Numpy Implementation

297

270

equemene

    print("Performing Numba implementation")

298

270

equemene

    TimeIn=time.time()

299

270

equemene

    g_np,h_np=NumbaDFT(a_np,b_np)

300

270

equemene

    NumpyElapsed=time.time()-TimeIn

301

270

equemene

    NumpyRate=int(SIZE/NumpyElapsed)

302

270

equemene

    print("NumpyRate: %i" % NumpyRate)

303

270

equemene

304

270

equemene

    print(np.linalg.norm(c_np-g_np))

305

270

equemene

    print(np.linalg.norm(d_np-h_np))

306

270

equemene

307

270

equemene

   #  # OpenCL Implementation

308

270

equemene

   #  TimeIn=time.time()

309

270

equemene

   #  # res_cl=OpenCLAddition(a_np,b_np)

310

270

equemene

   #  res_cl=OpenCLSillyAddition(a_np,b_np)

311

270

equemene

   #  OpenCLElapsed=time.time()-TimeIn

312

270

equemene

   #  OpenCLRate=int(SIZE/OpenCLElapsed)

313

270

equemene

   #  print("OpenCLRate: %i" % OpenCLRate)

314

270

equemene

315

270

equemene

   #  # CUDA Implementation

316

270

equemene

   #  TimeIn=time.time()

317

270

equemene

   #  # res_cuda=CUDAAddition(a_np,b_np)

318

270

equemene

   #  res_cuda=CUDASillyAddition(a_np,b_np)

319

270

equemene

   #  CUDAElapsed=time.time()-TimeIn

320

270

equemene

   #  CUDARate=int(SIZE/CUDAElapsed)

321

270

equemene

   #  print("CUDARate: %i" % CUDARate)

322

270

equemene

323

270

equemene

   #  print("OpenCLvsNative ratio: %f" % (OpenCLRate/NativeRate))

324

270

equemene

   #  print("CUDAvsNative ratio: %f" % (CUDARate/NativeRate))

325

270

equemene

326

270

equemene

   # # Check on OpenCL with Numpy:

327

270

equemene

   #  print(res_cl - res_np)

328

270

equemene

   #  print(np.linalg.norm(res_cl - res_np))

329

270

equemene

   #  try:

330

270

equemene

   #      assert np.allclose(res_np, res_cl)

331

270

equemene

   #  except:

332

270

equemene

   #      print("Results between Native & OpenCL seem to be too different!")

333

270

equemene

334

270

equemene

   #  # Check on CUDA with Numpy:

335

270

equemene

   #  print(res_cuda - res_np)

336

270

equemene

   #  print(np.linalg.norm(res_cuda - res_np))

337

270

equemene

   #  try:

338

270

equemene

   #      assert np.allclose(res_np, res_cuda)

339

270

equemene

   #  except:

340

270

equemene

   #      print("Results between Native & CUDA seem to be too different!")

341

270

equemene

Centre Blaise Pascal » Bench4GPU

root / ETSN / MyDFT_3.py @ 270

-equemene
+#!/usr/bin/env python3
 equemene
-equemene
+import numpy as np
-equemene
+import pyopencl as cl
-equemene
+from numpy import pi,cos,sin
 equemene
-equemene
+# piling 16 arithmetical functions
-equemene
+def MySillyFunction(x):
-equemene
+    return(np.power(np.sqrt(np.log(np.exp(np.arctanh(np.tanh(np.arcsinh(np.sinh(np.arccosh(np.cosh(np.arctan(np.tan(np.arcsin(np.sin(np.arccos(np.cos(x))))))))))))))),2))
 equemene
-equemene
+# Native Operation under Numpy (for prototyping & tests
-equemene
+def NativeAddition(a_np,b_np):
-equemene
+    return(a_np+b_np)
 equemene
-equemene
+# Native Operation with MySillyFunction under Numpy (for prototyping & tests
-equemene
+def NativeSillyAddition(a_np,b_np):
-equemene
+    return(MySillyFunction(a_np)+MySillyFunction(b_np))
 equemene
-equemene
+# Naive Discrete Fourier Transform
-equemene
+def MyDFT(x,y):
-equemene
+    from numpy import pi,cos,sin
-equemene
+    size=x.shape[0]
-equemene
+    X=np.zeros(size).astype(np.float32)
-equemene
+    Y=np.zeros(size).astype(np.float32)
-equemene
+    for i in range(size):
-equemene
+        for j in range(size):
-equemene
+            X[i]=X[i]+x[j]*cos(2.*pi*i*j/size)-y[j]*sin(2.*pi*i*j/size)
-equemene
+            Y[i]=Y[i]+x[j]*sin(2.*pi*i*j/size)+y[j]*cos(2.*pi*i*j/size)
-equemene
+    return(X,Y)
 equemene
-equemene
+# Numpy Discrete Fourier Transform
-equemene
+def NumpyDFT(x,y):
-equemene
+    size=x.shape[0]
-equemene
+    X=np.zeros(size).astype(np.float32)
-equemene
+    Y=np.zeros(size).astype(np.float32)
-equemene
+    nj=np.multiply(2.0*np.pi/size,np.arange(size)).astype(np.float32)
-equemene
+    for i in range(size):
-equemene
+        X[i]=np.sum(np.subtract(np.multiply(np.cos(i*nj),x),np.multiply(np.sin(i*nj),y)))
-equemene
+        Y[i]=np.sum(np.add(np.multiply(np.sin(i*nj),x),np.multiply(np.cos(i*nj),y)))
-equemene
+    return(X,Y)
 equemene
-equemene
+# Numba Discrete Fourier Transform
-equemene
+import numba
-equemene
+@numba.njit(parallel=True)
-equemene
+def NumbaDFT(x,y):
-equemene
+    size=x.shape[0]
-equemene
+    X=np.zeros(size)
-equemene
+    Y=np.zeros(size)
-equemene
+    nj=np.multiply(2.0*np.pi/size,np.arange(size)).astype(np.float32)
-equemene
+    for i in numba.prange(size):
-equemene
+        X[i]=np.sum(np.subtract(np.multiply(np.cos(i*nj),x),np.multiply(np.sin(i*nj),y)))
-equemene
+        Y[i]=np.sum(np.add(np.multiply(np.sin(i*nj),x),np.multiply(np.cos(i*nj),y)))
-equemene
+    return(X,Y)
 equemene
-equemene
+# CUDA complete operation
-equemene
+def CUDAAddition(a_np,b_np):
-equemene
+    import pycuda.autoinit
-equemene
+    import pycuda.driver as drv
-equemene
+    import numpy
 equemene
-equemene
+    from pycuda.compiler import SourceModule
-equemene
+    mod = SourceModule("""
-equemene
+    __global__ void sum(float *dest, float *a, float *b)
 equemene
-equemene
+  // const int i = threadIdx.x;
-equemene
+  const int i = blockIdx.x;
-equemene
+  dest[i] = a[i] + b[i];
 equemene
-equemene
+""")
 equemene
-equemene
+    # sum = mod.get_function("sum")
-equemene
+    sum = mod.get_function("sum")
 equemene
-equemene
+    res_np = numpy.zeros_like(a_np)
-equemene
+    sum(drv.Out(res_np), drv.In(a_np), drv.In(b_np),
-equemene
+        block=(1,1,1), grid=(a_np.size,1))
-equemene
+    return(res_np)
 equemene
-equemene
+# CUDA Silly complete operation
-equemene
+def CUDASillyAddition(a_np,b_np):
-equemene
+    import pycuda.autoinit
-equemene
+    import pycuda.driver as drv
-equemene
+    import numpy
 equemene
-equemene
+    from pycuda.compiler import SourceModule
-equemene
+    TimeIn=time.time()
-equemene
+    mod = SourceModule("""
-equemene
+__device__ float MySillyFunction(float x)
 equemene
-equemene
+    return(pow(sqrt(log(exp(atanh(tanh(asinh(sinh(acosh(cosh(atan(tan(asin(sin(acos(cos(x))))))))))))))),2));
 equemene
 equemene
-equemene
+__global__ void sillysum(float *dest, float *a, float *b)
 equemene
-equemene
+  const int i = blockIdx.x;
-equemene
+  dest[i] = MySillyFunction(a[i]) + MySillyFunction(b[i]);
 equemene
-equemene
+""")
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Definition of kernel : %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    # sum = mod.get_function("sum")
-equemene
+    sillysum = mod.get_function("sillysum")
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Synthesis of kernel : %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    res_np = numpy.zeros_like(a_np)
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Allocation on Host for results : %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    sillysum(drv.Out(res_np), drv.In(a_np), drv.In(b_np),
-equemene
+             block=(1,1,1), grid=(a_np.size,1))
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Execution of kernel : %.3f" % Elapsed)
-equemene
+    return(res_np)
 equemene
-equemene
+# OpenCL complete operation
-equemene
+def OpenCLAddition(a_np,b_np):
 equemene
-equemene
+    # Context creation
-equemene
+    ctx = cl.create_some_context()
-equemene
+    # Every process is stored in a queue
-equemene
+    queue = cl.CommandQueue(ctx)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    # Copy from Host to Device using pointers
-equemene
+    mf = cl.mem_flags
-equemene
+    a_g = cl.Buffer(ctx, mf.READ_ONLY | mf.COPY_HOST_PTR, hostbuf=a_np)
-equemene
+    b_g = cl.Buffer(ctx, mf.READ_ONLY | mf.COPY_HOST_PTR, hostbuf=b_np)
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Copy from Host 2 Device : %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    # Definition of kernel under OpenCL
-equemene
+    prg = cl.Program(ctx, """
-equemene
+__kernel void sum(
-equemene
+    __global const float *a_g, __global const float *b_g, __global float *res_g)
 equemene
-equemene
+  int gid = get_global_id(0);
-equemene
+  res_g[gid] = a_g[gid] + b_g[gid];
 equemene
-equemene
+""").build()
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Building kernels : %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    # Memory allocation on Device for result
-equemene
+    res_g = cl.Buffer(ctx, mf.WRITE_ONLY, a_np.nbytes)
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Allocation on Device for results : %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    # Synthesis of function "sum" inside Kernel Sources
-equemene
+    knl = prg.sum  # Use this Kernel object for repeated calls
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Synthesis of kernel : %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    # Call of kernel previously defined
-equemene
+    knl(queue, a_np.shape, None, a_g, b_g, res_g)
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Execution of kernel : %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    # Creation of vector for result with same size as input vectors
-equemene
+    res_np = np.empty_like(a_np)
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Allocation on Host for results: %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    # Copy from Device to Host
-equemene
+    cl.enqueue_copy(queue, res_np, res_g)
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Copy from Device 2 Host : %.3f" % Elapsed)
 equemene
-equemene
+    return(res_np)
 equemene
-equemene
+# OpenCL complete operation
-equemene
+def OpenCLSillyAddition(a_np,b_np):
 equemene
-equemene
+    # Context creation
-equemene
+    ctx = cl.create_some_context()
-equemene
+    # Every process is stored in a queue
-equemene
+    queue = cl.CommandQueue(ctx)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    # Copy from Host to Device using pointers
-equemene
+    mf = cl.mem_flags
-equemene
+    a_g = cl.Buffer(ctx, mf.READ_ONLY | mf.COPY_HOST_PTR, hostbuf=a_np)
-equemene
+    b_g = cl.Buffer(ctx, mf.READ_ONLY | mf.COPY_HOST_PTR, hostbuf=b_np)
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Copy from Host 2 Device : %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    # Definition of kernel under OpenCL
-equemene
+    prg = cl.Program(ctx, """
 equemene
-equemene
+float MySillyFunction(float x)
 equemene
-equemene
+    return(pow(sqrt(log(exp(atanh(tanh(asinh(sinh(acosh(cosh(atan(tan(asin(sin(acos(cos(x))))))))))))))),2));
 equemene
 equemene
-equemene
+__kernel void sillysum(
-equemene
+    __global const float *a_g, __global const float *b_g, __global float *res_g)
 equemene
-equemene
+  int gid = get_global_id(0);
-equemene
+  res_g[gid] = MySillyFunction(a_g[gid]) + MySillyFunction(b_g[gid]);
 equemene
 equemene
-equemene
+__kernel void sum(
-equemene
+    __global const float *a_g, __global const float *b_g, __global float *res_g)
 equemene
-equemene
+  int gid = get_global_id(0);
-equemene
+  res_g[gid] = a_g[gid] + b_g[gid];
 equemene
-equemene
+""").build()
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Building kernels : %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    # Memory allocation on Device for result
-equemene
+    res_g = cl.Buffer(ctx, mf.WRITE_ONLY, a_np.nbytes)
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Allocation on Device for results : %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    # Synthesis of function "sillysum" inside Kernel Sources
-equemene
+    knl = prg.sillysum  # Use this Kernel object for repeated calls
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Synthesis of kernel : %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    # Call of kernel previously defined
-equemene
+    CallCL=knl(queue, a_np.shape, None, a_g, b_g, res_g)
 equemene
-equemene
+    CallCL.wait()
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Execution of kernel : %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    # Creation of vector for result with same size as input vectors
-equemene
+    res_np = np.empty_like(a_np)
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Allocation on Host for results: %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    # Copy from Device to Host
-equemene
+    cl.enqueue_copy(queue, res_np, res_g)
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Copy from Device 2 Host : %.3f" % Elapsed)
 equemene
-equemene
+    return(res_np)
 equemene
-equemene
+import sys
-equemene
+import time
 equemene
-equemene
+if __name__=='__main__':
 equemene
-equemene
+    # Size of input vectors definition based on stdin
-equemene
+    import sys
-equemene
+    try:
-equemene
+        SIZE=int(sys.argv[1])
-equemene
+        print("Size of vectors set to %i" % SIZE)
-equemene
+    except:
-equemene
+        SIZE=50000
-equemene
+        print("Size of vectors set to default size %i" % SIZE)
 equemene
-equemene
+    # a_np = np.random.rand(SIZE).astype(np.float32)
-equemene
+    # b_np = np.random.rand(SIZE).astype(np.float32)
 equemene
-equemene
+    a_np = np.ones(SIZE).astype(np.float32)
-equemene
+    b_np = np.ones(SIZE).astype(np.float32)
 equemene
-equemene
+    # Native & Naive Implementation
-equemene
+    print("Performing naive implementation")
-equemene
+    TimeIn=time.time()
-equemene
+    c_np,d_np=MyDFT(a_np,b_np)
-equemene
+    NativeElapsed=time.time()-TimeIn
-equemene
+    NativeRate=int(SIZE/NativeElapsed)
-equemene
+    print("NativeRate: %i" % NativeRate)
 equemene
-equemene
+    # Native & Numpy Implementation
-equemene
+    print("Performing Numpy implementation")
-equemene
+    TimeIn=time.time()
-equemene
+    e_np,f_np=NumpyDFT(a_np,b_np)
-equemene
+    NumpyElapsed=time.time()-TimeIn
-equemene
+    NumpyRate=int(SIZE/NumpyElapsed)
-equemene
+    print("NumpyRate: %i" % NumpyRate)
 equemene
-equemene
+    print(np.linalg.norm(c_np-e_np))
-equemene
+    print(np.linalg.norm(d_np-f_np))
 equemene
-equemene
+    # Native & Numpy Implementation
-equemene
+    print("Performing Numba implementation")
-equemene
+    TimeIn=time.time()
-equemene
+    g_np,h_np=NumbaDFT(a_np,b_np)
-equemene
+    NumpyElapsed=time.time()-TimeIn
-equemene
+    NumpyRate=int(SIZE/NumpyElapsed)
-equemene
+    print("NumpyRate: %i" % NumpyRate)
 equemene
-equemene
+    print(np.linalg.norm(c_np-g_np))
-equemene
+    print(np.linalg.norm(d_np-h_np))
 equemene
-equemene
+   #  # OpenCL Implementation
-equemene
+   #  TimeIn=time.time()
-equemene
+   #  # res_cl=OpenCLAddition(a_np,b_np)
-equemene
+   #  res_cl=OpenCLSillyAddition(a_np,b_np)
-equemene
+   #  OpenCLElapsed=time.time()-TimeIn
-equemene
+   #  OpenCLRate=int(SIZE/OpenCLElapsed)
-equemene
+   #  print("OpenCLRate: %i" % OpenCLRate)
 equemene
-equemene
+   #  # CUDA Implementation
-equemene
+   #  TimeIn=time.time()
-equemene
+   #  # res_cuda=CUDAAddition(a_np,b_np)
-equemene
+   #  res_cuda=CUDASillyAddition(a_np,b_np)
-equemene
+   #  CUDAElapsed=time.time()-TimeIn
-equemene
+   #  CUDARate=int(SIZE/CUDAElapsed)
-equemene
+   #  print("CUDARate: %i" % CUDARate)
 equemene
-equemene
+   #  print("OpenCLvsNative ratio: %f" % (OpenCLRate/NativeRate))
-equemene
+   #  print("CUDAvsNative ratio: %f" % (CUDARate/NativeRate))
 equemene
-equemene
+   # # Check on OpenCL with Numpy:
-equemene
+   #  print(res_cl - res_np)
-equemene
+   #  print(np.linalg.norm(res_cl - res_np))
-equemene
+   #  try:
-equemene
+   #      assert np.allclose(res_np, res_cl)
-equemene
+   #  except:
-equemene
+   #      print("Results between Native & OpenCL seem to be too different!")
 equemene
-equemene
+   #  # Check on CUDA with Numpy:
-equemene
+   #  print(res_cuda - res_np)
-equemene
+   #  print(np.linalg.norm(res_cuda - res_np))
-equemene
+   #  try:
-equemene
+   #      assert np.allclose(res_np, res_cuda)
-equemene
+   #  except:
-equemene
+   #      print("Results between Native & CUDA seem to be too different!")
 equemene