/Pi/GPU/Pi-GPU.py - Annoter - Bench4GPU - Forge du Centre Blaise Pascal

root / Pi / GPU / Pi-GPU.py @ 65

Historique | Voir | Annoter | Télécharger (26,72 ko)

-equemene
+#!/usr/bin/env python
 equemene
 equemene
-equemene
+# Pi-by-MonteCarlo using PyCUDA/PyOpenCL
 equemene
-equemene
+# CC BY-NC-SA 2011 : <emmanuel.quemener@ens-lyon.fr>
 equemene
-equemene
+# Thanks to Andreas Klockner for PyCUDA:
-equemene
+# http://mathema.tician.de/software/pycuda
 equemene
 equemene
-equemene
+# 2013-01-01 : problems with launch timeout
-equemene
+# http://stackoverflow.com/questions/497685/how-do-you-get-around-the-maximum-cuda-run-time
-equemene
+# Option "Interactive" "0" in /etc/X11/xorg.conf
 equemene
-equemene
+# Common tools
-equemene
+import numpy
-equemene
+from numpy.random import randint as nprnd
-equemene
+import sys
-equemene
+import getopt
-equemene
+import time
-equemene
+import math
-equemene
+from socket import gethostname
 equemene
-equemene
+# find prime factors of a number
-equemene
+# Get for WWW :
-equemene
+# http://pythonism.wordpress.com/2008/05/17/looking-at-factorisation-in-python/
-equemene
+def PrimeFactors(x):
-equemene
+  factorlist=numpy.array([]).astype('uint32')
-equemene
+  loop=2
-equemene
+  while loop<=x:
-equemene
+    if x%loop==0:
-equemene
+      x/=loop
-equemene
+      factorlist=numpy.append(factorlist,[loop])
-equemene
+    else:
-equemene
+      loop+=1
-equemene
+  return factorlist
 equemene
-equemene
+# Try to find the best thread number in Hybrid approach (Blocks&Threads)
-equemene
+# output is thread number
-equemene
+def BestThreadsNumber(jobs):
-equemene
+  factors=PrimeFactors(jobs)
-equemene
+  matrix=numpy.append([factors],[factors[::-1]],axis=0)
-equemene
+  threads=1
-equemene
+  for factor in matrix.transpose().ravel():
-equemene
+    threads=threads*factor
-equemene
+    if threads*threads>jobs:
-equemene
+      break
-equemene
+  return(long(threads))
 equemene
-equemene
+# Predicted Amdahl Law (Reduced with s=1-p)
-equemene
+def AmdahlR(N, T1, p):
-equemene
+  return (T1*(1-p+p/N))
 equemene
-equemene
+# Predicted Amdahl Law
-equemene
+def Amdahl(N, T1, s, p):
-equemene
+  return (T1*(s+p/N))
 equemene
-equemene
+# Predicted Mylq Law with first order
-equemene
+def Mylq(N, T1,s,c,p):
-equemene
+  return (T1*(s+p/N)+c*N)
 equemene
-equemene
+# Predicted Mylq Law with second order
-equemene
+def Mylq2(N, T1,s,c1,c2,p):
-equemene
+  return (T1*(s+p/N)+c1*N+c2*N*N)
 equemene
-equemene
+KERNEL_CODE_CUDA="""
 equemene
-equemene
+// Marsaglia RNG very simple implementation
 equemene
-equemene
+#define znew  ((z=36969*(z&65535)+(z>>16))<<16)
-equemene
+#define wnew  ((w=18000*(w&65535)+(w>>16))&65535)
-equemene
+#define MWC   (znew+wnew)
-equemene
+#define SHR3  (jsr=(jsr=(jsr=jsr^(jsr<<17))^(jsr>>13))^(jsr<<5))
-equemene
+#define CONG  (jcong=69069*jcong+1234567)
-equemene
+#define KISS  ((MWC^CONG)+SHR3)
 equemene
-equemene
+#define MWCfp MWC * 2.328306435454494e-10f
-equemene
+#define KISSfp KISS * 2.328306435454494e-10f
 equemene
-equemene
+__global__ void MainLoopBlocks(ulong *s,ulong iterations,uint seed_w,uint seed_z)
 equemene
-equemene
+   uint z=seed_z/(blockIdx.x+1);
-equemene
+   uint w=seed_w/(blockIdx.x+1);
 equemene
-equemene
+   ulong total=0;
 equemene
-equemene
+   for (ulong i=0;i<iterations;i++) {
 equemene
-equemene
+      float x=MWCfp ;
-equemene
+      float y=MWCfp ;
 equemene
-equemene
+      // Matching test
-equemene
+      ulong inside=((x*x+y*y) < 1.0f) ? 1:0;
-equemene
+      total+=inside;
 equemene
 equemene
 equemene
-equemene
+   s[blockIdx.x]=total;
-equemene
+   __syncthreads();
 equemene
 equemene
 equemene
-equemene
+__global__ void MainLoopThreads(ulong *s,ulong iterations,uint seed_w,uint seed_z)
 equemene
-equemene
+   uint z=seed_z/(threadIdx.x+1);
-equemene
+   uint w=seed_w/(threadIdx.x+1);
 equemene
-equemene
+   ulong total=0;
 equemene
-equemene
+   for (ulong i=0;i<iterations;i++) {
 equemene
-equemene
+      float x=MWCfp ;
-equemene
+      float y=MWCfp ;
 equemene
-equemene
+      // Matching test
-equemene
+      ulong inside=((x*x+y*y) < 1.0f) ? 1:0;
-equemene
+      total+=inside;
 equemene
 equemene
 equemene
-equemene
+   s[threadIdx.x]=total;
-equemene
+   __syncthreads();
 equemene
 equemene
 equemene
-equemene
+__global__ void MainLoopHybrid(ulong *s,ulong iterations,uint seed_w,uint seed_z)
 equemene
-equemene
+   uint z=seed_z/(blockDim.x*blockIdx.x+threadIdx.x+1);
-equemene
+   uint w=seed_w/(blockDim.x*blockIdx.x+threadIdx.x+1);
 equemene
-equemene
+   ulong total=0;
 equemene
-equemene
+   for (ulong i=0;i<iterations;i++) {
 equemene
-equemene
+      float x=MWCfp ;
-equemene
+      float y=MWCfp ;
 equemene
-equemene
+      // Matching test
-equemene
+      ulong inside=((x*x+y*y) < 1.0f) ? 1:0;
-equemene
+      total+=inside;
 equemene
 equemene
 equemene
-equemene
+   s[blockDim.x*blockIdx.x+threadIdx.x]=total;
-equemene
+   __syncthreads();
 equemene
 equemene
 equemene
-equemene
+__global__ void MainLoopBlocks64(ulong *s,ulong iterations,uint seed_w,uint seed_z)
 equemene
-equemene
+   uint z=seed_z/(blockIdx.x+1);
-equemene
+   uint w=seed_w/(blockIdx.x+1);
 equemene
-equemene
+   ulong total=0;
 equemene
-equemene
+   for (ulong i=0;i<iterations;i++) {
 equemene
-equemene
+      double x=(double)MWCfp ;
-equemene
+      double y=(double)MWCfp ;
 equemene
-equemene
+      // Matching test
-equemene
+      ulong inside=((x*x+y*y) < 1.0f) ? 1:0;
-equemene
+      total+=inside;
 equemene
 equemene
 equemene
-equemene
+   s[blockIdx.x]=total;
-equemene
+   __syncthreads();
 equemene
 equemene
 equemene
-equemene
+__global__ void MainLoopThreads64(ulong *s,ulong iterations,uint seed_w,uint seed_z)
 equemene
-equemene
+   uint z=seed_z/(threadIdx.x+1);
-equemene
+   uint w=seed_w/(threadIdx.x+1);
 equemene
-equemene
+   ulong total=0;
 equemene
-equemene
+   for (ulong i=0;i<iterations;i++) {
 equemene
-equemene
+      double x=(double)MWCfp ;
-equemene
+      double y=(double)MWCfp ;
 equemene
-equemene
+      // Matching test
-equemene
+      ulong inside=((x*x+y*y) < 1.0f) ? 1:0;
-equemene
+      total+=inside;
 equemene
 equemene
 equemene
-equemene
+   s[threadIdx.x]=total;
-equemene
+   __syncthreads();
 equemene
 equemene
 equemene
-equemene
+__global__ void MainLoopHybrid64(ulong *s,ulong iterations,uint seed_w,uint seed_z)
 equemene
-equemene
+   uint z=seed_z/(blockDim.x*blockIdx.x+threadIdx.x+1);
-equemene
+   uint w=seed_w/(blockDim.x*blockIdx.x+threadIdx.x+1);
 equemene
-equemene
+   ulong total=0;
 equemene
-equemene
+   for (ulong i=0;i<iterations;i++) {
 equemene
-equemene
+      double x=(double)MWCfp ;
-equemene
+      double y=(double)MWCfp ;
 equemene
-equemene
+      // Matching test
-equemene
+      ulong inside=((x*x+y*y) < 1.0f) ? 1:0;
-equemene
+      total+=inside;
 equemene
 equemene
 equemene
-equemene
+   s[blockDim.x*blockIdx.x+threadIdx.x]=total;
-equemene
+   __syncthreads();
 equemene
 equemene
-equemene
+"""
 equemene
-equemene
+KERNEL_CODE_OPENCL="""
-equemene
+#pragma OPENCL EXTENSION cl_khr_fp64: enable
 equemene
-equemene
+// Marsaglia RNG very simple implementation
-equemene
+#define znew  ((z=36969*(z&65535)+(z>>16))<<16)
-equemene
+#define wnew  ((w=18000*(w&65535)+(w>>16))&65535)
-equemene
+#define MWC   (znew+wnew)
-equemene
+#define SHR3  (jsr=(jsr=(jsr=jsr^(jsr<<17))^(jsr>>13))^(jsr<<5))
-equemene
+#define CONG  (jcong=69069*jcong+1234567)
-equemene
+#define KISS  ((MWC^CONG)+SHR3)
 equemene
-equemene
+#define MWCfp MWC * 2.328306435454494e-10f
-equemene
+#define KISSfp KISS * 2.328306435454494e-10f
 equemene
-equemene
+__kernel void MainLoopGlobal(__global ulong *s,ulong iterations,uint seed_w,uint seed_z)
 equemene
-equemene
+   uint z=seed_z/(get_global_id(0)+1);
-equemene
+   uint w=seed_w/(get_global_id(0)+1);
 equemene
-equemene
+   ulong total=0;
 equemene
-equemene
+   for (ulong i=0;i<iterations;i++) {
 equemene
-equemene
+      float x=MWCfp ;
-equemene
+      float y=MWCfp ;
 equemene
-equemene
+      // Matching test
-equemene
+      ulong inside=((x*x+y*y) < 1.0f) ? 1:0;
-equemene
+      total+=inside;
 equemene
-equemene
+   s[get_global_id(0)]=total;
-equemene
+   barrier(CLK_GLOBAL_MEM_FENCE);
 equemene
 equemene
 equemene
-equemene
+__kernel void MainLoopLocal(__global ulong *s,ulong iterations,uint seed_w,uint seed_z)
 equemene
-equemene
+   uint z=seed_z/(get_local_id(0)+1);
-equemene
+   uint w=seed_w/(get_local_id(0)+1);
 equemene
-equemene
+   ulong total=0;
 equemene
-equemene
+   for (ulong i=0;i<iterations;i++) {
 equemene
-equemene
+      float x=MWCfp ;
-equemene
+      float y=MWCfp ;
 equemene
-equemene
+      // Matching test
-equemene
+      ulong inside=((x*x+y*y) < 1.0f) ? 1:0;
-equemene
+      total+=inside;
 equemene
-equemene
+   s[get_local_id(0)]=total;
-equemene
+   barrier(CLK_LOCAL_MEM_FENCE);
 equemene
 equemene
 equemene
-equemene
+__kernel void MainLoopHybrid(__global ulong *s,ulong iterations,uint seed_w,uint seed_z)
 equemene
-equemene
+   uint z=seed_z/(get_group_id(0)*get_num_groups(0)+get_local_id(0)+1);
-equemene
+   uint w=seed_w/(get_group_id(0)*get_num_groups(0)+get_local_id(0)+1);
 equemene
-equemene
+   ulong total=0;
 equemene
-equemene
+   for (uint i=0;i<iterations;i++) {
 equemene
-equemene
+      float x=MWCfp ;
-equemene
+     float y=MWCfp ;
 equemene
-equemene
+      // Matching test
-equemene
+      ulong inside=((x*x+y*y) < 1.0f) ? 1:0;
-equemene
+      total+=inside;
 equemene
-equemene
+   barrier(CLK_LOCAL_MEM_FENCE);
-equemene
+   s[get_group_id(0)*get_num_groups(0)+get_local_id(0)]=total;
 equemene
 equemene
 equemene
-equemene
+__kernel void MainLoopGlobal64(__global ulong *s,ulong iterations,uint seed_w,uint seed_z)
 equemene
-equemene
+   uint z=seed_z/(get_global_id(0)+1);
-equemene
+   uint w=seed_w/(get_global_id(0)+1);
 equemene
-equemene
+   ulong total=0;
 equemene
-equemene
+   for (ulong i=0;i<iterations;i++) {
 equemene
-equemene
+      double x=(double)MWCfp ;
-equemene
+      double y=(double)MWCfp ;
 equemene
-equemene
+      // Matching test
-equemene
+      ulong inside=((x*x+y*y) < 1.0f) ? 1:0;
-equemene
+      total+=inside;
 equemene
-equemene
+   s[get_global_id(0)]=total;
-equemene
+   barrier(CLK_GLOBAL_MEM_FENCE);
 equemene
 equemene
 equemene
-equemene
+__kernel void MainLoopLocal64(__global ulong *s,ulong iterations,uint seed_w,uint seed_z)
 equemene
-equemene
+   uint z=seed_z/(get_local_id(0)+1);
-equemene
+   uint w=seed_w/(get_local_id(0)+1);
 equemene
-equemene
+   ulong total=0;
 equemene
-equemene
+   for (ulong i=0;i<iterations;i++) {
 equemene
-equemene
+      double x=(double)MWCfp ;
-equemene
+      double y=(double)MWCfp ;
 equemene
-equemene
+      // Matching test
-equemene
+      ulong inside=((x*x+y*y) < 1.0f) ? 1:0;
-equemene
+      total+=inside;
 equemene
-equemene
+   s[get_local_id(0)]=total;
-equemene
+   barrier(CLK_LOCAL_MEM_FENCE);
 equemene
 equemene
 equemene
-equemene
+__kernel void MainLoopHybrid64(__global ulong *s,ulong iterations,uint seed_w,uint seed_z)
 equemene
-equemene
+   uint z=seed_z/(get_group_id(0)*get_num_groups(0)+get_local_id(0)+1);
-equemene
+   uint w=seed_w/(get_group_id(0)*get_num_groups(0)+get_local_id(0)+1);
 equemene
-equemene
+   ulong total=0;
 equemene
-equemene
+   for (uint i=0;i<iterations;i++) {
 equemene
-equemene
+      double x=(double)MWCfp ;
-equemene
+      double y=(double)MWCfp ;
 equemene
-equemene
+      // Matching test
-equemene
+      ulong inside=((x*x+y*y) < 1.0f) ? 1:0;
-equemene
+      total+=inside;
 equemene
-equemene
+   barrier(CLK_LOCAL_MEM_FENCE);
-equemene
+   s[get_group_id(0)*get_num_groups(0)+get_local_id(0)]=total;
 equemene
 equemene
-equemene
+"""
 equemene
-equemene
+def MetropolisCuda(circle,iterations,steps,jobs,ParaStyle,DoublePrecision):
 equemene
-equemene
+  # Avec PyCUDA autoinit, rien a faire !
 equemene
-equemene
+  circleCU = cuda.InOut(circle)
 equemene
-equemene
+  mod = SourceModule(KERNEL_CODE_CUDA)
 equemene
-equemene
+  MetropolisBlocksCU=mod.get_function("MainLoopBlocks")
-equemene
+  MetropolisJobsCU=mod.get_function("MainLoopThreads")
-equemene
+  MetropolisHybridCU=mod.get_function("MainLoopHybrid")
-equemene
+  MetropolisBlocks64CU=mod.get_function("MainLoopBlocks64")
-equemene
+  MetropolisJobs64CU=mod.get_function("MainLoopThreads64")
-equemene
+  MetropolisHybrid64CU=mod.get_function("MainLoopHybrid64")
 equemene
-equemene
+  start = pycuda.driver.Event()
-equemene
+  stop = pycuda.driver.Event()
 equemene
-equemene
+  MyPi=numpy.zeros(steps)
-equemene
+  MyDuration=numpy.zeros(steps)
 equemene
-equemene
+  if iterations%jobs==0:
-equemene
+    iterationsCL=numpy.uint64(iterations/jobs)
-equemene
+    iterationsNew=iterationsCL*jobs
-equemene
+  else:
-equemene
+    iterationsCL=numpy.uint64(iterations/jobs+1)
-equemene
+    iterationsNew=iterations
 equemene
-equemene
+  for i in range(steps):
-equemene
+    start.record()
-equemene
+    start.synchronize()
-equemene
+    if ParaStyle=='Blocks':
-equemene
+      if DoublePrecision:
-equemene
+        MetropolisBlocksCU(circleCU,
-equemene
+                           numpy.uint64(iterationsCL),
-equemene
+                           numpy.uint32(nprnd(2**30/jobs)),
-equemene
+                           numpy.uint32(nprnd(2**30/jobs)),
-equemene
+                           grid=(jobs,1),
-equemene
+                           block=(1,1,1))
-equemene
+      else:
-equemene
+        MetropolisBlocks64CU(circleCU,
-equemene
+                             numpy.uint64(iterationsCL),
-equemene
+                             numpy.uint32(nprnd(2**30/jobs)),
-equemene
+                             numpy.uint32(nprnd(2**30/jobs)),
-equemene
+                             grid=(jobs,1),
-equemene
+                             block=(1,1,1))
 equemene
-equemene
+      print "%s with (WorkItems/Threads)=(%i,%i) %s method done" % \
-equemene
+            (Alu,jobs,1,ParaStyle)
-equemene
+    elif ParaStyle=='Hybrid':
-equemene
+      threads=BestThreadsNumber(jobs)
-equemene
+      if DoublePrecision:
-equemene
+        MetropolisHybrid64CU(circleCU,
-equemene
+                             numpy.uint64(iterationsCL),
-equemene
+                             numpy.uint32(nprnd(2**30/jobs)),
-equemene
+                             numpy.uint32(nprnd(2**30/jobs)),
-equemene
+                             grid=(jobs,1),
-equemene
+                             block=(threads,1,1))
-equemene
+      else:
-equemene
+        MetropolisHybridCU(circleCU,
-equemene
+                           numpy.uint64(iterationsCL),
-equemene
+                           numpy.uint32(nprnd(2**30/jobs)),
-equemene
+                           numpy.uint32(nprnd(2**30/jobs)),
-equemene
+                           grid=(jobs,1),
-equemene
+                           block=(threads,1,1))
-equemene
+      print "%s with (WorkItems/Threads)=(%i,%i) %s method done" % \
-equemene
+            (Alu,jobs/threads,threads,ParaStyle)
-equemene
+    else:
-equemene
+      if DoublePrecision:
-equemene
+        MetropolisJobs64CU(circleCU,
-equemene
+                           numpy.uint64(iterationsCL),
-equemene
+                           numpy.uint32(nprnd(2**30/jobs)),
-equemene
+                           numpy.uint32(nprnd(2**30/jobs)),
-equemene
+                           grid=(1,1),
-equemene
+                           block=(jobs,1,1))
-equemene
+      else:
-equemene
+        MetropolisJobsCU(circleCU,
-equemene
+                         numpy.uint64(iterationsCL),
-equemene
+                         numpy.uint32(nprnd(2**30/jobs)),
-equemene
+                         numpy.uint32(nprnd(2**30/jobs)),
-equemene
+                         grid=(1,1),
-equemene
+                         block=(jobs,1,1))
-equemene
+      print "%s with (WorkItems/Threads)=(%i,%i) %s method done" % \
-equemene
+            (Alu,jobs,1,ParaStyle)
-equemene
+    stop.record()
-equemene
+    stop.synchronize()
 equemene
-equemene
+    elapsed = start.time_till(stop)*1e-3
 equemene
-equemene
+    MyDuration[i]=elapsed
-equemene
+    AllPi=4./numpy.float32(iterationsCL)*circle.astype(numpy.float32)
-equemene
+    MyPi[i]=numpy.median(AllPi)
-equemene
+    print MyPi[i],numpy.std(AllPi),MyDuration[i]
 equemene
 equemene
-equemene
+  print jobs,numpy.mean(MyDuration),numpy.median(MyDuration),numpy.std(MyDuration)
 equemene
-equemene
+  return(numpy.mean(MyDuration),numpy.median(MyDuration),numpy.std(MyDuration))
 equemene
 equemene
-equemene
+def MetropolisOpenCL(circle,iterations,steps,jobs,ParaStyle,Alu,Device,
-equemene
+                     DoublePrecision):
 equemene
-equemene
+  # Initialisation des variables en les CASTant correctement
 equemene
-equemene
+  if Device==0:
-equemene
+    print "Enter XPU selector based on ALU type: first selected"
-equemene
+    HasXPU=False
-equemene
+    # Default Device selection based on ALU Type
-equemene
+    for platform in cl.get_platforms():
-equemene
+      for device in platform.get_devices():
-equemene
+        deviceType=cl.device_type.to_string(device.type)
-equemene
+        if deviceType=="GPU" and Alu=="GPU" and not HasXPU:
-equemene
+          XPU=device
-equemene
+          print "GPU selected: ",device.name
-equemene
+          HasXPU=True
-equemene
+        if deviceType=="CPU" and Alu=="CPU" and not HasXPU:
-equemene
+          XPU=device
-equemene
+          print "CPU selected: ",device.name
-equemene
+          HasXPU=True
-equemene
+  else:
-equemene
+    print "Enter XPU selector based on device number & ALU type"
-equemene
+    Id=1
-equemene
+    HasXPU=False
-equemene
+    # Primary Device selection based on Device Id
-equemene
+    for platform in cl.get_platforms():
-equemene
+      for device in platform.get_devices():
-equemene
+        deviceType=cl.device_type.to_string(device.type)
-equemene
+        if Id==Device and Alu==deviceType and HasXPU==False:
-equemene
+          XPU=device
-equemene
+          print "CPU/GPU selected: ",device.name
-equemene
+          HasXPU=True
-equemene
+        Id=Id+1
-equemene
+    if HasXPU==False:
-equemene
+      print "No XPU #%i of type %s found in all of %i devices, sorry..." % \
-equemene
+          (Device,Alu,Id-1)
-equemene
+      return(0,0,0)
 equemene
-equemene
+  # Je cree le contexte et la queue pour son execution
-equemene
+  ctx = cl.Context([XPU])
-equemene
+  queue = cl.CommandQueue(ctx,
-equemene
+                          properties=cl.command_queue_properties.PROFILING_ENABLE)
 equemene
-equemene
+  # Je recupere les flag possibles pour les buffers
-equemene
+  mf = cl.mem_flags
 equemene
-equemene
+  circleCL = cl.Buffer(ctx, mf.WRITE_ONLY|mf.COPY_HOST_PTR,hostbuf=circle)
 equemene
-equemene
+  MetropolisCL = cl.Program(ctx,KERNEL_CODE_OPENCL).build( \
-equemene
+    options = "-cl-mad-enable -cl-fast-relaxed-math")
 equemene
-equemene
+  i=0
 equemene
-equemene
+  MyPi=numpy.zeros(steps)
-equemene
+  MyDuration=numpy.zeros(steps)
 equemene
-equemene
+  if iterations%jobs==0:
-equemene
+    iterationsCL=numpy.uint64(iterations/jobs)
-equemene
+    iterationsNew=numpy.uint64(iterationsCL*jobs)
-equemene
+  else:
-equemene
+    iterationsCL=numpy.uint64(iterations/jobs+1)
-equemene
+    iterationsNew=numpy.uint64(iterations)
 equemene
-equemene
+  for i in range(steps):
 equemene
-equemene
+    if ParaStyle=='Blocks':
-equemene
+      # Call OpenCL kernel
-equemene
+      # (1,) is Global work size (only 1 work size)
-equemene
+      # (1,) is local work size
-equemene
+      # circleCL is lattice translated in CL format
-equemene
+      # SeedZCL is lattice translated in CL format
-equemene
+      # SeedWCL is lattice translated in CL format
-equemene
+      # step is number of iterations
-equemene
+      if DoublePrecision:
-equemene
+        CLLaunch=MetropolisCL.MainLoopGlobal64(queue,(jobs,),None,
-equemene
+                                               circleCL,
-equemene
+                                               numpy.uint64(iterationsCL),
-equemene
+                                               numpy.uint32(nprnd(2**30/jobs)),
-equemene
+                                               numpy.uint32(nprnd(2**30/jobs)))
-equemene
+      else:
-equemene
+        CLLaunch=MetropolisCL.MainLoopGlobal(queue,(jobs,),None,
-equemene
+                                             circleCL,
-equemene
+                                             numpy.uint64(iterationsCL),
-equemene
+                                             numpy.uint32(nprnd(2**30/jobs)),
-equemene
+                                             numpy.uint32(nprnd(2**30/jobs)))
-equemene
+      print "%s with (WorkItems/Threads)=(%i,%i) %s method done" % \
-equemene
+            (Alu,jobs,1,ParaStyle)
-equemene
+    elif ParaStyle=='Hybrid':
-equemene
+      threads=BestThreadsNumber(jobs)
-equemene
+      # en OpenCL, necessaire de mettre un Global_id identique au local_id
-equemene
+      if DoublePrecision:
-equemene
+        CLLaunch=MetropolisCL.MainLoopHybrid64(queue,(jobs,),(threads,),
-equemene
+                                               circleCL,
-equemene
+                                               numpy.uint64(iterationsCL),
-equemene
+                                               numpy.uint32(nprnd(2**30/jobs)),
-equemene
+                                               numpy.uint32(nprnd(2**30/jobs)))
-equemene
+      else:
-equemene
+        CLLaunch=MetropolisCL.MainLoopHybrid(queue,(jobs,),(threads,),
-equemene
+                                             circleCL,
-equemene
+                                             numpy.uint64(iterationsCL),
-equemene
+                                             numpy.uint32(nprnd(2**30/jobs)),
-equemene
+                                             numpy.uint32(nprnd(2**30/jobs)))
 equemene
-equemene
+      print "%s with (WorkItems/Threads)=(%i,%i) %s method done" % \
-equemene
+            (Alu,jobs/threads,threads,ParaStyle)
-equemene
+    else:
-equemene
+      # en OpenCL, necessaire de mettre un Global_id identique au local_id
-equemene
+      if DoublePrecision:
-equemene
+        CLLaunch=MetropolisCL.MainLoopLocal64(queue,(jobs,),(jobs,),
-equemene
+                                              circleCL,
-equemene
+                                              numpy.uint64(iterationsCL),
-equemene
+                                              numpy.uint32(nprnd(2**30/jobs)),
-equemene
+                                              numpy.uint32(nprnd(2**30/jobs)))
-equemene
+      else:
-equemene
+        CLLaunch=MetropolisCL.MainLoopLocal(queue,(jobs,),(jobs,),
-equemene
+                                            circleCL,
-equemene
+                                            numpy.uint64(iterationsCL),
-equemene
+                                            numpy.uint32(nprnd(2**30/jobs)),
-equemene
+                                            numpy.uint32(nprnd(2**30/jobs)))
-equemene
+      print "%s with %i %s done" % (Alu,jobs,ParaStyle)
 equemene
-equemene
+    CLLaunch.wait()
-equemene
+    cl.enqueue_copy(queue, circle, circleCL).wait()
 equemene
-equemene
+    elapsed = 1e-9*(CLLaunch.profile.end - CLLaunch.profile.start)
 equemene
-equemene
+    MyDuration[i]=elapsed
-equemene
+    AllPi=4./numpy.float32(iterationsCL)*circle.astype(numpy.float32)
-equemene
+    MyPi[i]=numpy.median(AllPi)
-equemene
+    print MyPi[i],numpy.std(AllPi),MyDuration[i]
 equemene
-equemene
+  circleCL.release()
 equemene
-equemene
+  print jobs,numpy.mean(MyDuration),numpy.median(MyDuration),numpy.std(MyDuration)
 equemene
-equemene
+  return(numpy.mean(MyDuration),numpy.median(MyDuration),numpy.std(MyDuration))
 equemene
 equemene
-equemene
+def FitAndPrint(N,D,Curves):
 equemene
-equemene
+  from scipy.optimize import curve_fit
-equemene
+  import matplotlib.pyplot as plt
 equemene
-equemene
+  try:
-equemene
+    coeffs_Amdahl, matcov_Amdahl = curve_fit(Amdahl, N, D)
 equemene
-equemene
+    D_Amdahl=Amdahl(N,coeffs_Amdahl[0],coeffs_Amdahl[1],coeffs_Amdahl[2])
-equemene
+    coeffs_Amdahl[1]=coeffs_Amdahl[1]*coeffs_Amdahl[0]/D[0]
-equemene
+    coeffs_Amdahl[2]=coeffs_Amdahl[2]*coeffs_Amdahl[0]/D[0]
-equemene
+    coeffs_Amdahl[0]=D[0]
-equemene
+    print "Amdahl Normalized: T=%.2f(%.6f+%.6f/N)" % \
-equemene
+        (coeffs_Amdahl[0],coeffs_Amdahl[1],coeffs_Amdahl[2])
-equemene
+  except:
-equemene
+    print "Impossible to fit for Amdahl law : only %i elements" % len(D)
 equemene
-equemene
+  try:
-equemene
+    coeffs_AmdahlR, matcov_AmdahlR = curve_fit(AmdahlR, N, D)
 equemene
-equemene
+    D_AmdahlR=AmdahlR(N,coeffs_AmdahlR[0],coeffs_AmdahlR[1])
-equemene
+    coeffs_AmdahlR[1]=coeffs_AmdahlR[1]*coeffs_AmdahlR[0]/D[0]
-equemene
+    coeffs_AmdahlR[0]=D[0]
-equemene
+    print "Amdahl Reduced Normalized: T=%.2f(%.6f+%.6f/N)" % \
-equemene
+        (coeffs_AmdahlR[0],1-coeffs_AmdahlR[1],coeffs_AmdahlR[1])
 equemene
-equemene
+  except:
-equemene
+    print "Impossible to fit for Reduced Amdahl law : only %i elements" % len(D)
 equemene
-equemene
+  try:
-equemene
+    coeffs_Mylq, matcov_Mylq = curve_fit(Mylq, N, D)
 equemene
-equemene
+    coeffs_Mylq[1]=coeffs_Mylq[1]*coeffs_Mylq[0]/D[0]
-equemene
+    # coeffs_Mylq[2]=coeffs_Mylq[2]*coeffs_Mylq[0]/D[0]
-equemene
+    coeffs_Mylq[3]=coeffs_Mylq[3]*coeffs_Mylq[0]/D[0]
-equemene
+    coeffs_Mylq[0]=D[0]
-equemene
+    print "Mylq Normalized : T=%.2f(%.6f+%.6f/N)+%.6f*N" % (coeffs_Mylq[0],
-equemene
+                                                            coeffs_Mylq[1],
-equemene
+                                                            coeffs_Mylq[3],
-equemene
+                                                            coeffs_Mylq[2])
-equemene
+    D_Mylq=Mylq(N,coeffs_Mylq[0],coeffs_Mylq[1],coeffs_Mylq[2],
-equemene
+                coeffs_Mylq[3])
-equemene
+  except:
-equemene
+    print "Impossible to fit for Mylq law : only %i elements" % len(D)
 equemene
-equemene
+  try:
-equemene
+    coeffs_Mylq2, matcov_Mylq2 = curve_fit(Mylq2, N, D)
 equemene
-equemene
+    coeffs_Mylq2[1]=coeffs_Mylq2[1]*coeffs_Mylq2[0]/D[0]
-equemene
+    # coeffs_Mylq2[2]=coeffs_Mylq2[2]*coeffs_Mylq2[0]/D[0]
-equemene
+    # coeffs_Mylq2[3]=coeffs_Mylq2[3]*coeffs_Mylq2[0]/D[0]
-equemene
+    coeffs_Mylq2[4]=coeffs_Mylq2[4]*coeffs_Mylq2[0]/D[0]
-equemene
+    coeffs_Mylq2[0]=D[0]
-equemene
+    print "Mylq 2nd order Normalized: T=%.2f(%.6f+%.6f/N)+%.6f*N+%.6f*N^2" % \
-equemene
+        (coeffs_Mylq2[0],coeffs_Mylq2[1],
-equemene
+         coeffs_Mylq2[4],coeffs_Mylq2[2],coeffs_Mylq2[3])
 equemene
-equemene
+  except:
-equemene
+    print "Impossible to fit for 2nd order Mylq law : only %i elements" % len(D)
 equemene
-equemene
+  if Curves:
-equemene
+    plt.xlabel("Number of Threads/work Items")
-equemene
+    plt.ylabel("Total Elapsed Time")
 equemene
-equemene
+    Experience,=plt.plot(N,D,'ro')
-equemene
+    try:
-equemene
+      pAmdahl,=plt.plot(N,D_Amdahl,label="Loi de Amdahl")
-equemene
+      pMylq,=plt.plot(N,D_Mylq,label="Loi de Mylq")
-equemene
+    except:
-equemene
+      print "Fit curves seem not to be available"
 equemene
-equemene
+    plt.legend()
-equemene
+    plt.show()
 equemene
-equemene
+if __name__=='__main__':
 equemene
-equemene
+  # Set defaults values
 equemene
-equemene
+  # Alu can be CPU, GPU or ACCELERATOR
-equemene
+  Alu='CPU'
-equemene
+  # Id of GPU : 1 is for first find !
-equemene
+  Device=0
-equemene
+  # GPU style can be Cuda (Nvidia implementation) or OpenCL
-equemene
+  GpuStyle='OpenCL'
-equemene
+  # Parallel distribution can be on Threads or Blocks
-equemene
+  ParaStyle='Blocks'
-equemene
+  # Iterations is integer
-equemene
+  Iterations=100000000
-equemene
+  # JobStart in first number of Jobs to explore
-equemene
+  JobStart=1
-equemene
+  # JobEnd is last number of Jobs to explore
-equemene
+  JobEnd=16
-equemene
+  # JobStep is the step of Jobs to explore
-equemene
+  JobStep=1
-equemene
+  # Redo is the times to redo the test to improve metrology
-equemene
+  Redo=1
-equemene
+  # OutMetrology is method for duration estimation : False is GPU inside
-equemene
+  OutMetrology=False
-equemene
+  Metrology='InMetro'
-equemene
+  # Curves is True to print the curves
-equemene
+  Curves=False
-equemene
+  # Fit is True to print the curves
-equemene
+  Fit=False
-equemene
+  # DoublePrecision on FP calculus
-equemene
+  DoublePrecision=False
 equemene
-equemene
+  try:
-equemene
+    opts, args = getopt.getopt(sys.argv[1:],"hoclfa:g:p:i:s:e:t:r:d:",["alu=","gpustyle=","parastyle=","iterations=","jobstart=","jobend=","jobstep=","redo=","device="])
-equemene
+  except getopt.GetoptError:
-equemene
+    print '%s -o (Out of Core Metrology) -c (Print Curves) -l (Double Precision) -f (Fit to Amdahl Law) -a <CPU/GPU/ACCELERATOR> -d <DeviceId> -g <CUDA/OpenCL> -p <Threads/Hybrid/Blocks> -i <Iterations> -s <JobStart> -e <JobEnd> -t <JobStep> -r <RedoToImproveStats> ' % sys.argv[0]
-equemene
+    sys.exit(2)
 equemene
-equemene
+  for opt, arg in opts:
-equemene
+    if opt == '-h':
-equemene
+      print '%s -o (Out of Core Metrology) -c (Print Curves) -l (Double Precision) -f (Fit to Amdahl Law) -a <CPU/GPU/ACCELERATOR> -d <DeviceId> -g <CUDA/OpenCL> -p <Threads/Hybrid/Blocks> -i <Iterations> -s <JobStart> -e <JobEnd> -t <JobStep> -r <RedoToImproveStats>' % sys.argv[0]
 equemene
-equemene
+      print "\nInformations about devices detected under OpenCL:"
-equemene
+      # For PyOpenCL import
-equemene
+      try:
-equemene
+        import pyopencl as cl
-equemene
+        Id=1
-equemene
+        for platform in cl.get_platforms():
-equemene
+          for device in platform.get_devices():
-equemene
+            deviceType=cl.device_type.to_string(device.type)
-equemene
+            print "Device #%i of type %s : %s" % (Id,deviceType,device.name)
-equemene
+            Id=Id+1
 equemene
-equemene
+        print
-equemene
+        sys.exit()
-equemene
+      except ImportError:
-equemene
+        print "Your platform does not seem to support OpenCL"
 equemene
-equemene
+    elif opt == '-o':
-equemene
+      OutMetrology=True
-equemene
+      Metrology='OutMetro'
-equemene
+    elif opt == '-l':
-equemene
+      DoublePrecision=True
-equemene
+    elif opt == '-c':
-equemene
+      Curves=True
-equemene
+    elif opt == '-f':
-equemene
+      Fit=True
-equemene
+    elif opt in ("-a", "--alu"):
-equemene
+      Alu = arg
-equemene
+    elif opt in ("-d", "--device"):
-equemene
+      Device = int(arg)
-equemene
+    elif opt in ("-g", "--gpustyle"):
-equemene
+      GpuStyle = arg
-equemene
+    elif opt in ("-p", "--parastyle"):
-equemene
+      ParaStyle = arg
-equemene
+    elif opt in ("-i", "--iterations"):
-equemene
+      Iterations = numpy.uint64(arg)
-equemene
+    elif opt in ("-s", "--jobstart"):
-equemene
+      JobStart = int(arg)
-equemene
+    elif opt in ("-e", "--jobend"):
-equemene
+      JobEnd = int(arg)
-equemene
+    elif opt in ("-t", "--jobstep"):
-equemene
+      JobStep = int(arg)
-equemene
+    elif opt in ("-r", "--redo"):
-equemene
+      Redo = int(arg)
 equemene
-equemene
+  if Alu=='CPU' and GpuStyle=='CUDA':
-equemene
+    print "Alu can't be CPU for CUDA, set Alu to GPU"
-equemene
+    Alu='GPU'
 equemene
-equemene
+  if ParaStyle not in ('Blocks','Threads','Hybrid'):
-equemene
+    print "%s not exists, ParaStyle set as Threads !" % ParaStyle
-equemene
+    ParaStyle='Threads'
 equemene
-equemene
+  print "Compute unit : %s" % Alu
-equemene
+  print "Device Identification : %s" % Device
-equemene
+  print "GpuStyle used : %s" % GpuStyle
-equemene
+  print "Parallel Style used : %s" % ParaStyle
-equemene
+  print "Iterations : %s" % Iterations
-equemene
+  print "Number of threads on start : %s" % JobStart
-equemene
+  print "Number of threads on end : %s" % JobEnd
-equemene
+  print "Number of redo : %s" % Redo
-equemene
+  print "Metrology done out of CPU/GPU : %r" % OutMetrology
-equemene
+  print "Double Precision in Kernels : %r" % DoublePrecision
 equemene
-equemene
+  if GpuStyle=='CUDA':
-equemene
+    try:
-equemene
+      # For PyCUDA import
-equemene
+      import pycuda.driver as cuda
-equemene
+      import pycuda.gpuarray as gpuarray
-equemene
+      import pycuda.autoinit
-equemene
+      from pycuda.compiler import SourceModule
-equemene
+    except ImportError:
-equemene
+      print "Platform does not seem to support CUDA"
 equemene
-equemene
+  if GpuStyle=='OpenCL':
-equemene
+    try:
-equemene
+      # For PyOpenCL import
-equemene
+      import pyopencl as cl
-equemene
+      Id=1
-equemene
+      for platform in cl.get_platforms():
-equemene
+        for device in platform.get_devices():
-equemene
+          deviceType=cl.device_type.to_string(device.type)
-equemene
+          print "Device #%i of type %s : %s" % (Id,deviceType,device.name)
-equemene
+          if Id == Device:
-equemene
+            # Set the Alu as detected Device Type
-equemene
+            Alu=deviceType
-equemene
+          Id=Id+1
-equemene
+    except ImportError:
-equemene
+      print "Platform does not seem to support CUDA"
 equemene
-equemene
+  average=numpy.array([]).astype(numpy.float32)
-equemene
+  median=numpy.array([]).astype(numpy.float32)
-equemene
+  stddev=numpy.array([]).astype(numpy.float32)
 equemene
-equemene
+  ExploredJobs=numpy.array([]).astype(numpy.uint32)
 equemene
-equemene
+  Jobs=JobStart
 equemene
-equemene
+  while Jobs <= JobEnd:
-equemene
+    avg,med,std=0,0,0
-equemene
+    ExploredJobs=numpy.append(ExploredJobs,Jobs)
-equemene
+    circle=numpy.zeros(Jobs).astype(numpy.uint64)
 equemene
-equemene
+    if OutMetrology:
-equemene
+      duration=numpy.array([]).astype(numpy.float32)
-equemene
+      for i in range(Redo):
-equemene
+        start=time.time()
-equemene
+        if GpuStyle=='CUDA':
-equemene
+          try:
-equemene
+            a,m,s=MetropolisCuda(circle,Iterations,1,Jobs,ParaStyle,
-equemene
+                                 DoublePrecision)
-equemene
+          except:
-equemene
+            print "Problem with %i // computations on Cuda" % Jobs
-equemene
+        elif GpuStyle=='OpenCL':
-equemene
+          try:
-equemene
+            a,m,s=MetropolisOpenCL(circle,Iterations,1,Jobs,ParaStyle,
-equemene
+                                   Alu,Device,DoublePrecision)
-equemene
+          except:
-equemene
+            print "Problem with %i // computations on OpenCL" % Jobs
-equemene
+        duration=numpy.append(duration,time.time()-start)
-equemene
+      if (a,m,s) != (0,0,0):
-equemene
+        avg=numpy.mean(duration)
-equemene
+        med=numpy.median(duration)
-equemene
+        std=numpy.std(duration)
-equemene
+      else:
-equemene
+        print "Values seem to be wrong..."
-equemene
+    else:
-equemene
+      if GpuStyle=='CUDA':
-equemene
+        try:
-equemene
+          avg,med,std=MetropolisCuda(circle,Iterations,Redo,Jobs,ParaStyle,
-equemene
+                                     DoublePrecision)
-equemene
+        except:
-equemene
+          print "Problem with %i // computations on Cuda" % Jobs
-equemene
+      elif GpuStyle=='OpenCL':
-equemene
+        try:
-equemene
+          avg,med,std=MetropolisOpenCL(circle,Iterations,Redo,Jobs,ParaStyle,Alu,Device,DoublePrecision)
-equemene
+        except:
-equemene
+          print "Problem with %i // computations on OpenCL" % Jobs
 equemene
-equemene
+    if (avg,med,std) != (0,0,0):
-equemene
+      print "jobs,avg,med,std",Jobs,avg,med,std
-equemene
+      average=numpy.append(average,avg)
-equemene
+      median=numpy.append(median,med)
-equemene
+      stddev=numpy.append(stddev,std)
-equemene
+    else:
-equemene
+      print "Values seem to be wrong..."
-equemene
+    #THREADS*=2
-equemene
+    if DoublePrecision:
-equemene
+      Precision='DP'
-equemene
+    else:
-equemene
+      Precision='SP'
-equemene
+    if len(average)!=0:
-equemene
+      numpy.savez("Pi%s_%s_%s_%s_%s_%i_%.8i_Device%i_%s_%s" % (Precision,Alu,GpuStyle,ParaStyle,JobStart,JobEnd,Iterations,Device,Metrology,gethostname()),(ExploredJobs,average,median,stddev))
-equemene
+      ToSave=[ ExploredJobs,average,median,stddev ]
-equemene
+      numpy.savetxt("Pi%s_%s_%s_%s_%s_%i_%.8i_Device%i_%s_%s" % (Precision,Alu,GpuStyle,ParaStyle,JobStart,JobEnd,Iterations,Device,Metrology,gethostname()),numpy.transpose(ToSave))
-equemene
+    Jobs+=JobStep
 equemene
-equemene
+  if Fit:
-equemene
+    FitAndPrint(ExploredJobs,median,Curves)

Centre Blaise Pascal » Bench4GPU

root / Pi / GPU / Pi-GPU.py @ 65