/ - Diff - Bench4GPU - Forge du Centre Blaise Pascal

Révision 17

     from scipy.optimize import curve_fit
     from socket import gethostname
     # find prime factors of a number
     # Get for WWW :
     # http://pythonism.wordpress.com/2008/05/17/looking-at-factorisation-in-python/
     def PrimeFactors(x):
       factorlist=numpy.array([]).astype('uint32')
       loop=2
       while loop<=x:
         if x%loop==0:
           x/=loop
           factorlist=numpy.append(factorlist,[loop])
         else:
           loop+=1
       return factorlist
     # Try to find the best thread number in Hybrid approach (Blocks&Threads)
     # output is thread number
     def BestThreadsNumber(jobs):
       factors=PrimeFactors(jobs)
       matrix=numpy.append([factors],[factors[::-1]],axis=0)
       threads=1
       for factor in matrix.transpose().ravel():
         threads=threads*factor
         if threads*threads>jobs:
           break
       return(long(threads))
     # Predicted Amdahl Law (Reduced with s=1-p)
     def AmdahlR(N, T1, p):
       return (T1*(1-p+p/N))
-...
     #define MWCfp MWC * 2.328306435454494e-10f
     #define KISSfp KISS * 2.328306435454494e-10f
     __global__ void MainLoopBlocks(uint *s,uint iterations,uint seed_w,uint seed_z)
     __global__ void MainLoopBlocks(ulong *s,ulong iterations,uint seed_w,uint seed_z)
+    {
        uint z=seed_z/(blockIdx.x+1);
        uint w=seed_w/(blockIdx.x+1);
        int total=0;
        ulong total=0;
        for (uint i=0;i<iterations;i++) {
        for (ulong i=0;i<iterations;i++) {
           float x=MWCfp ;
           float y=MWCfp ;
           // Matching test
           int inside=((x*x+y*y) < 1.0f) ? 1:0;
           ulong inside=((x*x+y*y) < 1.0f) ? 1:0;
           total+=inside;
+       }
-...
+    }
     __global__ void MainLoopThreads(uint *s,uint iterations,uint seed_w,uint seed_z)
     __global__ void MainLoopThreads(ulong *s,ulong iterations,uint seed_w,uint seed_z)
+    {
        uint z=seed_z/(threadIdx.x+1);
        uint w=seed_w/(threadIdx.x+1);
        int total=0;
        ulong total=0;
        for (uint i=0;i<iterations;i++) {
        for (ulong i=0;i<iterations;i++) {
           float x=MWCfp ;
           float y=MWCfp ;
           // Matching test
           int inside=((x*x+y*y) < 1.0f) ? 1:0;
           ulong inside=((x*x+y*y) < 1.0f) ? 1:0;
           total+=inside;
+       }
-...
+    }
     __global__ void MainLoopHybrid(uint *s,uint iterations,uint seed_w,uint seed_z)
     __global__ void MainLoopHybrid(ulong *s,ulong iterations,uint seed_w,uint seed_z)
+    {
        uint z=seed_z/(blockDim.x*blockIdx.x+threadIdx.x+1);
        uint w=seed_w/(blockDim.x*blockIdx.x+threadIdx.x+1);
        int total=0;
        ulong total=0;
        for (uint i=0;i<iterations;i++) {
        for (ulong i=0;i<iterations;i++) {
           float x=MWCfp ;
           float y=MWCfp ;
           // Matching test
           int inside=((x*x+y*y) < 1.0f) ? 1:0;
           ulong inside=((x*x+y*y) < 1.0f) ? 1:0;
           total+=inside;
+       }
-...
     #define MWCfp MWC * 2.328306435454494e-10f
     #define KISSfp KISS * 2.328306435454494e-10f
     __kernel void MainLoopGlobal(__global uint *s,uint iterations,uint seed_w,uint seed_z)
     __kernel void MainLoopGlobal(__global ulong *s,ulong iterations,uint seed_w,uint seed_z)
+    {
        uint z=seed_z/(get_global_id(0)+1);
        uint w=seed_w/(get_global_id(0)+1);
        int total=0;
        ulong total=0;
        for (uint i=0;i<iterations;i++) {
        for (ulong i=0;i<iterations;i++) {
           float x=MWCfp ;
           float y=MWCfp ;
           // Matching test
           int inside=((x*x+y*y) < 1.0f) ? 1:0;
           ulong inside=((x*x+y*y) < 1.0f) ? 1:0;
           total+=inside;
+       }
        s[get_global_id(0)]=total;
-...
+    }
     __kernel void MainLoopLocal(__global uint *s,uint iterations,uint seed_w,uint seed_z)
     __kernel void MainLoopLocal(__global ulong *s,ulong iterations,uint seed_w,uint seed_z)
+    {
        uint z=seed_z/(get_local_id(0)+1);
        uint w=seed_w/(get_local_id(0)+1);
        int total=0;
        ulong total=0;
        for (uint i=0;i<iterations;i++) {
        for (ulong i=0;i<iterations;i++) {
           float x=MWCfp ;
           float y=MWCfp ;
           // Matching test
           int inside=((x*x+y*y) < 1.0f) ? 1:0;
           ulong inside=((x*x+y*y) < 1.0f) ? 1:0;
           total+=inside;
+       }
        s[get_local_id(0)]=total;
-...
+    }
     __kernel void MainLoopHybrid(__global uint *s,uint iterations,uint seed_w,uint seed_z)
     __kernel void MainLoopHybrid(__global ulong *s,ulong iterations,uint seed_w,uint seed_z)
+    {
        uint z=seed_z/(get_group_id(0)*get_num_groups(0)+get_local_id(0)+1);
        uint w=seed_w/(get_group_id(0)*get_num_groups(0)+get_local_id(0)+1);
        // uint jsr=123456789;
        // uint jcong=380116160;
        int total=0;
        ulong total=0;
        for (uint i=0;i<iterations;i++) {
-...
          float y=MWCfp ;
           // Matching test
           int inside=((x*x+y*y) < 1.0f) ? 1:0;
           ulong inside=((x*x+y*y) < 1.0f) ? 1:0;
           total+=inside;
+       }
        barrier(CLK_LOCAL_MEM_FENCE);
-...
       MyDuration=numpy.zeros(steps)
       if iterations%jobs==0:
         iterationsCL=numpy.uint32(iterations/jobs)
         iterationsCL=numpy.uint64(iterations/jobs)
         iterationsNew=iterationsCL*jobs
       else:
         iterationsCL=numpy.uint32(iterations/jobs+1)
         iterationsCL=numpy.uint64(iterations/jobs+1)
         iterationsNew=iterations
       for i in range(steps):
-...
         start.synchronize()
         if ParaStyle=='Blocks':
           MetropolisBlocksCU(circleCU,
                              numpy.uint32(iterationsCL),
                              numpy.uint64(iterationsCL),
                              numpy.uint32(nprnd(2**30/jobs)),
                              numpy.uint32(nprnd(2**30/jobs)),
                              grid=(jobs,1),
                              block=(1,1,1))
           print "GPU with %i %s done" % (jobs,ParaStyle)
           print "%s with (WorkItems/Threads)=(%i,%i) %s method done" % \
                 (Alu,jobs,1,ParaStyle)
         elif ParaStyle=='Hybrid':
           blocks=jobs/int(math.sqrt(float(jobs)))
           threads=BestThreadsNumber(jobs)
           MetropolisHybridCU(circleCU,
                               numpy.uint32(iterationsCL),
                               numpy.uint64(iterationsCL),
                               numpy.uint32(nprnd(2**30/jobs)),
                               numpy.uint32(nprnd(2**30/jobs)),
                               grid=(blocks,1),
                               block=(jobs/blocks,1,1))
           print "GPU with (blocks,jobs)=(%i,%i) %s done" % (blocks,jobs/blocks,ParaStyle)
                               grid=(jobs,1),
                               block=(threads,1,1))
           print "%s with (WorkItems/Threads)=(%i,%i) %s method done" % \
                 (Alu,jobs/threads,threads,ParaStyle)
         else:
           MetropolisJobsCU(circleCU,
                               numpy.uint32(iterationsCL),
                               numpy.uint64(iterationsCL),
                               numpy.uint32(nprnd(2**30/jobs)),
                               numpy.uint32(nprnd(2**30/jobs)),
                               grid=(1,1),
                               block=(jobs,1,1))
           print "GPU with %i %s done" % (jobs,ParaStyle)
           print "%s with (WorkItems/Threads)=(%i,%i) %s method done" % \
                 (Alu,jobs,1,ParaStyle)
         stop.record()
         stop.synchronize()
-...
       HasGPU=False
       Id=1
       # Device selection based on choice (default is GPU)
       # Primary Device selection based on Device Id
       for platform in cl.get_platforms():
         for device in platform.get_devices():
           if not HasGPU:
             deviceType=cl.device_type.to_string(device.type)
             if deviceType=="GPU" and Alu=="GPU" and Id==Device:
               GPU=device
               print "GPU selected: ",device.name
               HasGPU=True
             if deviceType=="CPU" and Alu=="CPU":
               GPU=device
               print "CPU selected: ",device.name
               HasGPU=True
           deviceType=cl.device_type.to_string(device.type)
           if Id==Device and not HasGPU:
             GPU=device
             print "CPU/GPU selected: ",device.name
             HasGPU=True
           Id=Id+1
       # Default Device selection based on ALU Type
       for platform in cl.get_platforms():
         for device in platform.get_devices():
           deviceType=cl.device_type.to_string(device.type)
           if deviceType=="GPU" and Alu=="GPU" and not HasGPU:
             GPU=device
             print "GPU selected: ",device.name
             HasGPU=True
           if deviceType=="CPU" and Alu=="CPU" and not HasGPU:
             GPU=device
             print "CPU selected: ",device.name
             HasGPU=True
       # Je cree le contexte et la queue pour son execution
       #ctx = cl.create_some_context()
-...
         iterationsCL=numpy.uint32(iterations/jobs+1)
         iterationsNew=iterations
       blocks=int(math.sqrt(jobs))
       for i in range(steps):
         if ParaStyle=='Blocks':
-...
           # step is number of iterations
           CLLaunch=MetropolisCL.MainLoopGlobal(queue,(jobs,),None,
                                                circleCL,
                                                numpy.uint32(iterationsCL),
                                                numpy.uint64(iterationsCL),
                                                numpy.uint32(nprnd(2**30/jobs)),
                                                numpy.uint32(nprnd(2**30/jobs)))
           print "%s with %i %s done" % (Alu,jobs,ParaStyle)
           print "%s with (WorkItems/Threads)=(%i,%i) %s method done" % \
                 (Alu,jobs,1,ParaStyle)
         elif ParaStyle=='Hybrid':
           threads=BestThreadsNumber(jobs)
           # en OpenCL, necessaire de mettre un Global_id identique au local_id
           CLLaunch=MetropolisCL.MainLoopHybrid(queue,(blocks*blocks,),(blocks,),
           CLLaunch=MetropolisCL.MainLoopHybrid(queue,(jobs,),(threads,),
                                               circleCL,
                                               numpy.uint32(iterationsCL),
                                               numpy.uint64(iterationsCL),
                                               numpy.uint32(nprnd(2**30/jobs)),
                                               numpy.uint32(nprnd(2**30/jobs)))
           print "%s with (Blocks,Threads)=(%i,%i) %s done" % (Alu,blocks,blocks,ParaStyle)
           print "%s with (WorkItems/Threads)=(%i,%i) %s method done" % \
                 (Alu,jobs/threads,threads,ParaStyle)
         else:
           # en OpenCL, necessaire de mettre un Global_id identique au local_id
           CLLaunch=MetropolisCL.MainLoopLocal(queue,(jobs,),(jobs,),
                                               circleCL,
                                               numpy.uint32(iterationsCL),
                                               numpy.uint64(iterationsCL),
                                               numpy.uint32(nprnd(2**30/jobs)),
                                               numpy.uint32(nprnd(2**30/jobs)))
           print "%s with %i %s done" % (Alu,jobs,ParaStyle)
-...
       # Set defaults values
       # Alu can be CPU or GPU
       Alu='CPU'
       # Id of GPU
       Device=1
       # Id of GPU : 0 is for first find !
       Device=0
       # GPU style can be Cuda (Nvidia implementation) or OpenCL
       GpuStyle='OpenCL'
       # Parallel distribution can be on Threads or Blocks
-...
       while Jobs <= JobEnd:
         avg,med,std=0,0,0
         ExploredJobs=numpy.append(ExploredJobs,Jobs)
         circle=numpy.zeros(Jobs).astype(numpy.uint32)
         circle=numpy.zeros(Jobs).astype(numpy.uint64)
         if OutMetrology:
           duration=numpy.array([]).astype(numpy.float32)

Formats disponibles : Unified diff

Centre Blaise Pascal » Bench4GPU

Révision 17