/Pi/XPU/PiXPU.py - Annoter - Bench4GPU - Forge du Centre Blaise Pascal

root / Pi / XPU / PiXPU.py @ 158

Historique | Voir | Annoter | Télécharger (30,15 ko)

-equemene
+#!/usr/bin/env python3
 equemene
 equemene
-equemene
+# Pi-by-MonteCarlo using PyCUDA/PyOpenCL
 equemene
-equemene
+# CC BY-NC-SA 2011 : Emmanuel QUEMENER <emmanuel.quemener@gmail.com>
-equemene
+# Cecill v2 : Emmanuel QUEMENER <emmanuel.quemener@gmail.com>
 equemene
-equemene
+# Thanks to Andreas Klockner for PyCUDA:
-equemene
+# http://mathema.tician.de/software/pycuda
-equemene
+# Thanks to Andreas Klockner for PyOpenCL:
-equemene
+# http://mathema.tician.de/software/pyopencl
 equemene
 equemene
-equemene
+# 2013-01-01 : problems with launch timeout
-equemene
+# http://stackoverflow.com/questions/497685/how-do-you-get-around-the-maximum-cuda-run-time
-equemene
+# Option "Interactive" "0" in /etc/X11/xorg.conf
 equemene
-equemene
+# Common tools
-equemene
+import numpy
-equemene
+from numpy.random import randint as nprnd
-equemene
+import sys
-equemene
+import getopt
-equemene
+import time
-equemene
+import itertools
-equemene
+from socket import gethostname
 equemene
-equemene
+class PenStacle:
-equemene
+    """Pentacle of Statistics from data"""
-equemene
+    Avg=0
-equemene
+    Med=0
-equemene
+    Std=0
-equemene
+    Min=0
-equemene
+    Max=0
-equemene
+    def __init__(self,Data):
-equemene
+        self.Avg=numpy.average(Data)
-equemene
+        self.Med=numpy.median(Data)
-equemene
+        self.Std=numpy.std(Data)
-equemene
+        self.Max=numpy.max(Data)
-equemene
+        self.Min=numpy.min(Data)
-equemene
+    def display(self):
-equemene
+        print("%s %s %s %s %s" % (self.Avg,self.Med,self.Std,self.Min,self.Max))
 equemene
-equemene
+class Experience:
-equemene
+    """Metrology for experiences"""
-equemene
+    DeviceStyle=''
-equemene
+    DeviceId=0
-equemene
+    AvgD=0
-equemene
+    MedD=0
-equemene
+    StdD=0
-equemene
+    MinD=0
-equemene
+    MaxD=0
-equemene
+    AvgR=0
-equemene
+    MedR=0
-equemene
+    StdR=0
-equemene
+    MinR=0
-equemene
+    MaxR=0
-equemene
+    def __init__(self,DeviceStyle,DeviceId,Iterations):
-equemene
+        self.DeviceStyle=DeviceStyle
-equemene
+        self.DeviceId=DeviceId
-equemene
+        self.Iterations
 equemene
-equemene
+    def Metrology(self,Data):
-equemene
+        Duration=PenStacle(Data)
-equemene
+        Rate=PenStacle(Iterations/Data)
-equemene
+        print("Duration %s" % Duration)
-equemene
+        print("Rate %s" % Rate)
 equemene
 equemene
 equemene
-equemene
+def DictionariesAPI():
-equemene
+    Marsaglia={'CONG':0,'SHR3':1,'MWC':2,'KISS':3}
-equemene
+    Computing={'INT32':0,'INT64':1,'FP32':2,'FP64':3}
-equemene
+    return(Marsaglia,Computing)
 equemene
-equemene
+# find prime factors of a number
-equemene
+# Get for WWW :
-equemene
+# http://pythonism.wordpress.com/2008/05/17/looking-at-factorisation-in-python/
-equemene
+def PrimeFactors(x):
 equemene
-equemene
+    factorlist=numpy.array([]).astype('uint32')
-equemene
+    loop=2
-equemene
+    while loop<=x:
-equemene
+        if x%loop==0:
-equemene
+            x/=loop
-equemene
+            factorlist=numpy.append(factorlist,[loop])
-equemene
+        else:
-equemene
+            loop+=1
-equemene
+    return factorlist
 equemene
-equemene
+# Try to find the best thread number in Hybrid approach (Blocks&Threads)
-equemene
+# output is thread number
-equemene
+def BestThreadsNumber(jobs):
-equemene
+    factors=PrimeFactors(jobs)
-equemene
+    matrix=numpy.append([factors],[factors[::-1]],axis=0)
-equemene
+    threads=1
-equemene
+    for factor in matrix.transpose().ravel():
-equemene
+        threads=threads*factor
-equemene
+        if threads*threads>jobs or threads>512:
-equemene
+            break
-equemene
+    return(long(threads))
 equemene
-equemene
+# Predicted Amdahl Law (Reduced with s=1-p)
-equemene
+def AmdahlR(N, T1, p):
-equemene
+    return (T1*(1-p+p/N))
 equemene
-equemene
+# Predicted Amdahl Law
-equemene
+def Amdahl(N, T1, s, p):
-equemene
+    return (T1*(s+p/N))
 equemene
-equemene
+# Predicted Mylq Law with first order
-equemene
+def Mylq(N, T1,s,c,p):
-equemene
+    return (T1*(s+p/N)+c*N)
 equemene
-equemene
+# Predicted Mylq Law with second order
-equemene
+def Mylq2(N, T1,s,c1,c2,p):
-equemene
+    return (T1*(s+p/N)+c1*N+c2*N*N)
 equemene
-equemene
+def KernelCodeCuda():
-equemene
+    KERNEL_CODE_CUDA="""
-equemene
+#define TCONG 0
-equemene
+#define TSHR3 1
-equemene
+#define TMWC 2
-equemene
+#define TKISS 3
 equemene
-equemene
+#define TINT32 0
-equemene
+#define TINT64 1
-equemene
+#define TFP32 2
-equemene
+#define TFP64 3
 equemene
-equemene
+// Marsaglia RNG very simple implementation
 equemene
-equemene
+#define znew  ((z=36969*(z&65535)+(z>>16))<<16)
-equemene
+#define wnew  ((w=18000*(w&65535)+(w>>16))&65535)
-equemene
+#define MWC   (znew+wnew)
-equemene
+#define SHR3  (jsr=(jsr=(jsr=jsr^(jsr<<17))^(jsr>>13))^(jsr<<5))
-equemene
+#define CONG  (jcong=69069*jcong+1234567)
-equemene
+#define KISS  ((MWC^CONG)+SHR3)
 equemene
-equemene
+#define MWCfp MWC * 2.328306435454494e-10f
-equemene
+#define KISSfp KISS * 2.328306435454494e-10f
-equemene
+#define SHR3fp SHR3 * 2.328306435454494e-10f
-equemene
+#define CONGfp CONG * 2.328306435454494e-10f
 equemene
-equemene
+__device__ ulong MainLoop(ulong iterations,uint seed_w,uint seed_z,size_t work)
 equemene
 equemene
-equemene
+#if TRNG == TCONG
-equemene
+   uint jcong=seed_z+work;
-equemene
+#elif TRNG == TSHR3
-equemene
+   uint jsr=seed_w+work;
-equemene
+#elif TRNG == TMWC
-equemene
+   uint z=seed_z+work;
-equemene
+   uint w=seed_w+work;
-equemene
+#elif TRNG == TKISS
-equemene
+   uint jcong=seed_z+work;
-equemene
+   uint jsr=seed_w+work;
-equemene
+   uint z=seed_z-work;
-equemene
+   uint w=seed_w-work;
-equemene
+#endif
 equemene
-equemene
+   ulong total=0;
 equemene
-equemene
+   for (ulong i=0;i<iterations;i++) {
 equemene
-equemene
+#if TYPE == TINT32
-equemene
+    #define THEONE 1073741824
-equemene
+    #if TRNG == TCONG
-equemene
+        uint x=CONG>>17 ;
-equemene
+        uint y=CONG>>17 ;
-equemene
+    #elif TRNG == TSHR3
-equemene
+        uint x=SHR3>>17 ;
-equemene
+        uint y=SHR3>>17 ;
-equemene
+    #elif TRNG == TMWC
-equemene
+        uint x=MWC>>17 ;
-equemene
+        uint y=MWC>>17 ;
-equemene
+    #elif TRNG == TKISS
-equemene
+        uint x=KISS>>17 ;
-equemene
+        uint y=KISS>>17 ;
-equemene
+    #endif
-equemene
+#elif TYPE == TINT64
-equemene
+    #define THEONE 4611686018427387904
-equemene
+    #if TRNG == TCONG
-equemene
+        ulong x=(ulong)(CONG>>1) ;
-equemene
+        ulong y=(ulong)(CONG>>1) ;
-equemene
+    #elif TRNG == TSHR3
-equemene
+        ulong x=(ulong)(SHR3>>1) ;
-equemene
+        ulong y=(ulong)(SHR3>>1) ;
-equemene
+    #elif TRNG == TMWC
-equemene
+        ulong x=(ulong)(MWC>>1) ;
-equemene
+        ulong y=(ulong)(MWC>>1) ;
-equemene
+    #elif TRNG == TKISS
-equemene
+        ulong x=(ulong)(KISS>>1) ;
-equemene
+        ulong y=(ulong)(KISS>>1) ;
-equemene
+    #endif
-equemene
+#elif TYPE == TFP32
-equemene
+    #define THEONE 1.0f
-equemene
+    #if TRNG == TCONG
-equemene
+        float x=CONGfp ;
-equemene
+        float y=CONGfp ;
-equemene
+    #elif TRNG == TSHR3
-equemene
+        float x=SHR3fp ;
-equemene
+        float y=SHR3fp ;
-equemene
+    #elif TRNG == TMWC
-equemene
+        float x=MWCfp ;
-equemene
+        float y=MWCfp ;
-equemene
+    #elif TRNG == TKISS
-equemene
+      float x=KISSfp ;
-equemene
+      float y=KISSfp ;
-equemene
+    #endif
-equemene
+#elif TYPE == TFP64
-equemene
+    #define THEONE 1.0f
-equemene
+    #if TRNG == TCONG
-equemene
+        double x=(double)CONGfp ;
-equemene
+        double y=(double)CONGfp ;
-equemene
+    #elif TRNG == TSHR3
-equemene
+        double x=(double)SHR3fp ;
-equemene
+        double y=(double)SHR3fp ;
-equemene
+    #elif TRNG == TMWC
-equemene
+        double x=(double)MWCfp ;
-equemene
+        double y=(double)MWCfp ;
-equemene
+    #elif TRNG == TKISS
-equemene
+        double x=(double)KISSfp ;
-equemene
+        double y=(double)KISSfp ;
-equemene
+    #endif
-equemene
+#endif
 equemene
-equemene
+      ulong inside=((x*x+y*y) <= THEONE) ? 1:0;
-equemene
+      total+=inside;
 equemene
 equemene
-equemene
+   return(total);
 equemene
 equemene
-equemene
+__global__ void MainLoopBlocks(ulong *s,ulong iterations,uint seed_w,uint seed_z)
 equemene
-equemene
+   ulong total=MainLoop(iterations,seed_z,seed_w,blockIdx.x);
-equemene
+   s[blockIdx.x]=total;
-equemene
+   __syncthreads();
 equemene
 equemene
 equemene
-equemene
+__global__ void MainLoopThreads(ulong *s,ulong iterations,uint seed_w,uint seed_z)
 equemene
-equemene
+   ulong total=MainLoop(iterations,seed_z,seed_w,threadIdx.x);
-equemene
+   s[threadIdx.x]=total;
-equemene
+   __syncthreads();
 equemene
 equemene
 equemene
-equemene
+__global__ void MainLoopHybrid(ulong *s,ulong iterations,uint seed_w,uint seed_z)
 equemene
-equemene
+   ulong total=MainLoop(iterations,seed_z,seed_w,blockDim.x*blockIdx.x+threadIdx.x);
-equemene
+   s[blockDim.x*blockIdx.x+threadIdx.x]=total;
-equemene
+   __syncthreads();
 equemene
 equemene
-equemene
+"""
-equemene
+    return(KERNEL_CODE_CUDA)
 equemene
-equemene
+def KernelCodeOpenCL():
-equemene
+    KERNEL_CODE_OPENCL="""
-equemene
+#define TCONG 0
-equemene
+#define TSHR3 1
-equemene
+#define TMWC 2
-equemene
+#define TKISS 3
 equemene
-equemene
+#define TINT32 0
-equemene
+#define TINT64 1
-equemene
+#define TFP32 2
-equemene
+#define TFP64 3
 equemene
-equemene
+// Marsaglia RNG very simple implementation
-equemene
+#define znew  ((z=36969*(z&65535)+(z>>16))<<16)
-equemene
+#define wnew  ((w=18000*(w&65535)+(w>>16))&65535)
 equemene
-equemene
+#define MWC   (znew+wnew)
-equemene
+#define SHR3  (jsr=(jsr=(jsr=jsr^(jsr<<17))^(jsr>>13))^(jsr<<5))
-equemene
+#define CONG  (jcong=69069*jcong+1234567)
-equemene
+#define KISS  ((MWC^CONG)+SHR3)
 equemene
-equemene
+#define MWCfp MWC * 2.328306435454494e-10f
-equemene
+#define KISSfp KISS * 2.328306435454494e-10f
-equemene
+#define CONGfp CONG * 2.328306435454494e-10f
-equemene
+#define SHR3fp SHR3 * 2.328306435454494e-10f
 equemene
-equemene
+ulong MainLoop(ulong iterations,uint seed_z,uint seed_w,size_t work)
 equemene
 equemene
-equemene
+#if TRNG == TCONG
-equemene
+   uint jcong=seed_z+work;
-equemene
+#elif TRNG == TSHR3
-equemene
+   uint jsr=seed_w+work;
-equemene
+#elif TRNG == TMWC
-equemene
+   uint z=seed_z+work;
-equemene
+   uint w=seed_w+work;
-equemene
+#elif TRNG == TKISS
-equemene
+   uint jcong=seed_z+work;
-equemene
+   uint jsr=seed_w+work;
-equemene
+   uint z=seed_z-work;
-equemene
+   uint w=seed_w-work;
-equemene
+#endif
 equemene
-equemene
+   ulong total=0;
 equemene
-equemene
+   for (ulong i=0;i<iterations;i++) {
 equemene
-equemene
+#if TYPE == TINT32
-equemene
+    #define THEONE 1073741824
-equemene
+    #if TRNG == TCONG
-equemene
+        uint x=CONG>>17 ;
-equemene
+        uint y=CONG>>17 ;
-equemene
+    #elif TRNG == TSHR3
-equemene
+        uint x=SHR3>>17 ;
-equemene
+        uint y=SHR3>>17 ;
-equemene
+    #elif TRNG == TMWC
-equemene
+        uint x=MWC>>17 ;
-equemene
+        uint y=MWC>>17 ;
-equemene
+    #elif TRNG == TKISS
-equemene
+        uint x=KISS>>17 ;
-equemene
+        uint y=KISS>>17 ;
-equemene
+    #endif
-equemene
+#elif TYPE == TINT64
-equemene
+    #define THEONE 4611686018427387904
-equemene
+    #if TRNG == TCONG
-equemene
+        ulong x=(ulong)(CONG>>1) ;
-equemene
+        ulong y=(ulong)(CONG>>1) ;
-equemene
+    #elif TRNG == TSHR3
-equemene
+        ulong x=(ulong)(SHR3>>1) ;
-equemene
+        ulong y=(ulong)(SHR3>>1) ;
-equemene
+    #elif TRNG == TMWC
-equemene
+        ulong x=(ulong)(MWC>>1) ;
-equemene
+        ulong y=(ulong)(MWC>>1) ;
-equemene
+    #elif TRNG == TKISS
-equemene
+        ulong x=(ulong)(KISS>>1) ;
-equemene
+        ulong y=(ulong)(KISS>>1) ;
-equemene
+    #endif
-equemene
+#elif TYPE == TFP32
-equemene
+    #define THEONE 1.0f
-equemene
+    #if TRNG == TCONG
-equemene
+        float x=CONGfp ;
-equemene
+        float y=CONGfp ;
-equemene
+    #elif TRNG == TSHR3
-equemene
+        float x=SHR3fp ;
-equemene
+        float y=SHR3fp ;
-equemene
+    #elif TRNG == TMWC
-equemene
+        float x=MWCfp ;
-equemene
+        float y=MWCfp ;
-equemene
+    #elif TRNG == TKISS
-equemene
+      float x=KISSfp ;
-equemene
+      float y=KISSfp ;
-equemene
+    #endif
-equemene
+#elif TYPE == TFP64
-equemene
+#pragma OPENCL EXTENSION cl_khr_fp64: enable
-equemene
+    #define THEONE 1.0f
-equemene
+    #if TRNG == TCONG
-equemene
+        double x=(double)CONGfp ;
-equemene
+        double y=(double)CONGfp ;
-equemene
+    #elif TRNG == TSHR3
-equemene
+        double x=(double)SHR3fp ;
-equemene
+        double y=(double)SHR3fp ;
-equemene
+    #elif TRNG == TMWC
-equemene
+        double x=(double)MWCfp ;
-equemene
+        double y=(double)MWCfp ;
-equemene
+    #elif TRNG == TKISS
-equemene
+        double x=(double)KISSfp ;
-equemene
+        double y=(double)KISSfp ;
-equemene
+    #endif
-equemene
+#endif
 equemene
-equemene
+      ulong inside=((x*x+y*y) <= THEONE) ? 1:0;
-equemene
+      total+=inside;
 equemene
 equemene
-equemene
+   return(total);
 equemene
 equemene
-equemene
+__kernel void MainLoopGlobal(__global ulong *s,ulong iterations,uint seed_w,uint seed_z)
 equemene
-equemene
+   ulong total=MainLoop(iterations,seed_z,seed_w,get_global_id(0));
-equemene
+   barrier(CLK_GLOBAL_MEM_FENCE);
-equemene
+   s[get_global_id(0)]=total;
 equemene
 equemene
-equemene
+__kernel void MainLoopLocal(__global ulong *s,ulong iterations,uint seed_w,uint seed_z)
 equemene
-equemene
+   ulong total=MainLoop(iterations,seed_z,seed_w,get_local_id(0));
-equemene
+   barrier(CLK_LOCAL_MEM_FENCE);
-equemene
+   s[get_local_id(0)]=total;
 equemene
 equemene
-equemene
+__kernel void MainLoopHybrid(__global ulong *s,ulong iterations,uint seed_w,uint seed_z)
 equemene
-equemene
+   ulong total=MainLoop(iterations,seed_z,seed_w,get_global_id(0));
-equemene
+   barrier(CLK_GLOBAL_MEM_FENCE || CLK_LOCAL_MEM_FENCE);
-equemene
+   s[get_global_id(0)]=total;
 equemene
 equemene
-equemene
+"""
-equemene
+    return(KERNEL_CODE_OPENCL)
 equemene
-equemene
+def MetropolisCuda(InputCU):
 equemene
-equemene
+    print("Inside ",InputCU)
 equemene
-equemene
+    iterations=InputCU['Iterations']
-equemene
+    steps=InputCU['Steps']
-equemene
+    blocks=InputCU['Blocks']
-equemene
+    threads=InputCU['Threads']
-equemene
+    Device=InputCU['Device']
-equemene
+    RNG=InputCU['RNG']
-equemene
+    ValueType=InputCU['ValueType']
 equemene
-equemene
+    Marsaglia,Computing=DictionariesAPI()
 equemene
-equemene
+    try:
-equemene
+        # For PyCUDA import
-equemene
+        import pycuda.driver as cuda
-equemene
+        from pycuda.compiler import SourceModule
 equemene
-equemene
+        cuda.init()
-equemene
+        for Id in range(cuda.Device.count()):
-equemene
+            if Id==Device:
-equemene
+                XPU=cuda.Device(Id)
-equemene
+                print("GPU selected %s" % XPU.name())
-equemene
+        print
 equemene
-equemene
+    except ImportError:
-equemene
+        print("Platform does not seem to support CUDA")
 equemene
-equemene
+    circle=numpy.zeros(blocks*threads).astype(numpy.uint64)
-equemene
+    circleCU = cuda.InOut(circle)
-equemene
+    #circleCU = cuda.mem_alloc(circle.size*circle.dtype.itemize)
-equemene
+    #cuda.memcpy_htod(circleCU, circle)
 equemene
-equemene
+    Context=XPU.make_context()
 equemene
-equemene
+    try:
-equemene
+        #mod = SourceModule(KernelCodeCuda(),options=['--compiler-options','-DTRNG=%i -DTYPE=%s' % (Marsaglia[RNG],Computing[ValueType])])
-equemene
+        mod = SourceModule(KernelCodeCuda(),options=['--compiler-options','-DTRNG=%i -DTYPE=%s' % (Marsaglia[RNG],Computing[ValueType])])
-equemene
+    except:
-equemene
+        print("Compilation seems to broke")
 equemene
-equemene
+    MetropolisBlocksCU=mod.get_function("MainLoopBlocks")
-equemene
+    MetropolisThreadsCU=mod.get_function("MainLoopThreads")
-equemene
+    MetropolisHybridCU=mod.get_function("MainLoopHybrid")
 equemene
-equemene
+    MyDuration=numpy.zeros(steps)
 equemene
-equemene
+    jobs=blocks*threads;
 equemene
-equemene
+    iterationsCU=numpy.uint64(iterations/jobs)
-equemene
+    if iterations%jobs!=0:
-equemene
+        iterationsCU+=numpy.uint64(1)
 equemene
-equemene
+    for i in range(steps):
-equemene
+        start_time=time.time()
 equemene
-equemene
+        try:
-equemene
+            MetropolisHybridCU(circleCU,
-equemene
+                               numpy.uint64(iterationsCU),
-equemene
+                               numpy.uint32(nprnd(2**32)),
-equemene
+                               numpy.uint32(nprnd(2**32)),
-equemene
+                               grid=(blocks,1),block=(threads,1,1))
-equemene
+        except:
-equemene
+            print("Crash during CUDA call")
 equemene
-equemene
+        elapsed = time.time()-start_time
-equemene
+        print("(Blocks/Threads)=(%i,%i) method done in %.2f s..." % (blocks,threads,elapsed))
 equemene
-equemene
+        MyDuration[i]=elapsed
 equemene
-equemene
+    OutputCU={'Inside':sum(circle),'NewIterations':numpy.uint64(iterationsCU*jobs),'Duration':MyDuration}
-equemene
+    print(OutputCU)
-equemene
+    Context.pop()
 equemene
-equemene
+    #Context.detach()
-equemene
+    return(OutputCU)
 equemene
-equemene
+def MetropolisOpenCL(InputCL):
 equemene
-equemene
+    import pyopencl as cl
 equemene
-equemene
+    print("Inside ",InputCL)
 equemene
-equemene
+    iterations=InputCL['Iterations']
-equemene
+    steps=InputCL['Steps']
-equemene
+    blocks=InputCL['Blocks']
-equemene
+    threads=InputCL['Threads']
-equemene
+    Device=InputCL['Device']
-equemene
+    RNG=InputCL['RNG']
-equemene
+    ValueType=InputCL['ValueType']
 equemene
-equemene
+    Marsaglia,Computing=DictionariesAPI()
 equemene
-equemene
+    # Initialisation des variables en les CASTant correctement
-equemene
+    Id=0
-equemene
+    HasXPU=False
-equemene
+    for platform in cl.get_platforms():
-equemene
+        for device in platform.get_devices():
-equemene
+            if Id==Device:
-equemene
+                XPU=device
-equemene
+                print("CPU/GPU selected: ",device.name.lstrip())
-equemene
+                HasXPU=True
-equemene
+            Id+=1
 equemene
-equemene
+    if HasXPU==False:
-equemene
+        print("No XPU #%i found in all of %i devices, sorry..." % (Device,Id-1))
-equemene
+        sys.exit()
 equemene
-equemene
+    # Je cree le contexte et la queue pour son execution
-equemene
+    try:
-equemene
+        ctx = cl.Context([XPU])
-equemene
+        queue = cl.CommandQueue(ctx,properties=cl.command_queue_properties.PROFILING_ENABLE)
-equemene
+    except:
-equemene
+        print("Crash during context creation")
 equemene
-equemene
+    # Je recupere les flag possibles pour les buffers
-equemene
+    mf = cl.mem_flags
 equemene
-equemene
+    circle=numpy.zeros(blocks*threads).astype(numpy.uint64)
-equemene
+    circleCL = cl.Buffer(ctx, mf.WRITE_ONLY|mf.COPY_HOST_PTR,hostbuf=circle)
 equemene
-equemene
+    MetropolisCL = cl.Program(ctx,KernelCodeOpenCL()).build( options = "-cl-mad-enable -cl-fast-relaxed-math -DTRNG=%i -DTYPE=%s" % (Marsaglia[RNG],Computing[ValueType]))
 equemene
-equemene
+    MyDuration=numpy.zeros(steps)
 equemene
-equemene
+    jobs=blocks*threads;
 equemene
-equemene
+    iterationsCL=numpy.uint64(iterations/jobs)
-equemene
+    if iterations%jobs!=0:
-equemene
+        iterationsCL+=1
 equemene
-equemene
+    for i in range(steps):
-equemene
+        start_time=time.time()
-equemene
+        if threads == 1:
-equemene
+            CLLaunch=MetropolisCL.MainLoopGlobal(queue,(blocks,),None,
-equemene
+                                                 circleCL,
-equemene
+                                                 numpy.uint64(iterationsCL),
-equemene
+                                                 numpy.uint32(nprnd(2**32)),
-equemene
+                                                 numpy.uint32(nprnd(2**32)))
-equemene
+        else:
-equemene
+            CLLaunch=MetropolisCL.MainLoopHybrid(queue,(jobs,),(threads,),
-equemene
+                                                 circleCL,
-equemene
+                                                 numpy.uint64(iterationsCL),
-equemene
+                                                 numpy.uint32(nprnd(2**32)),
-equemene
+                                                 numpy.uint32(nprnd(2**32)))
 equemene
-equemene
+        CLLaunch.wait()
-equemene
+        cl.enqueue_copy(queue, circle, circleCL).wait()
 equemene
-equemene
+        elapsed = time.time()-start_time
-equemene
+        print("(Blocks/Threads)=(%i,%i) method done in %.2f s..." % (blocks,threads,elapsed))
 equemene
-equemene
+        # Elapsed method based on CLLaunch doesn't work for Beignet OpenCL
-equemene
+        # elapsed = 1e-9*(CLLaunch.profile.end - CLLaunch.profile.start)
 equemene
-equemene
+        # print circle,numpy.mean(circle),numpy.median(circle),numpy.std(circle)
-equemene
+        MyDuration[i]=elapsed
-equemene
+        # AllPi=4./numpy.float32(iterationsCL)*circle.astype(numpy.float32)
-equemene
+        # MyPi[i]=numpy.median(AllPi)
-equemene
+        # print MyPi[i],numpy.std(AllPi),MyDuration[i]
 equemene
-equemene
+    circleCL.release()
 equemene
-equemene
+    OutputCL={'Inside':sum(circle),'NewIterations':numpy.uint64(iterationsCL*jobs),'Duration':MyDuration}
-equemene
+    print(OutputCL)
-equemene
+    return(OutputCL)
 equemene
 equemene
-equemene
+def FitAndPrint(N,D,Curves):
 equemene
-equemene
+    from scipy.optimize import curve_fit
-equemene
+    import matplotlib.pyplot as plt
 equemene
-equemene
+    try:
-equemene
+        coeffs_Amdahl, matcov_Amdahl = curve_fit(Amdahl, N, D)
 equemene
-equemene
+        D_Amdahl=Amdahl(N,coeffs_Amdahl[0],coeffs_Amdahl[1],coeffs_Amdahl[2])
-equemene
+        coeffs_Amdahl[1]=coeffs_Amdahl[1]*coeffs_Amdahl[0]/D[0]
-equemene
+        coeffs_Amdahl[2]=coeffs_Amdahl[2]*coeffs_Amdahl[0]/D[0]
-equemene
+        coeffs_Amdahl[0]=D[0]
-equemene
+        print("Amdahl Normalized: T=%.2f(%.6f+%.6f/N)" % (coeffs_Amdahl[0],coeffs_Amdahl[1],coeffs_Amdahl[2]))
-equemene
+    except:
-equemene
+        print("Impossible to fit for Amdahl law : only %i elements" % len(D))
 equemene
-equemene
+    try:
-equemene
+        coeffs_AmdahlR, matcov_AmdahlR = curve_fit(AmdahlR, N, D)
 equemene
-equemene
+        D_AmdahlR=AmdahlR(N,coeffs_AmdahlR[0],coeffs_AmdahlR[1])
-equemene
+        coeffs_AmdahlR[1]=coeffs_AmdahlR[1]*coeffs_AmdahlR[0]/D[0]
-equemene
+        coeffs_AmdahlR[0]=D[0]
-equemene
+        print("Amdahl Reduced Normalized: T=%.2f(%.6f+%.6f/N)" % (coeffs_AmdahlR[0],1-coeffs_AmdahlR[1],coeffs_AmdahlR[1]))
 equemene
-equemene
+    except:
-equemene
+        print("Impossible to fit for Reduced Amdahl law : only %i elements" % len(D))
 equemene
-equemene
+    try:
-equemene
+        coeffs_Mylq, matcov_Mylq = curve_fit(Mylq, N, D)
 equemene
-equemene
+        coeffs_Mylq[1]=coeffs_Mylq[1]*coeffs_Mylq[0]/D[0]
-equemene
+        # coeffs_Mylq[2]=coeffs_Mylq[2]*coeffs_Mylq[0]/D[0]
-equemene
+        coeffs_Mylq[3]=coeffs_Mylq[3]*coeffs_Mylq[0]/D[0]
-equemene
+        coeffs_Mylq[0]=D[0]
-equemene
+        print("Mylq Normalized : T=%.2f(%.6f+%.6f/N)+%.6f*N" % (coeffs_Mylq[0],
-equemene
+                                                                coeffs_Mylq[1],
-equemene
+                                                                coeffs_Mylq[3],
-equemene
+                                                                coeffs_Mylq[2]))
-equemene
+        D_Mylq=Mylq(N,coeffs_Mylq[0],coeffs_Mylq[1],coeffs_Mylq[2],
-equemene
+                    coeffs_Mylq[3])
-equemene
+    except:
-equemene
+        print("Impossible to fit for Mylq law : only %i elements" % len(D))
 equemene
-equemene
+    try:
-equemene
+        coeffs_Mylq2, matcov_Mylq2 = curve_fit(Mylq2, N, D)
 equemene
-equemene
+        coeffs_Mylq2[1]=coeffs_Mylq2[1]*coeffs_Mylq2[0]/D[0]
-equemene
+        # coeffs_Mylq2[2]=coeffs_Mylq2[2]*coeffs_Mylq2[0]/D[0]
-equemene
+        # coeffs_Mylq2[3]=coeffs_Mylq2[3]*coeffs_Mylq2[0]/D[0]
-equemene
+        coeffs_Mylq2[4]=coeffs_Mylq2[4]*coeffs_Mylq2[0]/D[0]
-equemene
+        coeffs_Mylq2[0]=D[0]
-equemene
+        print("Mylq 2nd order Normalized: T=%.2f(%.6f+%.6f/N)+%.6f*N+%.6f*N^2" % (coeffs_Mylq2[0],coeffs_Mylq2[1],coeffs_Mylq2[4],coeffs_Mylq2[2],coeffs_Mylq2[3]))
 equemene
-equemene
+    except:
-equemene
+        print("Impossible to fit for 2nd order Mylq law : only %i elements" % len(D))
 equemene
-equemene
+    if Curves:
-equemene
+        plt.xlabel("Number of Threads/work Items")
-equemene
+        plt.ylabel("Total Elapsed Time")
 equemene
-equemene
+        Experience,=plt.plot(N,D,'ro')
-equemene
+    try:
-equemene
+        pAmdahl,=plt.plot(N,D_Amdahl,label="Loi de Amdahl")
-equemene
+        pMylq,=plt.plot(N,D_Mylq,label="Loi de Mylq")
-equemene
+    except:
-equemene
+        print("Fit curves seem not to be available")
 equemene
-equemene
+    plt.legend()
-equemene
+    plt.show()
 equemene
-equemene
+if __name__=='__main__':
 equemene
-equemene
+    # Set defaults values
 equemene
-equemene
+    # Id of Device : 1 is for first find !
-equemene
+    Device=1
-equemene
+    # GPU style can be Cuda (Nvidia implementation) or OpenCL
-equemene
+    GpuStyle='OpenCL'
-equemene
+    # Iterations is integer
-equemene
+    Iterations=10000000
-equemene
+    # BlocksBlocks in first number of Blocks to explore
-equemene
+    BlocksBegin=1
-equemene
+    # BlocksEnd is last number of Blocks to explore
-equemene
+    BlocksEnd=1
-equemene
+    # BlocksStep is the step of Blocks to explore
-equemene
+    BlocksStep=1
-equemene
+    # ThreadsBlocks in first number of Blocks to explore
-equemene
+    ThreadsBegin=1
-equemene
+    # ThreadsEnd is last number of Blocks to explore
-equemene
+    ThreadsEnd=1
-equemene
+    # ThreadsStep is the step of Blocks to explore
-equemene
+    ThreadsStep=1
-equemene
+    # Redo is the times to redo the test to improve metrology
-equemene
+    Redo=1
-equemene
+    # OutMetrology is method for duration estimation : False is GPU inside
-equemene
+    OutMetrology=False
-equemene
+    Metrology='InMetro'
-equemene
+    # Curves is True to print the curves
-equemene
+    Curves=False
-equemene
+    # Fit is True to print the curves
-equemene
+    Fit=False
-equemene
+    # Marsaglia RNG
-equemene
+    RNG='MWC'
-equemene
+    # Value type : INT32, INT64, FP32, FP64
-equemene
+    ValueType='FP32'
 equemene
-equemene
+    HowToUse='%s -o (Out of Core Metrology) -c (Print Curves) -d <DeviceId> -g <CUDA/OpenCL> -i <Iterations> -b <BlocksBegin> -e <BlocksEnd> -s <BlocksStep> -f <ThreadsFirst> -l <ThreadsLast> -t <ThreadssTep> -r <RedoToImproveStats> -m <SHR3/CONG/MWC/KISS> -v <INT32/INT64/FP32/FP64>'
 equemene
-equemene
+    try:
-equemene
+        opts, args = getopt.getopt(sys.argv[1:],"hocg:i:b:e:s:f:l:t:r:d:m:v:",["gpustyle=","iterations=","blocksBegin=","blocksEnd=","blocksStep=","threadsFirst=","threadsLast=","threadssTep=","redo=","device=","marsaglia=","valuetype="])
-equemene
+    except getopt.GetoptError:
-equemene
+        print(HowToUse % sys.argv[0])
-equemene
+        sys.exit(2)
 equemene
-equemene
+    # List of Devices
-equemene
+    Devices=[]
-equemene
+    Alu={}
 equemene
-equemene
+    for opt, arg in opts:
-equemene
+        if opt == '-h':
-equemene
+            print(HowToUse % sys.argv[0])
 equemene
-equemene
+            print("\nInformations about devices detected under OpenCL API:")
-equemene
+            # For PyOpenCL import
-equemene
+            try:
-equemene
+                import pyopencl as cl
-equemene
+                Id=0
-equemene
+                for platform in cl.get_platforms():
-equemene
+                    for device in platform.get_devices():
-equemene
+                        #deviceType=cl.device_type.to_string(device.type)
-equemene
+                        deviceType="xPU"
-equemene
+                        print("Device #%i from %s of type %s : %s" % (Id,platform.vendor.lstrip(),deviceType,device.name.lstrip()))
-equemene
+                        Id=Id+1
 equemene
-equemene
+            except:
-equemene
+                print("Your platform does not seem to support OpenCL")
 equemene
-equemene
+            print("\nInformations about devices detected under CUDA API:")
-equemene
+            # For PyCUDA import
-equemene
+            try:
-equemene
+                import pycuda.driver as cuda
-equemene
+                cuda.init()
-equemene
+                for Id in range(cuda.Device.count()):
-equemene
+                    device=cuda.Device(Id)
-equemene
+                    print("Device #%i of type GPU : %s" % (Id,device.name()))
-equemene
+                print
-equemene
+            except:
-equemene
+                print("Your platform does not seem to support CUDA")
 equemene
-equemene
+            sys.exit()
 equemene
 equemene
-equemene
+        elif opt == '-o':
-equemene
+            OutMetrology=True
-equemene
+            Metrology='OutMetro'
-equemene
+        elif opt == '-c':
-equemene
+            Curves=True
-equemene
+        elif opt in ("-d", "--device"):
-equemene
+            Devices.append(int(arg))
-equemene
+        elif opt in ("-g", "--gpustyle"):
-equemene
+            GpuStyle = arg
-equemene
+        elif opt in ("-m", "--marsaglia"):
-equemene
+            RNG = arg
-equemene
+        elif opt in ("-v", "--valuetype"):
-equemene
+            ValueType = arg
-equemene
+        elif opt in ("-i", "--iterations"):
-equemene
+            Iterations = numpy.uint64(arg)
-equemene
+        elif opt in ("-b", "--blocksbegin"):
-equemene
+            BlocksBegin = int(arg)
-equemene
+        elif opt in ("-e", "--blocksend"):
-equemene
+            BlocksEnd = int(arg)
-equemene
+        elif opt in ("-s", "--blocksstep"):
-equemene
+            BlocksStep = int(arg)
-equemene
+        elif opt in ("-f", "--threadsfirst"):
-equemene
+            ThreadsBegin = int(arg)
-equemene
+        elif opt in ("-l", "--threadslast"):
-equemene
+            ThreadsEnd = int(arg)
-equemene
+        elif opt in ("-t", "--threadsstep"):
-equemene
+            ThreadsStep = int(arg)
-equemene
+        elif opt in ("-r", "--redo"):
-equemene
+            Redo = int(arg)
 equemene
-equemene
+    print("Devices Identification : %s" % Devices)
-equemene
+    print("GpuStyle used : %s" % GpuStyle)
-equemene
+    print("Iterations : %s" % Iterations)
-equemene
+    print("Number of Blocks on begin : %s" % BlocksBegin)
-equemene
+    print("Number of Blocks on end : %s" % BlocksEnd)
-equemene
+    print("Step on Blocks : %s" % BlocksStep)
-equemene
+    print("Number of Threads on begin : %s" % ThreadsBegin)
-equemene
+    print("Number of Threads on end : %s" % ThreadsEnd)
-equemene
+    print("Step on Threads : %s" % ThreadsStep)
-equemene
+    print("Number of redo : %s" % Redo)
-equemene
+    print("Metrology done out of XPU : %r" % OutMetrology)
-equemene
+    print("Type of Marsaglia RNG used : %s" % RNG)
-equemene
+    print("Type of variable : %s" % ValueType)
 equemene
-equemene
+    if GpuStyle=='CUDA':
-equemene
+        try:
-equemene
+            # For PyCUDA import
-equemene
+            import pycuda.driver as cuda
 equemene
-equemene
+            cuda.init()
-equemene
+            for Id in range(cuda.Device.count()):
-equemene
+                device=cuda.Device(Id)
-equemene
+                print("Device #%i of type GPU : %s" % (Id,device.name()))
-equemene
+                if Id in Devices:
-equemene
+                    Alu[Id]='GPU'
 equemene
-equemene
+        except ImportError:
-equemene
+            print("Platform does not seem to support CUDA")
 equemene
-equemene
+    if GpuStyle=='OpenCL':
-equemene
+        try:
-equemene
+            # For PyOpenCL import
-equemene
+            import pyopencl as cl
-equemene
+            Id=0
-equemene
+            for platform in cl.get_platforms():
-equemene
+                for device in platform.get_devices():
-equemene
+                    #deviceType=cl.device_type.to_string(device.type)
-equemene
+                    deviceType="xPU"
-equemene
+                    print("Device #%i from %s of type %s : %s" % (Id,platform.vendor.lstrip().rstrip(),deviceType,device.name.lstrip().rstrip()))
 equemene
-equemene
+                    if Id in Devices:
-equemene
+                    # Set the Alu as detected Device Type
-equemene
+                        Alu[Id]=deviceType
-equemene
+                    Id=Id+1
-equemene
+        except ImportError:
-equemene
+            print("Platform does not seem to support OpenCL")
 equemene
-equemene
+    print(Devices,Alu)
 equemene
-equemene
+    BlocksList=range(BlocksBegin,BlocksEnd+BlocksStep,BlocksStep)
-equemene
+    ThreadsList=range(ThreadsBegin,ThreadsEnd+ThreadsStep,ThreadsStep)
 equemene
-equemene
+    ExploredJobs=numpy.array([]).astype(numpy.uint32)
-equemene
+    ExploredBlocks=numpy.array([]).astype(numpy.uint32)
-equemene
+    ExploredThreads=numpy.array([]).astype(numpy.uint32)
-equemene
+    avgD=numpy.array([]).astype(numpy.float32)
-equemene
+    medD=numpy.array([]).astype(numpy.float32)
-equemene
+    stdD=numpy.array([]).astype(numpy.float32)
-equemene
+    minD=numpy.array([]).astype(numpy.float32)
-equemene
+    maxD=numpy.array([]).astype(numpy.float32)
-equemene
+    avgR=numpy.array([]).astype(numpy.float32)
-equemene
+    medR=numpy.array([]).astype(numpy.float32)
-equemene
+    stdR=numpy.array([]).astype(numpy.float32)
-equemene
+    minR=numpy.array([]).astype(numpy.float32)
-equemene
+    maxR=numpy.array([]).astype(numpy.float32)
 equemene
-equemene
+    for Blocks,Threads in itertools.product(BlocksList,ThreadsList):
 equemene
-equemene
+        # print Blocks,Threads
-equemene
+        circle=numpy.zeros(Blocks*Threads).astype(numpy.uint64)
-equemene
+        ExploredJobs=numpy.append(ExploredJobs,Blocks*Threads)
-equemene
+        ExploredBlocks=numpy.append(ExploredBlocks,Blocks)
-equemene
+        ExploredThreads=numpy.append(ExploredThreads,Threads)
 equemene
-equemene
+        if OutMetrology:
-equemene
+            DurationItem=numpy.array([]).astype(numpy.float32)
-equemene
+            Duration=numpy.array([]).astype(numpy.float32)
-equemene
+            Rate=numpy.array([]).astype(numpy.float32)
-equemene
+            for i in range(Redo):
-equemene
+                start=time.time()
-equemene
+                if GpuStyle=='CUDA':
-equemene
+                    try:
-equemene
+                        InputCU={}
-equemene
+                        InputCU['Iterations']=Iterations
-equemene
+                        InputCU['Steps']=1
-equemene
+                        InputCU['Blocks']=Blocks
-equemene
+                        InputCU['Threads']=Threads
-equemene
+                        InputCU['Device']=Devices[0]
-equemene
+                        InputCU['RNG']=RNG
-equemene
+                        InputCU['ValueType']=ValueType
-equemene
+                        OutputCU=MetropolisCuda(InputCU)
-equemene
+                        Inside=OutputCU['Circle']
-equemene
+                        NewIterations=OutputCU['NewIterations']
-equemene
+                        Duration=OutputCU['Duration']
-equemene
+                    except:
-equemene
+                        print("Problem with (%i,%i) // computations on Cuda" % (Blocks,Threads))
-equemene
+                elif GpuStyle=='OpenCL':
-equemene
+                    try:
-equemene
+                        InputCL={}
-equemene
+                        InputCL['Iterations']=Iterations
-equemene
+                        InputCL['Steps']=1
-equemene
+                        InputCL['Blocks']=Blocks
-equemene
+                        InputCL['Threads']=Threads
-equemene
+                        InputCL['Device']=Devices[0]
-equemene
+                        InputCL['RNG']=RNG
-equemene
+                        InputCL['ValueType']=ValueType
-equemene
+                        OutputCL=MetropolisOpenCL(InputCL)
-equemene
+                        Inside=OutputCL['Circle']
-equemene
+                        NewIterations=OutputCL['NewIterations']
-equemene
+                        Duration=OutputCL['Duration']
-equemene
+                    except:
-equemene
+                        print("Problem with (%i,%i) // computations on OpenCL" % (Blocks,Threads))
-equemene
+                Duration=numpy.append(Duration,time.time()-start)
-equemene
+                Rate=numpy.append(Rate,NewIterations/Duration[-1])
-equemene
+        else:
-equemene
+            if GpuStyle=='CUDA':
-equemene
+                try:
-equemene
+                    InputCU={}
-equemene
+                    InputCU['Iterations']=Iterations
-equemene
+                    InputCU['Steps']=Redo
-equemene
+                    InputCU['Blocks']=Blocks
-equemene
+                    InputCU['Threads']=Threads
-equemene
+                    InputCU['Device']=Devices[0]
-equemene
+                    InputCU['RNG']=RNG
-equemene
+                    InputCU['ValueType']=ValueType
-equemene
+                    OutputCU=MetropolisCuda(InputCU)
-equemene
+                    Inside=OutputCU['Inside']
-equemene
+                    NewIterations=OutputCU['NewIterations']
-equemene
+                    Duration=OutputCU['Duration']
-equemene
+                except:
-equemene
+                    print("Problem with (%i,%i) // computations on Cuda" % (Blocks,Threads))
-equemene
+                try:
-equemene
+                    pycuda.context.pop()
-equemene
+                except:
-equemene
+                    pass
-equemene
+            elif GpuStyle=='OpenCL':
-equemene
+                try:
-equemene
+                    InputCL={}
-equemene
+                    InputCL['Iterations']=Iterations
-equemene
+                    InputCL['Steps']=Redo
-equemene
+                    InputCL['Blocks']=Blocks
-equemene
+                    InputCL['Threads']=Threads
-equemene
+                    InputCL['Device']=Devices[0]
-equemene
+                    InputCL['RNG']=RNG
-equemene
+                    InputCL['ValueType']=ValueType
-equemene
+                    OutputCL=MetropolisOpenCL(InputCL)
-equemene
+                    Inside=OutputCL['Inside']
-equemene
+                    NewIterations=OutputCL['NewIterations']
-equemene
+                    Duration=OutputCL['Duration']
-equemene
+                except:
-equemene
+                    print("Problem with (%i,%i) // computations on OpenCL" % (Blocks,Threads))
-equemene
+            Rate=NewIterations/Duration
-equemene
+            print("Pi estimation %.8f" % (4./NewIterations*Inside))
 equemene
 equemene
-equemene
+        avgD=numpy.append(avgD,numpy.average(Duration))
-equemene
+        medD=numpy.append(medD,numpy.median(Duration))
-equemene
+        stdD=numpy.append(stdD,numpy.std(Duration))
-equemene
+        minD=numpy.append(minD,numpy.min(Duration))
-equemene
+        maxD=numpy.append(maxD,numpy.max(Duration))
-equemene
+        avgR=numpy.append(avgR,numpy.average(Rate))
-equemene
+        medR=numpy.append(medR,numpy.median(Rate))
-equemene
+        stdR=numpy.append(stdR,numpy.std(Rate))
-equemene
+        minR=numpy.append(minR,numpy.min(Rate))
-equemene
+        maxR=numpy.append(maxR,numpy.max(Rate))
 equemene
-equemene
+        print("%.2f %.2f %.2f %.2f %.2f %i %i %i %i %i" % (avgD[-1],medD[-1],stdD[-1],minD[-1],maxD[-1],avgR[-1],medR[-1],stdR[-1],minR[-1],maxR[-1]))
 equemene
-equemene
+        numpy.savez("Pi_%s_%s_%s_%s_%s_%s_%s_%s_%.8i_Device%i_%s_%s" % (ValueType,RNG,Alu[Devices[0]],GpuStyle,BlocksBegin,BlocksEnd,ThreadsBegin,ThreadsEnd,Iterations,Devices[0],Metrology,gethostname()),(ExploredBlocks,ExploredThreads,avgD,medD,stdD,minD,maxD,avgR,medR,stdR,minR,maxR))
-equemene
+        ToSave=[ ExploredBlocks,ExploredThreads,avgD,medD,stdD,minD,maxD,avgR,medR,stdR,minR,maxR ]
-equemene
+        numpy.savetxt("Pi_%s_%s_%s_%s_%s_%s_%s_%i_%.8i_Device%i_%s_%s" % (ValueType,RNG,Alu[Devices[0]],GpuStyle,BlocksBegin,BlocksEnd,ThreadsBegin,ThreadsEnd,Iterations,Devices[0],Metrology,gethostname()),numpy.transpose(ToSave),fmt='%i %i %e %e %e %e %e %i %i %i %i %i')
 equemene
-equemene
+    if Fit:
-equemene
+        FitAndPrint(ExploredJobs,median,Curves)

Centre Blaise Pascal » Bench4GPU

root / Pi / XPU / PiXPU.py @ 158