/ETSN/MyDFT_10.py - Annoter - Bench4GPU - Forge du Centre Blaise Pascal

root / ETSN / MyDFT_10.py @ 310

Historique | Voir | Annoter | Télécharger (17,05 ko)

-equemene
+#!/usr/bin/env python3
 equemene
-equemene
+import numpy as np
-equemene
+import pyopencl as cl
-equemene
+from numpy import pi,cos,sin
 equemene
 equemene
-equemene
+def NumpyFFT(x,y):
-equemene
+    xy=np.csingle(x+1.j*y)
-equemene
+    XY=np.fft.fft(xy)
-equemene
+    return(XY.real,XY.imag)
 equemene
 equemene
-equemene
+def OpenCLFFT(x,y,device):
-equemene
+    import pyopencl as cl
-equemene
+    import pyopencl.array as cla
-equemene
+    import time
-equemene
+    import gpyfft
-equemene
+    from gpyfft.fft import FFT
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    Id=0
-equemene
+    HasXPU=False
-equemene
+    for platform in cl.get_platforms():
-equemene
+        for device in platform.get_devices():
-equemene
+            if Id==Device:
-equemene
+                XPU=device
-equemene
+                print("CPU/GPU selected: ",device.name.lstrip())
-equemene
+                HasXPU=True
-equemene
+            Id+=1
-equemene
+            # print(Id)
 equemene
-equemene
+    if HasXPU==False:
-equemene
+        print("No XPU #%i found in all of %i devices, sorry..." % (Device,Id-1))
-equemene
+        sys.exit()
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Selection of device : %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    try:
-equemene
+        ctx = cl.Context(devices=[XPU])
-equemene
+        queue = cl.CommandQueue(ctx,properties=cl.command_queue_properties.PROFILING_ENABLE)
-equemene
+    except:
-equemene
+        print("Crash during context creation")
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Context initialisation : %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    XY_gpu = cla.to_device(queue, np.csingle(x+1.j*y))
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Copy from Host to Device : %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    transform = FFT(ctx, queue, XY_gpu)
-equemene
+    event, = transform.enqueue()
-equemene
+    event.wait()
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Compute FFT : %.3f" % Elapsed)
-equemene
+    TimeIn=time.time()
-equemene
+    XY = XY_gpu.get()
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Copy from Device to Host : %.3f" % Elapsed)
-equemene
+    return(XY.real,XY.imag)
 equemene
-equemene
+# Naive Discrete Fourier Transform
-equemene
+def MyDFT(x,y):
-equemene
+    size=x.shape[0]
-equemene
+    X=np.zeros(size).astype(np.float32)
-equemene
+    Y=np.zeros(size).astype(np.float32)
-equemene
+    for i in range(size):
-equemene
+        for j in range(size):
-equemene
+            X[i]=X[i]+x[j]*cos(2.*pi*i*j/size)+y[j]*sin(2.*pi*i*j/size)
-equemene
+            Y[i]=Y[i]-x[j]*sin(2.*pi*i*j/size)+y[j]*cos(2.*pi*i*j/size)
-equemene
+    return(X,Y)
 equemene
-equemene
+# Numpy Discrete Fourier Transform
-equemene
+def NumpyDFT(x,y):
-equemene
+    size=x.shape[0]
-equemene
+    X=np.zeros(size).astype(np.float32)
-equemene
+    Y=np.zeros(size).astype(np.float32)
-equemene
+    nj=np.multiply(2.0*np.pi/size,np.arange(size)).astype(np.float32)
-equemene
+    for i in range(size):
-equemene
+        X[i]=np.sum(np.add(np.multiply(np.cos(i*nj),x),np.multiply(np.sin(i*nj),y)))
-equemene
+        Y[i]=np.sum(-np.subtract(np.multiply(np.sin(i*nj),x),np.multiply(np.cos(i*nj),y)))
-equemene
+    return(X,Y)
 equemene
-equemene
+# Numba Discrete Fourier Transform
-equemene
+import numba
-equemene
+@numba.njit(parallel=True)
-equemene
+def NumbaDFT(x,y):
-equemene
+    size=x.shape[0]
-equemene
+    X=np.zeros(size).astype(np.float32)
-equemene
+    Y=np.zeros(size).astype(np.float32)
-equemene
+    nj=np.multiply(2.0*np.pi/size,np.arange(size)).astype(np.float32)
-equemene
+    for i in numba.prange(size):
-equemene
+        X[i]=np.sum(np.add(np.multiply(np.cos(i*nj),x),np.multiply(np.sin(i*nj),y)))
-equemene
+        Y[i]=np.sum(-np.subtract(np.multiply(np.sin(i*nj),x),np.multiply(np.cos(i*nj),y)))
-equemene
+    return(X,Y)
 equemene
-equemene
+# OpenCL complete operation
-equemene
+def OpenCLDFT(a_np,b_np,Device):
 equemene
-equemene
+    Id=0
-equemene
+    HasXPU=False
-equemene
+    for platform in cl.get_platforms():
-equemene
+        for device in platform.get_devices():
-equemene
+            if Id==Device:
-equemene
+                XPU=device
-equemene
+                print("CPU/GPU selected: ",device.name.lstrip())
-equemene
+                HasXPU=True
-equemene
+            Id+=1
-equemene
+            # print(Id)
 equemene
-equemene
+    if HasXPU==False:
-equemene
+        print("No XPU #%i found in all of %i devices, sorry..." % (Device,Id-1))
-equemene
+        sys.exit()
 equemene
-equemene
+    try:
-equemene
+        ctx = cl.Context(devices=[XPU])
-equemene
+        queue = cl.CommandQueue(ctx,properties=cl.command_queue_properties.PROFILING_ENABLE)
-equemene
+    except:
-equemene
+        print("Crash during context creation")
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    # Copy from Host to Device using pointers
-equemene
+    mf = cl.mem_flags
-equemene
+    a_g = cl.Buffer(ctx, mf.READ_ONLY | mf.COPY_HOST_PTR, hostbuf=a_np)
-equemene
+    b_g = cl.Buffer(ctx, mf.READ_ONLY | mf.COPY_HOST_PTR, hostbuf=b_np)
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Copy from Host 2 Device : %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    # Definition of kernel under OpenCL
-equemene
+    prg = cl.Program(ctx, """
 equemene
-equemene
+#define PI 3.141592653589793
 equemene
-equemene
+__kernel void MyDFT(
-equemene
+    __global const float *a_g, __global const float *b_g, __global float *A_g, __global float *B_g)
 equemene
-equemene
+  int gid = get_global_id(0);
-equemene
+  uint size = get_global_size(0);
-equemene
+  float A=0.,B=0.;
-equemene
+  for (uint i=0; i<size;i++)
 equemene
-equemene
+     A+=a_g[i]*cos(2.*PI*(float)(gid*i)/(float)size)+b_g[i]*sin(2.*PI*(float)(gid*i)/(float)size);
-equemene
+     B+=-a_g[i]*sin(2.*PI*(float)(gid*i)/(float)size)+b_g[i]*cos(2.*PI*(float)(gid*i)/(float)size);
 equemene
-equemene
+  A_g[gid]=A;
-equemene
+  B_g[gid]=B;
 equemene
-equemene
+""").build()
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Building kernels : %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    # Memory allocation on Device for result
-equemene
+    A_ocl = np.empty_like(a_np)
-equemene
+    B_ocl = np.empty_like(a_np)
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Allocation on Host for results : %.3f" % Elapsed)
 equemene
-equemene
+    A_g = cl.Buffer(ctx, mf.WRITE_ONLY, A_ocl.nbytes)
-equemene
+    B_g = cl.Buffer(ctx, mf.WRITE_ONLY, B_ocl.nbytes)
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Allocation on Device for results : %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    # Synthesis of function "sillysum" inside Kernel Sources
-equemene
+    knl = prg.MyDFT  # Use this Kernel object for repeated calls
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Synthesis of kernel : %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    # Call of kernel previously defined
-equemene
+    CallCL=knl(queue, a_np.shape, None, a_g, b_g, A_g, B_g)
 equemene
-equemene
+    CallCL.wait()
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Execution of kernel : %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    # Copy from Device to Host
-equemene
+    cl.enqueue_copy(queue, A_ocl, A_g)
-equemene
+    cl.enqueue_copy(queue, B_ocl, B_g)
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Copy from Device 2 Host : %.3f" % Elapsed)
 equemene
-equemene
+    # Liberation of memory
-equemene
+    a_g.release()
-equemene
+    b_g.release()
-equemene
+    A_g.release()
-equemene
+    B_g.release()
 equemene
-equemene
+    return(A_ocl,B_ocl)
 equemene
-equemene
+# CUDA complete operation
-equemene
+def CUDADFT(a_np,b_np,Device,Threads):
-equemene
+    # import pycuda.autoinit
-equemene
+    import pycuda.driver as drv
-equemene
+    from pycuda.compiler import SourceModule
 equemene
-equemene
+    try:
-equemene
+        # For PyCUDA import
-equemene
+        import pycuda.driver as cuda
-equemene
+        from pycuda.compiler import SourceModule
 equemene
-equemene
+        cuda.init()
-equemene
+        for Id in range(cuda.Device.count()):
-equemene
+            if Id==Device:
-equemene
+                XPU=cuda.Device(Id)
-equemene
+                print("GPU selected %s" % XPU.name())
-equemene
+        print
 equemene
-equemene
+    except ImportError:
-equemene
+        print("Platform does not seem to support CUDA")
 equemene
-equemene
+    Context=XPU.make_context()
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    mod = SourceModule("""
 equemene
-equemene
+#define PI 3.141592653589793
 equemene
-equemene
+__global__ void MyDFT(float *A_g, float *B_g, const float *a_g,const float *b_g)
 equemene
-equemene
+  const int gid = blockIdx.x*blockDim.x+threadIdx.x;
-equemene
+  uint size = gridDim.x*blockDim.x;
-equemene
+  float A=0.,B=0.;
-equemene
+  for (uint i=0; i<size;i++)
 equemene
-equemene
+     A+=a_g[i]*cos(2.*PI*(float)(gid*i)/(float)size)+b_g[i]*sin(2.*PI*(float)(gid*i)/(float)size);
-equemene
+     B+=-a_g[i]*sin(2.*PI*(float)(gid*i)/(float)size)+b_g[i]*cos(2.*PI*(float)(gid*i)/(float)size);
 equemene
-equemene
+  A_g[gid]=A;
-equemene
+  B_g[gid]=B;
 equemene
 equemene
-equemene
+""")
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Definition of kernel : %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    MyDFT = mod.get_function("MyDFT")
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Synthesis of kernel : %.3f" % Elapsed)
 equemene
-equemene
+    TimeIn=time.time()
-equemene
+    A_np = np.zeros_like(a_np)
-equemene
+    B_np = np.zeros_like(a_np)
-equemene
+    Elapsed=time.time()-TimeIn
-equemene
+    print("Allocation on Host for results : %.3f" % Elapsed)
 equemene
-equemene
+    Size=a_np.size
-equemene
+    if (Size % Threads != 0):
-equemene
+        print("Impossible : %i not multiple of %i..." % (Threads,Size) )
-equemene
+        TimeIn=time.time()
-equemene
+        MyDFT(drv.Out(A_np), drv.Out(B_np), drv.In(a_np), drv.In(b_np),
-equemene
+              block=(1,1,1), grid=(a_np.size,1))
-equemene
+        Elapsed=time.time()-TimeIn
-equemene
+        print("Execution of kernel : %.3f" % Elapsed)
-equemene
+    else:
-equemene
+        Blocks=int(Size/Threads)
-equemene
+        TimeIn=time.time()
-equemene
+        MyDFT(drv.Out(A_np), drv.Out(B_np), drv.In(a_np), drv.In(b_np),
-equemene
+              block=(Threads,1,1), grid=(Blocks,1))
-equemene
+        Elapsed=time.time()-TimeIn
-equemene
+        print("Execution of kernel : %.3f" % Elapsed)
 equemene
-equemene
+    Context.pop()
-equemene
+    Context.detach()
 equemene
-equemene
+    return(A_np,B_np)
 equemene
-equemene
+import sys
-equemene
+import time
 equemene
-equemene
+if __name__=='__main__':
 equemene
-equemene
+    SIZE=1024
-equemene
+    Device=0
-equemene
+    NaiveMethod=False
-equemene
+    NumpyFFTMethod=True
-equemene
+    OpenCLFFTMethod=True
-equemene
+    NumpyMethod=False
-equemene
+    NumbaMethod=False
-equemene
+    OpenCLMethod=False
-equemene
+    CUDAMethod=False
-equemene
+    Threads=1
-equemene
+    Verbose=True
 equemene
-equemene
+    import getopt
 equemene
-equemene
+    HowToUse='%s -n [Naive] -y [numpY] -a [numbA] -o [OpenCL] -c [CUDA] -s <SizeOfVector> -d <DeviceId> -t <threads>'
 equemene
-equemene
+    try:
-equemene
+        opts, args = getopt.getopt(sys.argv[1:],"vnyaochs:d:t:",["size=","device="])
-equemene
+    except getopt.GetoptError:
-equemene
+        print(HowToUse % sys.argv[0])
-equemene
+        sys.exit(2)
 equemene
-equemene
+    # List of Devices
-equemene
+    Devices=[]
-equemene
+    Alu={}
 equemene
-equemene
+    for opt, arg in opts:
-equemene
+        if opt == '-h':
-equemene
+            print(HowToUse % sys.argv[0])
 equemene
-equemene
+            print("\nInformations about devices detected under OpenCL API:")
-equemene
+            # For PyOpenCL import
-equemene
+            try:
-equemene
+                import pyopencl as cl
-equemene
+                Id=0
-equemene
+                for platform in cl.get_platforms():
-equemene
+                    for device in platform.get_devices():
-equemene
+                        #deviceType=cl.device_type.to_string(device.type)
-equemene
+                        deviceType="xPU"
-equemene
+                        print("Device #%i from %s of type %s : %s" % (Id,platform.vendor.lstrip(),deviceType,device.name.lstrip()))
-equemene
+                        Id=Id+1
 equemene
-equemene
+            except:
-equemene
+                print("Your platform does not seem to support OpenCL")
 equemene
-equemene
+            print("\nInformations about devices detected under CUDA API:")
-equemene
+            # For PyCUDA import
-equemene
+            try:
-equemene
+                import pycuda.driver as cuda
-equemene
+                cuda.init()
-equemene
+                for Id in range(cuda.Device.count()):
-equemene
+                    device=cuda.Device(Id)
-equemene
+                    print("Device #%i of type GPU : %s" % (Id,device.name()))
-equemene
+                print
-equemene
+            except:
-equemene
+                print("Your platform does not seem to support CUDA")
 equemene
-equemene
+            sys.exit()
 equemene
-equemene
+        elif opt in ("-d", "--device"):
-equemene
+            Device=int(arg)
-equemene
+        elif opt in ("-s", "--size"):
-equemene
+            SIZE = int(arg)
-equemene
+        elif opt in ("-t", "--threads"):
-equemene
+            Threads = int(arg)
-equemene
+        elif opt in ("-n"):
-equemene
+            NaiveMethod=True
-equemene
+        elif opt in ("-y"):
-equemene
+            NumpyMethod=True
-equemene
+        elif opt in ("-a"):
-equemene
+            NumbaMethod=True
-equemene
+        elif opt in ("-o"):
-equemene
+            OpenCLMethod=True
-equemene
+        elif opt in ("-c"):
-equemene
+            CUDAMethod=True
 equemene
-equemene
+    print("Device Selection : %i" % Device)
-equemene
+    print("Size of complex vector : %i" % SIZE)
-equemene
+    print("DFT Naive computation %s " % NaiveMethod )
-equemene
+    print("DFT Numpy computation %s " % NumpyMethod )
-equemene
+    print("FFT Numpy computation %s " % NumpyFFTMethod )
-equemene
+    print("DFT Numba computation %s " % NumbaMethod )
-equemene
+    print("DFT OpenCL computation %s " % OpenCLMethod )
-equemene
+    print("FFT OpenCL computation %s " % OpenCLFFTMethod )
-equemene
+    print("DFT CUDA computation %s " % CUDAMethod )
 equemene
-equemene
+    if CUDAMethod:
-equemene
+        try:
-equemene
+            # For PyCUDA import
-equemene
+            import pycuda.driver as cuda
 equemene
-equemene
+            cuda.init()
-equemene
+            for Id in range(cuda.Device.count()):
-equemene
+                device=cuda.Device(Id)
-equemene
+                print("Device #%i of type GPU : %s" % (Id,device.name()))
-equemene
+                if Id in Devices:
-equemene
+                    Alu[Id]='GPU'
 equemene
-equemene
+        except ImportError:
-equemene
+            print("Platform does not seem to support CUDA")
 equemene
-equemene
+    if OpenCLMethod:
-equemene
+        try:
-equemene
+            # For PyOpenCL import
-equemene
+            import pyopencl as cl
-equemene
+            Id=0
-equemene
+            for platform in cl.get_platforms():
-equemene
+                for device in platform.get_devices():
-equemene
+                    #deviceType=cl.device_type.to_string(device.type)
-equemene
+                    deviceType="xPU"
-equemene
+                    print("Device #%i from %s of type %s : %s" % (Id,platform.vendor.lstrip().rstrip(),deviceType,device.name.lstrip().rstrip()))
 equemene
-equemene
+                    if Id in Devices:
-equemene
+                    # Set the Alu as detected Device Type
-equemene
+                        Alu[Id]=deviceType
-equemene
+                    Id=Id+1
-equemene
+        except ImportError:
-equemene
+            print("Platform does not seem to support OpenCL")
 equemene
 equemene
 equemene
-equemene
+    a_np = np.ones(SIZE).astype(np.float32)
-equemene
+    b_np = np.ones(SIZE).astype(np.float32)
-equemene
+    # a_np = np.random.rand(SIZE).astype(np.float32)
-equemene
+    # b_np = np.random.rand(SIZE).astype(np.float32)
 equemene
-equemene
+    C_np = np.zeros(SIZE).astype(np.float32)
-equemene
+    D_np = np.zeros(SIZE).astype(np.float32)
-equemene
+    C_np[0] = np.float32(SIZE)
-equemene
+    D_np[0] = np.float32(SIZE)
 equemene
-equemene
+    # Native & Naive Implementation
-equemene
+    if NaiveMethod:
-equemene
+        print("Performing naive implementation")
-equemene
+        TimeIn=time.time()
-equemene
+        c_np,d_np=MyDFT(a_np,b_np)
-equemene
+        NativeElapsed=time.time()-TimeIn
-equemene
+        NativeRate=int(SIZE/NativeElapsed)
-equemene
+        print("NativeRate: %i" % NativeRate)
-equemene
+        print("Precision: ",np.linalg.norm(c_np-C_np),
-equemene
+              np.linalg.norm(d_np-D_np))
 equemene
-equemene
+    # Native & Numpy Implementation
-equemene
+    if NumpyMethod:
-equemene
+        print("Performing Numpy implementation")
-equemene
+        TimeIn=time.time()
-equemene
+        e_np,f_np=NumpyDFT(a_np,b_np)
-equemene
+        NumpyElapsed=time.time()-TimeIn
-equemene
+        NumpyRate=int(SIZE/NumpyElapsed)
-equemene
+        print("NumpyRate: %i" % NumpyRate)
-equemene
+        print("Precision: ",np.linalg.norm(e_np-C_np),
-equemene
+              np.linalg.norm(f_np-D_np))
 equemene
-equemene
+    # Native & Numba Implementation
-equemene
+    if NumbaMethod:
-equemene
+        print("Performing Numba implementation")
-equemene
+        TimeIn=time.time()
-equemene
+        g_np,h_np=NumbaDFT(a_np,b_np)
-equemene
+        NumbaElapsed=time.time()-TimeIn
-equemene
+        NumbaRate=int(SIZE/NumbaElapsed)
-equemene
+        print("NumbaRate: %i" % NumbaRate)
-equemene
+        print("Precision: ",np.linalg.norm(g_np-C_np),
-equemene
+              np.linalg.norm(h_np-D_np))
 equemene
-equemene
+    # OpenCL Implementation
-equemene
+    if OpenCLMethod:
-equemene
+        print("Performing OpenCL implementation")
-equemene
+        TimeIn=time.time()
-equemene
+        i_np,j_np=OpenCLDFT(a_np,b_np,Device)
-equemene
+        OpenCLElapsed=time.time()-TimeIn
-equemene
+        OpenCLRate=int(SIZE/OpenCLElapsed)
-equemene
+        print("OpenCLRate: %i" % OpenCLRate)
-equemene
+        print("Precision: ",np.linalg.norm(i_np-C_np),
-equemene
+              np.linalg.norm(j_np-D_np))
 equemene
-equemene
+    # CUDA Implementation
-equemene
+    if CUDAMethod:
-equemene
+        print("Performing CUDA implementation")
-equemene
+        TimeIn=time.time()
-equemene
+        k_np,l_np=CUDADFT(a_np,b_np,Device,Threads)
-equemene
+        CUDAElapsed=time.time()-TimeIn
-equemene
+        CUDARate=int(SIZE/CUDAElapsed)
-equemene
+        print("CUDARate: %i" % CUDARate)
-equemene
+        print("Precision: ",np.linalg.norm(k_np-C_np),
-equemene
+              np.linalg.norm(l_np-D_np))
 equemene
-equemene
+    if NumpyFFTMethod:
-equemene
+        print("Performing NumpyFFT implementation")
-equemene
+        TimeIn=time.time()
-equemene
+        m_np,n_np=NumpyFFT(a_np,b_np)
-equemene
+        NumpyFFTElapsed=time.time()-TimeIn
-equemene
+        NumpyFFTRate=int(SIZE/NumpyFFTElapsed)
-equemene
+        print("NumpyFFTElapsed: %i" % NumpyFFTElapsed)
-equemene
+        print("NumpyFFTRate: %i" % NumpyFFTRate)
-equemene
+        print("Precision: ",np.linalg.norm(m_np-C_np),
-equemene
+              np.linalg.norm(n_np-D_np))
 equemene
-equemene
+    # OpenCL Implementation
-equemene
+    if OpenCLFFTMethod:
-equemene
+        print("Performing OpenCLFFT implementation")
-equemene
+        TimeIn=time.time()
-equemene
+        i_np,j_np=OpenCLFFT(a_np,b_np,Device)
-equemene
+        OpenCLFFTElapsed=time.time()-TimeIn
-equemene
+        OpenCLFFTRate=int(SIZE/OpenCLFFTElapsed)
-equemene
+        print("OpenCLFFTElapsed: %i" % OpenCLFFTElapsed)
-equemene
+        print("OpenCLFFTRate: %i" % OpenCLFFTRate)
-equemene
+        print("Precision: ",np.linalg.norm(i_np-C_np),
-equemene
+              np.linalg.norm(j_np-D_np))
 equemene
-equemene
+    if OpenCLMethod and NumpyFFTMethod:
-equemene
+        print(OpenCLMethod,NumpyFFTMethod)
-equemene
+        print("Precision: ",np.linalg.norm(m_np-i_np),
-equemene
+              np.linalg.norm(n_np-j_np))
-equemene
+        print((m_np-i_np),(n_np-j_np))
-equemene
+        print(i_np,j_np)
-equemene
+        print(m_np,n_np)
-equemene
+        print((i_np-m_np),(j_np-n_np))
 equemene
-equemene
+    if CUDAMethod and NumpyFFTMethod:
-equemene
+        print(CUDAMethod,NumpyFFTMethod)
-equemene
+        print("Precision: ",np.linalg.norm(m_np-k_np),
-equemene
+              np.linalg.norm(n_np-l_np))
-equemene
+        print((m_np-k_np),(n_np-l_np))
-equemene
+        print(k_np,l_np)
-equemene
+        print(m_np,n_np)
-equemene
+        print((k_np-m_np),(l_np-n_np))
 equemene
-equemene
+    if OpenCLMethod and NumpyMethod:
-equemene
+        print(OpenCLMethod,NumpyMethod)
-equemene
+        print("Precision: ",np.linalg.norm(e_np-i_np),
-equemene
+              np.linalg.norm(f_np-j_np))
-equemene
+        print((e_np-i_np),(f_np-j_np))
 equemene
-equemene
+    if NumpyFFTMethod and NumpyMethod:
-equemene
+        print(NumpyFFTMethod,NumpyMethod)
-equemene
+        print("Precision: ",np.linalg.norm(e_np-m_np),
-equemene
+              np.linalg.norm(f_np-n_np))
-equemene
+        print(e_np,f_np)
-equemene
+        print(m_np,n_np)
-equemene
+        print((e_np-m_np),(f_np-n_np))
 equemene
-equemene
+    if NumpyFFTMethod and NaiveMethod:
-equemene
+        print(NumpyFFTMethod,NaiveMethod)
-equemene
+        print("Precision: ",np.linalg.norm(c_np-m_np),
-equemene
+              np.linalg.norm(d_np-n_np))
-equemene
+        print(c_np,d_np)
-equemene
+        print(m_np,n_np)
-equemene
+        print((c_np-m_np),(d_np-n_np))
 equemene
-equemene
+    if NumpyFFTMethod and NumbaMethod:
-equemene
+        print(NumpyFFTMethod,NumbaMethod)
-equemene
+        print("Precision: ",np.linalg.norm(g_np-m_np),
-equemene
+              np.linalg.norm(h_np-n_np))
-equemene
+        print(g_np,h_np)
-equemene
+        print(m_np,n_np)
-equemene
+        print((g_np-m_np),(h_np-n_np))
 equemene
-equemene
+    if OpenCLFFTMethod and NumpyFFTMethod:
-equemene
+        print("NumpyOpenCLRatio: %f" % (OpenCLFFTRate/NumpyFFTRate))

Centre Blaise Pascal » Bench4GPU

root / ETSN / MyDFT_10.py @ 310