/Pi/XPU/PiXpuMPI.py - Annoter - Bench4GPU - Forge du Centre Blaise Pascal

root / Pi / XPU / PiXpuMPI.py @ 287

Historique | Voir | Annoter | Télécharger (14,26 ko)

-equemene
+#!/usr/bin/env python3
 equemene
 equemene
-equemene
+# Pi-by-MonteCarlo using PyCUDA/PyOpenCL
 equemene
-equemene
+# CC BY-NC-SA 2011 : Emmanuel QUEMENER <emmanuel.quemener@gmail.com>
-equemene
+# Cecill v2 : Emmanuel QUEMENER <emmanuel.quemener@gmail.com>
 equemene
-equemene
+# Thanks to Andreas Klockner for PyCUDA:
-equemene
+# http://mathema.tician.de/software/pycuda
-equemene
+# Thanks to Andreas Klockner for PyOpenCL:
-equemene
+# http://mathema.tician.de/software/pyopencl
 equemene
 equemene
-equemene
+# 2013-01-01 : problems with launch timeout
-equemene
+# http://stackoverflow.com/questions/497685/how-do-you-get-around-the-maximum-cuda-run-time
-equemene
+# Option "Interactive" "0" in /etc/X11/xorg.conf
 equemene
-equemene
+# Common tools
-equemene
+import numpy
-equemene
+from numpy.random import randint as nprnd
-equemene
+import sys
-equemene
+import getopt
-equemene
+import time
-equemene
+import math
-equemene
+import itertools
-equemene
+from socket import gethostname
 equemene
-equemene
+import mpi4py
-equemene
+from mpi4py import MPI
 equemene
-equemene
+from PiXPU import *
 equemene
-equemene
+if __name__=='__main__':
 equemene
-equemene
+    # MPI Init
-equemene
+    comm = MPI.COMM_WORLD
-equemene
+    rank = comm.Get_rank()
 equemene
-equemene
+    # Define number of Nodes on with computing is performed (exclude 0)
-equemene
+    RankSize=comm.Get_size()
 equemene
-equemene
+    if rank == 0:
 equemene
-equemene
+        # Set defaults values
 equemene
-equemene
+        # Id of Device : 1 is for first find !
-equemene
+        Device=1
-equemene
+        # GPU style can be Cuda (Nvidia implementation) or OpenCL
-equemene
+        GpuStyle='OpenCL'
-equemene
+        # Iterations is integer
-equemene
+        Iterations=10000000
-equemene
+        # BlocksBlocks in first number of Blocks to explore
-equemene
+        BlocksBegin=1
-equemene
+        # BlocksEnd is last number of Blocks to explore
-equemene
+        BlocksEnd=16
-equemene
+        # BlocksStep is the step of Blocks to explore
-equemene
+        BlocksStep=1
-equemene
+        # ThreadsBlocks in first number of Blocks to explore
-equemene
+        ThreadsBegin=1
-equemene
+        # ThreadsEnd is last number of Blocks to explore
-equemene
+        ThreadsEnd=1
-equemene
+        # ThreadsStep is the step of Blocks to explore
-equemene
+        ThreadsStep=1
-equemene
+        # Redo is the times to redo the test to improve metrology
-equemene
+        Redo=1
-equemene
+        # OutMetrology is method for duration estimation : False is GPU inside
-equemene
+        OutMetrology=False
-equemene
+        Metrology='InMetro'
-equemene
+        # Curves is True to print the curves
-equemene
+        Curves=False
-equemene
+        # Fit is True to print the curves
-equemene
+        Fit=False
-equemene
+        # Marsaglia RNG
-equemene
+        RNG='MWC'
-equemene
+        # Seeds
-equemene
+        Seeds=110271,101008
-equemene
+        # Value type : INT32, INT64, FP32, FP64
-equemene
+        ValueType='FP32'
-equemene
+        # Inside based on If
-equemene
+        IfThen=False
 equemene
-equemene
+        HowToUse='%s -c (Print Curves) -k (Case On IfThen) -d <DeviceId> -g <CUDA/OpenCL> -i <Iterations> -b <BlocksBegin> -e <BlocksEnd> -s <BlocksStep> -f <ThreadsFirst> -l <ThreadsLast> -t <ThreadssTep> -r <RedoToImproveStats> -m <SHR3/CONG/MWC/KISS> -v <INT32/INT64/FP32/FP64>'
 equemene
-equemene
+        try:
-equemene
+            opts, args = getopt.getopt(sys.argv[1:],"hckg:i:b:e:s:f:l:t:r:d:m:v:",["gpustyle=","iterations=","blocksBegin=","blocksEnd=","blocksStep=","threadsFirst=","threadsLast=","threadssTep=","redo=","device=","marsaglia=","valuetype="])
-equemene
+        except getopt.GetoptError:
-equemene
+            print(HowToUse % sys.argv[0])
-equemene
+            sys.exit(2)
 equemene
-equemene
+        # List of Devices
-equemene
+        Devices=[]
-equemene
+        Alu={}
 equemene
-equemene
+        for opt, arg in opts:
-equemene
+            if opt == '-h':
-equemene
+                print(HowToUse % sys.argv[0])
 equemene
-equemene
+                print("\nInformations about devices detected under OpenCL:")
-equemene
+                # For PyOpenCL import
-equemene
+                try:
-equemene
+                    import pyopencl as cl
-equemene
+                    Id=0
-equemene
+                    for platform in cl.get_platforms():
-equemene
+                        for device in platform.get_devices():
-equemene
+                            #deviceType=cl.device_type.to_string(device.type)
-equemene
+                            deviceType="xPU"
-equemene
+                            print("Device #%i from %s of type %s : %s" % (Id,platform.vendor.lstrip(),deviceType,device.name.lstrip()))
-equemene
+                            Id=Id+1
 equemene
-equemene
+                    print
-equemene
+                except:
-equemene
+                    print("Your platform does not seem to support OpenCL")
 equemene
-equemene
+                print("\nInformations about devices detected under CUDA API:")
-equemene
+                # For PyCUDA import
-equemene
+                try:
-equemene
+                    import pycuda.driver as cuda
-equemene
+                    cuda.init()
-equemene
+                    for Id in range(cuda.Device.count()):
-equemene
+                        device=cuda.Device(Id)
-equemene
+                        print("Device #%i of type GPU : %s" % (Id,device.name()))
-equemene
+                    print
-equemene
+                except:
-equemene
+                    print("Your platform does not seem to support CUDA")
 equemene
-equemene
+                sys.exit()
 equemene
-equemene
+            elif opt == '-c':
-equemene
+                Curves=True
-equemene
+            elif opt == '-k':
-equemene
+                IfThen=True
-equemene
+            elif opt in ("-d", "--device"):
-equemene
+                Devices.append(int(arg))
-equemene
+            elif opt in ("-g", "--gpustyle"):
-equemene
+                GpuStyle = arg
-equemene
+            elif opt in ("-m", "--marsaglia"):
-equemene
+                RNG = arg
-equemene
+            elif opt in ("-v", "--valuetype"):
-equemene
+                ValueType = arg
-equemene
+            elif opt in ("-i", "--iterations"):
-equemene
+                Iterations = numpy.uint64(arg)
-equemene
+            elif opt in ("-b", "--blocksbegin"):
-equemene
+                BlocksBegin = int(arg)
-equemene
+                BlocksEnd = BlocksBegin
-equemene
+            elif opt in ("-e", "--blocksend"):
-equemene
+                BlocksEnd = int(arg)
-equemene
+            elif opt in ("-s", "--blocksstep"):
-equemene
+                BlocksStep = int(arg)
-equemene
+            elif opt in ("-f", "--threadsfirst"):
-equemene
+                ThreadsBegin = int(arg)
-equemene
+                ThreadsEnd = ThreadsBegin
-equemene
+            elif opt in ("-l", "--threadslast"):
-equemene
+                ThreadsEnd = int(arg)
-equemene
+            elif opt in ("-t", "--threadsstep"):
-equemene
+                ThreadsStep = int(arg)
-equemene
+            elif opt in ("-r", "--redo"):
-equemene
+                Redo = int(arg)
 equemene
-equemene
+        print("Devices Identification : %s" % Devices)
-equemene
+        print("GpuStyle used : %s" % GpuStyle)
-equemene
+        print("Iterations : %s" % Iterations)
-equemene
+        print("Number of Blocks on begin : %s" % BlocksBegin)
-equemene
+        print("Number of Blocks on end : %s" % BlocksEnd)
-equemene
+        print("Step on Blocks : %s" % BlocksStep)
-equemene
+        print("Number of Threads on begin : %s" % ThreadsBegin)
-equemene
+        print("Number of Threads on end : %s" % ThreadsEnd)
-equemene
+        print("Step on Threads : %s" % ThreadsStep)
-equemene
+        print("Number of redo : %s" % Redo)
-equemene
+        print("Metrology done out of XPU : %r" % OutMetrology)
-equemene
+        print("Type of Marsaglia RNG used : %s" % RNG)
-equemene
+        print("Type of variable : %s" % ValueType)
 equemene
-equemene
+        if GpuStyle=='CUDA':
-equemene
+            try:
-equemene
+                # For PyCUDA import
-equemene
+                import pycuda.driver as cuda
 equemene
-equemene
+                cuda.init()
-equemene
+                for Id in range(cuda.Device.count()):
-equemene
+                    device=cuda.Device(Id)
-equemene
+                    print("Device #%i of type GPU : %s" % (Id,device.name()))
-equemene
+                    if Id in Devices:
-equemene
+                        Alu[Id]='GPU'
-equemene
+            except ImportError:
-equemene
+                print("Platform does not seem to support CUDA")
 equemene
-equemene
+        if GpuStyle=='OpenCL':
-equemene
+            try:
-equemene
+                # For PyOpenCL import
-equemene
+                import pyopencl as cl
-equemene
+                Id=0
-equemene
+                for platform in cl.get_platforms():
-equemene
+                    for device in platform.get_devices():
-equemene
+                        #deviceType=cl.device_type.to_string(device.type)
-equemene
+                        deviceType="xPU"
-equemene
+                        print("Device #%i from %s of type %s : %s" % (Id,platform.vendor.lstrip().rstrip(),deviceType,device.name.lstrip().rstrip()))
 equemene
-equemene
+                        if Id in Devices:
-equemene
+                            # Set the Alu as detected Device Type
-equemene
+                            Alu[Id]=deviceType
-equemene
+                        Id=Id+1
-equemene
+            except ImportError:
-equemene
+                print("Platform does not seem to support OpenCL")
 equemene
-equemene
+        print(Devices,Alu)
 equemene
-equemene
+        BlocksList=range(BlocksBegin,BlocksEnd+BlocksStep,BlocksStep)
-equemene
+        ThreadsList=range(ThreadsBegin,ThreadsEnd+ThreadsStep,ThreadsStep)
 equemene
-equemene
+        ExploredJobs=numpy.array([]).astype(numpy.uint32)
-equemene
+        ExploredBlocks=numpy.array([]).astype(numpy.uint32)
-equemene
+        ExploredThreads=numpy.array([]).astype(numpy.uint32)
-equemene
+        avgD=numpy.array([]).astype(numpy.float32)
-equemene
+        medD=numpy.array([]).astype(numpy.float32)
-equemene
+        stdD=numpy.array([]).astype(numpy.float32)
-equemene
+        minD=numpy.array([]).astype(numpy.float32)
-equemene
+        maxD=numpy.array([]).astype(numpy.float32)
-equemene
+        avgR=numpy.array([]).astype(numpy.float32)
-equemene
+        medR=numpy.array([]).astype(numpy.float32)
-equemene
+        stdR=numpy.array([]).astype(numpy.float32)
-equemene
+        minR=numpy.array([]).astype(numpy.float32)
-equemene
+        maxR=numpy.array([]).astype(numpy.float32)
 equemene
-equemene
+        IterationsMPI=numpy.uint64(Iterations/len(Devices))
-equemene
+        if Iterations%len(Devices)!=0:
-equemene
+            IterationsMPI+=1
 equemene
-equemene
+        for Blocks,Threads in itertools.product(BlocksList,ThreadsList):
 equemene
-equemene
+            ExploredJobs=numpy.append(ExploredJobs,Blocks*Threads)
-equemene
+            ExploredBlocks=numpy.append(ExploredBlocks,Blocks)
-equemene
+            ExploredThreads=numpy.append(ExploredThreads,Threads)
 equemene
-equemene
+            DurationItem=numpy.array([]).astype(numpy.float32)
-equemene
+            Duration=numpy.array([]).astype(numpy.float32)
-equemene
+            Rate=numpy.array([]).astype(numpy.float32)
 equemene
-equemene
+            for i in range(Redo):
-equemene
+                time_start=time.time()
 equemene
-equemene
+                r=1
-equemene
+                # Distribution of Devices over nodes
-equemene
+                InputCL={}
-equemene
+                InputCL['Iterations']=IterationsMPI
-equemene
+                InputCL['Steps']=1
-equemene
+                InputCL['Blocks']=Blocks
-equemene
+                InputCL['Threads']=Threads
-equemene
+                InputCL['RNG']=RNG
-equemene
+                InputCL['ValueType']=ValueType
-equemene
+                InputCL['GpuStyle']=GpuStyle
-equemene
+                InputCL['IfThen']=IfThen
 equemene
-equemene
+                for Device in Devices[1:]:
-equemene
+                    print("Send to device %i on rank %i" % (Device,r))
-equemene
+                    InputCL['Device']=Device
-equemene
+                    DeltaD=Device-min(Devices)+r+1
-equemene
+                    DeltaS=(DeltaD-1+r)*524287
-equemene
+                    InputCL['Seeds']=numpy.uint32(Seeds[0]*DeltaD+DeltaS),numpy.uint32(Seeds[1]*DeltaD+DeltaS)
-equemene
+                    comm.send('CONTINUE',dest=r,tag=11)
-equemene
+                    comm.send(InputCL,dest=r,tag=11)
-equemene
+                    r+=1
 equemene
-equemene
+                # Compute on rank 0
-equemene
+                print("Compute on rank 0")
-equemene
+                DeltaD=Device-min(Devices)+1
-equemene
+                DeltaS=(DeltaD-1)*524287
-equemene
+                InputCL['Seeds']=numpy.uint32(Seeds[0]*DeltaD+DeltaS),numpy.uint32(Seeds[1]*DeltaD+DeltaS)
-equemene
+                InputCL['Device']=Devices[0]
 equemene
-equemene
+                if GpuStyle=='CUDA':
-equemene
+                    try:
-equemene
+                        OutputCL=MetropolisCuda(InputCL)
-equemene
+                    except:
-equemene
+                        print("Problem with (%i,%i) // computations on Cuda" % (Blocks,Threads))
-equemene
+                elif GpuStyle=='OpenCL':
-equemene
+                    try:
-equemene
+                        OutputCL=MetropolisOpenCL(InputCL)
-equemene
+                    except:
-equemene
+                        print("Problem with (%i,%i) // computations on OpenCL" %  (Blocks,Threads))
 equemene
-equemene
+                Inside=OutputCL['Inside']
-equemene
+                NewIterations=OutputCL['NewIterations']
 equemene
-equemene
+                for slave in range(1,len(Devices)):
-equemene
+                    print("Get OutputCL from %i" % slave)
-equemene
+                    OutputCL=comm.recv(source=slave,tag=11)
-equemene
+                    print(OutputCL)
-equemene
+                    NewIterations+=OutputCL['NewIterations']
-equemene
+                    Inside+=OutputCL['Inside']
 equemene
-equemene
+                Duration=numpy.append(Duration,time.time()-time_start)
-equemene
+                Rate=numpy.append(Rate,NewIterations/Duration[-1])
 equemene
-equemene
+                print("Itops %i\nLogItops %.2f " % (int(Rate[-1]),numpy.log(Rate[-1])/numpy.log(10)))
-equemene
+                print("Pi estimation %.8f" % (4./NewIterations*Inside))
 equemene
-equemene
+            avgD=numpy.append(avgD,numpy.average(Duration))
-equemene
+            medD=numpy.append(medD,numpy.median(Duration))
-equemene
+            stdD=numpy.append(stdD,numpy.std(Duration))
-equemene
+            minD=numpy.append(minD,numpy.min(Duration))
-equemene
+            maxD=numpy.append(maxD,numpy.max(Duration))
-equemene
+            avgR=numpy.append(avgR,numpy.average(Rate))
-equemene
+            medR=numpy.append(medR,numpy.median(Rate))
-equemene
+            stdR=numpy.append(stdR,numpy.std(Rate))
-equemene
+            minR=numpy.append(minR,numpy.min(Rate))
-equemene
+            maxR=numpy.append(maxR,numpy.max(Rate))
 equemene
-equemene
+            print("%.2f %.2f %.2f %.2f %.2f %i %i %i %i %i" % (avgD[-1],medD[-1],stdD[-1],minD[-1],maxD[-1],avgR[-1],medR[-1],stdR[-1],minR[-1],maxR[-1]))
 equemene
-equemene
+            numpy.savez("PiMPI_%s_%s_%s_%s_%s_%s_%s_%s_%.8i_Device%i_%s_%s" % (ValueType,RNG,Alu[Devices[0]],GpuStyle,BlocksBegin,BlocksEnd,ThreadsBegin,ThreadsEnd,Iterations,Devices[0],Metrology,gethostname()),(ExploredBlocks,ExploredThreads,avgD,medD,stdD,minD,maxD,avgR,medR,stdR,minR,maxR))
-equemene
+            ToSave=[ ExploredBlocks,ExploredThreads,avgD,medD,stdD,minD,maxD,avgR,medR,stdR,minR,maxR ]
-equemene
+            numpy.savetxt("PiMPI_%s_%s_%s_%s_%s_%s_%s_%i_%.8i_Device%i_%s_%s" % (ValueType,RNG,Alu[Devices[0]],GpuStyle,BlocksBegin,BlocksEnd,ThreadsBegin,ThreadsEnd,Iterations,Devices[0],Metrology,gethostname()),numpy.transpose(ToSave),fmt='%i %i %e %e %e %e %e %i %i %i %i %i')
 equemene
-equemene
+            if Fit:
-equemene
+                FitAndPrint(ExploredJobs,median,Curves)
-equemene
+        # Send MPI exit tag
-equemene
+        for slave in range(1,RankSize):
-equemene
+            comm.send('BREAK',dest=slave,tag=11)
 equemene
-equemene
+    else:
-equemene
+        while True:
-equemene
+            Signal=comm.recv(source=0,tag=11)
-equemene
+            if Signal=='CONTINUE':
-equemene
+                # Receive information from Master
-equemene
+                InputCL=comm.recv(source=0,tag=11)
-equemene
+                print("Parameters retreive for rank %s of %s on %s from master:" % (rank,RankSize,gethostname()))
-equemene
+                print("Input CL:" % InputCL)
-equemene
+                # Execute on slave
 equemene
-equemene
+                if InputCL['GpuStyle']=='CUDA':
-equemene
+                    try:
-equemene
+                        OutputCL=MetropolisCuda(InputCL)
-equemene
+                    except:
-equemene
+                        print("Problem with (%i,%i) // computations on Cuda" % (InputCL['Blocks'],InputCL['Threads']))
-equemene
+                elif InputCL['GpuStyle']=='OpenCL':
-equemene
+                    try:
-equemene
+                        OutputCL=MetropolisOpenCL(InputCL)
-equemene
+                    except:
-equemene
+                        print("Problem with (%i,%i) // computations on OpenCL" %  (InputCL['Blocks'],InputCL['Threads']))
 equemene
-equemene
+                print("Output CL:" % OutputCL)
-equemene
+                # Send information to Master
-equemene
+                comm.send(OutputCL,dest=0,tag=11)
-equemene
+                print("Data sent to master")
-equemene
+            else:
-equemene
+                print('Exit signal from Master')
-equemene
+                break

Centre Blaise Pascal » Bench4GPU

root / Pi / XPU / PiXpuMPI.py @ 287