/Pi/XPU/PiXpuThreads.py - Annoter - Bench4GPU - Forge du Centre Blaise Pascal

root / Pi / XPU / PiXpuThreads.py @ 190

Historique | Voir | Annoter | Télécharger (11,37 ko)

-equemene
+#!/usr/bin/env python3
 equemene
 equemene
-equemene
+# Pi-by-MonteCarlo using PyCUDA/PyOpenCL
 equemene
-equemene
+# CC BY-NC-SA 2011 : Emmanuel QUEMENER <emmanuel.quemener@gmail.com>
-equemene
+# Cecill v2 : Emmanuel QUEMENER <emmanuel.quemener@gmail.com>
 equemene
-equemene
+# Thanks to Andreas Klockner for PyCUDA:
-equemene
+# http://mathema.tician.de/software/pycuda
-equemene
+# Thanks to Andreas Klockner for PyOpenCL:
-equemene
+# http://mathema.tician.de/software/pyopencl
 equemene
 equemene
-equemene
+# 2013-01-01 : problems with launch timeout
-equemene
+# http://stackoverflow.com/questions/497685/how-do-you-get-around-the-maximum-cuda-run-time
-equemene
+# Option "Interactive" "0" in /etc/X11/xorg.conf
 equemene
-equemene
+# Common tools
-equemene
+import numpy
-equemene
+from numpy.random import randint as nprnd
-equemene
+import sys
-equemene
+import getopt
-equemene
+import time
-equemene
+import math
-equemene
+import itertools
-equemene
+from socket import gethostname
 equemene
-equemene
+from threading import Thread
 equemene
-equemene
+from PiXPU import *
 equemene
-equemene
+class threadWithReturn(Thread):
-equemene
+    def __init__(self, *args, **kwargs):
-equemene
+        super(threadWithReturn, self).__init__(*args, **kwargs)
-equemene
+        self._return = None
 equemene
-equemene
+    def run(self):
-equemene
+        if self._target is not None:
-equemene
+            self._return = self._target(*self._args, **self._kwargs)
 equemene
-equemene
+    def join(self, *args, **kwargs):
-equemene
+        super(threadWithReturn, self).join(*args, **kwargs)
-equemene
+        return self._return
 equemene
-equemene
+if __name__=='__main__':
 equemene
-equemene
+    # Set defaults values
 equemene
-equemene
+    # Id of Device : 1 is for first find !
-equemene
+    Device=1
-equemene
+    # GPU style can be Cuda (Nvidia implementation) or OpenCL
-equemene
+    GpuStyle='OpenCL'
-equemene
+    # Iterations is integer
-equemene
+    Iterations=10000000
-equemene
+    # BlocksBlocks in first number of Blocks to explore
-equemene
+    BlocksBegin=1
-equemene
+    # BlocksEnd is last number of Blocks to explore
-equemene
+    BlocksEnd=16
-equemene
+    # BlocksStep is the step of Blocks to explore
-equemene
+    BlocksStep=1
-equemene
+    # ThreadsBlocks in first number of Blocks to explore
-equemene
+    ThreadsBegin=1
-equemene
+    # ThreadsEnd is last number of Blocks to explore
-equemene
+    ThreadsEnd=1
-equemene
+    # ThreadsStep is the step of Blocks to explore
-equemene
+    ThreadsStep=1
-equemene
+    # Redo is the times to redo the test to improve metrology
-equemene
+    Redo=1
-equemene
+    # OutMetrology is method for duration estimation : False is GPU inside
-equemene
+    OutMetrology=False
-equemene
+    Metrology='InMetro'
-equemene
+    # Curves is True to print the curves
-equemene
+    Curves=False
-equemene
+    # Fit is True to print the curves
-equemene
+    Fit=False
-equemene
+    # Marsaglia RNG
-equemene
+    RNG='MWC'
-equemene
+    # Value type : INT32, INT64, FP32, FP64
-equemene
+    ValueType='FP32'
-equemene
+    # Inside based on If
-equemene
+    IfThen=False
 equemene
-equemene
+    HowToUse='%s -c (Print Curves) -k (Case On IfThen) -d <DeviceId> -g <CUDA/OpenCL> -i <Iterations> -b <BlocksBegin> -e <BlocksEnd> -s <BlocksStep> -f <ThreadsFirst> -l <ThreadsLast> -t <ThreadssTep> -r <RedoToImproveStats> -m <SHR3/CONG/MWC/KISS> -v <INT32/INT64/FP32/FP64>'
 equemene
-equemene
+    try:
-equemene
+        opts, args = getopt.getopt(sys.argv[1:],"hckg:i:b:e:s:f:l:t:r:d:m:v:",["gpustyle=","iterations=","blocksBegin=","blocksEnd=","blocksStep=","threadsFirst=","threadsLast=","threadssTep=","redo=","device=","marsaglia=","valuetype="])
-equemene
+    except getopt.GetoptError:
-equemene
+        print(HowToUse % sys.argv[0])
-equemene
+        sys.exit(2)
 equemene
-equemene
+    # List of Devices
-equemene
+    Devices=[]
-equemene
+    Alu={}
 equemene
-equemene
+    for opt, arg in opts:
-equemene
+        if opt == '-h':
-equemene
+            print(HowToUse % sys.argv[0])
 equemene
-equemene
+            print("\nInformations about devices detected under OpenCL:")
-equemene
+            # For PyOpenCL import
-equemene
+            try:
-equemene
+                import pyopencl as cl
-equemene
+                Id=0
-equemene
+                for platform in cl.get_platforms():
-equemene
+                    for device in platform.get_devices():
-equemene
+                        #deviceType=cl.device_type.to_string(device.type)
-equemene
+                        deviceType="xPU"
-equemene
+                        print("Device #%i from %s of type %s : %s" % (Id,platform.vendor.lstrip(),deviceType,device.name.lstrip()))
-equemene
+                        Id=Id+1
 equemene
-equemene
+                print
-equemene
+            except ImportError:
-equemene
+                print("Your platform does not seem to support OpenCL")
 equemene
-equemene
+            print("\nInformations about devices detected under CUDA API:")
-equemene
+            # For PyCUDA import
-equemene
+            try:
-equemene
+                import pycuda.driver as cuda
-equemene
+                cuda.init()
-equemene
+                for Id in range(cuda.Device.count()):
-equemene
+                    device=cuda.Device(Id)
-equemene
+                    print("Device #%i of type GPU : %s" % (Id,device.name()))
-equemene
+                print
-equemene
+            except:
-equemene
+                print("Your platform does not seem to support CUDA")
 equemene
-equemene
+            sys.exit()
 equemene
-equemene
+        elif opt == '-c':
-equemene
+            Curves=True
-equemene
+        elif opt == '-k':
-equemene
+            IfThen=True
-equemene
+        elif opt in ("-d", "--device"):
-equemene
+            Devices.append(int(arg))
-equemene
+        elif opt in ("-g", "--gpustyle"):
-equemene
+            GpuStyle = arg
-equemene
+        elif opt in ("-m", "--marsaglia"):
-equemene
+            RNG = arg
-equemene
+        elif opt in ("-v", "--valuetype"):
-equemene
+            ValueType = arg
-equemene
+        elif opt in ("-i", "--iterations"):
-equemene
+            Iterations = numpy.uint64(arg)
-equemene
+        elif opt in ("-b", "--blocksbegin"):
-equemene
+            BlocksBegin = int(arg)
-equemene
+        elif opt in ("-e", "--blocksend"):
-equemene
+            BlocksEnd = int(arg)
-equemene
+        elif opt in ("-s", "--blocksstep"):
-equemene
+            BlocksStep = int(arg)
-equemene
+        elif opt in ("-f", "--threadsfirst"):
-equemene
+            ThreadsBegin = int(arg)
-equemene
+        elif opt in ("-l", "--threadslast"):
-equemene
+            ThreadsEnd = int(arg)
-equemene
+        elif opt in ("-t", "--threadsstep"):
-equemene
+            ThreadsStep = int(arg)
-equemene
+        elif opt in ("-r", "--redo"):
-equemene
+            Redo = int(arg)
 equemene
-equemene
+    print("Devices Identification : %s" % Devices)
-equemene
+    print("GpuStyle used : %s" % GpuStyle)
-equemene
+    print("Iterations : %s" % Iterations)
-equemene
+    print("Number of Blocks on begin : %s" % BlocksBegin)
-equemene
+    print("Number of Blocks on end : %s" % BlocksEnd)
-equemene
+    print("Step on Blocks : %s" % BlocksStep)
-equemene
+    print("Number of Threads on begin : %s" % ThreadsBegin)
-equemene
+    print("Number of Threads on end : %s" % ThreadsEnd)
-equemene
+    print("Step on Threads : %s" % ThreadsStep)
-equemene
+    print("Number of redo : %s" % Redo)
-equemene
+    print("Metrology done out of XPU : %r" % OutMetrology)
-equemene
+    print("Type of Marsaglia RNG used : %s" % RNG)
-equemene
+    print("Type of variable : %s" % ValueType)
 equemene
-equemene
+    if GpuStyle=='CUDA':
-equemene
+        try:
-equemene
+            # For PyCUDA import
-equemene
+            import pycuda.driver as cuda
 equemene
-equemene
+            cuda.init()
-equemene
+            for Id in range(cuda.Device.count()):
-equemene
+                device=cuda.Device(Id)
-equemene
+                print("Device #%i of type GPU : %s" % (Id,device.name()))
-equemene
+                if Id in Devices:
-equemene
+                    Alu[Id]='GPU'
-equemene
+        except ImportError:
-equemene
+            print("Platform does not seem to support CUDA")
 equemene
-equemene
+    if GpuStyle=='OpenCL':
-equemene
+        try:
-equemene
+            # For PyOpenCL import
-equemene
+            import pyopencl as cl
-equemene
+            Id=0
-equemene
+            for platform in cl.get_platforms():
-equemene
+                for device in platform.get_devices():
-equemene
+                    #deviceType=cl.device_type.to_string(device.type)
-equemene
+                    deviceType="*PU"
-equemene
+                    print("Device #%i from %s of type %s : %s" % (Id,platform.vendor.lstrip().rstrip(),deviceType,device.name.lstrip().rstrip()))
 equemene
-equemene
+                    if Id in Devices:
-equemene
+                    # Set the Alu as detected Device Type
-equemene
+                        Alu[Id]=deviceType
-equemene
+                    Id=Id+1
-equemene
+        except ImportError:
-equemene
+            print("Platform does not seem to support OpenCL")
 equemene
-equemene
+    print(Devices,Alu)
 equemene
-equemene
+    BlocksList=range(BlocksBegin,BlocksEnd+BlocksStep,BlocksStep)
-equemene
+    ThreadsList=range(ThreadsBegin,ThreadsEnd+ThreadsStep,ThreadsStep)
 equemene
-equemene
+    ExploredJobs=numpy.array([]).astype(numpy.uint32)
-equemene
+    ExploredBlocks=numpy.array([]).astype(numpy.uint32)
-equemene
+    ExploredThreads=numpy.array([]).astype(numpy.uint32)
-equemene
+    avgD=numpy.array([]).astype(numpy.float32)
-equemene
+    medD=numpy.array([]).astype(numpy.float32)
-equemene
+    stdD=numpy.array([]).astype(numpy.float32)
-equemene
+    minD=numpy.array([]).astype(numpy.float32)
-equemene
+    maxD=numpy.array([]).astype(numpy.float32)
-equemene
+    avgR=numpy.array([]).astype(numpy.float32)
-equemene
+    medR=numpy.array([]).astype(numpy.float32)
-equemene
+    stdR=numpy.array([]).astype(numpy.float32)
-equemene
+    minR=numpy.array([]).astype(numpy.float32)
-equemene
+    maxR=numpy.array([]).astype(numpy.float32)
 equemene
-equemene
+    for Blocks,Threads in itertools.product(BlocksList,ThreadsList):
 equemene
-equemene
+        ExploredJobs=numpy.append(ExploredJobs,Blocks*Threads)
-equemene
+        ExploredBlocks=numpy.append(ExploredBlocks,Blocks)
-equemene
+        ExploredThreads=numpy.append(ExploredThreads,Threads)
 equemene
-equemene
+        IterationsMP=Iterations/len(Devices)
-equemene
+        if Iterations%len(Devices)!=0:
-equemene
+            IterationsMP+=1
 equemene
-equemene
+        DurationItem=numpy.array([]).astype(numpy.float32)
-equemene
+        Duration=numpy.array([]).astype(numpy.float32)
-equemene
+        Rate=numpy.array([]).astype(numpy.float32)
-equemene
+        for i in range(Redo):
-equemene
+            MyThreads=[]
-equemene
+            time_start=time.time()
 equemene
-equemene
+            for Device in Devices:
-equemene
+                InputCL={}
-equemene
+                InputCL['Iterations']=IterationsMP
-equemene
+                InputCL['Steps']=1
-equemene
+                InputCL['Blocks']=Blocks
-equemene
+                InputCL['Threads']=Threads
-equemene
+                InputCL['Device']=Device
-equemene
+                InputCL['RNG']=RNG
-equemene
+                InputCL['ValueType']=ValueType
-equemene
+                InputCL['IfThen']=IfThen
-equemene
+                if GpuStyle=='CUDA':
-equemene
+                    try:
-equemene
+                        MyThread=threadWithReturn(target=MetropolisCuda, args=(InputCL,))
-equemene
+                    except:
-equemene
+                        print("Problem with (%i,%i) // computations on Cuda" % (Blocks,Threads))
-equemene
+                elif GpuStyle=='OpenCL':
-equemene
+                    try:
-equemene
+                        MyThread=threadWithReturn(target=MetropolisOpenCL, args=(InputCL,))
-equemene
+                    except:
-equemene
+                        print("Problem with (%i,%i) // computations on OpenCL" % (Blocks,Threads)            )
 equemene
-equemene
+                print("Start on #%i device..." % Device)
-equemene
+                MyThread.start()
-equemene
+                MyThreads.append(MyThread)
 equemene
-equemene
+            NewIterations=0
-equemene
+            Inside=0
-equemene
+            for MyThread in MyThreads:
-equemene
+                OutputCL=MyThread.join()
-equemene
+                NewIterations+=OutputCL['NewIterations']
-equemene
+                Inside+=OutputCL['Inside']
-equemene
+            print("Pi estimation %.8f" % (4./NewIterations*Inside))
 equemene
-equemene
+            Duration=numpy.append(Duration,time.time()-time_start)
-equemene
+            Rate=numpy.append(Rate,NewIterations/Duration[-1])
 equemene
-equemene
+        avgD=numpy.append(avgD,numpy.average(Duration))
-equemene
+        medD=numpy.append(medD,numpy.median(Duration))
-equemene
+        stdD=numpy.append(stdD,numpy.std(Duration))
-equemene
+        minD=numpy.append(minD,numpy.min(Duration))
-equemene
+        maxD=numpy.append(maxD,numpy.max(Duration))
-equemene
+        avgR=numpy.append(avgR,numpy.average(Rate))
-equemene
+        medR=numpy.append(medR,numpy.median(Rate))
-equemene
+        stdR=numpy.append(stdR,numpy.std(Rate))
-equemene
+        minR=numpy.append(minR,numpy.min(Rate))
-equemene
+        maxR=numpy.append(maxR,numpy.max(Rate))
 equemene
-equemene
+        print("%.2f %.2f %.2f %.2f %.2f %i %i %i %i %i" % (avgD[-1],medD[-1],stdD[-1],minD[-1],maxD[-1],avgR[-1],medR[-1],stdR[-1],minR[-1],maxR[-1]))
 equemene
-equemene
+        numpy.savez("PiThreads_%s_%s_%s_%s_%s_%s_%s_%s_%.8i_Device%i_%s_%s" % (ValueType,RNG,Alu[Devices[0]],GpuStyle,BlocksBegin,BlocksEnd,ThreadsBegin,ThreadsEnd,Iterations,Devices[0],Metrology,gethostname()),(ExploredBlocks,ExploredThreads,avgD,medD,stdD,minD,maxD,avgR,medR,stdR,minR,maxR))
-equemene
+        ToSave=[ ExploredBlocks,ExploredThreads,avgD,medD,stdD,minD,maxD,avgR,medR,stdR,minR,maxR ]
-equemene
+        numpy.savetxt("PiThreads_%s_%s_%s_%s_%s_%s_%s_%i_%.8i_Device%i_%s_%s" % (ValueType,RNG,Alu[Devices[0]],GpuStyle,BlocksBegin,BlocksEnd,ThreadsBegin,ThreadsEnd,Iterations,Devices[0],Metrology,gethostname()),numpy.transpose(ToSave),fmt='%i %i %e %e %e %e %e %i %i %i %i %i')
 equemene
-equemene
+    if Fit:
-equemene
+        FitAndPrint(ExploredJobs,median,Curves)

Centre Blaise Pascal » Bench4GPU

root / Pi / XPU / PiXpuThreads.py @ 190