/NBody/NBody.py - Annoter - Bench4GPU - Forge du Centre Blaise Pascal

root / NBody / NBody.py @ 162

Historique | Voir | Annoter | Télécharger (20,29 ko)

-equemene
+#!/usr/bin/env python3
-equemene
+# -*- coding: utf-8 -*-
-equemene
+"""
-equemene
+Demonstrateur OpenCL d'interaction NCorps
 equemene
-equemene
+Emmanuel QUEMENER <emmanuel.quemener@ens-lyon.fr> CeCILLv2
-equemene
+"""
-equemene
+import getopt
-equemene
+import sys
-equemene
+import time
-equemene
+import numpy as np
-equemene
+import pyopencl as cl
-equemene
+import pyopencl.array as cl_array
-equemene
+from numpy.random import randint as nprnd
 equemene
-equemene
+def DictionariesAPI():
-equemene
+    Marsaglia={'CONG':0,'SHR3':1,'MWC':2,'KISS':3}
-equemene
+    Computing={'FP32':0,'FP64':1}
-equemene
+    return(Marsaglia,Computing)
 equemene
-equemene
+BlobOpenCL= """
-equemene
+#define znew  ((z=36969*(z&65535)+(z>>16))<<16)
-equemene
+#define wnew  ((w=18000*(w&65535)+(w>>16))&65535)
-equemene
+#define MWC   (znew+wnew)
-equemene
+#define SHR3  (jsr=(jsr=(jsr=jsr^(jsr<<17))^(jsr>>13))^(jsr<<5))
-equemene
+#define CONG  (jcong=69069*jcong+1234567)
-equemene
+#define KISS  ((MWC^CONG)+SHR3)
 equemene
-equemene
+#define TFP32 0
-equemene
+#define TFP64 1
 equemene
-equemene
+#define LENGTH 1.e0f
 equemene
-equemene
+#if TYPE == TFP32
-equemene
+#define MYFLOAT4 float4
-equemene
+#define MYFLOAT8 float8
-equemene
+#define MYFLOAT float
-equemene
+#define DISTANCE fast_distance
-equemene
+#else
-equemene
+#if defined(cl_khr_fp64)  // Khronos extension available?
-equemene
+#pragma OPENCL EXTENSION cl_khr_fp64 : enable
-equemene
+#define DOUBLE_SUPPORT_AVAILABLE
-equemene
+#elif defined(cl_amd_fp64)  // AMD extension available?
-equemene
+#pragma OPENCL EXTENSION cl_amd_fp64 : enable
-equemene
+#define DOUBLE_SUPPORT_AVAILABLE
-equemene
+#endif
-equemene
+#define MYFLOAT4 double4
-equemene
+#define MYFLOAT8 double8
-equemene
+#define MYFLOAT double
-equemene
+#define DISTANCE distance
-equemene
+#endif
 equemene
-equemene
+#define MWCfp (MYFLOAT)(MWC * 2.3283064365386963e-10f)
-equemene
+#define KISSfp (MYFLOAT)(KISS * 2.3283064365386963e-10f)
-equemene
+#define SHR3fp (MYFLOAT)(SHR3 * 2.3283064365386963e-10f)
-equemene
+#define CONGfp (MYFLOAT)(CONG * 2.3283064365386963e-10f)
 equemene
-equemene
+#define PI (MYFLOAT)3.141592653589793238462643197169399375105820974944592307816406286e0f
 equemene
-equemene
+#define SMALL_NUM 1.e-9f
 equemene
-equemene
+MYFLOAT4 Interaction(MYFLOAT4 m,MYFLOAT4 n)
 equemene
-equemene
+    private MYFLOAT r=DISTANCE(n,m);
 equemene
-equemene
+    return((n-m)/(MYFLOAT)(r*r*r));
 equemene
 equemene
-equemene
+MYFLOAT4 InteractionCore(MYFLOAT4 m,MYFLOAT4 n)
 equemene
-equemene
+    private MYFLOAT core=(MYFLOAT)1.e5f;
-equemene
+    private MYFLOAT r=DISTANCE(n,m);
-equemene
+    private MYFLOAT d=r*r+core*core;
 equemene
-equemene
+    return(core*(n-m)/(MYFLOAT)(d*d));
 equemene
 equemene
-equemene
+MYFLOAT PairPotential(MYFLOAT4 m,MYFLOAT4 n)
 equemene
-equemene
+    return((MYFLOAT)(-1.e0f)/(DISTANCE(n,m)));
 equemene
 equemene
-equemene
+MYFLOAT AtomicPotential(__global MYFLOAT4* clDataX,int gid)
 equemene
-equemene
+    private MYFLOAT potential=(MYFLOAT)0.e0f;
-equemene
+    private MYFLOAT4 x=clDataX[gid];
 equemene
-equemene
+    for (int i=0;i<get_global_size(0);i++)
 equemene
-equemene
+        if (gid != i)
-equemene
+        potential+=PairPotential(x,clDataX[i]);
 equemene
 equemene
-equemene
+    barrier(CLK_GLOBAL_MEM_FENCE);
-equemene
+    return(potential);
 equemene
 equemene
-equemene
+MYFLOAT AtomicPotentialCoM(__global MYFLOAT4* clDataX,__global MYFLOAT4* clCoM,int gid)
 equemene
-equemene
+    return(PairPotential(clDataX[gid],clCoM[0]));
 equemene
 equemene
-equemene
+MYFLOAT8 AtomicRungeKutta(__global MYFLOAT4* clDataInX,__global MYFLOAT4* clDataInV,int gid,MYFLOAT dt)
 equemene
-equemene
+    private MYFLOAT4 a0,v0,x0,a1,v1,x1,a2,v2,x2,a3,v3,x3,a4,v4,x4,xf,vf;
 equemene
-equemene
+    a0=(MYFLOAT4)(0.e0f,0.e0f,0.e0f,0.e0f);
-equemene
+    v0=(MYFLOAT4)clDataInV[gid];
-equemene
+    x0=(MYFLOAT4)clDataInX[gid];
-equemene
+    int N = get_global_size(0);
 equemene
-equemene
+    for (int i=0;i<N;i++)
 equemene
-equemene
+        if (gid != i)
-equemene
+        a0+=Interaction(x0,clDataInX[i]);
 equemene
 equemene
-equemene
+    a1=(MYFLOAT4)(0.e0f,0.e0f,0.e0f,0.e0f);
-equemene
+    v1=v0+a0*dt;
-equemene
+    x1=x0+v0*dt;
-equemene
+    for (int i=0;i<N;i++)
 equemene
-equemene
+        if (gid != i)
-equemene
+        a1+=Interaction(x1,clDataInX[i]);
 equemene
 equemene
-equemene
+    a2=(MYFLOAT4)(0.e0f,0.e0f,0.e0f,0.e0f);
-equemene
+    v2=v0+a1*dt*(MYFLOAT)5.e-1f;
-equemene
+    x2=x0+v1*dt*(MYFLOAT)5.e-1f;
-equemene
+    for (int i=0;i<N;i++)
 equemene
-equemene
+        if (gid != i)
-equemene
+        a2+=Interaction(x2,clDataInX[i]);
 equemene
 equemene
-equemene
+    a3=(MYFLOAT4)(0.e0f,0.e0f,0.e0f,0.e0f);
-equemene
+    v3=v0+a2*dt*(MYFLOAT)5.e-1f;
-equemene
+    x3=x0+v2*dt*(MYFLOAT)5.e-1f;
-equemene
+    for (int i=0;i<N;i++)
 equemene
-equemene
+        if (gid != i)
-equemene
+        a3+=Interaction(x3,clDataInX[i]);
 equemene
 equemene
-equemene
+    a4=(MYFLOAT4)(0.e0f,0.e0f,0.e0f,0.e0f);
-equemene
+    v4=v0+a3*dt;
-equemene
+    x4=x0+v3*dt;
-equemene
+    for (int i=0;i<N;i++)
 equemene
-equemene
+        if (gid != i)
-equemene
+        a4+=Interaction(x4,clDataInX[i]);
 equemene
 equemene
-equemene
+    xf=x0+dt*(v1+(MYFLOAT)2.e0f*(v2+v3)+v4)/(MYFLOAT)6.e0f;
-equemene
+    vf=v0+dt*(a1+(MYFLOAT)2.e0f*(a2+a3)+a4)/(MYFLOAT)6.e0f;
 equemene
-equemene
+    return((MYFLOAT8)(xf.s0,xf.s1,xf.s2,1.e0f,vf.s0,vf.s1,vf.s2,1.e0f));
 equemene
 equemene
-equemene
+// Elements from : http://doswa.com/2009/01/02/fourth-order-runge-kutta-numerical-integration.html
 equemene
-equemene
+MYFLOAT8 AtomicHeun(__global MYFLOAT4* clDataInX,__global MYFLOAT4* clDataInV,int gid,MYFLOAT dt)
 equemene
-equemene
+    private MYFLOAT4 x,v,a,xi,vi,ai,xf,vf;
 equemene
-equemene
+    x=(MYFLOAT4)clDataInX[gid];
-equemene
+    v=(MYFLOAT4)clDataInV[gid];
-equemene
+    a=(MYFLOAT4)(0.e0f,0.e0f,0.e0f,0.e0f);
 equemene
-equemene
+    for (int i=0;i<get_global_size(0);i++)
 equemene
-equemene
+        if (gid != i)
-equemene
+        a+=Interaction(x,clDataInX[i]);
 equemene
 equemene
-equemene
+    vi=v+dt*a;
-equemene
+    xi=x+dt*vi;
-equemene
+    ai=(MYFLOAT4)(0.e0f,0.e0f,0.e0f,0.e0f);
 equemene
-equemene
+    for (int i=0;i<get_global_size(0);i++)
 equemene
-equemene
+        if (gid != i)
-equemene
+        ai+=Interaction(xi,clDataInX[i]);
 equemene
 equemene
-equemene
+    vf=v+dt*(a+ai)/(MYFLOAT)2.e0f;
-equemene
+    xf=x+dt*(v+vi)/(MYFLOAT)2.e0f;
 equemene
-equemene
+    return((MYFLOAT8)(xf.s0,xf.s1,xf.s2,1.e0f,vf.s0,vf.s1,vf.s2,0.e0f));
 equemene
 equemene
-equemene
+MYFLOAT8 AtomicImplicitEuler(__global MYFLOAT4* clDataInX,__global MYFLOAT4* clDataInV,int gid,MYFLOAT dt)
 equemene
-equemene
+    private MYFLOAT4 x,v,a,xf,vf;
 equemene
-equemene
+    x=(MYFLOAT4)clDataInX[gid];
-equemene
+    v=(MYFLOAT4)clDataInV[gid];
-equemene
+    a=(MYFLOAT4)(0.e0f,0.e0f,0.e0f,0.e0f);
 equemene
-equemene
+    for (int i=0;i<get_global_size(0);i++)
 equemene
-equemene
+        if (gid != i)
-equemene
+        a+=Interaction(x,clDataInX[i]);
 equemene
 equemene
-equemene
+    vf=v+dt*a;
-equemene
+    xf=x+dt*vf;
 equemene
-equemene
+    return((MYFLOAT8)(xf.s0,xf.s1,xf.s2,1.e0f,vf.s0,vf.s1,vf.s2,0.e0f));
 equemene
 equemene
-equemene
+MYFLOAT8 AtomicExplicitEuler(__global MYFLOAT4* clDataInX,__global MYFLOAT4* clDataInV,int gid,MYFLOAT dt)
 equemene
-equemene
+    MYFLOAT4 x,v,a,xf,vf;
 equemene
-equemene
+    x=(MYFLOAT4)clDataInX[gid];
-equemene
+    v=(MYFLOAT4)clDataInV[gid];
-equemene
+    a=(MYFLOAT4)(0.e0f,0.e0f,0.e0f,0.e0f);
 equemene
-equemene
+    for (int i=0;i<get_global_size(0);i++)
 equemene
-equemene
+        if (gid != i)
-equemene
+        a+=Interaction(x,clDataInX[i]);
 equemene
 equemene
-equemene
+    vf=v+dt*a;
-equemene
+    xf=x+dt*v;
 equemene
-equemene
+    return((MYFLOAT8)(xf.s0,xf.s1,xf.s2,1.e0f,vf.s0,vf.s1,vf.s2,0.e0f));
 equemene
 equemene
-equemene
+__kernel void SplutterPoints(__global MYFLOAT4* clDataX, MYFLOAT box,
-equemene
+                             uint seed_z,uint seed_w)
 equemene
-equemene
+    int gid = get_global_id(0);
-equemene
+    uint z=seed_z+(uint)gid;
-equemene
+    uint w=seed_w-(uint)gid;
 equemene
-equemene
+    MYFLOAT x0=box*(MYFLOAT)(MWCfp-(MYFLOAT)5.e-1f);
-equemene
+    MYFLOAT y0=box*(MYFLOAT)(MWCfp-(MYFLOAT)5.e-1f);
-equemene
+    MYFLOAT z0=box*(MYFLOAT)(MWCfp-(MYFLOAT)5.e-1f);
 equemene
-equemene
+    clDataX[gid].s0123 = (MYFLOAT4) (x0,y0,z0,1.e0f);
 equemene
 equemene
-equemene
+__kernel void SplutterStress(__global MYFLOAT4* clDataX,__global MYFLOAT4* clDataV,__global MYFLOAT4* clCoM, MYFLOAT velocity,uint seed_z,uint seed_w)
 equemene
-equemene
+    int gid = get_global_id(0);
-equemene
+    MYFLOAT N = (MYFLOAT)get_global_size(0);
-equemene
+    uint z=seed_z+(uint)gid;
-equemene
+    uint w=seed_w-(uint)gid;
 equemene
-equemene
+    if (velocity<SMALL_NUM) {
-equemene
+       MYFLOAT4 SpeedVector=(MYFLOAT4)normalize(cross(clDataX[gid],clCoM[0]))*sqrt(-AtomicPotential(clDataX,gid)/(MYFLOAT)2.e0f);
-equemene
+       clDataV[gid]=SpeedVector;
 equemene
-equemene
+    else
 equemene
-equemene
+       // cast to float for sin,cos are NEEDED by Mesa FP64 implementation!
-equemene
+       MYFLOAT theta=MWCfp*PI;
-equemene
+       MYFLOAT phi=MWCfp*PI*(MYFLOAT)2.e0f;
-equemene
+       MYFLOAT sinTheta=sin((float)theta);
 equemene
-equemene
+       clDataV[gid].s0=velocity*sinTheta*cos((float)phi);
-equemene
+       clDataV[gid].s1=velocity*sinTheta*sin((float)phi);
-equemene
+       clDataV[gid].s2=velocity*cos((float)theta);
-equemene
+       clDataV[gid].s3=(MYFLOAT)1.e0f;
 equemene
 equemene
 equemene
-equemene
+__kernel void RungeKutta(__global MYFLOAT4* clDataX,__global MYFLOAT4* clDataV,MYFLOAT h)
 equemene
-equemene
+    int gid = get_global_id(0);
 equemene
-equemene
+    MYFLOAT8 clDataGid=AtomicRungeKutta(clDataX,clDataV,gid,h);
-equemene
+    barrier(CLK_GLOBAL_MEM_FENCE);
-equemene
+    clDataX[gid]=clDataGid.lo;
-equemene
+    clDataV[gid]=clDataGid.hi;
 equemene
 equemene
-equemene
+__kernel void ImplicitEuler(__global MYFLOAT4* clDataX,__global MYFLOAT4* clDataV,MYFLOAT h)
 equemene
-equemene
+    int gid = get_global_id(0);
 equemene
-equemene
+    MYFLOAT8 clDataGid=AtomicImplicitEuler(clDataX,clDataV,gid,h);
-equemene
+    barrier(CLK_GLOBAL_MEM_FENCE);
-equemene
+    clDataX[gid]=clDataGid.lo;
-equemene
+    clDataV[gid]=clDataGid.hi;
 equemene
 equemene
-equemene
+__kernel void Heun(__global MYFLOAT4* clDataX,__global MYFLOAT4* clDataV,MYFLOAT h)
 equemene
-equemene
+    int gid = get_global_id(0);
 equemene
-equemene
+    MYFLOAT8 clDataGid=AtomicHeun(clDataX,clDataV,gid,h);
-equemene
+    barrier(CLK_GLOBAL_MEM_FENCE);
-equemene
+    clDataX[gid]=clDataGid.lo;
-equemene
+    clDataV[gid]=clDataGid.hi;
 equemene
 equemene
-equemene
+__kernel void ExplicitEuler(__global MYFLOAT4* clDataX,__global MYFLOAT4* clDataV,MYFLOAT h)
 equemene
-equemene
+    int gid = get_global_id(0);
 equemene
-equemene
+    MYFLOAT8 clDataGid=AtomicExplicitEuler(clDataX,clDataV,gid,h);
-equemene
+    barrier(CLK_GLOBAL_MEM_FENCE);
-equemene
+    clDataX[gid]=clDataGid.lo;
-equemene
+    clDataV[gid]=clDataGid.hi;
 equemene
 equemene
-equemene
+__kernel void CoMPotential(__global MYFLOAT4* clDataX,__global MYFLOAT4* clCoM,__global MYFLOAT* clPotential)
 equemene
-equemene
+    int gid = get_global_id(0);
 equemene
-equemene
+    clPotential[gid]=PairPotential(clDataX[gid],clCoM[0]);
 equemene
 equemene
-equemene
+__kernel void Potential(__global MYFLOAT4* clDataX,__global MYFLOAT* clPotential)
 equemene
-equemene
+    int gid = get_global_id(0);
 equemene
-equemene
+    MYFLOAT potential=(MYFLOAT)0.e0f;
-equemene
+    MYFLOAT4 x=clDataX[gid];
 equemene
-equemene
+    for (int i=0;i<get_global_size(0);i++)
 equemene
-equemene
+        if (gid != i)
-equemene
+        potential+=PairPotential(x,clDataX[i]);
 equemene
 equemene
-equemene
+    barrier(CLK_GLOBAL_MEM_FENCE);
-equemene
+    clPotential[gid]=potential*(MYFLOAT)5.e-1f;
 equemene
 equemene
-equemene
+__kernel void CenterOfMass(__global MYFLOAT4* clDataX,__global MYFLOAT4* clCoM,int Size)
 equemene
-equemene
+    MYFLOAT4 CoM=clDataX[0];
 equemene
-equemene
+    for (int i=1;i<Size;i++)
 equemene
-equemene
+        CoM+=clDataX[i];
 equemene
 equemene
-equemene
+    barrier(CLK_GLOBAL_MEM_FENCE);
-equemene
+    clCoM[0]=(MYFLOAT4)(CoM.s0,CoM.s1,CoM.s2,1.e0f)/(MYFLOAT)Size;
 equemene
 equemene
-equemene
+__kernel void Kinetic(__global MYFLOAT4* clDataV,__global MYFLOAT* clKinetic)
 equemene
-equemene
+    int gid = get_global_id(0);
 equemene
-equemene
+    barrier(CLK_GLOBAL_MEM_FENCE);
-equemene
+    MYFLOAT d=(MYFLOAT)length(clDataV[gid]);
-equemene
+    clKinetic[gid]=(MYFLOAT)5.e-1f*(MYFLOAT)(d*d);
 equemene
-equemene
+"""
 equemene
-equemene
+def Energy(MyData):
-equemene
+    return(sum(MyData*MyData))
 equemene
-equemene
+if __name__=='__main__':
 equemene
-equemene
+    # ValueType
-equemene
+    ValueType='FP32'
-equemene
+    class MyFloat(np.float32):pass
-equemene
+    #    clType8=cl_array.vec.float8
-equemene
+    clType4=cl_array.vec.float4
-equemene
+    # Set defaults values
-equemene
+    np.set_printoptions(precision=2)
-equemene
+    # Id of Device : 1 is for first find !
-equemene
+    Device=0
-equemene
+    # Iterations is integer
-equemene
+    Number=2
-equemene
+    # Size of box
-equemene
+    SizeOfBox=MyFloat(1.)
-equemene
+    # Initial velocity of particules
-equemene
+    Velocity=MyFloat(1.)
-equemene
+    # Redo the last process
-equemene
+    Iterations=int(np.pi*1024)
-equemene
+    # Step
-equemene
+    Step=MyFloat(1./1024)
-equemene
+    # Method of integration
-equemene
+    Method='ImplicitEuler'
-equemene
+    # InitialRandom
-equemene
+    InitialRandom=False
-equemene
+    # RNG Marsaglia Method
-equemene
+    RNG='MWC'
-equemene
+    # CheckEnergies
-equemene
+    CheckEnergies=False
-equemene
+    # Display samples in 3D
-equemene
+    GraphSamples=False
-equemene
+    # Viriel Distribution of stress
-equemene
+    VirielStress=True
 equemene
-equemene
+    HowToUse='%s -h [Help] -r [InitialRandom] -e [VirielStress] -g [GraphSamples] -c [CheckEnergies] -d <DeviceId> -n <NumberOfParticules> -z <SizeOfBox> -v <Velocity> -s <Step> -i <Iterations> -m <ImplicitEuler|RungeKutta|ExplicitEuler|Heun> -t <FP32|FP64>'
 equemene
-equemene
+    try:
-equemene
+        opts, args = getopt.getopt(sys.argv[1:],"rehgcd:n:z:v:i:s:m:t:",["random","viriel","graph","check","device=","number=","size=","velocity=","iterations=","step=","method=","valuetype="])
-equemene
+    except getopt.GetoptError:
-equemene
+        print(HowToUse % sys.argv[0])
-equemene
+        sys.exit(2)
 equemene
-equemene
+    for opt, arg in opts:
-equemene
+        if opt == '-h':
-equemene
+            print(HowToUse % sys.argv[0])
 equemene
-equemene
+            print("\nInformations about devices detected under OpenCL:")
-equemene
+            try:
-equemene
+                Id=0
-equemene
+                for platform in cl.get_platforms():
-equemene
+                    for device in platform.get_devices():
-equemene
+                        #deviceType=cl.device_type.to_string(device.type)
-equemene
+                        deviceType="xPU"
-equemene
+                        print("Device #%i from %s of type %s : %s" % (Id,platform.vendor.lstrip(),deviceType,device.name.lstrip()))
-equemene
+                        Id=Id+1
-equemene
+                sys.exit()
-equemene
+            except ImportError:
-equemene
+                print("Your platform does not seem to support OpenCL")
-equemene
+                sys.exit()
 equemene
-equemene
+        elif opt in ("-t", "--valuetype"):
-equemene
+            if arg=='FP64':
-equemene
+                class MyFloat(np.float64): pass
-equemene
+                clType4=cl_array.vec.double4
-equemene
+            else:
-equemene
+                class MyFloat(np.float32):pass
-equemene
+                clType4=cl_array.vec.float4
-equemene
+            ValueType = arg
-equemene
+        elif opt in ("-d", "--device"):
-equemene
+            Device=int(arg)
-equemene
+        elif opt in ("-m", "--method"):
-equemene
+            Method=arg
-equemene
+        elif opt in ("-n", "--number"):
-equemene
+            Number=int(arg)
-equemene
+        elif opt in ("-z", "--size"):
-equemene
+            SizeOfBox=MyFloat(arg)
-equemene
+        elif opt in ("-v", "--velocity"):
-equemene
+            Velocity=MyFloat(arg)
-equemene
+            VirielStress=False
-equemene
+        elif opt in ("-s", "--step"):
-equemene
+            Step=MyFloat(arg)
-equemene
+        elif opt in ("-i", "--iterations"):
-equemene
+            Iterations=int(arg)
-equemene
+        elif opt in ("-r", "--random"):
-equemene
+            InitialRandom=True
-equemene
+        elif opt in ("-c", "--check"):
-equemene
+            CheckEnergies=True
-equemene
+        elif opt in ("-g", "--graph"):
-equemene
+            GraphSamples=True
-equemene
+        elif opt in ("-e", "--viriel"):
-equemene
+            VirielStress=True
 equemene
-equemene
+    SizeOfBox=MyFloat(Number*SizeOfBox)
-equemene
+    Velocity=MyFloat(Velocity)
-equemene
+    Step=MyFloat(Step)
 equemene
-equemene
+    print("Device choosed : %s" % Device)
-equemene
+    print("Number of particules : %s" % Number)
-equemene
+    print("Size of Box : %s" % SizeOfBox)
-equemene
+    print("Initial velocity : %s" % Velocity)
-equemene
+    print("Number of iterations : %s" % Iterations)
-equemene
+    print("Step of iteration : %s" % Step)
-equemene
+    print("Method of resolution : %s" % Method)
-equemene
+    print("Initial Random for RNG Seed : %s" % InitialRandom)
-equemene
+    print("Check for Energies : %s" % CheckEnergies)
-equemene
+    print("Graph for Samples : %s" % GraphSamples)
-equemene
+    print("ValueType is : %s" % ValueType)
-equemene
+    print("Viriel distribution of stress %s" % VirielStress)
 equemene
-equemene
+    # Create Numpy array of CL vector with 8 FP32
-equemene
+    MyCoM = np.zeros(1,dtype=clType4)
-equemene
+    MyDataX = np.zeros(Number, dtype=clType4)
-equemene
+    MyDataV = np.zeros(Number, dtype=clType4)
-equemene
+    MyPotential = np.zeros(Number, dtype=MyFloat)
-equemene
+    MyKinetic = np.zeros(Number, dtype=MyFloat)
 equemene
-equemene
+    Marsaglia,Computing=DictionariesAPI()
 equemene
-equemene
+    # Scan the OpenCL arrays
-equemene
+    Id=0
-equemene
+    HasXPU=False
-equemene
+    for platform in cl.get_platforms():
-equemene
+        for device in platform.get_devices():
-equemene
+            if Id==Device:
-equemene
+                PlatForm=platform
-equemene
+                XPU=device
-equemene
+                print("CPU/GPU selected: ",device.name.lstrip())
-equemene
+                print("Platform selected: ",platform.name)
-equemene
+                HasXPU=True
-equemene
+            Id+=1
 equemene
-equemene
+    if HasXPU==False:
-equemene
+        print("No XPU #%i found in all of %i devices, sorry..." % (Device,Id-1))
-equemene
+        sys.exit()
 equemene
-equemene
+    # Create Context
-equemene
+    try:
-equemene
+        ctx = cl.Context([XPU])
-equemene
+        queue = cl.CommandQueue(ctx,properties=cl.command_queue_properties.PROFILING_ENABLE)
-equemene
+    except:
-equemene
+        print("Crash during context creation")
 equemene
-equemene
+    print(Marsaglia[RNG],Computing[ValueType])
-equemene
+    # Build all routines used for the computing
-equemene
+    #BuildOptions="-DTRNG=%i -DTYPE=%i" % (Marsaglia[RNG],Computing[ValueType])
-equemene
+    #BuildOptions="-cl-mad-enable -cl-fast-relaxed-math -DTRNG=%i -DTYPE=%i" % (Marsaglia[RNG],Computing[ValueType])
-equemene
+    BuildOptions="-cl-mad-enable -cl-kernel-arg-info -cl-fast-relaxed-math -cl-std=CL1.2 -DTRNG=%i -DTYPE=%i" % (Marsaglia[RNG],Computing[ValueType])
 equemene
-equemene
+    if 'Intel' in PlatForm.name or 'Clover' in PlatForm.name or 'Portable' in PlatForm.name :
-equemene
+        MyRoutines = cl.Program(ctx, BlobOpenCL).build(options = BuildOptions)
-equemene
+    else:
-equemene
+        MyRoutines = cl.Program(ctx, BlobOpenCL).build(options = BuildOptions+" -cl-strict-aliasing")
 equemene
-equemene
+    mf = cl.mem_flags
-equemene
+    # clDataX = cl.Buffer(ctx, mf.READ_WRITE, MyDataX.nbytes)
-equemene
+    # clDataV = cl.Buffer(ctx, mf.READ_WRITE, MyDataV.nbytes)
-equemene
+    # clPotential = cl.Buffer(ctx, mf.READ_WRITE, MyPotential.nbytes)
-equemene
+    # clKinetic = cl.Buffer(ctx, mf.READ_WRITE, MyKinetic.nbytes)
-equemene
+    # clCoM = cl.Buffer(ctx, mf.READ_WRITE, MyCoM.nbytes)
 equemene
-equemene
+    clDataX = cl.Buffer(ctx, mf.WRITE_ONLY|mf.COPY_HOST_PTR,hostbuf=MyDataX)
-equemene
+    clDataV = cl.Buffer(ctx, mf.WRITE_ONLY|mf.COPY_HOST_PTR,hostbuf=MyDataV)
-equemene
+    clPotential = cl.Buffer(ctx, mf.WRITE_ONLY|mf.COPY_HOST_PTR,hostbuf=MyPotential)
-equemene
+    clKinetic = cl.Buffer(ctx, mf.WRITE_ONLY|mf.COPY_HOST_PTR,hostbuf=MyKinetic)
-equemene
+    clCoM = cl.Buffer(ctx, mf.WRITE_ONLY|mf.COPY_HOST_PTR,hostbuf=MyCoM)
 equemene
-equemene
+    print('All particles superimposed.')
 equemene
-equemene
+    print(SizeOfBox.dtype)
 equemene
-equemene
+    # Set particles to RNG points
-equemene
+    if InitialRandom:
-equemene
+        MyRoutines.SplutterPoints(queue,(Number,1),None,clDataX,SizeOfBox,np.uint32(nprnd(2**32)),np.uint32(nprnd(2**32)))
-equemene
+    else:
-equemene
+        MyRoutines.SplutterPoints(queue,(Number,1),None,clDataX,SizeOfBox,np.uint32(110271),np.uint32(250173))
 equemene
-equemene
+    print('All particules distributed')
 equemene
-equemene
+    CLLaunch=MyRoutines.CenterOfMass(queue,(1,1),None,clDataX,clCoM,np.int32(Number))
-equemene
+    CLLaunch.wait()
-equemene
+    cl.enqueue_copy(queue,MyCoM,clCoM)
-equemene
+    print('Center Of Mass: (%s,%s,%s)' % (MyCoM[0][0],MyCoM[0][1],MyCoM[0][2]))
 equemene
-equemene
+    if VirielStress:
-equemene
+        CLLaunch=MyRoutines.SplutterStress(queue,(Number,1),None,clDataX,clDataV,clCoM,MyFloat(0.),np.uint32(110271),np.uint32(250173))
-equemene
+    else:
-equemene
+        CLLaunch=MyRoutines.SplutterStress(queue,(Number,1),None,clDataX,clDataV,clCoM,Velocity,np.uint32(110271),np.uint32(250173))
-equemene
+    CLLaunch.wait()
 equemene
-equemene
+    if GraphSamples:
-equemene
+        cl.enqueue_copy(queue, MyDataX, clDataX)
-equemene
+        t0=np.array([[MyDataX[0][0],MyDataX[0][1],MyDataX[0][2]]])
-equemene
+        t1=np.array([[MyDataX[1][0],MyDataX[1][1],MyDataX[1][2]]])
-equemene
+        tL=np.array([[MyDataX[-1][0],MyDataX[-1][1],MyDataX[-1][2]]])
 equemene
-equemene
+    CLLaunch=MyRoutines.Potential(queue,(Number,1),None,clDataX,clPotential)
-equemene
+    CLLaunch=MyRoutines.Kinetic(queue,(Number,1),None,clDataV,clKinetic)
-equemene
+    CLLaunch.wait()
-equemene
+    cl.enqueue_copy(queue,MyPotential,clPotential)
-equemene
+    cl.enqueue_copy(queue,MyKinetic,clKinetic)
-equemene
+    print('Viriel=%s Potential=%s Kinetic=%s'% (np.sum(MyPotential)+2*np.sum(MyKinetic),np.sum(MyPotential),np.sum(MyKinetic)))
 equemene
-equemene
+    if GraphSamples:
-equemene
+        cl.enqueue_copy(queue, MyDataX, clDataX)
-equemene
+        t0=np.array([[MyDataX[0][0],MyDataX[0][1],MyDataX[0][2]]])
-equemene
+        t1=np.array([[MyDataX[1][0],MyDataX[1][1],MyDataX[1][2]]])
-equemene
+        tL=np.array([[MyDataX[-1][0],MyDataX[-1][1],MyDataX[-1][2]]])
 equemene
-equemene
+    time_start=time.time()
-equemene
+    for i in range(Iterations):
-equemene
+        if Method=="RungeKutta":
-equemene
+            CLLaunch=MyRoutines.RungeKutta(queue,(Number,1),None,clDataX,clDataV,Step)
-equemene
+        elif Method=="ExplicitEuler":
-equemene
+            CLLaunch=MyRoutines.ExplicitEuler(queue,(Number,1),None,clDataX,clDataV,Step)
-equemene
+        elif Method=="Heun":
-equemene
+            CLLaunch=MyRoutines.Heun(queue,(Number,1),None,clDataX,clDataV,Step)
-equemene
+        else:
-equemene
+            CLLaunch=MyRoutines.ImplicitEuler(queue,(Number,1),None,clDataX,clDataV,Step)
-equemene
+        CLLaunch.wait()
 equemene
-equemene
+        if CheckEnergies:
-equemene
+            CLLaunch=MyRoutines.Potential(queue,(Number,1),None,clDataX,clPotential)
-equemene
+            CLLaunch=MyRoutines.Kinetic(queue,(Number,1),None,clDataV,clKinetic)
-equemene
+            CLLaunch.wait()
-equemene
+            cl.enqueue_copy(queue,MyPotential,clPotential)
-equemene
+            cl.enqueue_copy(queue,MyKinetic,clKinetic)
-equemene
+            print(np.sum(MyPotential)+2.*np.sum(MyKinetic),np.sum(MyPotential),np.sum(MyKinetic))
 equemene
-equemene
+            print(MyPotential,MyKinetic)
 equemene
-equemene
+        if GraphSamples:
-equemene
+            cl.enqueue_copy(queue, MyDataX, clDataX)
-equemene
+            t0=np.append(t0,[MyDataX[0][0],MyDataX[0][1],MyDataX[0][2]])
-equemene
+            t1=np.append(t1,[MyDataX[1][0],MyDataX[1][1],MyDataX[1][2]])
-equemene
+            tL=np.append(tL,[MyDataX[-1][0],MyDataX[-1][1],MyDataX[-1][2]])
-equemene
+    print("\nDuration on %s for each %s\n" % (Device,(time.time()-time_start)/Iterations))
 equemene
-equemene
+    MyRoutines.CenterOfMass(queue,(1,1),None,clDataX,clCoM,np.int32(Number))
-equemene
+    CLLaunch=MyRoutines.Potential(queue,(Number,1),None,clDataX,clPotential)
-equemene
+    CLLaunch=MyRoutines.Kinetic(queue,(Number,1),None,clDataV,clKinetic)
-equemene
+    CLLaunch.wait()
-equemene
+    cl.enqueue_copy(queue,MyCoM,clCoM)
-equemene
+    cl.enqueue_copy(queue,MyPotential,clPotential)
-equemene
+    cl.enqueue_copy(queue,MyKinetic,clKinetic)
-equemene
+    print('Center Of Mass: (%s,%s,%s)' % (MyCoM[0][0],MyCoM[0][1],MyCoM[0][2]))
-equemene
+    print('Viriel=%s Potential=%s Kinetic=%s'% (np.sum(MyPotential)+2.*np.sum(MyKinetic),np.sum(MyPotential),np.sum(MyKinetic)))
 equemene
-equemene
+    if GraphSamples:
-equemene
+        t0=np.transpose(np.reshape(t0,(Iterations+1,3)))
-equemene
+        t1=np.transpose(np.reshape(t1,(Iterations+1,3)))
-equemene
+        tL=np.transpose(np.reshape(tL,(Iterations+1,3)))
 equemene
-equemene
+        import matplotlib.pyplot as plt
-equemene
+        from mpl_toolkits.mplot3d import Axes3D
 equemene
-equemene
+        fig = plt.figure()
-equemene
+        ax = fig.gca(projection='3d')
-equemene
+        ax.scatter(t0[0],t0[1],t0[2], marker='^',color='blue')
-equemene
+        ax.scatter(t1[0],t1[1],t1[2], marker='o',color='red')
-equemene
+        ax.scatter(tL[0],tL[1],tL[2], marker='D',color='green')
 equemene
-equemene
+        ax.set_xlabel('X Label')
-equemene
+        ax.set_ylabel('Y Label')
-equemene
+        ax.set_zlabel('Z Label')
 equemene
-equemene
+        plt.show()
 equemene
-equemene
+    clDataX.release()
-equemene
+    clDataV.release()
-equemene
+    clKinetic.release()
-equemene
+    clPotential.release()

Centre Blaise Pascal » Bench4GPU

root / NBody / NBody.py @ 162