// Slang HLSL compatibility library typedef uint UINT; __generic __magic_type(HLSLAppendStructuredBufferType) __intrinsic_type($(kIROp_HLSLAppendStructuredBufferType)) struct AppendStructuredBuffer { void Append(T value); void GetDimensions( out uint numStructs, out uint stride); }; __magic_type(HLSLByteAddressBufferType) __intrinsic_type($(kIROp_HLSLByteAddressBufferType)) struct ByteAddressBuffer { __target_intrinsic(glsl, "$1 = $0._data.length() * 4") void GetDimensions( out uint dim); __target_intrinsic(glsl, "$0._data[$1/4]") uint Load(int location); uint Load(int location, out uint status); __target_intrinsic(glsl, "uvec2($0._data[$1/4], $0._data[$1/4+1])") uint2 Load2(int location); uint2 Load2(int location, out uint status); __target_intrinsic(glsl, "uvec3($0._data[$1/4], $0._data[$1/4+1], $0._data[$1/4+2])") uint3 Load3(int location); uint3 Load3(int location, out uint status); __target_intrinsic(glsl, "uvec4($0._data[$1/4], $0._data[$1/4+1], $0._data[$1/4+2], $0._data[$1/4+3])") uint4 Load4(int location); uint4 Load4(int location, out uint status); T Load(int location) { return __byteAddressBufferLoad(this, location); } }; // AtomicAdd // Make the GLSL atomicAdd available. // We have separate int/float implementations, as the float version requires some specific extensions // https://www.khronos.org/registry/OpenGL/extensions/NV/NV_shader_atomic_float.txt __target_intrinsic(glsl, "atomicAdd($0, $1)") __glsl_version(430) __glsl_extension(GL_EXT_shader_atomic_float) float __atomicAdd(__ref float value, float amount); // Helper for hlsl, using NVAPI __target_intrinsic(hlsl, "NvInterlockedAddUint64($0, $1, $2)") [__requiresNVAPI] uint2 __atomicAdd(RWByteAddressBuffer buf, uint offset, uint2); // Int versions require glsl 4.30 // https://www.khronos.org/registry/OpenGL-Refpages/gl4/html/atomicAdd.xhtml __target_intrinsic(glsl, "atomicAdd($0, $1)") __glsl_version(430) int __atomicAdd(__ref int value, int amount); __target_intrinsic(glsl, "atomicAdd($0, $1)") __glsl_version(430) uint __atomicAdd(__ref uint value, uint amount); __target_intrinsic(glsl, "atomicAdd($0, $1)") __glsl_version(430) __glsl_extension(GL_EXT_shader_atomic_int64) int64_t __atomicAdd(__ref int64_t value, int64_t amount); // Cas - Compare and swap // Helper for HLSL, using NVAPI __target_intrinsic(hlsl, "NvInterlockedCompareExchangeUint64($0, $1, $2, $3)") [__requiresNVAPI] uint2 __cas(RWByteAddressBuffer buf, uint offset, uint2 compareValue, uint2 value); __target_intrinsic(glsl, "atomicCompSwap($0, $1, $2)") __glsl_version(430) __glsl_extension(GL_EXT_shader_atomic_int64) uint64_t __cas(__ref uint64_t ioValue, uint64_t compareValue, uint64_t newValue); // Max __target_intrinsic(hlsl, "NvInterlockedMaxUint64($0, $1, $2)") [__requiresNVAPI] uint2 __atomicMax(RWByteAddressBuffer buf, uint offset, uint2 value); __target_intrinsic(glsl, "atomicMax($0, $1)") __glsl_version(430) __glsl_extension(GL_EXT_shader_atomic_int64) uint64_t __atomicMax(__ref uint64_t ioValue, uint64_t value); // Min __target_intrinsic(hlsl, "NvInterlockedMinUint64($0, $1, $2)") [__requiresNVAPI] uint2 __atomicMin(RWByteAddressBuffer buf, uint offset, uint2 value); __target_intrinsic(glsl, "atomicMin($0, $1)") __glsl_version(430) __glsl_extension(GL_EXT_shader_atomic_int64) uint64_t __atomicMin(__ref uint64_t ioValue, uint64_t value); // And __target_intrinsic(hlsl, "NvInterlockedAndUint64($0, $1, $2)") [__requiresNVAPI] uint2 __atomicAnd(RWByteAddressBuffer buf, uint offset, uint2 value); __target_intrinsic(glsl, "atomicAnd($0, $1)") __glsl_version(430) __glsl_extension(GL_EXT_shader_atomic_int64) uint64_t __atomicAnd(__ref uint64_t ioValue, uint64_t value); // Or __target_intrinsic(hlsl, "NvInterlockedOrUint64($0, $1, $2)") [__requiresNVAPI] uint2 __atomicOr(RWByteAddressBuffer buf, uint offset, uint2 value); __target_intrinsic(glsl, "atomicOr($0, $1)") __glsl_version(430) __glsl_extension(GL_EXT_shader_atomic_int64) uint64_t __atomicOr(__ref uint64_t ioValue, uint64_t value); // Xor __target_intrinsic(hlsl, "NvInterlockedXorUint64($0, $1, $2)") [__requiresNVAPI] uint2 __atomicXor(RWByteAddressBuffer buf, uint offset, uint2 value); __target_intrinsic(glsl, "atomicXor($0, $1)") __glsl_version(430) __glsl_extension(GL_EXT_shader_atomic_int64) uint64_t __atomicXor(__ref uint64_t ioValue, uint64_t value); // Exchange __target_intrinsic(hlsl, "NvInterlockedExchangeUint64($0, $1, $2)") [__requiresNVAPI] uint2 __atomicExchange(RWByteAddressBuffer buf, uint offset, uint2 value); __target_intrinsic(glsl, "atomicExchange($0, $1)") __glsl_version(430) __glsl_extension(GL_EXT_shader_atomic_int64) uint64_t __atomicExchange(__ref uint64_t ioValue, uint64_t value); // Conversion between uint64_t and uint2 uint2 __asuint2(uint64_t i) { return uint2(uint(i), uint(uint64_t(i) >> 32)); } uint64_t __asuint64(uint2 i) { return (uint64_t(i.y) << 32) | i.x; } // __intrinsic_op($(kIROp_ByteAddressBufferLoad)) T __byteAddressBufferLoad(ByteAddressBuffer buffer, int offset); __intrinsic_op($(kIROp_ByteAddressBufferLoad)) T __byteAddressBufferLoad(RWByteAddressBuffer buffer, int offset); __intrinsic_op($(kIROp_ByteAddressBufferLoad)) T __byteAddressBufferLoad(RasterizerOrderedByteAddressBuffer buffer, int offset); __intrinsic_op($(kIROp_ByteAddressBufferStore)) void __byteAddressBufferStore(RWByteAddressBuffer buffer, int offset, T value); __intrinsic_op($(kIROp_ByteAddressBufferStore)) void __byteAddressBufferStore(RasterizerOrderedByteAddressBuffer buffer, int offset, T value); __generic __magic_type(HLSLStructuredBufferType) __intrinsic_type($(kIROp_HLSLStructuredBufferType)) struct StructuredBuffer { __target_intrinsic(glsl, "$1 = $0._data.length(); $2 = 0") void GetDimensions( out uint numStructs, out uint stride); __target_intrinsic(glsl, "$0._data[$1]") __target_intrinsic(spirv_direct, "%addr = 65 resultType*StorageBuffer resultId _0 const(int, 0) _1; 61 resultType resultId %addr;") T Load(int location); T Load(int location, out uint status); __subscript(uint index) -> T { __target_intrinsic(glsl, "$0._data[$1]") __target_intrinsic(spirv_direct, "%addr = 65 resultType*StorageBuffer resultId _0 const(int, 0) _1; 61 resultType resultId %addr;") get; }; }; __generic __magic_type(HLSLConsumeStructuredBufferType) __intrinsic_type($(kIROp_HLSLConsumeStructuredBufferType)) struct ConsumeStructuredBuffer { T Consume(); void GetDimensions( out uint numStructs, out uint stride); }; __generic __magic_type(HLSLInputPatchType) __intrinsic_type($(kIROp_HLSLInputPatchType)) struct InputPatch { __subscript(uint index) -> T; }; __generic __magic_type(HLSLOutputPatchType) __intrinsic_type($(kIROp_HLSLOutputPatchType)) struct OutputPatch { __subscript(uint index) -> T; }; ${{{{ static const struct { IROp op; char const* name; } kMutableByteAddressBufferCases[] = { { kIROp_HLSLRWByteAddressBufferType, "RWByteAddressBuffer" }, { kIROp_HLSLRasterizerOrderedByteAddressBufferType, "RasterizerOrderedByteAddressBuffer" }, }; for(auto item : kMutableByteAddressBufferCases) { }}}} __magic_type(HLSL$(item.name)Type) __intrinsic_type($(item.op)) struct $(item.name) { // Note(tfoley): supports all operations from `ByteAddressBuffer` // TODO(tfoley): can this be made a sub-type? __target_intrinsic(glsl, "$1 = $0._data.length() * 4") void GetDimensions( out uint dim); __target_intrinsic(glsl, "$0._data[$1/4]") uint Load(int location); uint Load(int location, out uint status); __target_intrinsic(glsl, "uvec2($0._data[$1/4], $0._data[$1/4+1])") uint2 Load2(int location); uint2 Load2(int location, out uint status); __target_intrinsic(glsl, "uvec3($0._data[$1/4], $0._data[$1/4+1], $0._data[$1/4+2])") uint3 Load3(int location); uint3 Load3(int location, out uint status); __target_intrinsic(glsl, "uvec4($0._data[$1/4], $0._data[$1/4+1], $0._data[$1/4+2], $0._data[$1/4+3])") uint4 Load4(int location); uint4 Load4(int location, out uint status); T Load(int location) { return __byteAddressBufferLoad(this, location); } ${{{{ if (item.op == kIROp_HLSLRWByteAddressBufferType) { }}}} // float32 and int64 atomic support. This is a Slang specific extension, it uses // GL_EXT_shader_atomic_float on Vulkan // NvAPI support on DX // NOTE! To use this feature on HLSL based targets the path to 'nvHLSLExtns.h' from the NvAPI SDK must // be set. That this include will be added to the *output* that is passed to a downstram compiler. // Also note that you *can* include NVAPI headers in your Slang source, and directly use NVAPI functions // Directly using NVAPI functions does *not* add the #include on the output // Finally note you can *mix* NVAPI direct calls, and use of NVAPI intrinsics below. This doesn't cause // any clashes, as Slang will emit any NVAPI function it parsed (say via a include in Slang source) with // unique functions. // // https://www.khronos.org/registry/vulkan/specs/1.2-extensions/html/vkspec.html#VK_EXT_shader_atomic_float // https://htmlpreview.github.io/?https://github.com/KhronosGroup/SPIRV-Registry/blob/master/extensions/EXT/SPV_EXT_shader_atomic_float_add.html // F32 Add __target_intrinsic(hlsl, "($3 = NvInterlockedAddFp32($0, $1, $2))") __cuda_sm_version(2.0) __target_intrinsic(cuda, "(*$3 = atomicAdd((float*)$0._getPtrAt($1), $2))") [__requiresNVAPI] void InterlockedAddF32(uint byteAddress, float valueToAdd, out float originalValue); __specialized_for_target(glsl) void InterlockedAddF32(uint byteAddress, float valueToAdd, out float originalValue) { RWStructuredBuffer buf = __getEquivalentStructuredBuffer(this); originalValue = __atomicAdd(buf[byteAddress / 4], valueToAdd); } // Without returning original value __target_intrinsic(hlsl, "(NvInterlockedAddFp32($0, $1, $2))") [__requiresNVAPI] __cuda_sm_version(2.0) __target_intrinsic(cuda, "atomicAdd((float*)$0._getPtrAt($1), $2)") void InterlockedAddF32(uint byteAddress, float valueToAdd); __specialized_for_target(glsl) void InterlockedAddF32(uint byteAddress, float valueToAdd) { RWStructuredBuffer buf = __getEquivalentStructuredBuffer(this); __atomicAdd(buf[byteAddress / 4], valueToAdd); } // Int64 Add __cuda_sm_version(6.0) __target_intrinsic(cuda, "(*$3 = atomicAdd((uint64_t*)$0._getPtrAt($1), $2))") void InterlockedAddI64(uint byteAddress, int64_t valueToAdd, out int64_t originalValue); __specialized_for_target(hlsl) void InterlockedAddI64(uint byteAddress, int64_t valueToAdd, out int64_t outOriginalValue) { outOriginalValue = __asuint64(__atomicAdd(this, byteAddress, __asuint2(valueToAdd))); } __specialized_for_target(glsl) void InterlockedAddI64(uint byteAddress, int64_t valueToAdd, out int64_t originalValue) { RWStructuredBuffer buf = __getEquivalentStructuredBuffer(this); originalValue = __atomicAdd(buf[byteAddress / 8], valueToAdd); } // Without returning original value __cuda_sm_version(6.0) __target_intrinsic(cuda, "atomicAdd((uint64_t*)$0._getPtrAt($1), $2)") void InterlockedAddI64(uint byteAddress, int64_t valueToAdd); __specialized_for_target(hlsl) void InterlockedAddI64(uint byteAddress, int64_t valueToAdd) { __atomicAdd(this, byteAddress, __asuint2(valueToAdd)); } __specialized_for_target(glsl) void InterlockedAddI64(uint byteAddress, int64_t valueToAdd) { RWStructuredBuffer buf = __getEquivalentStructuredBuffer(this); __atomicAdd(buf[byteAddress / 8], valueToAdd); } // Cas uint64_t __target_intrinsic(cuda, "(*$4 = atomicCAS((uint64_t*)$0._getPtrAt($1), $2, $3))") void InterlockedCompareExchangeU64(uint byteAddress, uint64_t compareValue, uint64_t value, out uint64_t outOriginalValue); __specialized_for_target(hlsl) void InterlockedCompareExchangeU64(uint byteAddress, uint64_t compareValue, uint64_t value, out uint64_t outOriginalValue) { outOriginalValue = __asuint64(__cas(this, byteAddress, __asuint2(compareValue), __asuint2(value))); } __specialized_for_target(glsl) void InterlockedCompareExchangeU64(uint byteAddress, uint64_t compareValue, uint64_t value, out uint64_t outOriginalValue) { RWStructuredBuffer buf = __getEquivalentStructuredBuffer(this); outOriginalValue = __cas(buf[byteAddress / 8], compareValue, value); } // Max __cuda_sm_version(3.5) __target_intrinsic(cuda, "atomicMax((uint64_t*)$0._getPtrAt($1), $2)") uint64_t InterlockedMaxU64(uint byteAddress, uint64_t value); __specialized_for_target(hlsl) uint64_t InterlockedMaxU64(uint byteAddress, uint64_t value) { return __asuint64(__atomicMax(this, byteAddress, __asuint2(value))); } __specialized_for_target(glsl) uint64_t InterlockedMaxU64(uint byteAddress, uint64_t value) { RWStructuredBuffer buf = __getEquivalentStructuredBuffer(this); return __atomicMax(buf[byteAddress / 8], value); } // Min __cuda_sm_version(3.5) __target_intrinsic(cuda, "atomicMin((uint64_t*)$0._getPtrAt($1), $2)") uint64_t InterlockedMinU64(uint byteAddress, uint64_t value); __specialized_for_target(hlsl) uint64_t InterlockedMinU64(uint byteAddress, uint64_t value) { return __asuint64(__atomicMin(this, byteAddress, __asuint2(value))); } __specialized_for_target(glsl) uint64_t InterlockedMinU64(uint byteAddress, uint64_t value) { RWStructuredBuffer buf = __getEquivalentStructuredBuffer(this); return __atomicMin(buf[byteAddress / 8], value); } // And __target_intrinsic(cuda, "atomicAnd((uint64_t*)$0._getPtrAt($1), $2)") uint64_t InterlockedAndU64(uint byteAddress, uint64_t value); __specialized_for_target(hlsl) uint64_t InterlockedAndU64(uint byteAddress, uint64_t value) { return __asuint64(__atomicAnd(this, byteAddress, __asuint2(value))); } __specialized_for_target(glsl) uint64_t InterlockedAndU64(uint byteAddress, uint64_t value) { RWStructuredBuffer buf = __getEquivalentStructuredBuffer(this); return __atomicAnd(buf[byteAddress / 8], value); } // Or __target_intrinsic(cuda, "atomicOr((uint64_t*)$0._getPtrAt($1), $2)") uint64_t InterlockedOrU64(uint byteAddress, uint64_t value); __specialized_for_target(hlsl) uint64_t InterlockedOrU64(uint byteAddress, uint64_t value) { return __asuint64(__atomicOr(this, byteAddress, __asuint2(value))); } __specialized_for_target(glsl) uint64_t InterlockedOrU64(uint byteAddress, uint64_t value) { RWStructuredBuffer buf = __getEquivalentStructuredBuffer(this); return __atomicOr(buf[byteAddress / 8], value); } // Xor __target_intrinsic(cuda, "atomicXor((uint64_t*)$0._getPtrAt($1), $2)") uint64_t InterlockedXorU64(uint byteAddress, uint64_t value); __specialized_for_target(hlsl) uint64_t InterlockedXorU64(uint byteAddress, uint64_t value) { return __asuint64(__atomicXor(this, byteAddress, __asuint2(value))); } __specialized_for_target(glsl) uint64_t InterlockedXorU64(uint byteAddress, uint64_t value) { RWStructuredBuffer buf = __getEquivalentStructuredBuffer(this); return __atomicXor(buf[byteAddress / 8], value); } // Exchange __target_intrinsic(cuda, "atomicExch((uint64_t*)$0._getPtrAt($1), $2)") uint64_t InterlockedExchangeU64(uint byteAddress, uint64_t value); __specialized_for_target(hlsl) uint64_t InterlockedExchangeU64(uint byteAddress, uint64_t value) { return __asuint64(__atomicExchange(this, byteAddress, __asuint2(value))); } __specialized_for_target(glsl) uint64_t InterlockedExchangeU64(uint byteAddress, uint64_t value) { RWStructuredBuffer buf = __getEquivalentStructuredBuffer(this); return __atomicExchange(buf[byteAddress / 8], value); } ${{{{ } }}}} // Added operations: __target_intrinsic(glsl, "($3 = atomicAdd($0._data[$1/4], $2))") void InterlockedAdd( UINT dest, UINT value, out UINT original_value); __target_intrinsic(glsl, "atomicAdd($0._data[$1/4], $2)") void InterlockedAdd( UINT dest, UINT value); __target_intrinsic(glsl, "($3 = atomicAnd($0._data[$1/4], $2))") void InterlockedAnd( UINT dest, UINT value, out UINT original_value); __target_intrinsic(glsl, "atomicAnd($0._data[$1/4], $2)") void InterlockedAnd( UINT dest, UINT value); __target_intrinsic(glsl, "($4 = atomicCompSwap($0._data[$1/4], $2, $3))") void InterlockedCompareExchange( UINT dest, UINT compare_value, UINT value, out UINT original_value); __target_intrinsic(glsl, "atomicCompSwap($0._data[$1/4], $2, $3)") void InterlockedCompareStore( UINT dest, UINT compare_value, UINT value); __target_intrinsic(glsl, "($3 = atomicExchange($0._data[$1/4], $2))") void InterlockedExchange( UINT dest, UINT value, out UINT original_value); __target_intrinsic(glsl, "($3 = atomicMax($0._data[$1/4], $2))") void InterlockedMax( UINT dest, UINT value, out UINT original_value); __target_intrinsic(glsl, "atomicMax($0._data[$1/4], $2)") void InterlockedMax( UINT dest, UINT value); __target_intrinsic(glsl, "($3 = atomicMin($0._data[$1/4], $2))") void InterlockedMin( UINT dest, UINT value, out UINT original_value); __target_intrinsic(glsl, "atomicMin($0._data[$1/4], $2)") void InterlockedMin( UINT dest, UINT value); __target_intrinsic(glsl, "($3 = atomicOr($0._data[$1/4], $2))") void InterlockedOr( UINT dest, UINT value, out UINT original_value); __target_intrinsic(glsl, "atomicOr($0._data[$1/4], $2)") void InterlockedOr( UINT dest, UINT value); __target_intrinsic(glsl, "($3 = atomicXor($0._data[$1/4], $2))") void InterlockedXor( UINT dest, UINT value, out UINT original_value); __target_intrinsic(glsl, "atomicXor($0._data[$1/4], $2)") void InterlockedXor( UINT dest, UINT value); __target_intrinsic(glsl, "$0._data[$1/4] = $2") void Store( uint address, uint value); __target_intrinsic(glsl, "$0._data[$1/4] = $2.x, $0._data[$1/4+1] = $2.y") void Store2( uint address, uint2 value); __target_intrinsic(glsl, "$0._data[$1/4] = $2.x, $0._data[$1/4+1] = $2.y, $0._data[$1/4+2] = $2.z") void Store3( uint address, uint3 value); __target_intrinsic(glsl, "$0._data[$1/4] = $2.x, $0._data[$1/4+1] = $2.y, $0._data[$1/4+2] = $2.z, $0._data[$1/4+3] = $2.w") void Store4( uint address, uint4 value); void Store(int offset, T value) { __byteAddressBufferStore(this, offset, value); } }; ${{{{ } }}}} ${{{{ static const struct { IROp op; char const* name; } kMutableStructuredBufferCases[] = { { kIROp_HLSLRWStructuredBufferType, "RWStructuredBuffer" }, { kIROp_HLSLRasterizerOrderedStructuredBufferType, "RasterizerOrderedStructuredBuffer" }, }; for(auto item : kMutableStructuredBufferCases) { }}}} __generic __magic_type(HLSL$(item.name)Type) __intrinsic_type($(item.op)) struct $(item.name) { uint DecrementCounter(); __target_intrinsic(glsl, "$1 = $0._data.length(); $2 = 0") void GetDimensions( out uint numStructs, out uint stride); uint IncrementCounter(); __target_intrinsic(glsl, "$0._data[$1]") __target_intrinsic(spirv_direct, "%addr = 65 resultType*StorageBuffer resultId _0 const(int, 0) _1; 61 resultType resultId %addr;") T Load(int location); T Load(int location, out uint status); __subscript(uint index) -> T { __target_intrinsic(glsl, "$0._data[$1]") __target_intrinsic(spirv_direct, "*StorageBuffer 65 resultType resultId _0 const(int, 0) _1") ref; } }; ${{{{ } }}}} __generic __magic_type(HLSLPointStreamType) __intrinsic_type($(kIROp_HLSLPointStreamType)) struct PointStream { __target_intrinsic(glsl, "EmitVertex()") void Append(T value); __target_intrinsic(glsl, "EndPrimitive()") void RestartStrip(); }; __generic __magic_type(HLSLLineStreamType) __intrinsic_type($(kIROp_HLSLLineStreamType)) struct LineStream { __target_intrinsic(glsl, "EmitVertex()") void Append(T value); __target_intrinsic(glsl, "EndPrimitive()") void RestartStrip(); }; __generic __magic_type(HLSLTriangleStreamType) __intrinsic_type($(kIROp_HLSLTriangleStreamType)) struct TriangleStream { __target_intrinsic(glsl, "EmitVertex()") void Append(T value); __target_intrinsic(glsl, "EndPrimitive()") void RestartStrip(); }; #define VECTOR_MAP_UNARY(TYPE, COUNT, FUNC, VALUE) \ vector result; for(int i = 0; i < COUNT; ++i) { result[i] = FUNC(VALUE[i]); } return result #define MATRIX_MAP_UNARY(TYPE, ROWS, COLS, FUNC, VALUE) \ matrix result; for(int i = 0; i < ROWS; ++i) { result[i] = FUNC(VALUE[i]); } return result #define VECTOR_MAP_BINARY(TYPE, COUNT, FUNC, LEFT, RIGHT) \ vector result; for(int i = 0; i < COUNT; ++i) { result[i] = FUNC(LEFT[i], RIGHT[i]); } return result #define MATRIX_MAP_BINARY(TYPE, ROWS, COLS, FUNC, LEFT, RIGHT) \ matrix result; for(int i = 0; i < ROWS; ++i) { result[i] = FUNC(LEFT[i], RIGHT[i]); } return result #define VECTOR_MAP_TRINARY(TYPE, COUNT, FUNC, A, B, C) \ vector result; for(int i = 0; i < COUNT; ++i) { result[i] = FUNC(A[i], B[i], C[i]); } return result #define MATRIX_MAP_TRINARY(TYPE, ROWS, COLS, FUNC, A, B, C) \ matrix result; for(int i = 0; i < ROWS; ++i) { result[i] = FUNC(A[i], B[i], C[i]); } return result // Try to terminate the current draw or dispatch call (HLSL SM 4.0) void abort(); // Absolute value (HLSL SM 1.0) __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(cuda, "$P_abs($0)") __target_intrinsic(cpp, "$P_abs($0)") __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 fi(4,5) _0") T abs(T x); /*{ // Note: this simple definition may not be appropriate for floating-point inputs return x < 0 ? -x : x; }*/ __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 fi(4,5) _0") vector abs(vector x) { VECTOR_MAP_UNARY(T, N, abs, x); } __generic __target_intrinsic(hlsl) matrix abs(matrix x) { MATRIX_MAP_UNARY(T, N, M, abs, x); } // Inverse cosine (HLSL SM 1.0) __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(cuda, "$P_acos($0)") __target_intrinsic(cpp, "$P_acos($0)") __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 17 _0") T acos(T x); __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 17 _0") vector acos(vector x) { VECTOR_MAP_UNARY(T, N, acos, x); } __generic __target_intrinsic(hlsl) matrix acos(matrix x) { MATRIX_MAP_UNARY(T, N, M, acos, x); } // Test if all components are non-zero (HLSL SM 1.0) __generic __target_intrinsic(glsl, "bool($0)") bool all(T x); __generic __target_intrinsic(hlsl) __target_intrinsic(glsl, "all(bvec$N0($0))") bool all(vector x); // TODO: implementation of `all()` in the stdlib is // blocked on fixing implementation of `bool` vector // `getAt` on the CUDA codegen path. /* { bool result = true; for(int i = 0; i < N; ++i) result = result && all(x[i]); return result; } */ __generic __target_intrinsic(hlsl) bool all(matrix x); /* { bool result = true; for(int i = 0; i < N; ++i) result = result && all(x[i]); return result; } */ // Barrier for writes to all memory spaces (HLSL SM 5.0) __target_intrinsic(glsl, "memoryBarrier(), groupMemoryBarrier(), memoryBarrierImage(), memoryBarrierBuffer()") __target_intrinsic(cuda, "__threadfence()") void AllMemoryBarrier(); // Thread-group sync and barrier for writes to all memory spaces (HLSL SM 5.0) __target_intrinsic(glsl, "memoryBarrier(), groupMemoryBarrier(), memoryBarrierImage(), memoryBarrierBuffer(), barrier()") __target_intrinsic(cuda, "__syncthreads()") void AllMemoryBarrierWithGroupSync(); // Test if any components is non-zero (HLSL SM 1.0) __generic __target_intrinsic(glsl, "bool($0)") bool any(T x); __generic __target_intrinsic(hlsl) __target_intrinsic(glsl, "any(bvec$N0($0))") bool any(vector x); // TODO: implementation of `any()` in the stdlib is // blocked on fixing implementation of `bool` vector // `getAt` on the CUDA codegen path. /* { bool result = false; for(int i = 0; i < N; ++i) result = result || any(x[i]); return result; } */ __generic __target_intrinsic(hlsl) bool any(matrix x); /* { bool result = false; for(int i = 0; i < N; ++i) result = result || any(x[i]); return result; } */ // Reinterpret bits as a double (HLSL SM 5.0) __target_intrinsic(hlsl) __target_intrinsic(glsl, "packDouble2x32(uvec2($0, $1))") __target_intrinsic(spirv_direct, "%v = 80 _type(uint2) resultId _0 _1; 12 resultType resultId glsl450 59 %v") __glsl_extension(GL_ARB_gpu_shader5) double asdouble(uint lowbits, uint highbits); // Reinterpret bits as a float (HLSL SM 4.0) __target_intrinsic(hlsl) __target_intrinsic(glsl, "intBitsToFloat") __target_intrinsic(spirv_direct, "124 resultType resultId _0") float asfloat(int x); __target_intrinsic(hlsl) __target_intrinsic(glsl, "uintBitsToFloat") __target_intrinsic(spirv_direct, "124 resultType resultId _0") float asfloat(uint x); __generic __target_intrinsic(hlsl) __target_intrinsic(glsl, "intBitsToFloat") __target_intrinsic(spirv_direct, "124 resultType resultId _0") vector asfloat(vector< int, N> x) { VECTOR_MAP_UNARY(float, N, asfloat, x); } __generic __target_intrinsic(hlsl) __target_intrinsic(glsl, "uintBitsToFloat") __target_intrinsic(spirv_direct, "124 resultType resultId _0") vector asfloat(vector x) { VECTOR_MAP_UNARY(float, N, asfloat, x); } __generic __target_intrinsic(hlsl) matrix asfloat(matrix< int,N,M> x) { MATRIX_MAP_UNARY(float, N, M, asfloat, x); } __generic __target_intrinsic(hlsl) matrix asfloat(matrix x) { MATRIX_MAP_UNARY(float, N, M, asfloat, x); } // No op [__unsafeForceInlineEarly] float asfloat(float x) { return x; } __generic [__unsafeForceInlineEarly] vector asfloat(vector x) { return x; } __generic [__unsafeForceInlineEarly] matrix asfloat(matrix x) { return x; } // Inverse sine (HLSL SM 1.0) __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(cuda, "$P_asin($0)") __target_intrinsic(cpp, "$P_asin($0)") __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 16 _0") T asin(T x); __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 16 _0") vector asin(vector x) { VECTOR_MAP_UNARY(T,N,asin,x); } __generic __target_intrinsic(hlsl) matrix asin(matrix x) { MATRIX_MAP_UNARY(T,N,M,asin,x); } // Reinterpret bits as an int (HLSL SM 4.0) __target_intrinsic(hlsl) __target_intrinsic(glsl, "floatBitsToInt") __target_intrinsic(spirv_direct, "124 resultType resultId _0") int asint(float x); __target_intrinsic(hlsl) __target_intrinsic(glsl, "int($0)") __target_intrinsic(spirv_direct, "124 resultType resultId _0") int asint(uint x); __generic __target_intrinsic(hlsl) __target_intrinsic(glsl, "floatBitsToInt") __target_intrinsic(spirv_direct, "124 resultType resultId _0") vector asint(vector x) { VECTOR_MAP_UNARY(int, N, asint, x); } __generic __target_intrinsic(hlsl) __target_intrinsic(glsl, "ivec$N0($0)") __target_intrinsic(spirv_direct, "124 resultType resultId _0") vector asint(vector x) { VECTOR_MAP_UNARY(int, N, asint, x); } __generic __target_intrinsic(hlsl) matrix asint(matrix x) { MATRIX_MAP_UNARY(int, N, M, asint, x); } __generic __target_intrinsic(hlsl) matrix asint(matrix x) { MATRIX_MAP_UNARY(int, N, M, asint, x); } // No op [__unsafeForceInlineEarly] int asint(int x) { return x; } __generic [__unsafeForceInlineEarly] vector asint(vector x) { return x; } __generic [__unsafeForceInlineEarly] matrix asint(matrix x) { return x; } // Reinterpret bits of double as a uint (HLSL SM 5.0) __target_intrinsic(hlsl) __target_intrinsic(glsl, "{ uvec2 v = unpackDouble2x32($0); $1 = v.x; $2 = v.y; }") __glsl_extension(GL_ARB_gpu_shader5) void asuint(double value, out uint lowbits, out uint highbits); // Reinterpret bits as a uint (HLSL SM 4.0) __target_intrinsic(hlsl) __target_intrinsic(glsl, "floatBitsToUint") __target_intrinsic(spirv_direct, "124 resultType resultId _0") uint asuint(float x); __target_intrinsic(hlsl) __target_intrinsic(glsl, "uint($0)") __target_intrinsic(spirv_direct, "124 resultType resultId _0") uint asuint(int x); __generic __target_intrinsic(hlsl) __target_intrinsic(glsl, "floatBitsToUint") __target_intrinsic(spirv_direct, "124 resultType resultId _0") vector asuint(vector x) { VECTOR_MAP_UNARY(uint, N, asuint, x); } __generic __target_intrinsic(hlsl) __target_intrinsic(glsl, "uvec$N0($0)") __target_intrinsic(spirv_direct, "124 resultType resultId _0") vector asuint(vector x) { VECTOR_MAP_UNARY(uint, N, asuint, x); } __generic __target_intrinsic(hlsl) matrix asuint(matrix x) { MATRIX_MAP_UNARY(uint, N, M, asuint, x); } __generic __target_intrinsic(hlsl) matrix asuint(matrix x) { MATRIX_MAP_UNARY(uint, N, M, asuint, x); } [__unsafeForceInlineEarly] uint asuint(uint x) { return x; } __generic [__unsafeForceInlineEarly] vector asuint(vector x) { return x; } __generic [__unsafeForceInlineEarly] matrix asuint(matrix x) { return x; } // 16-bit bitcast ops (HLSL SM 6.2) // // TODO: We need to map these to GLSL/SPIR-V // operations that don't require an intermediate // conversion to fp32. // Identity cases: [__unsafeForceInlineEarly] float16_t asfloat16(float16_t value) { return value; } [__unsafeForceInlineEarly] vector asfloat16(vector value) { return value; } [__unsafeForceInlineEarly] matrix asfloat16(matrix value) { return value; } [__unsafeForceInlineEarly] int16_t asint16(int16_t value) { return value; } [__unsafeForceInlineEarly] vector asint16(vector value) { return value; } [__unsafeForceInlineEarly] matrix asint16(matrix value) { return value; } [__unsafeForceInlineEarly] uint16_t asuint16(uint16_t value) { return value; } [__unsafeForceInlineEarly] vector asuint16(vector value) { return value; } [__unsafeForceInlineEarly] matrix asuint16(matrix value) { return value; } // Signed<->unsigned cases: [__unsafeForceInlineEarly] int16_t asint16(uint16_t value) { return value; } [__unsafeForceInlineEarly] vector asint16(vector value) { return value; } [__unsafeForceInlineEarly] matrix asint16(matrix value) { return value; } [__unsafeForceInlineEarly] uint16_t asuint16(int16_t value) { return value; } [__unsafeForceInlineEarly] vector asuint16(vector value) { return value; } [__unsafeForceInlineEarly] matrix asuint16(matrix value) { return value; } // Float->unsigned cases: __target_intrinsic(hlsl) __target_intrinsic(glsl, "uint16_t(packHalf2x16(vec2($0, 0.0)))") __target_intrinsic(cuda, "__half_as_ushort") uint16_t asuint16(float16_t value); vector asuint16(vector value) { VECTOR_MAP_UNARY(uint16_t, N, asuint16, value); } matrix asuint16(matrix value) { MATRIX_MAP_UNARY(uint16_t, R, C, asuint16, value); } // Unsigned->float cases: __target_intrinsic(hlsl) __target_intrinsic(glsl, "float16_t(unpackHalf2x16($0).x)") __target_intrinsic(cuda, "__ushort_as_half") float16_t asfloat16(uint16_t value); vector asfloat16(vector value) { VECTOR_MAP_UNARY(float16_t, N, asfloat16, value); } matrix asfloat16(matrix value) { MATRIX_MAP_UNARY(float16_t, R, C, asfloat16, value); } // Float<->signed cases: __target_intrinsic(hlsl) __target_intrinsic(cuda, "__half_as_short") [__unsafeForceInlineEarly] int16_t asint16(float16_t value) { return asuint16(value); } __target_intrinsic(hlsl) [__unsafeForceInlineEarly] vector asint16(vector value) { return asuint16(value); } __target_intrinsic(hlsl) [__unsafeForceInlineEarly] matrix asint16(matrix value) { return asuint16(value); } __target_intrinsic(hlsl) __target_intrinsic(cuda, "__short_as_half") [__unsafeForceInlineEarly] float16_t asfloat16(int16_t value) { return asfloat16(asuint16(value)); } __target_intrinsic(hlsl) [__unsafeForceInlineEarly] vector asfloat16(vector value) { return asfloat16(asuint16(value)); } __target_intrinsic(hlsl) [__unsafeForceInlineEarly] matrix asfloat16(matrix value) { return asfloat16(asuint16(value)); } // Inverse tangent (HLSL SM 1.0) __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(cuda, "$P_atan($0)") __target_intrinsic(cpp, "$P_atan($0)") __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 18 _0") T atan(T x); __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 18 _0") vector atan(vector x) { VECTOR_MAP_UNARY(T, N, atan, x); } __generic __target_intrinsic(hlsl) matrix atan(matrix x) { MATRIX_MAP_UNARY(T, N, M, atan, x); } __generic __target_intrinsic(hlsl) __target_intrinsic(glsl,"atan($0,$1)") __target_intrinsic(cuda, "$P_atan2($0, $1)") __target_intrinsic(cpp, "$P_atan2($0, $1)") __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 25 _0 _1") T atan2(T y, T x); __generic __target_intrinsic(hlsl) __target_intrinsic(glsl,"atan($0,$1)") __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 25 _0 _1") vector atan2(vector y, vector x) { VECTOR_MAP_BINARY(T, N, atan2, y, x); } __generic __target_intrinsic(hlsl) matrix atan2(matrix y, matrix x) { MATRIX_MAP_BINARY(T, N, M, atan2, y, x); } // Ceiling (HLSL SM 1.0) __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(cuda, "$P_ceil($0)") __target_intrinsic(cpp, "$P_ceil($0)") __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 9 _0") T ceil(T x); __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 9 _0") vector ceil(vector x) { VECTOR_MAP_UNARY(T, N, ceil, x); } __generic __target_intrinsic(hlsl) matrix ceil(matrix x) { MATRIX_MAP_UNARY(T, N, M, ceil, x); } // Check access status to tiled resource bool CheckAccessFullyMapped(uint status); // Clamp (HLSL SM 1.0) __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 fus(43,44,45) _0 _1 _2") T clamp(T x, T minBound, T maxBound) { return min(max(x, minBound), maxBound); } __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 fus(43,44,45) _0 _1 _2") vector clamp(vector x, vector minBound, vector maxBound) { return min(max(x, minBound), maxBound); } __generic __target_intrinsic(hlsl) matrix clamp(matrix x, matrix minBound, matrix maxBound) { return min(max(x, minBound), maxBound); } // Clip (discard) fragment conditionally __generic __target_intrinsic(hlsl) void clip(T x) { if(x < T(0)) discard; } __generic __target_intrinsic(hlsl) void clip(vector x) { if(any(x < T(0))) discard; } __generic __target_intrinsic(hlsl) void clip(matrix x) { if(any(x < T(0))) discard; } // Cosine __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(cuda, "$P_cos($0)") __target_intrinsic(cpp, "$P_cos($0)") __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 14 _0") T cos(T x); __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 14 _0") vector cos(vector x) { VECTOR_MAP_UNARY(T,N, cos, x); } __generic __target_intrinsic(hlsl) matrix cos(matrix x) { MATRIX_MAP_UNARY(T, N, M, cos, x); } // Hyperbolic cosine __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(cuda, "$P_cosh($0)") __target_intrinsic(cpp, "$P_cosh($0)") __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 20 _0") T cosh(T x); __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 20 _0") vector cosh(vector x) { VECTOR_MAP_UNARY(T,N, cosh, x); } __generic __target_intrinsic(hlsl) matrix cosh(matrix x) { MATRIX_MAP_UNARY(T, N, M, cosh, x); } // Population count __target_intrinsic(hlsl) __target_intrinsic(glsl, "bitCount") __target_intrinsic(cuda, "$P_countbits($0)") __target_intrinsic(cpp, "$P_countbits($0)") uint countbits(uint value); // Cross product // TODO: SPIRV does not support integer vectors. __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 68 _0 _1") vector cross(vector left, vector right) { return vector( left.y * right.z - left.z * right.y, left.z * right.x - left.x * right.z, left.x * right.y - left.y * right.x); } // Convert encoded color __target_intrinsic(hlsl) int4 D3DCOLORtoUBYTE4(float4 color) { let scaled = color.zyxw * 255.001999f; return int4(scaled); } // Partial-difference derivatives __generic __target_intrinsic(glsl, dFdx) T ddx(T x); __generic __target_intrinsic(hlsl) __target_intrinsic(glsl, dFdx) vector ddx(vector x) { VECTOR_MAP_UNARY(T, N, ddx, x); } __generic __target_intrinsic(hlsl) matrix ddx(matrix x) { MATRIX_MAP_UNARY(T, N, M, ddx, x); } __generic __target_intrinsic(hlsl) __glsl_extension(GL_ARB_derivative_control) __target_intrinsic(glsl, dFdxCoarse) T ddx_coarse(T x); __generic __target_intrinsic(hlsl) __glsl_extension(GL_ARB_derivative_control) __target_intrinsic(glsl, dFdxCoarse) vector ddx_coarse(vector x) { VECTOR_MAP_UNARY(T, N, ddx_coarse, x); } __generic __target_intrinsic(hlsl) matrix ddx_coarse(matrix x) { MATRIX_MAP_UNARY(T, N, M, ddx_coarse, x); } __generic __target_intrinsic(hlsl) __glsl_extension(GL_ARB_derivative_control) __target_intrinsic(glsl, dFdxFine) T ddx_fine(T x); __generic __target_intrinsic(hlsl) __glsl_extension(GL_ARB_derivative_control) __target_intrinsic(glsl, dFdxFine) vector ddx_fine(vector x) { VECTOR_MAP_UNARY(T, N, ddx_fine, x); } __generic __target_intrinsic(hlsl) matrix ddx_fine(matrix x) { MATRIX_MAP_UNARY(T, N, M, ddx_fine, x); } __generic __target_intrinsic(hlsl) __target_intrinsic(glsl, dFdy) T ddy(T x); __generic __target_intrinsic(hlsl) __target_intrinsic(glsl, dFdy) vector ddy(vector x) { VECTOR_MAP_UNARY(T, N, ddy, x); } __generic __target_intrinsic(hlsl) matrix ddy(matrix x) { MATRIX_MAP_UNARY(T, N, M, ddy, x); } __generic __glsl_extension(GL_ARB_derivative_control) __target_intrinsic(glsl, dFdyCoarse) T ddy_coarse(T x); __generic __target_intrinsic(hlsl) __glsl_extension(GL_ARB_derivative_control) __target_intrinsic(glsl, dFdyCoarse) vector ddy_coarse(vector x) { VECTOR_MAP_UNARY(T, N, ddy_coarse, x); } __generic __target_intrinsic(hlsl) matrix ddy_coarse(matrix x) { MATRIX_MAP_UNARY(T, N, M, ddy_coarse, x); } __generic __target_intrinsic(hlsl) __glsl_extension(GL_ARB_derivative_control) __target_intrinsic(glsl, dFdyFine) T ddy_fine(T x); __generic __target_intrinsic(hlsl) __glsl_extension(GL_ARB_derivative_control) __target_intrinsic(glsl, dFdyFine) vector ddy_fine(vector x) { VECTOR_MAP_UNARY(T, N, ddy_fine, x); } __generic __target_intrinsic(hlsl) matrix ddy_fine(matrix x) { MATRIX_MAP_UNARY(T, N, M, ddy_fine, x); } // Radians to degrees __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 12 _0") T degrees(T x) { return x * (T(180) / T.getPi()); } __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 12 _0") vector degrees(vector x) { VECTOR_MAP_UNARY(T, N, degrees, x); } __generic __target_intrinsic(hlsl) matrix degrees(matrix x) { MATRIX_MAP_UNARY(T, N, M, degrees, x); } // Matrix determinant __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 33 _0") T determinant(matrix m); // Barrier for device memory __target_intrinsic(glsl, "memoryBarrier(), memoryBarrierImage(), memoryBarrierBuffer()") __target_intrinsic(cuda, "__threadfence()") void DeviceMemoryBarrier(); __target_intrinsic(glsl, "memoryBarrier(), memoryBarrierImage(), memoryBarrierBuffer(), barrier()") __target_intrinsic(glsl, "__syncthreads()") void DeviceMemoryBarrierWithGroupSync(); // Vector distance __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 67 _0 _1") T distance(vector x, vector y) { return length(x - y); } // Vector dot product __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) T dot(vector x, vector y) { T result = T(0); for(int i = 0; i < N; ++i) result += x[i] * y[i]; return result; } // Helper for computing distance terms for lighting (obsolete) __generic vector dst(vector x, vector y); // Given a RWByteAddressBuffer allow it to be interpretted as a RWStructuredBuffer __intrinsic_op($(kIROp_GetEquivalentStructuredBuffer)) RWStructuredBuffer __getEquivalentStructuredBuffer(RWByteAddressBuffer b); // Error message // void errorf( string format, ... ); // Attribute evaluation // TODO: The matrix cases of these functions won't actuall work // when compiled to GLSL, since they only support scalar/vector // TODO: Should these be constrains to `__BuiltinFloatingPointType`? // TODO: SPIRV-direct does not support non-floating-point types. __generic __target_intrinsic(glsl, interpolateAtCentroid) __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 76 _0") T EvaluateAttributeAtCentroid(T x); __generic __target_intrinsic(glsl, interpolateAtCentroid) __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 76 _0") vector EvaluateAttributeAtCentroid(vector x); __generic __target_intrinsic(glsl, interpolateAtCentroid) matrix EvaluateAttributeAtCentroid(matrix x) { MATRIX_MAP_UNARY(T, N, M, EvaluateAttributeAtCentroid, x); } __generic __target_intrinsic(glsl, "interpolateAtSample($0, int($1))") __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 77 _0 _1") T EvaluateAttributeAtSample(T x, uint sampleindex); __generic __target_intrinsic(glsl, "interpolateAtSample($0, int($1))") __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 77 _0 _1") vector EvaluateAttributeAtSample(vector x, uint sampleindex); __generic __target_intrinsic(glsl, "interpolateAtSample($0, int($1))") matrix EvaluateAttributeAtSample(matrix x, uint sampleindex) { matrix result; for(int i = 0; i < N; ++i) { result[i] = EvaluateAttributeAtSample(x[i], sampleindex); } return result; } __generic __target_intrinsic(glsl, "interpolateAtOffset($0, vec2($1) / 16.0f)") __target_intrinsic(spirv_direct, "%foffset = 111 _type(float2) resultId _1; %offsetdiv16 = 136 _type(float2) resultId %foffset const(float2, 16.0, 16.0); 12 resultType resultId glsl450 78 _0 %offsetdiv16") T EvaluateAttributeSnapped(T x, int2 offset); __generic __target_intrinsic(glsl, "interpolateAtOffset($0, vec2($1) / 16.0f)") __target_intrinsic(spirv_direct, "%foffset = 111 _type(float2) resultId _1; %offsetdiv16 = 136 _type(float2) resultId %foffset const(float2, 16.0, 16.0); 12 resultType resultId glsl450 78 _0 %offsetdiv16") vector EvaluateAttributeSnapped(vector x, int2 offset); __generic __target_intrinsic(glsl, "interpolateAtOffset($0, vec2($1) / 16.0f)") matrix EvaluateAttributeSnapped(matrix x, int2 offset) { matrix result; for(int i = 0; i < N; ++i) { result[i] = EvaluateAttributeSnapped(x[i], offset); } return result; } // Base-e exponent __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(cuda, "$P_exp($0)") __target_intrinsic(cpp, "$P_exp($0)") __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 27 _0") T exp(T x); __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 27 _0") vector exp(vector x) { VECTOR_MAP_UNARY(T, N, exp, x); } __generic __target_intrinsic(hlsl) matrix exp(matrix x) { MATRIX_MAP_UNARY(T, N, M, exp, x); } // Base-2 exponent __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(cuda, "$P_exp2($0)") __target_intrinsic(cpp, "$P_exp2($0)") __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 29 _0") T exp2(T x); __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 29 _0") vector exp2(vector x) { VECTOR_MAP_UNARY(T, N, exp2, x); } __generic __target_intrinsic(hlsl) matrix exp2(matrix x) { MATRIX_MAP_UNARY(T, N, M, exp2, x); } // Convert 16-bit float stored in low bits of integer __target_intrinsic(glsl, "unpackHalf2x16($0).x") __glsl_version(420) __target_intrinsic(hlsl) float f16tof32(uint value); __generic __target_intrinsic(hlsl) vector f16tof32(vector value) { VECTOR_MAP_UNARY(float, N, f16tof32, value); } // Convert to 16-bit float stored in low bits of integer __target_intrinsic(glsl, "packHalf2x16(vec2($0,0.0))") __glsl_version(420) __target_intrinsic(hlsl) uint f32tof16(float value); __generic __target_intrinsic(hlsl) vector f32tof16(vector value) { VECTOR_MAP_UNARY(uint, N, f32tof16, value); } // !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! // The following is Slang specific and NOT part of standard HLSL // It's not clear what happens with float16 time in HLSL -> can the float16 coerce to uint for example? If so that would // give the wrong result __target_intrinsic(glsl, "unpackHalf2x16($0).x") __target_intrinsic(cuda, "__half2float") __glsl_version(420) float f16tof32(float16_t value); __generic __target_intrinsic(hlsl) __target_intrinsic(cuda, "__half2float") vector f16tof32(vector value) { VECTOR_MAP_UNARY(float, N, f16tof32, value); } // Convert to float16_t __target_intrinsic(glsl, "packHalf2x16(vec2($0,0.0))") __glsl_version(420) __target_intrinsic(cuda, "__float2half") float16_t f32tof16_(float value); __generic __target_intrinsic(cuda, "__float2half") vector f32tof16_(vector value) { VECTOR_MAP_UNARY(uint, N, f32tof16, value); } // !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! // Flip surface normal to face forward, if needed __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) vector faceforward(vector n, vector i, vector ng) { return dot(ng, i) < T(0.0f) ? n : -n; } // Find first set bit starting at high bit and working down __target_intrinsic(hlsl) __target_intrinsic(glsl,"findMSB") __target_intrinsic(cuda, "$P_firstbithigh($0)") __target_intrinsic(cpp, "$P_firstbithigh($0)") __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 74 _0") int firstbithigh(int value); __target_intrinsic(hlsl) __target_intrinsic(glsl,"findMSB") __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 74 _0") __generic vector firstbithigh(vector value) { VECTOR_MAP_UNARY(int, N, firstbithigh, value); } __target_intrinsic(hlsl) __target_intrinsic(glsl,"findMSB") __target_intrinsic(cuda, "$P_firstbithigh($0)") __target_intrinsic(cpp, "$P_firstbithigh($0)") __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 75 _0") uint firstbithigh(uint value); __target_intrinsic(hlsl) __target_intrinsic(glsl,"findMSB") __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 75 _0") __generic vector firstbithigh(vector value) { VECTOR_MAP_UNARY(uint, N, firstbithigh, value); } // Find first set bit starting at low bit and working up __target_intrinsic(hlsl) __target_intrinsic(glsl,"findLSB") __target_intrinsic(cuda, "$P_firstbitlow($0)") __target_intrinsic(cpp, "$P_firstbitlow($0)") __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 73 _0") int firstbitlow(int value); __target_intrinsic(hlsl) __target_intrinsic(glsl,"findLSB") __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 73 _0") __generic vector firstbitlow(vector value) { VECTOR_MAP_UNARY(int, N, firstbitlow, value); } __target_intrinsic(hlsl) __target_intrinsic(glsl,"findLSB") __target_intrinsic(cuda, "$P_firstbitlow($0)") __target_intrinsic(cpp, "$P_firstbitlow($0)") __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 73 _0") uint firstbitlow(uint value); __target_intrinsic(hlsl) __target_intrinsic(glsl,"findLSB") __generic __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 73 _0") vector firstbitlow(vector value) { VECTOR_MAP_UNARY(uint, N, firstbitlow, value); } // Floor (HLSL SM 1.0) __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(cuda, "$P_floor($0)") __target_intrinsic(cpp, "$P_floor($0)") __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 8 _0") T floor(T x); __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 8 _0") vector floor(vector x) { VECTOR_MAP_UNARY(T, N, floor, x); } __generic __target_intrinsic(hlsl) matrix floor(matrix x) { MATRIX_MAP_UNARY(T, N, M, floor, x); } // Fused multiply-add for doubles __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(cuda, "$P_fma($0, $1, $2)") __target_intrinsic(cpp, "$P_fma($0, $1, $2)") __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 50 _0 _1 _2") double fma(double a, double b, double c); __generic __target_intrinsic(hlsl) __target_intrinsic(glsl) __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 50 _0 _1 _2") vector fma(vector a, vector b, vector c) { VECTOR_MAP_TRINARY(double, N, fma, a, b, c); } __generic __target_intrinsic(hlsl) matrix fma(matrix a, matrix b, matrix c) { MATRIX_MAP_TRINARY(double, N, M, fma, a, b, c); } // Floating point remainder of x/y __generic __target_intrinsic(hlsl) __target_intrinsic(cuda, "$P_fmod($0, $1)") __target_intrinsic(cpp, "$P_fmod($0, $1)") T fmod(T x, T y) { return x - y * trunc(x/y); } __generic __target_intrinsic(hlsl) vector fmod(vector x, vector y) { VECTOR_MAP_BINARY(T, N, fmod, x, y); } __generic __target_intrinsic(hlsl) matrix fmod(matrix x, matrix y) { MATRIX_MAP_BINARY(T, N, M, fmod, x, y); } // Fractional part __generic __target_intrinsic(hlsl) __target_intrinsic(glsl, fract) __target_intrinsic(cuda, "$P_frac($0)") __target_intrinsic(cpp, "$P_frac($0)") __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 10 _0") T frac(T x); __generic __target_intrinsic(hlsl) __target_intrinsic(glsl, fract) __target_intrinsic(spirv_direct, "12 resultType resultId glsl450 10 _0") vector frac(vector