[Bugfix][kernels] Fix half2float conversion in gguf kernels (vllm-project#15995)

Isotr0py · Alex4210987 · commit eb0bcd8b251f · 2025-04-05T14:42:06.000Z
Signed-off-by: Isotr0py &lt;2037008807@qq.com&gt;
Signed-off-by: xinyuxiao &lt;xinyuxiao2024@gmail.com&gt;
diff --git a/csrc/quantization/gguf/ggml-common.h b/csrc/quantization/gguf/ggml-common.h
@@ -1090,6 +1090,11 @@ __device__ __forceinline__ c10::BFloat16 convert_from_half<c10::BFloat16>(half v
 #endif  // defined(__CUDA_ARCH__) && __CUDA_ARCH__ >= 800
 }
 
+template<>
+__device__ __forceinline__ float convert_from_half<float>(half val) {
+    return __half2float(val);
+}
+
 #if defined(USE_ROCM)
 
 #ifndef __has_builtin