cuda : fix LLAMA_CUDA_F16 build (ggml-org#6298)

slaren · web-flow · commit 2f34b865b62b · 2024-03-25T16:43:22.000+02:00
diff --git a/ggml-cuda/dmmv.cu b/ggml-cuda/dmmv.cu
@@ -1,5 +1,6 @@
 #include "dmmv.cuh"
 #include "dequantize.cuh"
+#include "convert.cuh"
 
 // dmmv = dequantize_mul_mat_vec
 #ifndef GGML_CUDA_DMMV_X