Commit 61d1c88

authored

Vulkan Improvements (ggml-org#5835)

* Improve dequant shaders, add fast q4_0 dequant * Optimize dmmv non-kquants for GCN Remove unnecessary SPIR-V shader duplication * Fix q4_0 dequant dispatch sizes Fix backend free bug * Optimize dequant shaders for q4_1, q5_0, q5_1 and q8_0 * Add unary and binary op shader templates * Fix Vulkan check results * Enable non-contiguous support for simple ops * Add argsort Basic q4_0 mmq shader and unit test * Speed up q4_0 dequant code, enable mmq for q4_0 * Rework matmul pipeline selection * Add soft_max alibi support * Add q4_1, q5_0, q5_1 and q8_0 dequant mat mat mul shaders * Add environment variable GGML_VK_FORCE_MAX_ALLOCATION_SIZE to limit max buffer size Rename GGML_VULKAN_DISABLE_F16 to GGML_VK_DISABLE_F16 for consistency

1 parent 21b0867 commit 61d1c88Copy full SHA for 61d1c88

5 files changed

+41365

-44684

lines changed

ggml-vulkan-shaders.hpp
ggml-vulkan.cpp
ggml-vulkan.h
ggml_vk_generate_shaders.py
llama.cpp

5 files changed

+41365

-44684

lines changed

Comments

(0)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Commit 61d1c88

5 files changed

5 files changed

File tree

5 files changed

5 files changed

0 commit comments