[Bugfix] Fix gptq_marlin for deepseek-v3 (#13750)

rainkert · dangshunya · web-flow · commit 0df25101d6dc · 2025-03-05T12:25:53.000+08:00
Signed-off-by: dangshunya &lt;dangshunya@baichuan-inc.com&gt;
Co-authored-by: dangshunya &lt;dangshunya@baichuan-inc.com&gt;
diff --git a/vllm/model_executor/layers/quantization/gptq_marlin.py b/vllm/model_executor/layers/quantization/gptq_marlin.py
@@ -569,7 +569,9 @@ def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
         replace_parameter(layer, "w13_scales", marlin_w13_scales)
         marlin_w2_scales = marlin_moe_permute_scales(
             s=layer.w2_scales,
-            size_k=layer.w2_scales.shape[1] * self.quant_config.pack_factor,
+            size_k=layer.w2_scales.shape[1] *
+            (self.quant_config.group_size if self.quant_config.group_size != -1
+             else self.quant_config.pack_factor),
             size_n=layer.w2_scales.shape[2],
             group_size=self.quant_config.group_size,
         )