Re-fix Quark API

gshtras · gshtras · commit 0b8eaece14d8 · 2025-05-02T19:30:26.000Z
diff --git a/vllm/model_executor/layers/quantization/quark/quark.py b/vllm/model_executor/layers/quantization/quark/quark.py
@@ -158,6 +158,19 @@ def _check_scheme_supported(self,
         else:
             return False
 
+    def is_fp8_w8a8(self) -> bool:
+        # Returns True if all quantized layers in model are fp8 w8a8
+        global_quant_config = cast(
+            Dict[str, Any], self.quant_config.get("global_quant_config"))
+        layer_quant_configs = cast(Dict[str, Any],
+                                   self.quant_config.get("layer_quant_config"))
+        for config in (global_quant_config, *layer_quant_configs.values()):
+            weight_config = cast(Dict[str, Any], config.get("weight"))
+            input_config = cast(Dict[str, Any], config.get("input_tensors"))
+            if not self._is_fp8_w8a8(weight_config, input_config):
+                return False
+        return True
+
     def _is_fp8_w8a8(self, weight_quant: Optional[Dict[str, Any]],
                      input_quant: Optional[Dict[str, Any]]) -> bool:
         # Confirm weights and input quantized.
diff --git a/vllm/model_executor/models/llama.py b/vllm/model_executor/models/llama.py
@@ -250,7 +250,7 @@ def __init__(
         self.hidden_size = config.hidden_size
         self.use_fp8 = (isinstance(quant_config, Fp8Config) or
                         (isinstance(quant_config, QuarkConfig)
-                         and quant_config._is_fp8_w8a8())
+                         and quant_config.is_fp8_w8a8())
                         if current_platform.is_fp8_fnuz() else False)
         rope_theta = getattr(config, "rope_theta", 10000)
         rope_scaling = getattr(config, "rope_scaling", None)