[Misc] Improve the readability of BNB error messages (vllm-project#12320)

jeejeelee · Isotr0py · commit 88c07ee209a8 · 2025-02-02T21:35:03.000+08:00
Signed-off-by: Jee Jee Li &lt;pandaleefree@gmail.com&gt;
Signed-off-by: Isotr0py &lt;2037008807@qq.com&gt;
diff --git a/vllm/model_executor/model_loader/loader.py b/vllm/model_executor/model_loader/loader.py
@@ -1076,8 +1076,8 @@ def _load_weights(self, model_config: ModelConfig,
         # weight tensor. So TP does not work with pre_quantized bnb models.
         if pre_quant and get_tensor_model_parallel_world_size() > 1:
             raise ValueError(
-                "Prequant BitsAndBytes models with TP is not supported."
-                "Please try with PP.")
+                "Prequant BitsAndBytes models with tensor parallelism is not "
+                "supported. Please try with pipeline parallelism.")
 
         load_8bit = False
         if pre_quant: