[Bugfix] Set enforce_eager automatically for mllama (#12127)

heheda12345 · web-flow · commit d06e824006d1 · 2025-01-16T15:30:08.000-05:00
Signed-off-by: Chen Zhang &lt;zhangch99@outlook.com&gt;
diff --git a/examples/offline_inference/vision_language.py b/examples/offline_inference/vision_language.py
@@ -325,7 +325,6 @@ def run_mllama(question: str, modality: str):
         model=model_name,
         max_model_len=4096,
         max_num_seqs=16,
-        enforce_eager=True,
         disable_mm_preprocessor_cache=args.disable_mm_preprocessor_cache,
     )
 
diff --git a/examples/offline_inference/vision_language_multi_image.py b/examples/offline_inference/vision_language_multi_image.py
@@ -186,7 +186,6 @@ def load_mllama(question, image_urls: List[str]) -> ModelRequestData:
         model=model_name,
         max_model_len=4096,
         max_num_seqs=16,
-        enforce_eager=True,
         limit_mm_per_prompt={"image": len(image_urls)},
     )
 
diff --git a/vllm/config.py b/vllm/config.py
@@ -607,10 +607,12 @@ def _verify_cuda_graph(self) -> None:
         self.max_seq_len_to_capture = min(self.max_seq_len_to_capture,
                                           self.max_model_len)
 
-        if (self.hf_config.model_type == 'deepseek_v3'
+        MODEL_NOT_SUPPORT_CUDA_GRAPH = ['deepseek_v3', 'mllama']
+        if (self.hf_config.model_type in MODEL_NOT_SUPPORT_CUDA_GRAPH
                 and not self.enforce_eager):
-            logger.warning("CUDA graph is not supported for Deepseek V3 yet, "
-                           "fallback to the eager mode.")
+            logger.warning(
+                "CUDA graph is not supported for %s yet, fallback to the eager "
+                "mode.", self.hf_config.model_type)
             self.enforce_eager = True
 
     def _verify_bnb_config(self) -> None:

Original file line number	Diff line number	Diff line change
`@@ -325,7 +325,6 @@ def run_mllama(question: str, modality: str):`
`325`	`325`	`model=model_name,`
`326`	`326`	`max_model_len=4096,`
`327`	`327`	`max_num_seqs=16,`
`328`		`- enforce_eager=True,`
`329`	`328`	`disable_mm_preprocessor_cache=args.disable_mm_preprocessor_cache,`
`330`	`329`	`)`
`331`	`330`
Original file line number	Diff line number	Diff line change
`@@ -186,7 +186,6 @@ def load_mllama(question, image_urls: List[str]) -> ModelRequestData:`
`186`	`186`	`model=model_name,`
`187`	`187`	`max_model_len=4096,`
`188`	`188`	`max_num_seqs=16,`
`189`		`- enforce_eager=True,`
`190`	`189`	`limit_mm_per_prompt={"image": len(image_urls)},`
`191`	`190`	`)`
`192`	`191`