[Bugfix] Fix MRoPE Errors in the Qwen-VL Model When Processing Pure Text (vllm-project#18526)

wulipc · 松灵 · DarkLight1337 · googs1025 · commit 62a7f7744cb3 · 2025-05-22T22:28:22.000+08:00
Co-authored-by: 松灵 &lt;wpf272043@alibaba-inc.com&gt;
Co-authored-by: Cyrus Leung &lt;cyrus.tl.leung@gmail.com&gt;
Co-authored-by: DarkLight1337 &lt;tlleungac@connect.ust.hk&gt;
Signed-off-by: googs1025 &lt;googs1025@gmail.com&gt;
diff --git a/vllm/sampling_params.py b/vllm/sampling_params.py
@@ -330,11 +330,9 @@ def __post_init__(self) -> None:
         # and set `_real_n`` to the original `n`.
         # when we return the result, we will check
         # if we need to return `n` or `_real_n` results
-        if self.best_of:
-            if self.best_of < self.n:
-                raise ValueError(
-                    f"best_of must be greater than or equal to n, "
-                    f"got n={self.n} and best_of={self.best_of}.")
+        if self.best_of is None:
+            self.best_of = self.n
+        else:
             if not self._real_n:
                 self._real_n = self.n
                 self.n = self.best_of
@@ -389,6 +387,14 @@ def _verify_args(self) -> None:
                              f"type {type(self.n)}")
         if self.n < 1:
             raise ValueError(f"n must be at least 1, got {self.n}.")
+        if not isinstance(self.best_of, int):
+            raise ValueError(
+                f"best_of must be an integer, got {type(self.best_of)}")
+        if self.best_of < 1:
+            raise ValueError(f"best_of must be at least 1, got {self.best_of}")
+        if self.best_of < self.n:
+            raise ValueError(f"best_of must be greater than or equal to n, "
+                             f"got n={self.n} and best_of={self.best_of}.")
         if not -2.0 <= self.presence_penalty <= 2.0:
             raise ValueError("presence_penalty must be in [-2, 2], got "
                              f"{self.presence_penalty}.")
@@ -512,7 +518,6 @@ def update_from_tokenizer(self, tokenizer: AnyTokenizer) -> None:
             raise ValueError(
                 f"The model vocabulary size is {tokenizer.max_token_id+1},"
                 f" but the following tokens"
-                f" were specified as bad: {invalid_token_ids}."
                 f" All token id values should be integers satisfying:"
                 f" 0 <= token_id <= {tokenizer.max_token_id}.")
 
diff --git a/vllm/worker/model_runner.py b/vllm/worker/model_runner.py
@@ -729,7 +729,10 @@ def _compute_multi_modal_input(self, inter_data: InterDataForSeqGroup,
         mm_kwargs, placeholder_maps = MultiModalPlaceholderMap.from_seq_group(
             seq_group_metadata,
             range(positions[0], positions[0] + len(positions)))
-        if not mm_kwargs:
+
+        # M-RoPE requires mrope_positions even for plain text; return early
+        # when mm_kwargs is empty only if inter_data.is_prompt is False.
+        if not mm_kwargs and not inter_data.is_prompt:
             return
 
         inter_data.multi_modal_kwargs = mm_kwargs
@@ -741,12 +744,6 @@ def _compute_multi_modal_input(self, inter_data: InterDataForSeqGroup,
             video_grid_thw = mm_kwargs.get("video_grid_thw", None)
             audio_feature_lengths = mm_kwargs.get("audio_feature_lengths",
                                                   None)
-            assert (
-                image_grid_thw is not None or video_grid_thw is not None
-                or audio_feature_lengths is not None), (
-                    "mrope embedding type requires multi-modal input mapper "
-                    "returns 'image_grid_thw' or 'video_grid_thw' or "
-                    "'audio_feature_lengths'.")
 
             second_per_grid_ts = mm_kwargs.get("second_per_grid_ts", None)
             use_audio_in_video = mm_kwargs.get("use_audio_in_video", False)