[Bugfix] Fix profiling.py (vllm-project#16202)

hhy3 · lk-chen · commit 49ebd2318c31 · 2025-04-29T13:42:15.000-07:00
Signed-off-by: zh Wang &lt;rekind133@outlook.com&gt;
diff --git a/examples/offline_inference/profiling.py b/examples/offline_inference/profiling.py
@@ -234,9 +234,8 @@ def get_output_len_generator() -> Generator[int, Any, Any]:
             sampling_params.max_tokens = next(output_len_generator)
             assert isinstance(sampling_params.max_tokens, int)
 
-            prompt_token_ids = torch.randint(
-                llm.llm_engine.model_config.get_vocab_size(),
-                size=(prompt_len, )).tolist()
+            prompt_token_ids = torch.randint(llm.get_tokenizer().vocab_size,
+                                             size=(prompt_len, )).tolist()
 
             llm.llm_engine.add_request(
                 request_id=f"seq{i}",