Adjust mllama to regional compilation (vllm-project#999)

jkaniecki · web-flow · commit 6003eebede22 · 2025-04-03T08:31:17.000+02:00
This PR involves cherry-pick of vllm-project#15112 from the upstream and a fix for cos_sin preparation in emb layers to match regional compilation. --------- Signed-off-by: Jan Kaniecki <jkaniecki@habana.ai>
diff --git a/vllm/model_executor/models/mllama.py b/vllm/model_executor/models/mllama.py
@@ -1075,11 +1075,11 @@ def forward(
 
         if is_hpu:
             for idx, decoder_layer in enumerate(self.layers):
-                if isinstance(decoder_layer, LlamaDecoderLayer):
+                if idx not in self.cross_attention_layers:
                     self.layers[idx].self_attn.rotary_emb.prepare_cos_sin(
                         positions)
         for idx, decoder_layer in enumerate(self.layers):
-            if isinstance(decoder_layer, MllamaCrossAttentionDecoderLayer):
+            if idx in self.cross_attention_layers:
                 if not skip_cross_attention:
                     hidden_states = decoder_layer(
                         hidden_states=hidden_states,
@@ -1091,7 +1091,7 @@ def forward(
                         kv_cache=kv_caches[idx],
                         attn_metadata=attn_metadata,
                     )
-            elif isinstance(decoder_layer, LlamaDecoderLayer):
+            else:
                 hidden_states, residual = decoder_layer(
                     positions=positions,
                     hidden_states=hidden_states,
@@ -1100,9 +1100,6 @@ def forward(
                     residual=None,
                 )
                 hidden_states = hidden_states + residual
-            else:
-                raise ValueError(
-                    f"Unknown decoder layer type {type(decoder_layer)}")
         hidden_states = self.norm(hidden_states)
         return hidden_states