support flex attention

ArthurZucker · ArthurZucker · commit 0c3dc0c00f8e · 2025-04-01T14:43:19.000Z
diff --git a/src/transformers/integrations/flex_attention.py b/src/transformers/integrations/flex_attention.py
@@ -144,6 +144,17 @@ def compile_friendly_flex_attention(
     )
 
 
+def repeat_kv(hidden_states: torch.Tensor, n_rep: int) -> torch.Tensor:
+    """
+    This is the equivalent of torch.repeat_interleave(x, dim=1, repeats=n_rep). The hidden states go from (batch,
+    num_key_value_heads, seqlen, head_dim) to (batch, num_attention_heads, seqlen, head_dim)
+    """
+    batch, num_key_value_heads, slen, head_dim = hidden_states.shape
+    if n_rep == 1:
+        return hidden_states
+    hidden_states = hidden_states[:, :, None, :, :].expand(batch, num_key_value_heads, n_rep, slen, head_dim)
+    return hidden_states.reshape(batch, num_key_value_heads * n_rep, slen, head_dim)
+
 def flex_attention_forward(
     module: torch.nn.Module,
     query: torch.Tensor,
@@ -174,13 +185,20 @@ def score_mod(score, batch_idx, head_idx, q_idx, kv_idx):
             score = score + head_mask[batch_idx][head_idx][0][0]
         return score
 
+    enable_gqa = True
+    num_local_query_heads = query.shape[1]
+    if not((num_local_query_heads & (num_local_query_heads)) == 0):
+        key = repeat_kv(key, num_local_query_heads)
+        value = repeat_kv(value, num_local_query_heads)
+        enable_gqa = False
+
     attn_output, attention_weights = compile_friendly_flex_attention(
         query,
         key,
         value,
         score_mod=score_mod,
         block_mask=block_mask,
-        enable_gqa=True,
+        enable_gqa=enable_gqa,
         scale=scaling,
         # Last time checked on PyTorch == 2.5.1: Flex Attention always computes the lse regardless.
         # For simplification, we thus always return it as no additional computations are introduced.
diff --git a/src/transformers/modeling_utils.py b/src/transformers/modeling_utils.py
@@ -1939,16 +1939,12 @@ def post_init(self):
                 self._tp_plan.update({f"{name}.{k}": v for k, v in plan.copy().items()})
 
         if self._tp_plan is not None and is_torch_greater_or_equal("2.3"):
-            unique_names =  {re.sub(r"\d+", "*", name) for name, _ in self.named_children() if len(name) > 0}
-            for k, v in self._tp_plan.items():
+            for _, v in self._tp_plan.items():
                 if v not in SUPPORTED_TP_STYLES:
                     raise ValueError(
                         f"Unsupported tensor parallel style {v}. Supported styles are {SUPPORTED_TP_STYLES}"
                     )
-                if k not in unique_names:
-                    raise ValueError(
-                        f"Unsupported tensor parallel mapping: {k} is not part of the model"
-                    )
+
 
     def dequantize(self):
         """