huggingface · NathanHB · May 15, 2025 · May 15, 2025 · May 15, 2025 · May 19, 2025
diff --git a/src/lighteval/metrics/metrics.py b/src/lighteval/metrics/metrics.py
@@ -133,7 +133,27 @@ class Metrics(Enum):
         corpus_level_fn=np.mean,
         higher_is_better=True,
     )
-
+    ruler_match_any = SampleLevelMetric(
+        metric_name="ruler_match_any",
+        sample_level_fn=lambda predictions, golds, formatted_doc: max(
+            [1.0 if r.lower() in predictions[0].lower() else 0.0 for r in golds]
+        ),
+        category=MetricCategory.GENERATIVE,
+        use_case=MetricUseCase.SUMMARIZATION,
+        corpus_level_fn=np.mean,
+        higher_is_better=True,
+    )
+    ruler_match_all = SampleLevelMetric(
+        metric_name="ruler_match_all",
+        sample_level_fn=lambda predictions, golds, formatted_doc: sum(
+            [1.0 if r.lower() in predictions[0].lower() else 0.0 for r in golds]
+        )
+        / len(golds),
+        category=MetricCategory.GENERATIVE,
+        use_case=MetricUseCase.SUMMARIZATION,
+        corpus_level_fn=np.mean,
+        higher_is_better=True,
+    )
     bleurt = SampleLevelMetric(
         metric_name="bleurt",
         sample_level_fn=BLEURT().compute,

diff --git a/src/lighteval/models/vllm/vllm_model.py b/src/lighteval/models/vllm/vllm_model.py
@@ -266,8 +266,9 @@ def greedy_until(
             if max_new_tokens is not None:
                 if context_size + max_new_tokens > self.max_length:
                     logger.warning(
-                        f"{context_size + max_new_tokens=} which is greater than {self.max_length=}. Truncating context to {self.max_length - max_new_tokens} tokens."
+                        f"{context_size + max_new_tokens=} which is greater than {self.max_length=}. Truncating context to {self.max_length=} - {max_new_tokens=} = {self.max_length - max_new_tokens} tokens."
                     )
+                    breakpoint()
                     context_size = self.max_length - max_new_tokens
                     if context_size < 0:
                         logger.critical(

diff --git a/src/lighteval/tasks/default_prompts.py b/src/lighteval/tasks/default_prompts.py
@@ -43,13 +43,27 @@
 # fmt: on
 
 
+def ruler(line, task_name: str = None):
+    query = line["input"]
+    choices = line["outputs"]
+    gold_index = 0
+    instruction = "Only answer the question to complete the prompt, without any additional text.\n"
+    query = f"{instruction}{query}"
+
+    return Doc(query=query, instruction=instruction, choices=choices, gold_index=gold_index, task_name=task_name)
+
+
 def simpleqa(line, task_name: str = None):
     query = line["problem"]
     choices = [line["answer"]]
     gold_index = 0
 
     return Doc(
-        task_name=task_name, query=query, choices=choices, gold_index=gold_index, specific={**eval(line["metadata"])}
+        task_name=task_name,
+        query=query,
+        choices=choices,
+        gold_index=gold_index,
+        specific={**eval(line["metadata"])},
     )