llama : minor grammar refactor (ggml-org#10897)

ggerganov · tinglou · commit 8b60e3a809e5 · 2025-02-13T23:04:02.000+08:00
ggml-ci
diff --git a/examples/gbnf-validator/gbnf-validator.cpp b/examples/gbnf-validator/gbnf-validator.cpp
@@ -11,19 +11,15 @@
 static bool llama_grammar_validate(struct llama_grammar * grammar, const std::string & input_str, size_t & error_pos, std::string & error_msg) {
     const auto cpts = unicode_cpts_from_utf8(input_str);
 
-    const llama_grammar_rules  & rules      = llama_grammar_get_rules (grammar);
-          llama_grammar_stacks & stacks_cur = llama_grammar_get_stacks(grammar);
+    auto & stacks_cur = llama_grammar_get_stacks(grammar);
 
     size_t pos = 0;
     for (const auto & cpt : cpts) {
-        const llama_grammar_stacks stacks_prev = llama_grammar_get_stacks(grammar); // copy
-
-        llama_grammar_accept(rules, stacks_prev, cpt, stacks_cur);
+        llama_grammar_accept(grammar, cpt);
 
         if (stacks_cur.empty()) {
             error_pos = pos;
             error_msg = "Unexpected character '" + unicode_cpt_to_utf8(cpt) + "'";
-            stacks_cur = stacks_prev;
             return false;
         }
         ++pos;
@@ -82,7 +78,8 @@ int main(int argc, char** argv) {
 
     llama_grammar * grammar = llama_grammar_init_impl(nullptr, grammar_str.c_str(), "root");
     if (grammar == nullptr) {
-        throw std::runtime_error("Failed to initialize llama_grammar");
+        fprintf(stdout, "Failed to initialize llama_grammar\n");
+        return 1;
     }
     // Read the input file
     std::string input_str;
diff --git a/src/llama-grammar.cpp b/src/llama-grammar.cpp
@@ -822,15 +822,11 @@ llama_grammar_stacks & llama_grammar_get_stacks(struct llama_grammar * grammar)
     return grammar->stacks;
 }
 
-void llama_grammar_accept(
-        const llama_grammar_rules  & rules,
-        const llama_grammar_stacks & stacks,
-        const uint32_t               chr,
-              llama_grammar_stacks & stacks_new) {
-    stacks_new.clear();
-    stacks_new.reserve(stacks.size());
+void llama_grammar_accept(struct llama_grammar * grammar, uint32_t chr) {
+    llama_grammar_stacks stacks_new;
+    stacks_new.reserve(grammar->stacks.size());
 
-    for (const auto & stack : stacks) {
+    for (const auto & stack : grammar->stacks) {
         if (stack.empty()) {
             continue;
         }
@@ -844,9 +840,11 @@ void llama_grammar_accept(
             if (!llama_grammar_is_end_of_sequence(pos)) {
                 new_stack.push_back(pos);
             }
-            llama_grammar_advance_stack(rules, new_stack, stacks_new);
+            llama_grammar_advance_stack(grammar->rules, new_stack, stacks_new);
         }
     }
+
+    grammar->stacks = std::move(stacks_new);
 }
 
 llama_grammar_candidates llama_grammar_reject_candidates_for_stack(
@@ -1051,15 +1049,20 @@ void llama_grammar_free_impl(struct llama_grammar * grammar) {
 }
 
 struct llama_grammar * llama_grammar_clone_impl(const struct llama_grammar & grammar) {
-    llama_grammar * result = new llama_grammar { grammar.vocab, grammar.rules, grammar.stacks, grammar.partial_utf8, };
+    llama_grammar * result = new llama_grammar {
+        grammar.vocab,
+        grammar.rules,
+        grammar.stacks,
+        grammar.partial_utf8,
+    };
 
     // redirect elements in stacks to point to new rules
     for (size_t is = 0; is < result->stacks.size(); is++) {
         for (size_t ie = 0; ie < result->stacks[is].size(); ie++) {
             for (size_t ir0 = 0; ir0 < grammar.rules.size(); ir0++) {
                 for (size_t ir1 = 0; ir1 < grammar.rules[ir0].size(); ir1++) {
                     if (grammar.stacks[is][ie] == &grammar.rules[ir0][ir1]) {
-                         result->stacks[is][ie]  =  &result->rules[ir0][ir1];
+                        result->stacks[is][ie] =  &result->rules[ir0][ir1];
                     }
                 }
             }
@@ -1126,11 +1129,8 @@ void llama_grammar_accept_impl(struct llama_grammar & grammar, llama_token token
     const auto   decoded     = decode_utf8(piece, grammar.partial_utf8);
     const auto & code_points = decoded.first;
 
-    llama_grammar_stacks stacks_new;
-
     for (auto it = code_points.begin(), end = code_points.end() - 1; it != end; ++it) {
-        llama_grammar_accept(grammar.rules, grammar.stacks, *it, stacks_new);
-        grammar.stacks = std::move(stacks_new);
+        llama_grammar_accept(&grammar, *it);
     }
 
     grammar.partial_utf8 = decoded.second;
diff --git a/src/llama-grammar.h b/src/llama-grammar.h
@@ -58,18 +58,15 @@ using llama_grammar_rules      = std::vector<llama_grammar_rule>;
 using llama_grammar_stacks     = std::vector<llama_grammar_stack>;
 using llama_grammar_candidates = std::vector<llama_grammar_candidate>;
 
+// TODO: remove, needed for tests atm
 const llama_grammar_rules  & llama_grammar_get_rules (const struct llama_grammar * grammar);
       llama_grammar_stacks & llama_grammar_get_stacks(      struct llama_grammar * grammar);
 
 // takes a set of possible pushdown stacks on a grammar, which are required to
 // be positioned at a character range (see `llama_grammar_advance_stack`), and
 // produces the N possible stacks if the given char is accepted at those
 // positions
-void llama_grammar_accept(
-        const llama_grammar_rules  & rules,
-        const llama_grammar_stacks & stacks,
-                          uint32_t   chr,
-              llama_grammar_stacks & stacks_new);
+void llama_grammar_accept(struct llama_grammar * grammar, uint32_t chr);
 
 std::vector<llama_grammar_candidate> llama_grammar_reject_candidates_for_stack(
         const llama_grammar_rules      & rules,
diff --git a/tests/test-grammar-integration.cpp b/tests/test-grammar-integration.cpp
@@ -32,13 +32,10 @@ static bool test_build_grammar_fails(const std::string & grammar_str) {
 static bool match_string(const std::string & input, llama_grammar * grammar) {
     const auto cpts = unicode_cpts_from_utf8(input);
 
-    const llama_grammar_rules  & rules      = llama_grammar_get_rules (grammar);
-          llama_grammar_stacks & stacks_cur = llama_grammar_get_stacks(grammar);
+    auto & stacks_cur = llama_grammar_get_stacks(grammar);
 
     for (const auto & cpt : cpts) {
-        const llama_grammar_stacks stacks_prev = llama_grammar_get_stacks(grammar); // copy
-
-        llama_grammar_accept(rules, stacks_prev, cpt, stacks_cur);
+        llama_grammar_accept(grammar, cpt);
 
         if (stacks_cur.empty()) {
             // no stacks means that the grammar failed to match at this point
@@ -63,7 +60,7 @@ static void test(const std::string & test_desc, const std::string & grammar_str,
     auto * grammar = build_grammar(grammar_str);
 
     // Save the original grammar stacks so that we can reset after every new string we want to test
-    const llama_grammar_stacks stacks_org = llama_grammar_get_stacks(grammar);
+    const llama_grammar_stacks stacks_org = llama_grammar_get_stacks(grammar); // copy
 
     llama_grammar_stacks & stacks_cur = llama_grammar_get_stacks(grammar);
 
diff --git a/tests/test-llama-grammar.cpp b/tests/test-llama-grammar.cpp
@@ -113,12 +113,10 @@ int main()
         }
     }
 
-    llama_grammar * grammar = NULL;
     std::vector<const llama_grammar_element *> grammar_rules(parsed_grammar.c_rules());
 
-    grammar = llama_grammar_init_impl(nullptr, grammar_rules.data(), grammar_rules.size(), parsed_grammar.symbol_ids.at("root"));
-    if (grammar == nullptr)
-    {
+    llama_grammar * grammar = llama_grammar_init_impl(nullptr, grammar_rules.data(), grammar_rules.size(), parsed_grammar.symbol_ids.at("root"));
+    if (grammar == nullptr) {
         throw std::runtime_error("Failed to initialize llama_grammar");
     }
 

Original file line number	Diff line number	Diff line change
`@@ -822,15 +822,11 @@ llama_grammar_stacks & llama_grammar_get_stacks(struct llama_grammar * grammar)`
`822`	`822`	`return grammar->stacks;`
`823`	`823`	`}`
`824`	`824`
`825`		`-void llama_grammar_accept(`
`826`		`- const llama_grammar_rules & rules,`
`827`		`- const llama_grammar_stacks & stacks,`
`828`		`- const uint32_t chr,`
`829`		`- llama_grammar_stacks & stacks_new) {`
`830`		`- stacks_new.clear();`
`831`		`- stacks_new.reserve(stacks.size());`
	`825`	`+void llama_grammar_accept(struct llama_grammar * grammar, uint32_t chr) {`
	`826`	`+ llama_grammar_stacks stacks_new;`
	`827`	`+ stacks_new.reserve(grammar->stacks.size());`
`832`	`828`
`833`		`- for (const auto & stack : stacks) {`
	`829`	`+ for (const auto & stack : grammar->stacks) {`
`834`	`830`	`if (stack.empty()) {`
`835`	`831`	`continue;`
`836`	`832`	`}`
`@@ -844,9 +840,11 @@ void llama_grammar_accept(`
`844`	`840`	`if (!llama_grammar_is_end_of_sequence(pos)) {`
`845`	`841`	`new_stack.push_back(pos);`
`846`	`842`	`}`
`847`		`- llama_grammar_advance_stack(rules, new_stack, stacks_new);`
	`843`	`+ llama_grammar_advance_stack(grammar->rules, new_stack, stacks_new);`
`848`	`844`	`}`
`849`	`845`	`}`
	`846`	`+`
	`847`	`+ grammar->stacks = std::move(stacks_new);`
`850`	`848`	`}`
`851`	`849`
`852`	`850`	`llama_grammar_candidates llama_grammar_reject_candidates_for_stack(`
`@@ -1051,15 +1049,20 @@ void llama_grammar_free_impl(struct llama_grammar * grammar) {`
`1051`	`1049`	`}`
`1052`	`1050`
`1053`	`1051`	`struct llama_grammar * llama_grammar_clone_impl(const struct llama_grammar & grammar) {`
`1054`		`- llama_grammar * result = new llama_grammar { grammar.vocab, grammar.rules, grammar.stacks, grammar.partial_utf8, };`
	`1052`	`+ llama_grammar * result = new llama_grammar {`
	`1053`	`+ grammar.vocab,`
	`1054`	`+ grammar.rules,`
	`1055`	`+ grammar.stacks,`
	`1056`	`+ grammar.partial_utf8,`
	`1057`	`+ };`
`1055`	`1058`
`1056`	`1059`	`// redirect elements in stacks to point to new rules`
`1057`	`1060`	`for (size_t is = 0; is < result->stacks.size(); is++) {`
`1058`	`1061`	`for (size_t ie = 0; ie < result->stacks[is].size(); ie++) {`
`1059`	`1062`	`for (size_t ir0 = 0; ir0 < grammar.rules.size(); ir0++) {`
`1060`	`1063`	`for (size_t ir1 = 0; ir1 < grammar.rules[ir0].size(); ir1++) {`
`1061`	`1064`	`if (grammar.stacks[is][ie] == &grammar.rules[ir0][ir1]) {`
`1062`		`- result->stacks[is][ie] = &result->rules[ir0][ir1];`
	`1065`	`+ result->stacks[is][ie] = &result->rules[ir0][ir1];`
`1063`	`1066`	`}`
`1064`	`1067`	`}`
`1065`	`1068`	`}`
`@@ -1126,11 +1129,8 @@ void llama_grammar_accept_impl(struct llama_grammar & grammar, llama_token token`
`1126`	`1129`	`const auto decoded = decode_utf8(piece, grammar.partial_utf8);`
`1127`	`1130`	`const auto & code_points = decoded.first;`
`1128`	`1131`
`1129`		`- llama_grammar_stacks stacks_new;`
`1130`		`-`
`1131`	`1132`	`for (auto it = code_points.begin(), end = code_points.end() - 1; it != end; ++it) {`
`1132`		`- llama_grammar_accept(grammar.rules, grammar.stacks, *it, stacks_new);`
`1133`		`- grammar.stacks = std::move(stacks_new);`
	`1133`	`+ llama_grammar_accept(&grammar, *it);`
`1134`	`1134`	`}`
`1135`	`1135`
`1136`	`1136`	`grammar.partial_utf8 = decoded.second;`
Original file line number	Diff line number	Diff line change
`@@ -113,12 +113,10 @@ int main()`
`113`	`113`	`}`
`114`	`114`	`}`
`115`	`115`
`116`		`- llama_grammar * grammar = NULL;`
`117`	`116`	`std::vector<const llama_grammar_element *> grammar_rules(parsed_grammar.c_rules());`
`118`	`117`
`119`		`- grammar = llama_grammar_init_impl(nullptr, grammar_rules.data(), grammar_rules.size(), parsed_grammar.symbol_ids.at("root"));`
`120`		`- if (grammar == nullptr)`
`121`		`- {`
	`118`	`+ llama_grammar * grammar = llama_grammar_init_impl(nullptr, grammar_rules.data(), grammar_rules.size(), parsed_grammar.symbol_ids.at("root"));`
	`119`	`+ if (grammar == nullptr) {`
`122`	`120`	`throw std::runtime_error("Failed to initialize llama_grammar");`
`123`	`121`	`}`
`124`	`122`