ggml-org
diff --git a/‎common/sampling.cpp
+3-3 b/‎common/sampling.cpp
+3-3
diff --git a/‎include/llama.h
+9-5 b/‎include/llama.h
+9-5
diff --git a/‎src/llama-grammar.cpp
+14-12 b/‎src/llama-grammar.cpp
+14-12
diff --git a/‎src/llama-grammar.h
+22 b/‎src/llama-grammar.h
+22
@@ -330,7 +330,7 @@ static llama_token llama_sampling_sample_impl(
         llama_token_data_array single_token_data_array = { &single_token_data, 1, false };
 
         // Apply grammar constraints to the single token
-        llama_grammar_sample(ctx_main, &single_token_data_array, ctx_sampling->grammar);
+        llama_grammar_sample(ctx_sampling->grammar, ctx_main, &single_token_data_array);
 
         // Check if the token is valid according to the grammar by seeing if its logit has been set to -INFINITY
         bool is_valid = single_token_data_array.data[0].logit != -INFINITY;
@@ -421,7 +421,7 @@ static llama_token_data_array llama_sampling_prepare_impl(
 
     // apply grammar checks before sampling logic
     if (apply_grammar && ctx_sampling->grammar != NULL) {
-        llama_grammar_sample(ctx_main, &cur_p, ctx_sampling->grammar);
+        llama_grammar_sample(ctx_sampling->grammar, ctx_main, &cur_p);
     }
 
     return cur_p;
@@ -455,6 +455,6 @@ void llama_sampling_accept(
     ctx_sampling->prev.push_back(id);
 
     if (ctx_sampling->grammar != NULL && apply_grammar) {
-        llama_grammar_accept_token(ctx_main, ctx_sampling->grammar, id);
+        llama_grammar_accept_token(ctx_sampling->grammar, ctx_main, id);
     }
 }
@@ -965,6 +965,10 @@ extern "C" {
                             bool   remove_special,
                             bool   unparse_special);
 
+    //
+    // Chat templates
+    //
+
     /// Apply chat template. Inspired by hf apply_chat_template() on python.
     /// Both "model" and "custom_template" are optional, but at least one is required. "custom_template" has higher precedence than "model"
     /// NOTE: This function does not use a jinja parser. It only support a pre-defined list of template. See more: https://github.com/ggerganov/llama.cpp/wiki/Templates-supported-by-llama_chat_apply_template
@@ -1005,19 +1009,19 @@ extern "C" {
 
     /// @details Apply constraints from grammar
     LLAMA_API void llama_grammar_sample(
-            struct llama_context * ctx,
-          llama_token_data_array * candidates,
-      const struct llama_grammar * grammar);
-    LLAMA_API DEPRECATED(bool llama_sample_grammar(
+            const struct llama_grammar * grammar,
+            const struct llama_context * ctx,
+                llama_token_data_array * candidates);
+    LLAMA_API DEPRECATED(void llama_sample_grammar(
             struct llama_context * ctx,
           llama_token_data_array * candidates,
       const struct llama_grammar * grammar),
         "use llama_grammar_sample instead");
 
     /// @details Accepts the sampled token into the grammar
     LLAMA_API void llama_grammar_accept_token(
-            struct llama_context * ctx,
             struct llama_grammar * grammar,
+            struct llama_context * ctx,
                      llama_token   token);
 
     //
 
@@ -384,7 +384,7 @@ static bool llama_grammar_detect_left_recursion(
 // grammar - external
 //
 
-struct llama_grammar * llama_grammar_init(
+struct llama_grammar * llama_grammar_init_impl(
             const llama_grammar_element ** rules,
                                  size_t    n_rules,
                                  size_t    start_rule_index) {
@@ -441,11 +441,11 @@ struct llama_grammar * llama_grammar_init(
     return new llama_grammar{ std::move(vec_rules), std::move(stacks), {} };
 }
 
-void llama_grammar_free(struct llama_grammar * grammar) {
+void llama_grammar_free_impl(struct llama_grammar * grammar) {
     delete grammar;
 }
 
-struct llama_grammar * llama_grammar_copy(const struct llama_grammar * grammar) {
+struct llama_grammar * llama_grammar_copy_impl(const struct llama_grammar * grammar) {
     llama_grammar * result = new llama_grammar{ grammar->rules, grammar->stacks, grammar->partial_utf8 };
 
     // redirect elements in stacks to point to new rules
@@ -464,8 +464,10 @@ struct llama_grammar * llama_grammar_copy(const struct llama_grammar * grammar)
     return result;
 }
 
-void llama_grammar_sample(struct llama_context * ctx, llama_token_data_array * candidates, const struct llama_grammar * grammar) {
-    GGML_ASSERT(ctx);
+void llama_grammar_sample(const struct llama_grammar * grammar, const struct llama_vocab * vocab, const struct llama_sampling * smpl, llama_token_data_array * candidates) {
+    GGML_ASSERT(grammar);
+    GGML_ASSERT(vocab);
+
     int64_t t_start_sample_us = ggml_time_us();
 
     bool allow_eog = false;
@@ -484,9 +486,9 @@ void llama_grammar_sample(struct llama_context * ctx, llama_token_data_array * c
 
     for (size_t i = 0; i < candidates->size; ++i) {
         const llama_token id      = candidates->data[i].id;
-        const std::string & piece = llama_get_vocab(ctx)->cache_token_to_piece.at(id);
+        const std::string & piece = vocab->cache_token_to_piece.at(id);
 
-        if (llama_token_is_eog(llama_get_model(ctx), id)) {
+        if (llama_token_is_eog(*vocab, id)) {
             if (!allow_eog) {
                 candidates->data[i].logit = -INFINITY;
             }
@@ -503,13 +505,13 @@ void llama_grammar_sample(struct llama_context * ctx, llama_token_data_array * c
         candidates->data[reject.index].logit = -INFINITY;
     }
 
-    llama_get_sampling(ctx)->t_sample_us += ggml_time_us() - t_start_sample_us;
+    smpl->t_sample_us += ggml_time_us() - t_start_sample_us;
 }
 
-void llama_grammar_accept_token(struct llama_context * ctx, struct llama_grammar * grammar, llama_token token) {
+void llama_grammar_accept_token(struct llama_grammar * grammar, const struct llama_vocab * vocab, const struct llama_sampling * smpl, llama_token token) {
     const int64_t t_start_sample_us = ggml_time_us();
 
-    if (llama_token_is_eog(llama_get_model(ctx), token)) {
+    if (llama_token_is_eog(*vocab, token)) {
         for (const auto & stack : grammar->stacks) {
             if (stack.empty()) {
                 return;
@@ -518,7 +520,7 @@ void llama_grammar_accept_token(struct llama_context * ctx, struct llama_grammar
         GGML_ASSERT(false);
     }
 
-    const std::string & piece = llama_get_vocab(ctx)->cache_token_to_piece.at(token);
+    const std::string & piece = vocab->cache_token_to_piece.at(token);
 
     // Note terminating 0 in decoded string
     const auto   decoded     = decode_utf8(piece, grammar->partial_utf8);
@@ -533,5 +535,5 @@ void llama_grammar_accept_token(struct llama_context * ctx, struct llama_grammar
     grammar->partial_utf8 = decoded.second;
     GGML_ASSERT(!grammar->stacks.empty());
 
-    llama_get_sampling(ctx)->t_sample_us += ggml_time_us() - t_start_sample_us;
+    smpl->t_sample_us += ggml_time_us() - t_start_sample_us;
 }
@@ -3,6 +3,7 @@
 #include "llama-impl.h"
 
 struct llama_vocab;
+struct llama_sampling;
 
 struct llama_grammar {
     const llama_grammar_rules  rules;
@@ -13,3 +14,24 @@ struct llama_grammar {
 };
 
 struct llama_grammar * llama_get_grammar(struct llama_context * ctx);
+
+struct llama_grammar * llama_grammar_init_impl(
+            const llama_grammar_element ** rules,
+                                 size_t    n_rules,
+                                 size_t    start_rule_index);
+
+void llama_grammar_free_impl(struct llama_grammar * grammar);
+
+struct llama_grammar * llama_grammar_copy_impl(const struct llama_grammar * grammar);
+
+void llama_grammar_sample(
+        const struct llama_grammar * grammar,
+          const struct llama_vocab * vocab,
+       const struct llama_sampling * smpl,
+            llama_token_data_array * candidates);
+
+void llama_grammar_accept_token(
+              struct llama_grammar * grammar,
+          const struct llama_vocab * vocab,
+       const struct llama_sampling * smpl,
+                       llama_token   token);
Original file line number	Diff line number	Diff line change
`@@ -330,7 +330,7 @@ static llama_token llama_sampling_sample_impl(`
`330`	`330`	`llama_token_data_array single_token_data_array = { &single_token_data, 1, false };`
`331`	`331`
`332`	`332`	`// Apply grammar constraints to the single token`
`333`		`- llama_grammar_sample(ctx_main, &single_token_data_array, ctx_sampling->grammar);`
	`333`	`+ llama_grammar_sample(ctx_sampling->grammar, ctx_main, &single_token_data_array);`
`334`	`334`
`335`	`335`	`// Check if the token is valid according to the grammar by seeing if its logit has been set to -INFINITY`
`336`	`336`	`bool is_valid = single_token_data_array.data[0].logit != -INFINITY;`
`@@ -421,7 +421,7 @@ static llama_token_data_array llama_sampling_prepare_impl(`
`421`	`421`
`422`	`422`	`// apply grammar checks before sampling logic`
`423`	`423`	`if (apply_grammar && ctx_sampling->grammar != NULL) {`
`424`		`- llama_grammar_sample(ctx_main, &cur_p, ctx_sampling->grammar);`
	`424`	`+ llama_grammar_sample(ctx_sampling->grammar, ctx_main, &cur_p);`
`425`	`425`	`}`
`426`	`426`
`427`	`427`	`return cur_p;`
`@@ -455,6 +455,6 @@ void llama_sampling_accept(`
`455`	`455`	`ctx_sampling->prev.push_back(id);`
`456`	`456`
`457`	`457`	`if (ctx_sampling->grammar != NULL && apply_grammar) {`
`458`		`- llama_grammar_accept_token(ctx_main, ctx_sampling->grammar, id);`
	`458`	`+ llama_grammar_accept_token(ctx_sampling->grammar, ctx_main, id);`
`459`	`459`	`}`
`460`	`460`	`}`