Skip to content

Commit 47182dd

Browse files
authored
llama : update llama_model API names (#11063)
* llama : deprecate llama_free_model, add llama_model_free ggml-ci * llama : change `llama_load_model_from_file` -> `llama_model_load_from_file` ggml-ci
1 parent 3e6e7a6 commit 47182dd

23 files changed

+76
-59
lines changed

common/common.cpp

+7-7
Original file line numberDiff line numberDiff line change
@@ -846,7 +846,7 @@ struct common_init_result common_init_from_params(common_params & params) {
846846
} else if (!params.model_url.empty()) {
847847
model = common_load_model_from_url(params.model_url, params.model, params.hf_token, mparams);
848848
} else {
849-
model = llama_load_model_from_file(params.model.c_str(), mparams);
849+
model = llama_model_load_from_file(params.model.c_str(), mparams);
850850
}
851851

852852
if (model == NULL) {
@@ -873,7 +873,7 @@ struct common_init_result common_init_from_params(common_params & params) {
873873
}
874874

875875
if (!ok) {
876-
llama_free_model(model);
876+
llama_model_free(model);
877877

878878
return iparams;
879879
}
@@ -884,7 +884,7 @@ struct common_init_result common_init_from_params(common_params & params) {
884884
llama_context * lctx = llama_new_context_with_model(model, cparams);
885885
if (lctx == NULL) {
886886
LOG_ERR("%s: failed to create context with model '%s'\n", __func__, params.model.c_str());
887-
llama_free_model(model);
887+
llama_model_free(model);
888888
return iparams;
889889
}
890890

@@ -900,7 +900,7 @@ struct common_init_result common_init_from_params(common_params & params) {
900900
const auto cvec = common_control_vector_load(params.control_vectors);
901901
if (cvec.n_embd == -1) {
902902
llama_free(lctx);
903-
llama_free_model(model);
903+
llama_model_free(model);
904904

905905
return iparams;
906906
}
@@ -913,7 +913,7 @@ struct common_init_result common_init_from_params(common_params & params) {
913913
params.control_vector_layer_end);
914914
if (err) {
915915
llama_free(lctx);
916-
llama_free_model(model);
916+
llama_model_free(model);
917917

918918
return iparams;
919919
}
@@ -926,7 +926,7 @@ struct common_init_result common_init_from_params(common_params & params) {
926926
if (lora == nullptr) {
927927
LOG_ERR("%s: failed to apply lora adapter '%s'\n", __func__, la.path.c_str());
928928
llama_free(lctx);
929-
llama_free_model(model);
929+
llama_model_free(model);
930930
return iparams;
931931
}
932932

@@ -1411,7 +1411,7 @@ struct llama_model * common_load_model_from_url(
14111411
}
14121412
}
14131413

1414-
return llama_load_model_from_file(local_path.c_str(), params);
1414+
return llama_model_load_from_file(local_path.c_str(), params);
14151415
}
14161416

14171417
struct llama_model * common_load_model_from_hf(

examples/batched-bench/batched-bench.cpp

+2-2
Original file line numberDiff line numberDiff line change
@@ -38,7 +38,7 @@ int main(int argc, char ** argv) {
3838

3939
llama_model_params model_params = common_model_params_to_llama(params);
4040

41-
llama_model * model = llama_load_model_from_file(params.model.c_str(), model_params);
41+
llama_model * model = llama_model_load_from_file(params.model.c_str(), model_params);
4242

4343
if (model == NULL) {
4444
fprintf(stderr , "%s: error: unable to load model\n" , __func__);
@@ -194,7 +194,7 @@ int main(int argc, char ** argv) {
194194
llama_batch_free(batch);
195195

196196
llama_free(ctx);
197-
llama_free_model(model);
197+
llama_model_free(model);
198198

199199
llama_backend_free();
200200

examples/batched/batched.cpp

+2-2
Original file line numberDiff line numberDiff line change
@@ -41,7 +41,7 @@ int main(int argc, char ** argv) {
4141

4242
llama_model_params model_params = common_model_params_to_llama(params);
4343

44-
llama_model * model = llama_load_model_from_file(params.model.c_str(), model_params);
44+
llama_model * model = llama_model_load_from_file(params.model.c_str(), model_params);
4545

4646
if (model == NULL) {
4747
LOG_ERR("%s: error: unable to load model\n" , __func__);
@@ -236,7 +236,7 @@ int main(int argc, char ** argv) {
236236

237237
llama_sampler_free(smpl);
238238
llama_free(ctx);
239-
llama_free_model(model);
239+
llama_model_free(model);
240240

241241
llama_backend_free();
242242

examples/gritlm/gritlm.cpp

+2-2
Original file line numberDiff line numberDiff line change
@@ -165,7 +165,7 @@ int main(int argc, char * argv[]) {
165165

166166
llama_backend_init();
167167

168-
llama_model * model = llama_load_model_from_file(params.model.c_str(), mparams);
168+
llama_model * model = llama_model_load_from_file(params.model.c_str(), mparams);
169169

170170
// create generation context
171171
llama_context * ctx = llama_new_context_with_model(model, cparams);
@@ -219,7 +219,7 @@ int main(int argc, char * argv[]) {
219219

220220
llama_sampler_free(smpl);
221221
llama_free(ctx);
222-
llama_free_model(model);
222+
llama_model_free(model);
223223
llama_backend_free();
224224

225225
return 0;

examples/llama-bench/llama-bench.cpp

+4-4
Original file line numberDiff line numberDiff line change
@@ -1526,10 +1526,10 @@ int main(int argc, char ** argv) {
15261526
// keep the same model between tests when possible
15271527
if (!lmodel || !prev_inst || !inst.equal_mparams(*prev_inst)) {
15281528
if (lmodel) {
1529-
llama_free_model(lmodel);
1529+
llama_model_free(lmodel);
15301530
}
15311531

1532-
lmodel = llama_load_model_from_file(inst.model.c_str(), inst.to_llama_mparams());
1532+
lmodel = llama_model_load_from_file(inst.model.c_str(), inst.to_llama_mparams());
15331533
if (lmodel == NULL) {
15341534
fprintf(stderr, "%s: error: failed to load model '%s'\n", __func__, inst.model.c_str());
15351535
return 1;
@@ -1540,7 +1540,7 @@ int main(int argc, char ** argv) {
15401540
llama_context * ctx = llama_new_context_with_model(lmodel, inst.to_llama_cparams());
15411541
if (ctx == NULL) {
15421542
fprintf(stderr, "%s: error: failed to create context with model '%s'\n", __func__, inst.model.c_str());
1543-
llama_free_model(lmodel);
1543+
llama_model_free(lmodel);
15441544
return 1;
15451545
}
15461546

@@ -1626,7 +1626,7 @@ int main(int argc, char ** argv) {
16261626
ggml_threadpool_free_fn(threadpool);
16271627
}
16281628

1629-
llama_free_model(lmodel);
1629+
llama_model_free(lmodel);
16301630

16311631
if (p) {
16321632
p->print_footer();

examples/llava/llava-cli.cpp

+3-3
Original file line numberDiff line numberDiff line change
@@ -221,7 +221,7 @@ static struct llama_model * llava_init(common_params * params) {
221221

222222
llama_model_params model_params = common_model_params_to_llama(*params);
223223

224-
llama_model * model = llama_load_model_from_file(params->model.c_str(), model_params);
224+
llama_model * model = llama_model_load_from_file(params->model.c_str(), model_params);
225225
if (model == NULL) {
226226
LOG_ERR("%s: unable to load model\n" , __func__);
227227
return NULL;
@@ -265,7 +265,7 @@ static void llava_free(struct llava_context * ctx_llava) {
265265
}
266266

267267
llama_free(ctx_llava->ctx_llama);
268-
llama_free_model(ctx_llava->model);
268+
llama_model_free(ctx_llava->model);
269269
llama_backend_free();
270270
}
271271

@@ -323,7 +323,7 @@ int main(int argc, char ** argv) {
323323
}
324324
}
325325

326-
llama_free_model(model);
326+
llama_model_free(model);
327327

328328
return 0;
329329
}

examples/llava/minicpmv-cli.cpp

+2-2
Original file line numberDiff line numberDiff line change
@@ -31,7 +31,7 @@ static struct llama_model * llava_init(common_params * params) {
3131

3232
llama_model_params model_params = common_model_params_to_llama(*params);
3333

34-
llama_model * model = llama_load_model_from_file(params->model.c_str(), model_params);
34+
llama_model * model = llama_model_load_from_file(params->model.c_str(), model_params);
3535
if (model == NULL) {
3636
LOG_ERR("%s: unable to load model\n" , __func__);
3737
return NULL;
@@ -75,7 +75,7 @@ static void llava_free(struct llava_context * ctx_llava) {
7575
}
7676

7777
llama_free(ctx_llava->ctx_llama);
78-
llama_free_model(ctx_llava->model);
78+
llama_model_free(ctx_llava->model);
7979
llama_backend_free();
8080
}
8181

examples/llava/qwen2vl-cli.cpp

+3-3
Original file line numberDiff line numberDiff line change
@@ -310,7 +310,7 @@ static struct llama_model * llava_init(common_params * params) {
310310

311311
llama_model_params model_params = common_model_params_to_llama(*params);
312312

313-
llama_model * model = llama_load_model_from_file(params->model.c_str(), model_params);
313+
llama_model * model = llama_model_load_from_file(params->model.c_str(), model_params);
314314
if (model == NULL) {
315315
LOG_ERR("%s: unable to load model\n" , __func__);
316316
return NULL;
@@ -354,7 +354,7 @@ static void llava_free(struct llava_context * ctx_llava) {
354354
}
355355

356356
llama_free(ctx_llava->ctx_llama);
357-
llama_free_model(ctx_llava->model);
357+
llama_model_free(ctx_llava->model);
358358
llama_backend_free();
359359
}
360360

@@ -575,7 +575,7 @@ int main(int argc, char ** argv) {
575575
}
576576
}
577577

578-
llama_free_model(model);
578+
llama_model_free(model);
579579

580580
return 0;
581581
}

examples/passkey/passkey.cpp

+2-2
Original file line numberDiff line numberDiff line change
@@ -63,7 +63,7 @@ int main(int argc, char ** argv) {
6363

6464
llama_model_params model_params = common_model_params_to_llama(params);
6565

66-
llama_model * model = llama_load_model_from_file(params.model.c_str(), model_params);
66+
llama_model * model = llama_model_load_from_file(params.model.c_str(), model_params);
6767

6868
if (model == NULL) {
6969
LOG_ERR("%s: unable to load model\n" , __func__);
@@ -266,7 +266,7 @@ int main(int argc, char ** argv) {
266266
llama_batch_free(batch);
267267

268268
llama_free(ctx);
269-
llama_free_model(model);
269+
llama_model_free(model);
270270

271271
llama_backend_free();
272272

examples/quantize-stats/quantize-stats.cpp

+4-4
Original file line numberDiff line numberDiff line change
@@ -309,7 +309,7 @@ int main(int argc, char ** argv) {
309309
auto mparams = llama_model_default_params();
310310
mparams.use_mlock = false;
311311

312-
model = llama_load_model_from_file(params.model.c_str(), mparams);
312+
model = llama_model_load_from_file(params.model.c_str(), mparams);
313313

314314
if (model == NULL) {
315315
fprintf(stderr, "%s: error: failed to load model '%s'\n", __func__, params.model.c_str());
@@ -323,7 +323,7 @@ int main(int argc, char ** argv) {
323323

324324
if (ctx == NULL) {
325325
fprintf(stderr, "%s: error: failed to create context with model '%s'\n", __func__, params.model.c_str());
326-
llama_free_model(model);
326+
llama_model_free(model);
327327
return 1;
328328
}
329329
}
@@ -347,7 +347,7 @@ int main(int argc, char ** argv) {
347347
fprintf(stderr, "%s: error: Quantization should be tested with a float model, "
348348
"this model contains already quantized layers (%s is type %d)\n", __func__, kv_tensor.first.c_str(), kv_tensor.second->type);
349349
llama_free(ctx);
350-
llama_free_model(model);
350+
llama_model_free(model);
351351
return 1;
352352
}
353353
included_layers++;
@@ -409,7 +409,7 @@ int main(int argc, char ** argv) {
409409

410410

411411
llama_free(ctx);
412-
llama_free_model(model);
412+
llama_model_free(model);
413413
// report timing
414414
{
415415
const int64_t t_main_end_us = ggml_time_us();

examples/run/run.cpp

+1-1
Original file line numberDiff line numberDiff line change
@@ -664,7 +664,7 @@ class LlamaData {
664664
"\r%*s"
665665
"\rLoading model",
666666
get_terminal_width(), " ");
667-
llama_model_ptr model(llama_load_model_from_file(opt.model_.c_str(), opt.model_params));
667+
llama_model_ptr model(llama_model_load_from_file(opt.model_.c_str(), opt.model_params));
668668
if (!model) {
669669
printe("%s: error: unable to load model from file: %s\n", __func__, opt.model_.c_str());
670670
}

examples/simple-chat/simple-chat.cpp

+2-2
Original file line numberDiff line numberDiff line change
@@ -69,7 +69,7 @@ int main(int argc, char ** argv) {
6969
llama_model_params model_params = llama_model_default_params();
7070
model_params.n_gpu_layers = ngl;
7171

72-
llama_model * model = llama_load_model_from_file(model_path.c_str(), model_params);
72+
llama_model * model = llama_model_load_from_file(model_path.c_str(), model_params);
7373
if (!model) {
7474
fprintf(stderr , "%s: error: unable to load model\n" , __func__);
7575
return 1;
@@ -194,7 +194,7 @@ int main(int argc, char ** argv) {
194194
}
195195
llama_sampler_free(smpl);
196196
llama_free(ctx);
197-
llama_free_model(model);
197+
llama_model_free(model);
198198

199199
return 0;
200200
}

examples/simple/simple.cpp

+2-2
Original file line numberDiff line numberDiff line change
@@ -83,7 +83,7 @@ int main(int argc, char ** argv) {
8383
llama_model_params model_params = llama_model_default_params();
8484
model_params.n_gpu_layers = ngl;
8585

86-
llama_model * model = llama_load_model_from_file(model_path.c_str(), model_params);
86+
llama_model * model = llama_model_load_from_file(model_path.c_str(), model_params);
8787

8888
if (model == NULL) {
8989
fprintf(stderr , "%s: error: unable to load model\n" , __func__);
@@ -199,7 +199,7 @@ int main(int argc, char ** argv) {
199199

200200
llama_sampler_free(smpl);
201201
llama_free(ctx);
202-
llama_free_model(model);
202+
llama_model_free(model);
203203

204204
return 0;
205205
}

examples/tokenize/tokenize.cpp

+2-2
Original file line numberDiff line numberDiff line change
@@ -338,7 +338,7 @@ int main(int raw_argc, char ** raw_argv) {
338338

339339
llama_model_params model_params = llama_model_default_params();
340340
model_params.vocab_only = true;
341-
llama_model * model = llama_load_model_from_file(model_path, model_params);
341+
llama_model * model = llama_model_load_from_file(model_path, model_params);
342342
if (!model) {
343343
fprintf(stderr, "Error: could not load model from file '%s'.\n", model_path);
344344
return 1;
@@ -408,7 +408,7 @@ int main(int raw_argc, char ** raw_argv) {
408408
}
409409
// silence valgrind
410410
llama_free(ctx);
411-
llama_free_model(model);
411+
llama_model_free(model);
412412

413413
return 0;
414414
}

include/llama-cpp.h

+1-1
Original file line numberDiff line numberDiff line change
@@ -9,7 +9,7 @@
99
#include "llama.h"
1010

1111
struct llama_model_deleter {
12-
void operator()(llama_model * model) { llama_free_model(model); }
12+
void operator()(llama_model * model) { llama_model_free(model); }
1313
};
1414

1515
struct llama_context_deleter {

include/llama.h

+10-3
Original file line numberDiff line numberDiff line change
@@ -413,12 +413,19 @@ extern "C" {
413413
// Call once at the end of the program - currently only used for MPI
414414
LLAMA_API void llama_backend_free(void);
415415

416-
LLAMA_API struct llama_model * llama_load_model_from_file(
416+
DEPRECATED(LLAMA_API struct llama_model * llama_load_model_from_file(
417+
const char * path_model,
418+
struct llama_model_params params),
419+
"use llama_model_load_from_file instead");
420+
421+
LLAMA_API struct llama_model * llama_model_load_from_file(
417422
const char * path_model,
418423
struct llama_model_params params);
419424

420-
// TODO: rename to llama_model_free
421-
LLAMA_API void llama_free_model(struct llama_model * model);
425+
DEPRECATED(LLAMA_API void llama_free_model(struct llama_model * model),
426+
"use llama_model_free instead");
427+
428+
LLAMA_API void llama_model_free(struct llama_model * model);
422429

423430
// TODO: rename to llama_init_from_model
424431
LLAMA_API struct llama_context * llama_new_context_with_model(

src/llama-model.cpp

+4
Original file line numberDiff line numberDiff line change
@@ -2009,6 +2009,10 @@ struct llama_model_params llama_model_default_params() {
20092009
}
20102010

20112011
void llama_free_model(struct llama_model * model) {
2012+
llama_model_free(model);
2013+
}
2014+
2015+
void llama_model_free(struct llama_model * model) {
20122016
delete model;
20132017
}
20142018

0 commit comments

Comments
 (0)