Avoid mlock of offloaded tensors.

howard0su · howard0su · commit 79a37ecb0f04 · 2023-05-27T20:35:03.000+08:00
diff --git a/llama.cpp b/llama.cpp
@@ -715,8 +715,12 @@ struct llama_model_loader {
             load_data_for(lt);
             switch(lt.ggml_tensor->backend) {
                 case GGML_BACKEND_CPU:
-                    lt.ggml_tensor->data = lt.data;
-                    break;
+                lt.ggml_tensor->data = lt.data;
+                if (use_mmap && lmlock)
+                {
+                    lmlock->grow_to(done_size);
+                }
+                break;
 #ifdef GGML_USE_CUBLAS
                 case GGML_BACKEND_CUDA:
                     ggml_cuda_load_data(lt.data, lt.ggml_tensor);
@@ -731,9 +735,6 @@ struct llama_model_loader {
                     continue;
             }
             done_size += lt.size;
-            if (use_mmap && lmlock) {
-                lmlock->grow_to(done_size);
-            }
         }
     }