Removed unnecessary reshapes when retrieving kv from cache

jploski · jploski · commit d5295b477fb3 · 2023-06-26T17:01:31.000+02:00
diff --git a/examples/falcon/main.cpp b/examples/falcon/main.cpp
@@ -527,14 +527,13 @@ bool falcon_eval(
 
             struct ggml_tensor * K = ggml_permute(
                 ctx0,
-                ggml_reshape_3d(
+                ggml_view_3d(
                     ctx0,
-                    ggml_view_1d(ctx0, model.memory_k, (n_past + N) * n_head_kv * head_dim,
-                                 il * n_ctx *
-                                     ggml_element_size(model.memory_k) *
-                                     n_head_kv *
-                                     head_dim),
-                    head_dim, n_head_kv, n_past + N),
+                    model.memory_k,
+                    head_dim, n_head_kv, n_past + N,
+                    head_dim * sizeof_wtype,
+                    head_dim * n_head_kv * sizeof_wtype,
+                    il * n_ctx * ggml_element_size(model.memory_k) * n_head_kv * head_dim),
                 0, 2, 1, 3);
 
             // K * Q
@@ -560,14 +559,13 @@ bool falcon_eval(
             // V_trans = Vmem.view(n_embd/n_head, n_head, n_past + N).permute(1, 2, 0, 3).contiguous()
             struct ggml_tensor* V = ggml_permute(
                 ctx0,
-                ggml_reshape_3d(
+                ggml_view_3d(
                     ctx0,
-                    ggml_view_1d(ctx0, model.memory_v, (n_past + N) * n_head_kv * head_dim,
-                                 il * n_ctx *
-                                     ggml_element_size(model.memory_v) *
-                                     n_head_kv *
-                                     head_dim),
-                    head_dim, n_head_kv, n_past + N),
+                    model.memory_v,
+                    head_dim, n_head_kv, n_past + N,
+                    head_dim * sizeof_wtype,
+                    head_dim * n_head_kv * sizeof_wtype,
+                    il * n_ctx * ggml_element_size(model.memory_v) * n_head_kv * head_dim),
                 0, 2, 1, 3);
 
             V = ggml_cont(ctx0, ggml_transpose(ctx0, ggml_repeat2(ctx0, V, repeat_dummy)));