Update on "Xnnpack test for program-data separation"

lucylq · lucylq · commit 2d4bfd7fe65b · 2025-05-07T09:44:46.000-07:00
Add xnnpack test for program-data separation Differential Revision: [D73794695](https://our.internmc.facebook.com/intern/diff/D73794695/) [ghstack-poisoned]
diff --git a/backends/arm/_passes/__init__.py b/backends/arm/_passes/__init__.py
@@ -19,6 +19,7 @@
 from .convert_squeezes_to_view import ConvertSqueezesToViewPass  # noqa
 from .convert_to_clamp import ConvertToClampPass  # noqa
 from .decompose_batchnorm_pass import DecomposeBatchNormPass  # noqa
+from .decompose_cosine_similarity_pass import DecomposeCosineSimilarityPass  # noqa
 from .decompose_div_pass import DecomposeDivPass  # noqa
 from .decompose_gelu_pass import DecomposeGeluPass  # noqa
 from .decompose_layernorm_pass import DecomposeLayerNormPass  # noqa
diff --git a/backends/arm/_passes/arm_pass_manager.py b/backends/arm/_passes/arm_pass_manager.py
@@ -24,6 +24,7 @@
     ConvertSqueezesToViewPass,
     ConvertToClampPass,
     DecomposeBatchNormPass,
+    DecomposeCosineSimilarityPass,
     DecomposeDivPass,
     DecomposeGeluPass,
     DecomposeLayerNormPass,
@@ -205,6 +206,7 @@ def transform_for_annotation_pipeline(self, graph_module: GraphModule):
         self.add_pass(DecomposeVarPass())
         self.add_pass(DecomposeMeanDimPass())
         self.add_pass(DecomposeNotEqualPass())
+        self.add_pass(DecomposeCosineSimilarityPass())
         self.add_pass(DecomposeDivPass())
         self.add_pass(DecomposeLeakyReLUPass())
         self.add_pass(DecomposeSqrtPass())
diff --git a/backends/arm/_passes/decompose_cosine_similarity_pass.py b/backends/arm/_passes/decompose_cosine_similarity_pass.py
@@ -0,0 +1,75 @@
+# Copyright 2025 Arm Limited and/or its affiliates.
+#
+# This source code is licensed under the BSD-style license found in the
+# LICENSE file in the root directory of this source tree.
+
+import torch
+from executorch.exir.pass_base import ExportPass
+
+torch_cosine_similarity = (torch.ops.aten.cosine_similarity.default,)
+
+
+class DecomposeCosineSimilarityPass(ExportPass):
+    """
+    Decomposition of aten.cosine_similarity:
+
+      dot    = sum(mul(x1, x2), dims, keepdim=False)
+      norm   = pow( sum(mul(x, x), dims, keepdim=False), 0.5 )
+      eps    = full( (), eps_scalar )
+      n1c    = max(norm1, eps)
+      n2c    = max(norm2, eps)
+      denom  = mul(n1c, n2c)
+      out    = div(dot, denom)
+    """
+
+    def call_operator(self, op, args, kwargs, meta):
+        if op not in torch_cosine_similarity:
+            return super().call_operator(op, args, kwargs, meta)
+
+        x1, x2 = args[0], args[1]
+        dim = kwargs.get("dim", 1)
+        eps = kwargs.get("eps", 1e-8)
+        dims = [dim] if isinstance(dim, int) else list(dim)
+
+        # 1) dot
+        prod = super().call_operator(torch.ops.aten.mul.Tensor, (x1, x2), {}, meta)
+        dot = super().call_operator(
+            torch.ops.aten.sum.dim_IntList, (prod, dims, False), {}, meta
+        )
+
+        # 2a) norm1 = pow(sum(x1*x1), 0.5)
+        x1_sq = super().call_operator(torch.ops.aten.mul.Tensor, (x1, x1), {}, meta)
+        s1 = super().call_operator(
+            torch.ops.aten.sum.dim_IntList, (x1_sq, dims, False), {}, meta
+        )
+        norm1 = super().call_operator(
+            torch.ops.aten.pow.Tensor_Scalar, (s1, 0.5), {}, meta
+        )
+
+        # 2b) norm2 = pow(sum(x2*x2), 0.5)
+        x2_sq = super().call_operator(torch.ops.aten.mul.Tensor, (x2, x2), {}, meta)
+        s2 = super().call_operator(
+            torch.ops.aten.sum.dim_IntList, (x2_sq, dims, False), {}, meta
+        )
+        norm2 = super().call_operator(
+            torch.ops.aten.pow.Tensor_Scalar, (s2, 0.5), {}, meta
+        )
+
+        # 3) eps scalar - we need to broadcast ourselves as TOSA dont do this for scalar
+        eps_t = super().call_operator(
+            torch.ops.aten.full_like.default, (norm1, eps), {}, meta
+        )
+
+        # 4) clamp to avoid zero division
+        n1c = super().call_operator(
+            torch.ops.aten.maximum.default, (norm1, eps_t), {}, meta
+        )
+        n2c = super().call_operator(
+            torch.ops.aten.maximum.default, (norm2, eps_t), {}, meta
+        )
+
+        # 5) denom and divide
+        denom = super().call_operator(torch.ops.aten.mul.Tensor, (n1c, n2c), {}, meta)
+        out = super().call_operator(torch.ops.aten.div.Tensor, (dot, denom), {}, meta)
+
+        return out
diff --git a/backends/arm/test/models/test_nn_functional.py b/backends/arm/test/models/test_nn_functional.py
@@ -106,7 +106,6 @@ def test_nn_functional_MI(test_data):
 
 x_fails = {
     "normalize": "MLETORCH-852: Support aten.index_put.default",
-    "cosine_similarity": "MLETORCH-854: Support aten.linalg_vector_norm.default",
     "unfold": "Int64 input && MLETORCH-827: Support aten.index.Tensor",
     "fold": "Int64 input && MLETORCH-827: Support aten.index_put.default",
 }
diff --git a/backends/arm/test/passes/test_decompose_cosine_similarity_pass.py b/backends/arm/test/passes/test_decompose_cosine_similarity_pass.py
@@ -0,0 +1,52 @@
+# Copyright 2025 Arm Limited and/or its affiliates.
+#
+# This source code is licensed under the BSD-style license found in the
+# LICENSE file in the root directory of this source tree.
+
+from typing import Tuple
+
+import torch
+
+from executorch.backends.arm._passes.decompose_cosine_similarity_pass import (
+    DecomposeCosineSimilarityPass,
+)
+from executorch.backends.arm.test import common
+from executorch.backends.arm.test.tester.test_pipeline import PassPipeline
+
+input_t = Tuple[torch.Tensor, torch.Tensor]
+
+
+class CosineSimilarityModel(torch.nn.Module):
+    def get_inputs(self) -> input_t:
+        return (torch.rand(2, 3, 4), torch.rand(2, 3, 4))
+
+    def forward(self, x1: torch.Tensor, x2: torch.Tensor) -> torch.Tensor:
+        return torch.cosine_similarity(x1, x2, dim=1, eps=1e-6)
+
+
+modules = {"cosine_basic": CosineSimilarityModel()}
+
+
+@common.parametrize("module", modules)
+def test_decompose_cosine_similarity_tosa_BI(module):
+
+    ops_after_pass = {
+        "executorch_exir_dialects_edge__ops_aten_mul_Tensor": 5,
+        "executorch_exir_dialects_edge__ops_aten_sum_dim_IntList": 3,
+        "executorch_exir_dialects_edge__ops_aten_pow_Tensor_Scalar": 2,
+        "executorch_exir_dialects_edge__ops_aten_full_like_default": 1,
+        "executorch_exir_dialects_edge__ops_aten_maximum_default": 2,
+        "executorch_exir_dialects_edge__ops_aten_reciprocal_default": 1,
+    }
+
+    pipeline = PassPipeline[input_t](
+        module,
+        module.get_inputs(),
+        tosa_version="TOSA-0.80+BI",
+        ops_before_pass=None,
+        ops_not_before_pass=None,
+        ops_after_pass=ops_after_pass,
+        ops_not_after_pass=None,
+        pass_list=[DecomposeCosineSimilarityPass],
+    )
+    pipeline.run()
diff --git a/backends/xnnpack/test/runtime/test_xnn_data_separation.cpp b/backends/xnnpack/test/runtime/test_xnn_data_separation.cpp
@@ -6,109 +6,109 @@
  * LICENSE file in the root directory of this source tree.
  */
 
- #include <executorch/extension/data_loader/file_data_loader.h>
- #include <executorch/extension/flat_tensor/flat_tensor_data_map.h>
- #include <executorch/runtime/core/error.h>
- #include <executorch/runtime/core/result.h>
- #include <executorch/runtime/executor/method.h>
- #include <executorch/runtime/executor/program.h>
- #include <executorch/runtime/executor/test/managed_memory_manager.h>
- #include <executorch/runtime/platform/runtime.h>
- 
- #include <gtest/gtest.h>
- 
- using namespace ::testing;
- using executorch::extension::FlatTensorDataMap;
- using executorch::runtime::DataLoader;
- using executorch::runtime::Error;
- using executorch::runtime::FreeableBuffer;
- using executorch::runtime::Method;
- using executorch::runtime::Program;
- using executorch::runtime::Result;
- using executorch::runtime::testing::ManagedMemoryManager;
- using torch::executor::util::FileDataLoader;
- 
- constexpr size_t kDefaultNonConstMemBytes = 32 * 1024U;
- constexpr size_t kDefaultRuntimeMemBytes = 32 * 1024U;
- 
- class DataSeparationTest : public ::testing::Test {
-  protected:
-   void SetUp() override {
-     // Since these tests cause ET_LOG to be called, the PAL must be initialized
-     // first.
-     executorch::runtime::runtime_init();
- 
-     // Create data loaders.
-     Result<FileDataLoader> linear_program_loader =
-         FileDataLoader::from(std::getenv("ET_MODULE_LINEAR_XNN_PROGRAM_PATH"));
-     ASSERT_EQ(linear_program_loader.error(), Error::Ok);
-     linear_program_loader_ = std::make_unique<FileDataLoader>(
-         std::move(linear_program_loader.get()));
- 
-     Result<FileDataLoader> linear_data_loader =
-         FileDataLoader::from(std::getenv("ET_MODULE_LINEAR_XNN_DATA_PATH"));
-     ASSERT_EQ(linear_data_loader.error(), Error::Ok);
-     linear_data_loader_ =
-         std::make_unique<FileDataLoader>(std::move(linear_data_loader.get()));
- 
-     // Create programs.
-     Result<Program> linear_program = Program::load(
-         linear_program_loader_.get(),
-         Program::Verification::InternalConsistency);
-     ASSERT_EQ(linear_program.error(), Error::Ok);
-     linear_program_ =
-         std::make_unique<Program>(std::move(linear_program.get()));
- 
-     Result<FlatTensorDataMap> linear_data_map =
-         FlatTensorDataMap::load(linear_data_loader_.get());
-     EXPECT_EQ(linear_data_map.error(), Error::Ok);
-     linear_data_map_ =
-         std::make_unique<FlatTensorDataMap>(std::move(linear_data_map.get()));
-   }
- 
-  private:
-   std::unique_ptr<FileDataLoader> linear_program_loader_;
-   std::unique_ptr<FileDataLoader> linear_data_loader_;
- 
-  protected:
-   std::unique_ptr<Program> linear_program_;
-   std::unique_ptr<FlatTensorDataMap> linear_data_map_;
- };
- 
- TEST_F(DataSeparationTest, TestExternalData) {
-    FlatTensorDataMap* data_map = linear_data_map_.get();
-    EXPECT_EQ(data_map->get_num_keys().get(), 2);
-
-    Result<const char*> key0 = data_map->get_key(0);
-    EXPECT_EQ(key0.error(), Error::Ok);
-    Result<const char*> key1 = data_map->get_key(1);
-    EXPECT_EQ(key1.error(), Error::Ok);
-
-    // Check that accessing keys out of bounds fails.
-    EXPECT_EQ(data_map->get_key(2).error(), Error::InvalidArgument);
-
-    // Linear.weight
-    Result<FreeableBuffer> data0 = data_map->get_data(key0.get());
-    EXPECT_EQ(data0.error(), Error::Ok);
-    EXPECT_EQ(data0.get().size(), 36); // 3*3*4 (3*3 matrix, 4 bytes per float)
-
-    // Linear.bias
-    Result<FreeableBuffer> data1 = data_map->get_data(key1.get());
-    EXPECT_EQ(data1.error(), Error::Ok);
-    EXPECT_EQ(data1.get().size(), 12); // 3*4 (3 vector, 4 bytes per float)
-
-    // Check that accessing non-existent data fails.
-    Result<FreeableBuffer> data2 = data_map->get_data("nonexistent");
-    EXPECT_EQ(data2.error(), Error::NotFound);
+#include <executorch/extension/data_loader/file_data_loader.h>
+#include <executorch/extension/flat_tensor/flat_tensor_data_map.h>
+#include <executorch/runtime/core/error.h>
+#include <executorch/runtime/core/result.h>
+#include <executorch/runtime/executor/method.h>
+#include <executorch/runtime/executor/program.h>
+#include <executorch/runtime/executor/test/managed_memory_manager.h>
+#include <executorch/runtime/platform/runtime.h>
+
+#include <gtest/gtest.h>
+
+using namespace ::testing;
+using executorch::extension::FlatTensorDataMap;
+using executorch::runtime::DataLoader;
+using executorch::runtime::Error;
+using executorch::runtime::FreeableBuffer;
+using executorch::runtime::Method;
+using executorch::runtime::Program;
+using executorch::runtime::Result;
+using executorch::runtime::testing::ManagedMemoryManager;
+using torch::executor::util::FileDataLoader;
+
+constexpr size_t kDefaultNonConstMemBytes = 32 * 1024U;
+constexpr size_t kDefaultRuntimeMemBytes = 32 * 1024U;
+
+class DataSeparationTest : public ::testing::Test {
+ protected:
+  void SetUp() override {
+    // Since these tests cause ET_LOG to be called, the PAL must be initialized
+    // first.
+    executorch::runtime::runtime_init();
+
+    // Create data loaders.
+    Result<FileDataLoader> linear_program_loader =
+        FileDataLoader::from(std::getenv("ET_MODULE_LINEAR_XNN_PROGRAM_PATH"));
+    ASSERT_EQ(linear_program_loader.error(), Error::Ok);
+    linear_program_loader_ = std::make_unique<FileDataLoader>(
+        std::move(linear_program_loader.get()));
+
+    Result<FileDataLoader> linear_data_loader =
+        FileDataLoader::from(std::getenv("ET_MODULE_LINEAR_XNN_DATA_PATH"));
+    ASSERT_EQ(linear_data_loader.error(), Error::Ok);
+    linear_data_loader_ =
+        std::make_unique<FileDataLoader>(std::move(linear_data_loader.get()));
+
+    // Create programs.
+    Result<Program> linear_program = Program::load(
+        linear_program_loader_.get(),
+        Program::Verification::InternalConsistency);
+    ASSERT_EQ(linear_program.error(), Error::Ok);
+    linear_program_ =
+        std::make_unique<Program>(std::move(linear_program.get()));
+
+    Result<FlatTensorDataMap> linear_data_map =
+        FlatTensorDataMap::load(linear_data_loader_.get());
+    EXPECT_EQ(linear_data_map.error(), Error::Ok);
+    linear_data_map_ =
+        std::make_unique<FlatTensorDataMap>(std::move(linear_data_map.get()));
+  }
+
+ private:
+  std::unique_ptr<FileDataLoader> linear_program_loader_;
+  std::unique_ptr<FileDataLoader> linear_data_loader_;
+
+ protected:
+  std::unique_ptr<Program> linear_program_;
+  std::unique_ptr<FlatTensorDataMap> linear_data_map_;
+};
+
+TEST_F(DataSeparationTest, TestExternalData) {
+  FlatTensorDataMap* data_map = linear_data_map_.get();
+  EXPECT_EQ(data_map->get_num_keys().get(), 2);
+
+  Result<const char*> key0 = data_map->get_key(0);
+  EXPECT_EQ(key0.error(), Error::Ok);
+  Result<const char*> key1 = data_map->get_key(1);
+  EXPECT_EQ(key1.error(), Error::Ok);
+
+  // Check that accessing keys out of bounds fails.
+  EXPECT_EQ(data_map->get_key(2).error(), Error::InvalidArgument);
+
+  // Linear.weight
+  Result<FreeableBuffer> data0 = data_map->get_data(key0.get());
+  EXPECT_EQ(data0.error(), Error::Ok);
+  EXPECT_EQ(data0.get().size(), 36); // 3*3*4 (3*3 matrix, 4 bytes per float)
+
+  // Linear.bias
+  Result<FreeableBuffer> data1 = data_map->get_data(key1.get());
+  EXPECT_EQ(data1.error(), Error::Ok);
+  EXPECT_EQ(data1.get().size(), 12); // 3*4 (3 vector, 4 bytes per float)
+
+  // Check that accessing non-existent data fails.
+  Result<FreeableBuffer> data2 = data_map->get_data("nonexistent");
+  EXPECT_EQ(data2.error(), Error::NotFound);
 }
 
- TEST_F(DataSeparationTest, TestE2E) {
-   ManagedMemoryManager mmm(kDefaultNonConstMemBytes, kDefaultRuntimeMemBytes);
-   Result<Method> method = linear_program_->load_method(
-       "forward", &mmm.get(), nullptr, linear_data_map_.get());
-   ASSERT_EQ(method.error(), Error::Ok);
- 
-   // Can execute the method.
-   Error err = method->execute();
-   ASSERT_EQ(err, Error::Ok);
- }
+TEST_F(DataSeparationTest, TestE2E) {
+  ManagedMemoryManager mmm(kDefaultNonConstMemBytes, kDefaultRuntimeMemBytes);
+  Result<Method> method = linear_program_->load_method(
+      "forward", &mmm.get(), nullptr, linear_data_map_.get());
+  ASSERT_EQ(method.error(), Error::Ok);
+
+  // Can execute the method.
+  Error err = method->execute();
+  ASSERT_EQ(err, Error::Ok);
+}
diff --git a/examples/models/llama/runner/CMakeLists.txt b/examples/models/llama/runner/CMakeLists.txt
@@ -53,7 +53,7 @@ else()
 endif()
 
 set(llama_runner_deps executorch_core extension_data_loader extension_module
-                      extension_tensor
+                      extension_tensor extension_flat_tensor
 )
 
 target_link_libraries(llama_runner PUBLIC ${llama_runner_deps})
diff --git a/examples/models/llava/runner/CMakeLists.txt b/examples/models/llava/runner/CMakeLists.txt
@@ -41,7 +41,7 @@ add_subdirectory(
 add_library(llava_runner STATIC ${_llava_runner__srcs})
 
 set(llava_runner_deps executorch_core extension_data_loader extension_llm_runner
-                      extension_module extension_tensor
+                      extension_module extension_tensor extension_flat_tensor
 )
 
 target_link_libraries(llava_runner PUBLIC ${llava_runner_deps})
diff --git a/extension/android/CMakeLists.txt b/extension/android/CMakeLists.txt
diff --git a/extension/llm/runner/CMakeLists.txt b/extension/llm/runner/CMakeLists.txt
diff --git a/tools/cmake/cmake_deps.toml b/tools/cmake/cmake_deps.toml
diff --git a/tools/cmake/executorch-config.cmake b/tools/cmake/executorch-config.cmake

Original file line number	Diff line number	Diff line change
`@@ -106,7 +106,6 @@ def test_nn_functional_MI(test_data):`
`106`	`106`
`107`	`107`	`x_fails = {`
`108`	`108`	`"normalize": "MLETORCH-852: Support aten.index_put.default",`
`109`		`- "cosine_similarity": "MLETORCH-854: Support aten.linalg_vector_norm.default",`
`110`	`109`	`"unfold": "Int64 input && MLETORCH-827: Support aten.index.Tensor",`
`111`	`110`	`"fold": "Int64 input && MLETORCH-827: Support aten.index_put.default",`
`112`	`111`	`}`
Original file line number	Diff line number	Diff line change
`@@ -53,7 +53,7 @@ else()`
`53`	`53`	`endif()`
`54`	`54`
`55`	`55`	`set(llama_runner_deps executorch_core extension_data_loader extension_module`
`56`		`- extension_tensor`
	`56`	`+ extension_tensor extension_flat_tensor`
`57`	`57`	`)`
`58`	`58`
`59`	`59`	`target_link_libraries(llama_runner PUBLIC ${llama_runner_deps})`
Original file line number	Diff line number	Diff line change
`@@ -41,7 +41,7 @@ add_subdirectory(`
`41`	`41`	`add_library(llava_runner STATIC ${_llava_runner__srcs})`
`42`	`42`
`43`	`43`	`set(llava_runner_deps executorch_core extension_data_loader extension_llm_runner`
`44`		`- extension_module extension_tensor`
	`44`	`+ extension_module extension_tensor extension_flat_tensor`
`45`	`45`	`)`
`46`	`46`
`47`	`47`	`target_link_libraries(llava_runner PUBLIC ${llava_runner_deps})`