pytorch
diff --git a/‎CMakeLists.txt
+2-2 b/‎CMakeLists.txt
+2-2
diff --git a/‎backends/apple/coreml/TARGETS
+1-1 b/‎backends/apple/coreml/TARGETS
+1-1
diff --git a/‎backends/arm/_passes/__init__.py
+2-1 b/‎backends/arm/_passes/__init__.py
+2-1
diff --git a/‎backends/arm/_passes/arm_pass_manager.py
+6-3 b/‎backends/arm/_passes/arm_pass_manager.py
+6-3
diff --git a/‎backends/arm/_passes/cast_int64_pass.py
+2-2 b/‎backends/arm/_passes/cast_int64_pass.py
+2-2
diff --git a/‎backends/arm/_passes/cast_to_int32_pass.py
+54 b/‎backends/arm/_passes/cast_to_int32_pass.py
+54
diff --git a/‎backends/arm/_passes/match_arg_ranks_pass.py
+3 b/‎backends/arm/_passes/match_arg_ranks_pass.py
+3
diff --git a/‎backends/arm/operator_support/right_shift_support.py
+4-1 b/‎backends/arm/operator_support/right_shift_support.py
+4-1
diff --git a/‎backends/arm/operator_support/tosa_supported_operators.py
+4 b/‎backends/arm/operator_support/tosa_supported_operators.py
+4
diff --git a/‎backends/arm/operators/__init__.py
+1-1 b/‎backends/arm/operators/__init__.py
+1-1
diff --git a/‎backends/arm/operators/op_rshift.py
-100 b/‎backends/arm/operators/op_rshift.py
-100
diff --git a/‎backends/arm/operators/op_rshift_tensor.py
+46 b/‎backends/arm/operators/op_rshift_tensor.py
+46
diff --git a/‎backends/arm/operators/ops_binary.py
+3 b/‎backends/arm/operators/ops_binary.py
+3
diff --git a/‎backends/arm/test/models/test_conformer.py
+1-2 b/‎backends/arm/test/models/test_conformer.py
+1-2
diff --git a/‎backends/arm/test/models/test_llama.py
+1-1 b/‎backends/arm/test/models/test_llama.py
+1-1
@@ -1,6 +1,6 @@
 # Copyright (c) Meta Platforms, Inc. and affiliates.
-# Copyright 2024-2025 Arm Limited and/or its affiliates.
 # All rights reserved.
+# Copyright 2024-2025 Arm Limited and/or its affiliates.
 #
 # This source code is licensed under the BSD-style license found in the
 # LICENSE file in the root directory of this source tree.
@@ -161,7 +161,7 @@ if(OPTIMIZE_SIZE)
   set(CMAKE_CXX_FLAGS_RELEASE "${CMAKE_CXX_FLAGS_RELEASE} -Os")
 else()
   # -O2: Moderate opt.
-  set(CMAKE_CXX_FLAGS_RELEASE "${CMAKE_CXX_FLAGS_RELEASE} -O2")
+  set(CMAKE_CXX_FLAGS_RELEASE "-O2 ${CMAKE_CXX_FLAGS_RELEASE}")
 endif()
 
 option(EXECUTORCH_BUILD_ANDROID_JNI "Build Android JNI" OFF)
 
@@ -72,7 +72,7 @@ runtime.cxx_python_extension(
     headers = glob([
         "runtime/inmemoryfs/**/*.hpp",
     ]),
-    base_module = "",
+    base_module = "executorch.backends.apple.coreml",
     compiler_flags = [
         "-std=c++17",
     ],
 
@@ -7,7 +7,8 @@
 from . import arm_pass_utils  # noqa
 from .annotate_channels_last_dim_order_pass import AnnotateChannelsLastDimOrder  # noqa
 from .annotate_decomposed_matmul import AnnotateDecomposedMatmulPass  # noqa
-from .cast_int64_pass import CastInt64ToInt32Pass  # noqa
+from .cast_int64_pass import CastInt64BuffersToInt32Pass  # noqa
+from .cast_to_int32_pass import CastToInt32Pass  # noqa
 from .conv1d_unsqueeze_pass import Conv1dUnsqueezePass  # noqa
 from .convert_any_default_dim_dims_pass import ConvertAnyDefaultDimDimsPass  # noqa
 from .convert_expand_copy_to_repeat import ConvertExpandCopyToRepeatPass  # noqa
 
@@ -10,7 +10,8 @@
 from executorch.backends.arm._passes import (
     AnnotateChannelsLastDimOrder,
     AnnotateDecomposedMatmulPass,
-    CastInt64ToInt32Pass,
+    CastInt64BuffersToInt32Pass,
+    CastToInt32Pass,
     ComputeConstantOpsAOT,
     Conv1dUnsqueezePass,
     ConvertAnyDefaultDimDimsPass,
@@ -80,6 +81,8 @@ def _tosa_080_BI_pipeline(self, exported_program: ExportedProgram) -> GraphModul
         self.add_pass(ConvertToClampPass())
         self.add_pass(ConvertMinMaxPass())
         self.add_pass(ConvertAnyDefaultDimDimsPass())
+        if isinstance(self.tosa_spec, Tosa_0_80) and self.tosa_spec.is_U55_subset:
+            self.add_pass(CastToInt32Pass())
 
         self.add_pass(ReplaceScalarWithTensorArgPass())
         self.add_pass(AnnotateDecomposedMatmulPass())
@@ -94,7 +97,7 @@ def _tosa_080_BI_pipeline(self, exported_program: ExportedProgram) -> GraphModul
         self.add_pass(SizeAdjustConv2DPass())
         self.add_pass(ConvertExpandCopyToRepeatPass())
         self.add_pass(UnsqueezeBeforeRepeatPass())
-        self.add_pass(CastInt64ToInt32Pass(exported_program))
+        self.add_pass(CastInt64BuffersToInt32Pass(exported_program))
         self.add_pass(KeepDimsFalseToSqueezePass())
         self.add_pass(Conv1dUnsqueezePass(exported_program))
         self.add_pass(DecomposeSelectPass())
@@ -141,7 +144,7 @@ def _tosa_080_MI_pipeline(self, exported_program: ExportedProgram) -> GraphModul
         self.add_pass(SizeAdjustConv2DPass())
         self.add_pass(ConvertExpandCopyToRepeatPass())
         self.add_pass(UnsqueezeBeforeRepeatPass())
-        self.add_pass(CastInt64ToInt32Pass(exported_program))
+        self.add_pass(CastInt64BuffersToInt32Pass(exported_program))
         self.add_pass(KeepDimsFalseToSqueezePass())
         self.add_pass(Conv1dUnsqueezePass(exported_program))
         self.add_pass(DecomposeSelectPass())
 
@@ -15,13 +15,13 @@
 logger.setLevel(logging.WARNING)
 
 
-class CastInt64ToInt32Pass(ExportPass):
+class CastInt64BuffersToInt32Pass(ExportPass):
     """
     Cast int64 buffers to int32 if the int64 data is in int32 range.
     """
 
     def __init__(self, exported_program: torch.export.ExportedProgram):
-        super(CastInt64ToInt32Pass, self).__init__()
+        super(CastInt64BuffersToInt32Pass, self).__init__()
         self.exported_program = exported_program
 
     def _assert_within_int32(self, tensor: torch.Tensor, node: torch.fx.Node):
 
@@ -0,0 +1,54 @@
+# Copyright 2025 Arm Limited and/or its affiliates.
+#
+# This source code is licensed under the BSD-style license found in the
+# LICENSE file in the root directory of this source tree.
+
+import torch
+
+from executorch.exir.dialects._ops import ops as exir_ops
+from executorch.exir.pass_base import ExportPass
+
+
+class CastToInt32Pass(ExportPass):
+    """Casts the input to int32 if it is not already and casts back the output to the original input dtype."""
+
+    targeted_ops = {
+        exir_ops.edge.aten.bitwise_left_shift.Tensor,
+        exir_ops.edge.aten.bitwise_right_shift.Tensor,
+    }
+
+    def call_operator(self, op, args, kwargs, meta):
+        if op not in self.targeted_ops:
+            return super().call_operator(op, args, kwargs, meta)
+
+        new_args: list = []
+        did_cast = False
+        for arg in args:
+            if arg.data.dtype != torch.int32:
+                new_args.append(
+                    super().call_operator(
+                        exir_ops.edge.dim_order_ops._to_dim_order_copy.default,
+                        (arg,),
+                        {"dtype": torch.int32},
+                        meta,
+                    )
+                )
+                did_cast = True
+            else:
+                new_args.append(arg)
+
+        output = super().call_operator(
+            op,
+            tuple(new_args),
+            {},
+            meta,
+        )
+
+        if did_cast:
+            output = super().call_operator(
+                exir_ops.edge.dim_order_ops._to_dim_order_copy.default,
+                (output,),
+                {"dtype": args[0].data.dtype},
+                meta,
+            )
+        return output
@@ -45,6 +45,9 @@ def __init__(self, exported_program):
         exir_ops.edge.aten.sub.Tensor,
         exir_ops.edge.aten.mul.Tensor,
         exir_ops.edge.aten.div.Tensor,
+        exir_ops.edge.aten.bitwise_right_shift.Tensor,
+        exir_ops.edge.aten.bitwise_left_shift.Tensor,
+        exir_ops.edge.aten.eq.Tensor,
     ]
 
     def _match_op_rank(self, graph_module, node, arg, max_rank):
 
@@ -22,7 +22,10 @@
 
 @register_tosa_support_check
 class RightShiftSupported(SupportedTOSAOperatorCheck):
-    targets = [exir_ops.edge.aten.__rshift__.Scalar]
+    targets = [
+        exir_ops.edge.aten.bitwise_right_shift.Tensor,
+        exir_ops.edge.aten.__rshift__.Scalar,
+    ]
 
     tosa_specs = [
         TosaSpecification.create_from_string("TOSA-0.80+BI"),
 
@@ -158,6 +158,7 @@ def is_node_supported(
             exir_ops.edge.aten.hardswish.default,
             exir_ops.edge.aten.div.Tensor,
             exir_ops.edge.aten.eq.Tensor,
+            exir_ops.edge.aten.eq.Scalar,
             exir_ops.edge.aten.exp.default,
             exir_ops.edge.aten.log.default,
             exir_ops.edge.aten.linear.default,
@@ -205,6 +206,8 @@ def is_node_supported(
             exir_ops.edge.aten.amin.default,
             exir_ops.edge.aten.eye.default,
             exir_ops.edge.aten.linspace.default,
+            exir_ops.edge.aten.bitwise_left_shift.Tensor,
+            exir_ops.edge.aten.__lshift__.Scalar,
             torch.ops.aten.scalar_tensor.default,
         ]
 
@@ -233,6 +236,7 @@ class EthosU55NotSupported(OperatorSupportBase):
         exir_ops.edge.aten.amax.default,  # REDUCE_MAX
         exir_ops.edge.aten.amin.default,  # REDUCE_MIN
         exir_ops.edge.aten.eq.Tensor,
+        exir_ops.edge.aten.eq.Scalar,
         exir_ops.edge.aten.ge.Tensor,
         exir_ops.edge.aten.gt.Tensor,
         exir_ops.edge.aten.le.Tensor,
 
@@ -35,7 +35,7 @@
     op_reciprocal,
     op_repeat,
     op_rescale,
-    op_rshift,
+    op_rshift_tensor,
     op_rsqrt,
     op_sigmoid,
     op_slice,
 
@@ -0,0 +1,46 @@
+# Copyright 2024-2025 Arm Limited and/or its affiliates.
+#
+# This source code is licensed under the BSD-style license found in the
+# LICENSE file in the root directory of this source tree.
+
+# pyre-unsafe
+
+from typing import List
+
+import serializer.tosa_serializer as ts  # type: ignore
+import torch
+from executorch.backends.arm.operators.node_visitor import (
+    NodeVisitor,
+    register_node_visitor,
+)
+from executorch.backends.arm.tosa_mapping import TosaArg
+from executorch.backends.arm.tosa_specification import Tosa_0_80
+from serializer.tosa_serializer import TosaOp
+
+
+@register_node_visitor
+class RshiftVisitor(NodeVisitor):
+    target = "aten.bitwise_right_shift.Tensor"
+
+    def define_node(
+        self,
+        node: torch.fx.Node,
+        tosa_graph: ts.TosaSerializer,
+        inputs: List[TosaArg],
+        output: TosaArg,
+    ) -> None:
+
+        attr = ts.TosaSerializerAttribute()
+        round = False
+        if isinstance(self.tosa_spec, Tosa_0_80) and self.tosa_spec.is_U55_subset:
+            # U55 only supports INT32 and round == True
+            # TODO MLETORCH-525 Emulate round == False with different decomposition
+            round = True
+        attr.ArithmeticRightShiftAttribute(round=round)
+
+        tosa_graph.addOperator(
+            TosaOp.Op().ARITHMETIC_RIGHT_SHIFT,
+            [inputs[0].name, inputs[1].name],
+            [output.name],
+            attr,
+        )
@@ -52,3 +52,6 @@ def define_node(
 binary_operator_factory("aten.logical_and.default", TosaOp.Op().LOGICAL_AND)
 binary_operator_factory("aten.logical_xor.default", TosaOp.Op().LOGICAL_XOR)
 binary_operator_factory("aten.logical_or.default", TosaOp.Op().LOGICAL_OR)
+binary_operator_factory(
+    "aten.bitwise_left_shift.Tensor", TosaOp.Op().LOGICAL_LEFT_SHIFT
+)
@@ -31,11 +31,10 @@ class TestConformer(unittest.TestCase):
     # .to_executorch step, i.e. after Arm partitioner.
     ops_after_partitioner = {
         "executorch_exir_dialects_edge__ops_aten_max_default": 1,
-        "executorch_exir_dialects_edge__ops_aten_eq_Scalar": 2,
         "executorch_exir_dialects_edge__ops_aten_where_self": 4,
         "torch.ops.aten._assert_scalar.default": 10,
         "torch.ops.aten._local_scalar_dense.default": 1,
-        "torch.ops.higher_order.executorch_call_delegate": 6,
+        "torch.ops.higher_order.executorch_call_delegate": 4,
     }
 
     dim = 16
 
@@ -114,7 +114,7 @@ def test_llama_tosa_MI(self):
                 )
                 .export()
                 .to_edge_transform_and_lower()
-                .check_count({"torch.ops.higher_order.executorch_call_delegate": 26})
+                .check_count({"torch.ops.higher_order.executorch_call_delegate": 14})
                 .to_executorch()
                 .run_method_and_compare_outputs(
                     inputs=llama_inputs,
Original file line number	Diff line number	Diff line change
`@@ -45,6 +45,9 @@ def __init__(self, exported_program):`
`45`	`45`	`exir_ops.edge.aten.sub.Tensor,`
`46`	`46`	`exir_ops.edge.aten.mul.Tensor,`
`47`	`47`	`exir_ops.edge.aten.div.Tensor,`
	`48`	`+ exir_ops.edge.aten.bitwise_right_shift.Tensor,`
	`49`	`+ exir_ops.edge.aten.bitwise_left_shift.Tensor,`
	`50`	`+ exir_ops.edge.aten.eq.Tensor,`
`48`	`51`	`]`
`49`	`52`
`50`	`53`	`def _match_op_rank(self, graph_module, node, arg, max_rank):`
Original file line number	Diff line number	Diff line change
`@@ -114,7 +114,7 @@ def test_llama_tosa_MI(self):`
`114`	`114`	`)`
`115`	`115`	`.export()`
`116`	`116`	`.to_edge_transform_and_lower()`
`117`		`- .check_count({"torch.ops.higher_order.executorch_call_delegate": 26})`
	`117`	`+ .check_count({"torch.ops.higher_order.executorch_call_delegate": 14})`
`118`	`118`	`.to_executorch()`
`119`	`119`	`.run_method_and_compare_outputs(`
`120`	`120`	`inputs=llama_inputs,`