add support for rrf=False back

miguelgrinberg · miguelgrinberg · commit e675035b8ed3 · 2024-10-03T17:31:21.000+01:00
diff --git a/elasticsearch/helpers/vectorstore/_async/strategies.py b/elasticsearch/helpers/vectorstore/_async/strategies.py
@@ -285,44 +285,50 @@ def _hybrid(
         # RRF is used to even the score from the knn query and text query
         # RRF has two optional parameters: {'rank_constant':int, 'rank_window_size':int}
         # https://www.elastic.co/guide/en/elasticsearch/reference/current/rrf.html
-        rrf_options = {}
-        if isinstance(self.rrf, Dict):
-            if "rank_constant" in self.rrf:
-                rrf_options["rank_constant"] = self.rrf["rank_constant"]
-            if "window_size" in self.rrf:
-                # 'window_size' was renamed to 'rank_window_size', but we support
-                # the older name for backwards compatibility
-                rrf_options["rank_window_size"] = self.rrf["window_size"]
-            if "rank_window_size" in self.rrf:
-                rrf_options["rank_window_size"] = self.rrf["rank_window_size"]
-        query_body = {
-            "retriever": {
-                "rrf": {
-                    "retrievers": [
+        standard_query = {
+            "query": {
+                "bool": {
+                    "must": [
                         {
-                            "standard": {
-                                "query": {
-                                    "bool": {
-                                        "must": [
-                                            {
-                                                "match": {
-                                                    self.text_field: {
-                                                        "query": query,
-                                                    }
-                                                }
-                                            }
-                                        ],
-                                        "filter": filter,
-                                    }
-                                },
-                            },
-                        },
-                        {"knn": knn},
+                            "match": {
+                                self.text_field: {
+                                    "query": query,
+                                }
+                            }
+                        }
                     ],
-                    **rrf_options,
-                },
-            },
+                    "filter": filter,
+                }
+            }
         }
+
+        if self.rrf is False:
+            query_body = {
+                "knn": knn,
+                **standard_query,
+            }
+        else:
+            rrf_options = {}
+            if isinstance(self.rrf, Dict):
+                if "rank_constant" in self.rrf:
+                    rrf_options["rank_constant"] = self.rrf["rank_constant"]
+                if "window_size" in self.rrf:
+                    # 'window_size' was renamed to 'rank_window_size', but we support
+                    # the older name for backwards compatibility
+                    rrf_options["rank_window_size"] = self.rrf["window_size"]
+                if "rank_window_size" in self.rrf:
+                    rrf_options["rank_window_size"] = self.rrf["rank_window_size"]
+            query_body = {
+                "retriever": {
+                    "rrf": {
+                        "retrievers": [
+                            {"standard": standard_query},
+                            {"knn": knn},
+                        ],
+                        **rrf_options,
+                    },
+                },
+            }
         return query_body
 
     def needs_inference(self) -> bool:
diff --git a/elasticsearch/helpers/vectorstore/_sync/strategies.py b/elasticsearch/helpers/vectorstore/_sync/strategies.py
@@ -285,44 +285,50 @@ def _hybrid(
         # RRF is used to even the score from the knn query and text query
         # RRF has two optional parameters: {'rank_constant':int, 'rank_window_size':int}
         # https://www.elastic.co/guide/en/elasticsearch/reference/current/rrf.html
-        rrf_options = {}
-        if isinstance(self.rrf, Dict):
-            if "rank_constant" in self.rrf:
-                rrf_options["rank_constant"] = self.rrf["rank_constant"]
-            if "window_size" in self.rrf:
-                # 'window_size' was renamed to 'rank_window_size', but we support
-                # the older name for backwards compatibility
-                rrf_options["rank_window_size"] = self.rrf["window_size"]
-            if "rank_window_size" in self.rrf:
-                rrf_options["rank_window_size"] = self.rrf["rank_window_size"]
-        query_body = {
-            "retriever": {
-                "rrf": {
-                    "retrievers": [
+        standard_query = {
+            "query": {
+                "bool": {
+                    "must": [
                         {
-                            "standard": {
-                                "query": {
-                                    "bool": {
-                                        "must": [
-                                            {
-                                                "match": {
-                                                    self.text_field: {
-                                                        "query": query,
-                                                    }
-                                                }
-                                            }
-                                        ],
-                                        "filter": filter,
-                                    }
-                                },
-                            },
-                        },
-                        {"knn": knn},
+                            "match": {
+                                self.text_field: {
+                                    "query": query,
+                                }
+                            }
+                        }
                     ],
-                    **rrf_options,
-                },
-            },
+                    "filter": filter,
+                }
+            }
         }
+
+        if self.rrf is False:
+            query_body = {
+                "knn": knn,
+                **standard_query,
+            }
+        else:
+            rrf_options = {}
+            if isinstance(self.rrf, Dict):
+                if "rank_constant" in self.rrf:
+                    rrf_options["rank_constant"] = self.rrf["rank_constant"]
+                if "window_size" in self.rrf:
+                    # 'window_size' was renamed to 'rank_window_size', but we support
+                    # the older name for backwards compatibility
+                    rrf_options["rank_window_size"] = self.rrf["window_size"]
+                if "rank_window_size" in self.rrf:
+                    rrf_options["rank_window_size"] = self.rrf["rank_window_size"]
+            query_body = {
+                "retriever": {
+                    "rrf": {
+                        "retrievers": [
+                            {"standard": standard_query},
+                            {"knn": knn},
+                        ],
+                        **rrf_options,
+                    },
+                },
+            }
         return query_body
 
     def needs_inference(self) -> bool:
diff --git a/test_elasticsearch/test_server/test_vectorstore/test_vectorstore.py b/test_elasticsearch/test_server/test_vectorstore/test_vectorstore.py
@@ -405,74 +405,74 @@ def test_search_knn_with_hybrid_search_rrf(
         self, sync_client: Elasticsearch, index: str
     ) -> None:
         """Test end to end construction and rrf hybrid search with metadata."""
-        if es_version(sync_client) < (8, 14):
-            pytest.skip("This test requires Elasticsearch 8.14 or newer")
-
         texts = ["foo", "bar", "baz"]
 
         def assert_query(
             query_body: dict,
             query: Optional[str],
             expected_rrf: Union[dict, bool],
         ) -> dict:
-            cmp_query_body = {
-                "retriever": {
-                    "rrf": {
-                        "retrievers": [
-                            {
-                                "standard": {
-                                    "query": {
-                                        "bool": {
-                                            "filter": [],
-                                            "must": [
-                                                {
-                                                    "match": {
-                                                        "text_field": {"query": "foo"}
-                                                    }
-                                                }
-                                            ],
-                                        }
-                                    },
-                                },
-                            },
-                            {
-                                "knn": {
-                                    "field": "vector_field",
-                                    "filter": [],
-                                    "k": 3,
-                                    "num_candidates": 50,
-                                    "query_vector": [
-                                        1.0,
-                                        1.0,
-                                        1.0,
-                                        1.0,
-                                        1.0,
-                                        1.0,
-                                        1.0,
-                                        1.0,
-                                        1.0,
-                                        0.0,
-                                    ],
-                                },
-                            },
-                        ],
+            standard_query = {
+                "query": {
+                    "bool": {
+                        "filter": [],
+                        "must": [{"match": {"text_field": {"query": "foo"}}}],
                     }
                 }
             }
+            knn_query = {
+                "field": "vector_field",
+                "filter": [],
+                "k": 3,
+                "num_candidates": 50,
+                "query_vector": [
+                    1.0,
+                    1.0,
+                    1.0,
+                    1.0,
+                    1.0,
+                    1.0,
+                    1.0,
+                    1.0,
+                    1.0,
+                    0.0,
+                ],
+            }
 
-            if isinstance(expected_rrf, dict):
-                cmp_query_body["retriever"]["rrf"].update(expected_rrf)
+            if expected_rrf is not False:
+                cmp_query_body = {
+                    "retriever": {
+                        "rrf": {
+                            "retrievers": [
+                                {"standard": standard_query},
+                                {"knn": knn_query},
+                            ],
+                        }
+                    }
+                }
+                if isinstance(expected_rrf, dict):
+                    cmp_query_body["retriever"]["rrf"].update(expected_rrf)
+            else:
+                cmp_query_body = {
+                    "knn": knn_query,
+                    **standard_query,
+                }
 
             assert query_body == cmp_query_body
 
             return query_body
 
         # 1. check query_body is okay
-        rrf_test_cases: List[Union[dict, bool]] = [
-            True,
-            False,
-            {"rank_constant": 1, "rank_window_size": 5},
-        ]
+        if es_version(sync_client) >= (8, 14):
+            rrf_test_cases: List[Union[dict, bool]] = [
+                True,
+                False,
+                {"rank_constant": 1, "rank_window_size": 5},
+            ]
+        else:
+            # for 8.13.x and older there is no retriever query, so we can only
+            # run hybrid searches with rrf=False
+            rrf_test_cases: List[Union[dict, bool]] = [False]
         for rrf_test_case in rrf_test_cases:
             store = VectorStore(
                 index=index,