elastic · romseygeek · Jul 1, 2019 · Jul 1, 2019 · Jul 1, 2019 · cbuescher
diff --git a/docs/reference/analysis/normalizers.asciidoc b/docs/reference/analysis/normalizers.asciidoc
@@ -2,16 +2,7 @@
 == Normalizers
 
 Normalizers are similar to analyzers except that they may only emit a single
-token. As a consequence, they do not have a tokenizer and only accept a subset
-of the available char filters and token filters. Only the filters that work on
-a per-character basis are allowed. For instance a lowercasing filter would be
-allowed, but not a stemming filter, which needs to look at the keyword as a
-whole. The current list of filters that can be used in a normalizer is
-following: `arabic_normalization`, `asciifolding`, `bengali_normalization`,
-`cjk_width`, `decimal_digit`, `elision`, `german_normalization`,
-`hindi_normalization`, `indic_normalization`, `lowercase`,
-`persian_normalization`, `scandinavian_folding`, `serbian_normalization`,
-`sorani_normalization`, `uppercase`.
+token. As a consequence, they do not have a tokenizer.
 
 [float]
 === Custom normalizers

diff --git a/server/src/main/java/org/elasticsearch/index/analysis/AnalysisRegistry.java b/server/src/main/java/org/elasticsearch/index/analysis/AnalysisRegistry.java
@@ -19,6 +19,7 @@
 package org.elasticsearch.index.analysis;
 
 import org.apache.lucene.analysis.Analyzer;
+import org.apache.lucene.analysis.core.KeywordTokenizer;
 import org.apache.lucene.analysis.core.WhitespaceTokenizer;
 import org.elasticsearch.ElasticsearchException;
 import org.elasticsearch.Version;
@@ -44,6 +45,7 @@
 import java.util.concurrent.ConcurrentHashMap;
 import java.util.function.BiFunction;
 import java.util.function.Function;
+import java.util.function.Supplier;
 import java.util.stream.Collectors;
 
 import static java.util.Collections.unmodifiableMap;
@@ -409,8 +411,11 @@ private <T> Map<String, T> buildMapping(Component component, IndexSettings setti
                     continue;
                 }
             } else if (component == Component.NORMALIZER) {
+                if (currentSettings.hasValue("tokenizer")) {
+                    throw new IllegalArgumentException("Custom normalizer [" + name + "] cannot configure a tokenizer");
+                }
                 if (typeName == null || typeName.equals("custom")) {
-                    T factory = (T) new CustomNormalizerProvider(settings, name, currentSettings);
+                    T factory = (T) new CustomAnalyzerProvider(settings, name, currentSettings);
                     factories.put(name, factory);
                     continue;
                 }
@@ -531,10 +536,10 @@ public IndexAnalyzers build(IndexSettings indexSettings,
                     });
         }
         for (Map.Entry<String, AnalyzerProvider<?>> entry : normalizerProviders.entrySet()) {
-            processNormalizerFactory(entry.getKey(), entry.getValue(), normalizers, "keyword",
-                tokenizerFactoryFactories.get("keyword"), tokenFilterFactoryFactories, charFilterFactoryFactories);
+            processNormalizerFactory(entry.getKey(), entry.getValue(), normalizers,
+                () -> KeywordTokenizer::new, tokenFilterFactoryFactories, charFilterFactoryFactories);
             processNormalizerFactory(entry.getKey(), entry.getValue(), whitespaceNormalizers,
-                    "whitespace", () -> new WhitespaceTokenizer(), tokenFilterFactoryFactories, charFilterFactoryFactories);
+                () -> WhitespaceTokenizer::new, tokenFilterFactoryFactories, charFilterFactoryFactories);
         }
 
         if (!analyzers.containsKey(DEFAULT_ANALYZER_NAME)) {
@@ -575,7 +580,7 @@ private static NamedAnalyzer produceAnalyzer(String name,
          */
         int overridePositionIncrementGap = TextFieldMapper.Defaults.POSITION_INCREMENT_GAP;
         if (analyzerFactory instanceof CustomAnalyzerProvider) {
-            ((CustomAnalyzerProvider) analyzerFactory).build(tokenizers, charFilters, tokenFilters);
+            ((CustomAnalyzerProvider) analyzerFactory).build(tokenizers::get, charFilters, tokenFilters);
             /*
              * Custom analyzers already default to the correct, version
              * dependent positionIncrementGap and the user is be able to
@@ -603,20 +608,16 @@ private static NamedAnalyzer produceAnalyzer(String name,
         return analyzer;
     }
 
-    private void processNormalizerFactory(
+    private static void processNormalizerFactory(
             String name,
             AnalyzerProvider<?> normalizerFactory,
             Map<String, NamedAnalyzer> normalizers,
-            String tokenizerName,
-            TokenizerFactory tokenizerFactory,
+            Supplier<TokenizerFactory> tokenizerSupplier,
             Map<String, TokenFilterFactory> tokenFilters,
             Map<String, CharFilterFactory> charFilters) {
-        if (tokenizerFactory == null) {
-            throw new IllegalStateException("keyword tokenizer factory is null, normalizers require analysis-common module");
-        }
 
-        if (normalizerFactory instanceof CustomNormalizerProvider) {
-            ((CustomNormalizerProvider) normalizerFactory).build(tokenizerName, tokenizerFactory, charFilters, tokenFilters);
+        if (normalizerFactory instanceof CustomAnalyzerProvider) {
+            ((CustomAnalyzerProvider) normalizerFactory).build(n -> tokenizerSupplier.get(), charFilters, tokenFilters);
         }
         if (normalizers.containsKey(name)) {
             throw new IllegalStateException("already registered analyzer with name: " + name);

diff --git a/server/src/main/java/org/elasticsearch/index/analysis/AnalyzerComponents.java b/server/src/main/java/org/elasticsearch/index/analysis/AnalyzerComponents.java
@@ -24,6 +24,7 @@
 import java.util.ArrayList;
 import java.util.List;
 import java.util.Map;
+import java.util.function.Function;
 
 /**
  * A class that groups analysis components necessary to produce a custom analyzer.
@@ -49,14 +50,11 @@ public final class AnalyzerComponents {
         this.analysisMode = mode;
     }
 
-    static AnalyzerComponents createComponents(String name, Settings analyzerSettings, final Map<String, TokenizerFactory> tokenizers,
+    static AnalyzerComponents createComponents(String name, Settings analyzerSettings, final Function<String, TokenizerFactory> tokenizers,
             final Map<String, CharFilterFactory> charFilters, final Map<String, TokenFilterFactory> tokenFilters) {
         String tokenizerName = analyzerSettings.get("tokenizer");
-        if (tokenizerName == null) {
-            throw new IllegalArgumentException("Custom Analyzer [" + name + "] must be configured with a tokenizer");
-        }
 
-        TokenizerFactory tokenizer = tokenizers.get(tokenizerName);
+        TokenizerFactory tokenizer = tokenizers.apply(tokenizerName);
         if (tokenizer == null) {
             throw new IllegalArgumentException(
                     "Custom Analyzer [" + name + "] failed to find tokenizer under name " + "[" + tokenizerName + "]");
@@ -108,4 +106,4 @@ public CharFilterFactory[] getCharFilters() {
     public AnalysisMode analysisMode() {
         return this.analysisMode;
     }
-}
+}
diff --git a/server/src/main/java/org/elasticsearch/index/analysis/CustomAnalyzerProvider.java b/server/src/main/java/org/elasticsearch/index/analysis/CustomAnalyzerProvider.java
@@ -25,6 +25,7 @@
 import org.elasticsearch.index.mapper.TextFieldMapper;
 
 import java.util.Map;
+import java.util.function.Function;
 
 import static org.elasticsearch.index.analysis.AnalyzerComponents.createComponents;
 
@@ -44,7 +45,7 @@ public CustomAnalyzerProvider(IndexSettings indexSettings,
         this.analyzerSettings = settings;
     }
 
-    void build(final Map<String, TokenizerFactory> tokenizers,
+    void build(final Function<String, TokenizerFactory> tokenizers,
                final Map<String, CharFilterFactory> charFilters,
                final Map<String, TokenFilterFactory> tokenFilters) {
         customAnalyzer = create(name(), analyzerSettings, tokenizers, charFilters, tokenFilters);
@@ -54,7 +55,7 @@ void build(final Map<String, TokenizerFactory> tokenizers,
      * Factory method that either returns a plain {@link ReloadableCustomAnalyzer} if the components used for creation are supporting index
      * and search time use, or a {@link ReloadableCustomAnalyzer} if the components are intended for search time use only.
      */
-    private static Analyzer create(String name, Settings analyzerSettings, Map<String, TokenizerFactory> tokenizers,
+    private static Analyzer create(String name, Settings analyzerSettings, Function<String, TokenizerFactory> tokenizers,
             Map<String, CharFilterFactory> charFilters,
             Map<String, TokenFilterFactory> tokenFilters) {
         int positionIncrementGap = TextFieldMapper.Defaults.POSITION_INCREMENT_GAP;

diff --git a/server/src/main/java/org/elasticsearch/index/analysis/CustomNormalizerProvider.java b/server/src/main/java/org/elasticsearch/index/analysis/CustomNormalizerProvider.java
diff --git a/server/src/main/java/org/elasticsearch/index/analysis/ReloadableCustomAnalyzer.java b/server/src/main/java/org/elasticsearch/index/analysis/ReloadableCustomAnalyzer.java
@@ -120,7 +120,7 @@ public synchronized void reload(String name,
                                     final Map<String, TokenizerFactory> tokenizers,
                                     final Map<String, CharFilterFactory> charFilters,
                                     final Map<String, TokenFilterFactory> tokenFilters) {
-        AnalyzerComponents components = AnalyzerComponents.createComponents(name, settings, tokenizers, charFilters, tokenFilters);
+        AnalyzerComponents components = AnalyzerComponents.createComponents(name, settings, tokenizers::get, charFilters, tokenFilters);
         this.components = components;
     }
 

diff --git a/server/src/test/java/org/elasticsearch/index/analysis/CustomNormalizerTests.java b/server/src/test/java/org/elasticsearch/index/analysis/CustomNormalizerTests.java
@@ -19,7 +19,6 @@
 
 package org.elasticsearch.index.analysis;
 
-import org.apache.lucene.analysis.MockLowerCaseFilter;
 import org.apache.lucene.analysis.MockTokenizer;
 import org.apache.lucene.util.BytesRef;
 import org.elasticsearch.common.settings.Settings;
@@ -31,11 +30,8 @@
 
 import java.io.IOException;
 import java.io.Reader;
-import java.util.List;
 import java.util.Map;
-import java.util.function.Function;
 
-import static java.util.Collections.singletonList;
 import static java.util.Collections.singletonMap;
 
 public class CustomNormalizerTests extends ESTokenStreamTestCase {
@@ -103,36 +99,7 @@ public void testCharFilters() throws IOException {
         assertEquals(new BytesRef("zbc"), normalizer.normalize("foo", "abc"));
     }
 
-    public void testIllegalFilters() throws IOException {
-        Settings settings = Settings.builder()
-                .putList("index.analysis.normalizer.my_normalizer.filter", "mock_forbidden")
-                .put(Environment.PATH_HOME_SETTING.getKey(), createTempDir().toString())
-                .build();
-        IllegalArgumentException e = expectThrows(IllegalArgumentException.class,
-                () -> AnalysisTestsHelper.createTestAnalysisFromSettings(settings, MOCK_ANALYSIS_PLUGIN));
-        assertEquals("Custom normalizer [my_normalizer] may not use filter [mock_forbidden]", e.getMessage());
-    }
-
-    public void testIllegalCharFilters() throws IOException {
-        Settings settings = Settings.builder()
-                .putList("index.analysis.normalizer.my_normalizer.char_filter", "mock_forbidden")
-                .put(Environment.PATH_HOME_SETTING.getKey(), createTempDir().toString())
-                .build();
-        IllegalArgumentException e = expectThrows(IllegalArgumentException.class,
-                () -> AnalysisTestsHelper.createTestAnalysisFromSettings(settings, MOCK_ANALYSIS_PLUGIN));
-        assertEquals("Custom normalizer [my_normalizer] may not use char filter [mock_forbidden]", e.getMessage());
-    }
-
     private static class MockAnalysisPlugin implements AnalysisPlugin {
-        @Override
-        public List<PreConfiguredTokenFilter> getPreConfiguredTokenFilters() {
-            return singletonList(PreConfiguredTokenFilter.singleton("mock_forbidden", false, MockLowerCaseFilter::new));
-        }
-
-        @Override
-        public List<PreConfiguredCharFilter> getPreConfiguredCharFilters() {
-            return singletonList(PreConfiguredCharFilter.singleton("mock_forbidden", false, Function.identity()));
-        }
 
         @Override
         public Map<String, AnalysisProvider<CharFilterFactory>> getCharFilters() {

diff --git a/server/src/test/java/org/elasticsearch/index/analysis/ReloadableCustomAnalyzerTests.java b/server/src/test/java/org/elasticsearch/index/analysis/ReloadableCustomAnalyzerTests.java
@@ -88,8 +88,8 @@ public void testBasicCtor() {
                 .putList("filter", "my_filter")
                 .build();
 
-        AnalyzerComponents components = createComponents("my_analyzer", analyzerSettings, testAnalysis.tokenizer, testAnalysis.charFilter,
-                Collections.singletonMap("my_filter", NO_OP_SEARCH_TIME_FILTER));
+        AnalyzerComponents components = createComponents("my_analyzer", analyzerSettings, testAnalysis.tokenizer::get,
+            testAnalysis.charFilter, Collections.singletonMap("my_filter", NO_OP_SEARCH_TIME_FILTER));
 
         try (ReloadableCustomAnalyzer analyzer = new ReloadableCustomAnalyzer(components, positionIncrementGap, offsetGap)) {
             assertEquals(positionIncrementGap, analyzer.getPositionIncrementGap(randomAlphaOfLength(5)));
@@ -106,8 +106,8 @@ public void testBasicCtor() {
                 .put("tokenizer", "standard")
                 .putList("filter", "lowercase")
                 .build();
-        AnalyzerComponents indexAnalyzerComponents = createComponents("my_analyzer", indexAnalyzerSettings, testAnalysis.tokenizer,
-                testAnalysis.charFilter, testAnalysis.tokenFilter);
+        AnalyzerComponents indexAnalyzerComponents = createComponents("my_analyzer", indexAnalyzerSettings,
+            testAnalysis.tokenizer::get, testAnalysis.charFilter, testAnalysis.tokenFilter);
         IllegalArgumentException ex = expectThrows(IllegalArgumentException.class,
                 () -> new ReloadableCustomAnalyzer(indexAnalyzerComponents, positionIncrementGap, offsetGap));
         assertEquals("ReloadableCustomAnalyzer must only be initialized with analysis components in AnalysisMode.SEARCH_TIME mode",
@@ -123,8 +123,8 @@ public void testReloading() throws IOException, InterruptedException {
                 .putList("filter", "my_filter")
                 .build();
 
-        AnalyzerComponents components = createComponents("my_analyzer", analyzerSettings, testAnalysis.tokenizer, testAnalysis.charFilter,
-                Collections.singletonMap("my_filter", NO_OP_SEARCH_TIME_FILTER));
+        AnalyzerComponents components = createComponents("my_analyzer", analyzerSettings, testAnalysis.tokenizer::get,
+            testAnalysis.charFilter, Collections.singletonMap("my_filter", NO_OP_SEARCH_TIME_FILTER));
         int numThreads = randomIntBetween(5, 10);
 
         ExecutorService executorService = Executors.newFixedThreadPool(numThreads);