Drop UTF-32 & “UTF-16”; use UTF-16BE and UTF-16LE

sideshowbarker · sideshowbarker · commit ceb9fe37341d · 2020-09-13T10:02:33.000+09:00
This change drops all handling for UTF-32 (which is a completely invalid/
unsupported encoding per the Encoding spec), as well as replacing handling
for “UTF-16” (which also isn’t a valid/supported encoding) with, instead,
handling for the valid/supported encodings UTF-16BE and UTF-16LE.
diff --git a/src/nu/validator/htmlparser/io/Driver.java b/src/nu/validator/htmlparser/io/Driver.java
@@ -337,9 +337,8 @@ public boolean internalEncodingDeclaration(String internalCharset)
             throws SAXException {
         try {
             internalCharset = internalCharset.toLowerCase();
-            Encoding cs;
-            if ("utf-16".equals(internalCharset)
-                    || "utf-16be".equals(internalCharset)
+            Encoding cs = Encoding.forName(internalCharset);
+            if ("utf-16be".equals(internalCharset)
                     || "utf-16le".equals(internalCharset)) {
                 tokenizer.errTreeBuilder("Internal encoding declaration specified \u201C"
                         + internalCharset
@@ -431,8 +430,8 @@ protected Encoding encodingFromExternalDeclaration(String encoding)
         encoding = encoding.toLowerCase();
         try {
             Encoding cs = Encoding.forName(encoding);
-            if ("utf-16".equals(cs.getCanonName())
-                    || "utf-32".equals(cs.getCanonName())) {
+            if ("utf-16be".equals(cs.getCanonName())
+                    || "utf-16le".equals(cs.getCanonName())) {
                 swallowBom = false;
             }
             return whineAboutEncodingAndReturnCanonical(encoding, cs);
diff --git a/src/nu/validator/htmlparser/io/Encoding.java b/src/nu/validator/htmlparser/io/Encoding.java
@@ -44,8 +44,6 @@ public class Encoding {
 
     public static final Encoding UTF8;
 
-    public static final Encoding UTF16;
-
     public static final Encoding UTF16LE;
 
     public static final Encoding UTF16BE;
@@ -391,7 +389,6 @@ private static void createEncoding(String name, String[] labels) {
 
     static {
         UTF8 = forName("utf-8");
-        UTF16 = forName("utf-16");
         UTF16BE = forName("utf-16be");
         UTF16LE = forName("utf-16le");
         WINDOWS1252 = forName("windows-1252");
diff --git a/src/nu/validator/htmlparser/io/MetaSniffer.java b/src/nu/validator/htmlparser/io/MetaSniffer.java
@@ -161,8 +161,7 @@ public String getEncoding() {
     protected boolean tryCharset(String encoding) throws SAXException {
         encoding = encoding.toLowerCase();
         try {
-            // XXX spec says only UTF-16
-            if ("utf-16".equals(encoding) || "utf-16be".equals(encoding) || "utf-16le".equals(encoding) || "utf-32".equals(encoding) || "utf-32be".equals(encoding) || "utf-32le".equals(encoding)) {
+            if ("utf-16be".equals(encoding) || "utf-16le".equals(encoding)) {
                 this.characterEncoding = Encoding.UTF8;
                 err("The internal character encoding declaration specified \u201C" + encoding + "\u201D which is not a rough superset of ASCII. Using \u201CUTF-8\u201D instead.");
                 return true;