RawDocument from CharSequence gets the wrong endianess on LE platforms (and corrupts Strings)

    static void badEncodingOnLittleEndianPlatforms() {
        String source = "foo = First message.\r\nbar = Second message.";
        try (RawDocument rawDoc = new RawDocument(source, LocaleId.US_ENGLISH);
             PropertiesFilter filter = new PropertiesFilter()) {

            filter.open(rawDoc, true);

            Log.w("Okapi", rawDoc.getEncoding()); // UTF-16
            while (filter.hasNext()) {
                Event event = filter.next();
                if (event.isTextUnit()) {
                    Log.w("Okapi", event.getTextUnit().toString());
                }
            }
        }
    }

The output is:
㴀䘀椀爀猀琀洀攀猀猀愀最攀⸀ഀ਀戀愀爀㴀匀攀挀漀渀搀洀攀猀猀愀最攀⸀

Escaped:

\u3D00\u2000\u4600\u6900\u7200\u7300\u7400\u2000\u6D00\u6500
\u7300\u7300\u6100\u6700\u6500\u2E00\u0D00\u0A00\u6200\u6100
\u7200\u2000\u3D00\u2000\u5300\u6500\u6300\u6F00\u6E00\u6400
\u2000\u6D00\u6500\u7300\u7300\u6100\u6700\u6500\u2E00

It is visibly and endianess problem. If we swap bytes:

\u003D\u0020\u0046\u0069\u0072\u0073\u0074\u0020\u006D\u0065
\u0073\u0073\u0061\u0067\u0065\u002E\u000D\u000A\u0062\u0061
\u0072\u0020\u003D\u0020\u0053\u0065\u0063\u006F\u006E\u0064
\u0020\u006D\u0065\u0073\u0073\u0061\u0067\u0065\u002E

And unescape we get:
= First message.\r\nbar = Second message.

‌

Comments (2)