Context Navigation

← Previous Change
Next Change →

test_unicode.py

Timestamp:

Mar 19, 2014, 11:31:01 PM (11 years ago)

Author:

dmik

Message:

python: Merge vendor 2.7.6 to trunk.

Location:

python/trunk

Files:

: 2 edited

. (modified) (1 prop)
Lib/test/test_unicode.py (modified) (27 diffs)

Legend:

: Unmodified
: Added
: Removed

python/trunk
- Property svn:mergeinfo set to
  /python/vendor/Python-2.7.6 merged eligible
  /python/vendor/current merged eligible

python/trunk/Lib/test/test_unicode.py

-              r2
+              r391
-# -*- coding: iso-8859-1 -*-
 """ Test script for the Unicode implementation.
 …
 """#"
+import sys, struct, codecs
+import sys
+import struct
+import codecs
+import unittest
 from test import test_support, string_tests
+# decorator to skip tests on narrow builds
+requires_wide_build = unittest.skipIf(sys.maxunicode == 65535,
+                                      'requires wide build')
 # Error handling (bad decoder return)
 …
     type2test = unicode
+    def assertEqual(self, first, second, msg=None):
+        # strict assertEqual method: reject implicit bytes/unicode equality
+        super(UnicodeTest, self).assertEqual(first, second, msg)
+        if isinstance(first, unicode) or isinstance(second, unicode):
+            self.assertIsInstance(first, unicode)
+            self.assertIsInstance(second, unicode)
+        elif isinstance(first, str) or isinstance(second, str):
+            self.assertIsInstance(first, str)
+            self.assertIsInstance(second, str)
     def checkequalnofix(self, result, object, methodname, *args):
         method = getattr(object, methodname)
         realresult = method(*args)
         self.assertEqual(realresult, result)
         self.assert_(type(realresult) is type(result))
+        self.assertTrue(type(realresult) is type(result))
         # if the original is returned make sure that
 …
             realresult = method(*args)
             self.assertEqual(realresult, result)
             self.assert_(object is not realresult)
+            self.assertTrue(object is not realresult)
     def test_literals(self):
 …
     def test_comparison(self):
         # Comparisons:
         self.assertEqual(u'abc', 'abc')
         self.assertEqual('abc', u'abc')
         self.assertEqual(u'abc', u'abc')
         self.assert_(u'abcd' > 'abc')
         self.assert_('abcd' > u'abc')
         self.assert_(u'abcd' > u'abc')
         self.assert_(u'abc' < 'abcd')
         self.assert_('abc' < u'abcd')
         self.assert_(u'abc' < u'abcd')
+        self.assertTrue(u'abc' == 'abc')
+        self.assertTrue('abc' == u'abc')
+        self.assertTrue(u'abc' == u'abc')
+        self.assertTrue(u'abcd' > 'abc')
+        self.assertTrue('abcd' > u'abc')
+        self.assertTrue(u'abcd' > u'abc')
+        self.assertTrue(u'abc' < 'abcd')
+        self.assertTrue('abc' < u'abcd')
+        self.assertTrue(u'abc' < u'abcd')
         if 0:
 …
             # No surrogates, no fixup required.
             self.assert_(u'\u0061' < u'\u20ac')
+            self.assertTrue(u'\u0061' < u'\u20ac')
             # Non surrogate below surrogate value, no fixup required
             self.assert_(u'\u0061' < u'\ud800\udc02')
+            self.assertTrue(u'\u0061' < u'\ud800\udc02')
             # Non surrogate above surrogate value, fixup required
             def test_lecmp(s, s2):
                 self.assert_(s < s2)
+                self.assertTrue(s < s2)
             def test_fixup(s):
 …
         # Surrogates on both sides, no fixup required
+        self.assert_(u'\ud800\udc02' < u'\ud84d\udc56')
+        self.assertTrue(u'\ud800\udc02' < u'\ud84d\udc56')
+    def test_capitalize(self):
+        string_tests.CommonTest.test_capitalize(self)
+        # check that titlecased chars are lowered correctly
+        # \u1ffc is the titlecased char
+        self.checkequal(u'\u1ffc\u1ff3\u1ff3\u1ff3',
+                        u'\u1ff3\u1ff3\u1ffc\u1ffc', 'capitalize')
+        # check with cased non-letter chars
+        self.checkequal(u'\u24c5\u24e8\u24e3\u24d7\u24de\u24dd',
+                        u'\u24c5\u24ce\u24c9\u24bd\u24c4\u24c3', 'capitalize')
+        self.checkequal(u'\u24c5\u24e8\u24e3\u24d7\u24de\u24dd',
+                        u'\u24df\u24e8\u24e3\u24d7\u24de\u24dd', 'capitalize')
+        self.checkequal(u'\u2160\u2171\u2172',
+                        u'\u2160\u2161\u2162', 'capitalize')
+        self.checkequal(u'\u2160\u2171\u2172',
+                        u'\u2170\u2171\u2172', 'capitalize')
+        # check with Ll chars with no upper - nothing changes here
+        self.checkequal(u'\u019b\u1d00\u1d86\u0221\u1fb7',
+                        u'\u019b\u1d00\u1d86\u0221\u1fb7', 'capitalize')
     def test_islower(self):
         string_tests.MixinStrUnicodeUserStringTest.test_islower(self)
         self.checkequalnofix(False, u'\u1FFc', 'islower')
+    @requires_wide_build
+    def test_islower_non_bmp(self):
+        # non-BMP, uppercase
+        self.assertFalse(u'\U00010401'.islower())
+        self.assertFalse(u'\U00010427'.islower())
+        # non-BMP, lowercase
+        self.assertTrue(u'\U00010429'.islower())
+        self.assertTrue(u'\U0001044E'.islower())
+        # non-BMP, non-cased
+        self.assertFalse(u'\U0001F40D'.islower())
+        self.assertFalse(u'\U0001F46F'.islower())
     def test_isupper(self):
 …
             self.checkequalnofix(False, u'\u1FFc', 'isupper')
+    @requires_wide_build
+    def test_isupper_non_bmp(self):
+        # non-BMP, uppercase
+        self.assertTrue(u'\U00010401'.isupper())
+        self.assertTrue(u'\U00010427'.isupper())
+        # non-BMP, lowercase
+        self.assertFalse(u'\U00010429'.isupper())
+        self.assertFalse(u'\U0001044E'.isupper())
+        # non-BMP, non-cased
+        self.assertFalse(u'\U0001F40D'.isupper())
+        self.assertFalse(u'\U0001F46F'.isupper())
     def test_istitle(self):
         string_tests.MixinStrUnicodeUserStringTest.test_title(self)
+        string_tests.MixinStrUnicodeUserStringTest.test_istitle(self)
         self.checkequalnofix(True, u'\u1FFc', 'istitle')
         self.checkequalnofix(True, u'Greek \u1FFcitlecases ...', 'istitle')
+    @requires_wide_build
+    def test_istitle_non_bmp(self):
+        # non-BMP, uppercase + lowercase
+        self.assertTrue(u'\U00010401\U00010429'.istitle())
+        self.assertTrue(u'\U00010427\U0001044E'.istitle())
+        # apparently there are no titlecased (Lt) non-BMP chars in Unicode 6
+        for ch in [u'\U00010429', u'\U0001044E', u'\U0001F40D', u'\U0001F46F']:
+            self.assertFalse(ch.istitle(), '{!r} is not title'.format(ch))
     def test_isspace(self):
 …
         self.checkequalnofix(False, u'\u2014', 'isspace')
+    @requires_wide_build
+    def test_isspace_non_bmp(self):
+        # apparently there are no non-BMP spaces chars in Unicode 6
+        for ch in [u'\U00010401', u'\U00010427', u'\U00010429', u'\U0001044E',
+                   u'\U0001F40D', u'\U0001F46F']:
+            self.assertFalse(ch.isspace(), '{!r} is not space.'.format(ch))
+    @requires_wide_build
+    def test_isalnum_non_bmp(self):
+        for ch in [u'\U00010401', u'\U00010427', u'\U00010429', u'\U0001044E',
+                   u'\U0001D7F6', u'\U000104A0', u'\U000104A0', u'\U0001F107']:
+            self.assertTrue(ch.isalnum(), '{!r} is alnum.'.format(ch))
     def test_isalpha(self):
         string_tests.MixinStrUnicodeUserStringTest.test_isalpha(self)
         self.checkequalnofix(True, u'\u1FFc', 'isalpha')
+    @requires_wide_build
+    def test_isalpha_non_bmp(self):
+        # non-BMP, cased
+        self.assertTrue(u'\U00010401'.isalpha())
+        self.assertTrue(u'\U00010427'.isalpha())
+        self.assertTrue(u'\U00010429'.isalpha())
+        self.assertTrue(u'\U0001044E'.isalpha())
+        # non-BMP, non-cased
+        self.assertFalse(u'\U0001F40D'.isalpha())
+        self.assertFalse(u'\U0001F46F'.isalpha())
     def test_isdecimal(self):
 …
         self.checkraises(TypeError, 'abc', 'isdecimal', 42)
+    @requires_wide_build
+    def test_isdecimal_non_bmp(self):
+        for ch in [u'\U00010401', u'\U00010427', u'\U00010429', u'\U0001044E',
+                   u'\U0001F40D', u'\U0001F46F', u'\U00011065', u'\U0001F107']:
+            self.assertFalse(ch.isdecimal(), '{!r} is not decimal.'.format(ch))
+        for ch in [u'\U0001D7F6', u'\U000104A0', u'\U000104A0']:
+            self.assertTrue(ch.isdecimal(), '{!r} is decimal.'.format(ch))
     def test_isdigit(self):
         string_tests.MixinStrUnicodeUserStringTest.test_isdigit(self)
 …
         self.checkequalnofix(False, u'\xbc', 'isdigit')
         self.checkequalnofix(True, u'\u0660', 'isdigit')
+    @requires_wide_build
+    def test_isdigit_non_bmp(self):
+        for ch in [u'\U00010401', u'\U00010427', u'\U00010429', u'\U0001044E',
+                   u'\U0001F40D', u'\U0001F46F', u'\U00011065']:
+            self.assertFalse(ch.isdigit(), '{!r} is not a digit.'.format(ch))
+        for ch in [u'\U0001D7F6', u'\U000104A0', u'\U000104A0', u'\U0001F107']:
+            self.assertTrue(ch.isdigit(), '{!r} is a digit.'.format(ch))
     def test_isnumeric(self):
 …
         self.assertRaises(TypeError, u"abc".isnumeric, 42)
+    @requires_wide_build
+    def test_isnumeric_non_bmp(self):
+        for ch in [u'\U00010401', u'\U00010427', u'\U00010429', u'\U0001044E',
+                   u'\U0001F40D', u'\U0001F46F']:
+            self.assertFalse(ch.isnumeric(), '{!r} is not numeric.'.format(ch))
+        for ch in [u'\U00010107', u'\U0001D7F6', u'\U00023b1b',
+                   u'\U000104A0', u'\U0001F107']:
+            self.assertTrue(ch.isnumeric(), '{!r} is numeric.'.format(ch))
+    @requires_wide_build
+    def test_surrogates(self):
+        # this test actually passes on narrow too, but it's just by accident.
+        # Surrogates are seen as non-cased chars, so u'X\uD800X' is as
+        # uppercase as 'X X'
+        for s in (u'a\uD800b\uDFFF', u'a\uDFFFb\uD800',
+                  u'a\uD800b\uDFFFa', u'a\uDFFFb\uD800a'):
+            self.assertTrue(s.islower())
+            self.assertFalse(s.isupper())
+            self.assertFalse(s.istitle())
+        for s in (u'A\uD800B\uDFFF', u'A\uDFFFB\uD800',
+                  u'A\uD800B\uDFFFA', u'A\uDFFFB\uD800A'):
+            self.assertFalse(s.islower())
+            self.assertTrue(s.isupper())
+            self.assertTrue(s.istitle())
+        for meth_name in ('islower', 'isupper', 'istitle'):
+            meth = getattr(unicode, meth_name)
+            for s in (u'\uD800', u'\uDFFF', u'\uD800\uD800', u'\uDFFF\uDFFF'):
+                self.assertFalse(meth(s), '%r.%s() is False' % (s, meth_name))
+        for meth_name in ('isalpha', 'isalnum', 'isdigit', 'isspace',
+                          'isdecimal', 'isnumeric'):
+            meth = getattr(unicode, meth_name)
+            for s in (u'\uD800', u'\uDFFF', u'\uD800\uD800', u'\uDFFF\uDFFF',
+                      u'a\uD800b\uDFFF', u'a\uDFFFb\uD800',
+                      u'a\uD800b\uDFFFa', u'a\uDFFFb\uD800a'):
+                self.assertFalse(meth(s), '%r.%s() is False' % (s, meth_name))
+    @requires_wide_build
+    def test_lower(self):
+        string_tests.CommonTest.test_lower(self)
+        self.assertEqual(u'\U00010427'.lower(), u'\U0001044F')
+        self.assertEqual(u'\U00010427\U00010427'.lower(),
+                         u'\U0001044F\U0001044F')
+        self.assertEqual(u'\U00010427\U0001044F'.lower(),
+                         u'\U0001044F\U0001044F')
+        self.assertEqual(u'X\U00010427x\U0001044F'.lower(),
+                         u'x\U0001044Fx\U0001044F')
+    @requires_wide_build
+    def test_upper(self):
+        string_tests.CommonTest.test_upper(self)
+        self.assertEqual(u'\U0001044F'.upper(), u'\U00010427')
+        self.assertEqual(u'\U0001044F\U0001044F'.upper(),
+                         u'\U00010427\U00010427')
+        self.assertEqual(u'\U00010427\U0001044F'.upper(),
+                         u'\U00010427\U00010427')
+        self.assertEqual(u'X\U00010427x\U0001044F'.upper(),
+                         u'X\U00010427X\U00010427')
+    @requires_wide_build
+    def test_capitalize(self):
+        string_tests.CommonTest.test_capitalize(self)
+        self.assertEqual(u'\U0001044F'.capitalize(), u'\U00010427')
+        self.assertEqual(u'\U0001044F\U0001044F'.capitalize(),
+                         u'\U00010427\U0001044F')
+        self.assertEqual(u'\U00010427\U0001044F'.capitalize(),
+                         u'\U00010427\U0001044F')
+        self.assertEqual(u'\U0001044F\U00010427'.capitalize(),
+                         u'\U00010427\U0001044F')
+        self.assertEqual(u'X\U00010427x\U0001044F'.capitalize(),
+                         u'X\U0001044Fx\U0001044F')
+    @requires_wide_build
+    def test_title(self):
+        string_tests.MixinStrUnicodeUserStringTest.test_title(self)
+        self.assertEqual(u'\U0001044F'.title(), u'\U00010427')
+        self.assertEqual(u'\U0001044F\U0001044F'.title(),
+                         u'\U00010427\U0001044F')
+        self.assertEqual(u'\U0001044F\U0001044F \U0001044F\U0001044F'.title(),
+                         u'\U00010427\U0001044F \U00010427\U0001044F')
+        self.assertEqual(u'\U00010427\U0001044F \U00010427\U0001044F'.title(),
+                         u'\U00010427\U0001044F \U00010427\U0001044F')
+        self.assertEqual(u'\U0001044F\U00010427 \U0001044F\U00010427'.title(),
+                         u'\U00010427\U0001044F \U00010427\U0001044F')
+        self.assertEqual(u'X\U00010427x\U0001044F X\U00010427x\U0001044F'.title(),
+                         u'X\U0001044Fx\U0001044F X\U0001044Fx\U0001044F')
+    @requires_wide_build
+    def test_swapcase(self):
+        string_tests.CommonTest.test_swapcase(self)
+        self.assertEqual(u'\U0001044F'.swapcase(), u'\U00010427')
+        self.assertEqual(u'\U00010427'.swapcase(), u'\U0001044F')
+        self.assertEqual(u'\U0001044F\U0001044F'.swapcase(),
+                         u'\U00010427\U00010427')
+        self.assertEqual(u'\U00010427\U0001044F'.swapcase(),
+                         u'\U0001044F\U00010427')
+        self.assertEqual(u'\U0001044F\U00010427'.swapcase(),
+                         u'\U00010427\U0001044F')
+        self.assertEqual(u'X\U00010427x\U0001044F'.swapcase(),
+                         u'x\U0001044FX\U00010427')
     def test_contains(self):
         # Testing Unicode contains method
         self.assert_('a' in u'abdb')
         self.assert_('a' in u'bdab')
         self.assert_('a' in u'bdaba')
         self.assert_('a' in u'bdba')
         self.assert_('a' in u'bdba')
         self.assert_(u'a' in u'bdba')
         self.assert_(u'a' not in u'bdb')
         self.assert_(u'a' not in 'bdb')
         self.assert_(u'a' in 'bdba')
         self.assert_(u'a' in ('a',1,None))
         self.assert_(u'a' in (1,None,'a'))
         self.assert_(u'a' in (1,None,u'a'))
         self.assert_('a' in ('a',1,None))
         self.assert_('a' in (1,None,'a'))
         self.assert_('a' in (1,None,u'a'))
         self.assert_('a' not in ('x',1,u'y'))
         self.assert_('a' not in ('x',1,None))
         self.assert_(u'abcd' not in u'abcxxxx')
         self.assert_(u'ab' in u'abcd')
         self.assert_('ab' in u'abc')
         self.assert_(u'ab' in 'abc')
         self.assert_(u'ab' in (1,None,u'ab'))
         self.assert_(u'' in u'abc')
         self.assert_('' in u'abc')
+        self.assertIn('a', u'abdb')
+        self.assertIn('a', u'bdab')
+        self.assertIn('a', u'bdaba')
+        self.assertIn('a', u'bdba')
+        self.assertIn('a', u'bdba')
+        self.assertIn(u'a', u'bdba')
+        self.assertNotIn(u'a', u'bdb')
+        self.assertNotIn(u'a', 'bdb')
+        self.assertIn(u'a', 'bdba')
+        self.assertIn(u'a', ('a',1,None))
+        self.assertIn(u'a', (1,None,'a'))
+        self.assertIn(u'a', (1,None,u'a'))
+        self.assertIn('a', ('a',1,None))
+        self.assertIn('a', (1,None,'a'))
+        self.assertIn('a', (1,None,u'a'))
+        self.assertNotIn('a', ('x',1,u'y'))
+        self.assertNotIn('a', ('x',1,None))
+        self.assertNotIn(u'abcd', u'abcxxxx')
+        self.assertIn(u'ab', u'abcd')
+        self.assertIn('ab', u'abc')
+        self.assertIn(u'ab', 'abc')
+        self.assertIn(u'ab', (1,None,u'ab'))
+        self.assertIn(u'', u'abc')
+        self.assertIn('', u'abc')
         # If the following fails either
         # the contains operator does not propagate UnicodeErrors or
         # someone has changed the default encoding
+        self.assertRaises(UnicodeError, 'g\xe2teau'.__contains__, u'\xe2')
+        self.assert_(u'' in '')
+        self.assert_('' in u'')
+        self.assert_(u'' in u'')
+        self.assert_(u'' in 'abc')
+        self.assert_('' in u'abc')
+        self.assert_(u'' in u'abc')
+        self.assert_(u'\0' not in 'abc')
+        self.assert_('\0' not in u'abc')
+        self.assert_(u'\0' not in u'abc')
+        self.assert_(u'\0' in '\0abc')
+        self.assert_('\0' in u'\0abc')
+        self.assert_(u'\0' in u'\0abc')
+        self.assert_(u'\0' in 'abc\0')
+        self.assert_('\0' in u'abc\0')
+        self.assert_(u'\0' in u'abc\0')
+        self.assert_(u'a' in '\0abc')
+        self.assert_('a' in u'\0abc')
+        self.assert_(u'a' in u'\0abc')
+        self.assert_(u'asdf' in 'asdf')
+        self.assert_('asdf' in u'asdf')
+        self.assert_(u'asdf' in u'asdf')
+        self.assert_(u'asdf' not in 'asd')
+        self.assert_('asdf' not in u'asd')
+        self.assert_(u'asdf' not in u'asd')
+        self.assert_(u'asdf' not in '')
+        self.assert_('asdf' not in u'')
+        self.assert_(u'asdf' not in u'')
+        self.assertRaises(UnicodeDecodeError, 'g\xe2teau'.__contains__, u'\xe2')
+        self.assertRaises(UnicodeDecodeError, u'g\xe2teau'.__contains__, '\xe2')
+        self.assertIn(u'', '')
+        self.assertIn('', u'')
+        self.assertIn(u'', u'')
+        self.assertIn(u'', 'abc')
+        self.assertIn('', u'abc')
+        self.assertIn(u'', u'abc')
+        self.assertNotIn(u'\0', 'abc')
+        self.assertNotIn('\0', u'abc')
+        self.assertNotIn(u'\0', u'abc')
+        self.assertIn(u'\0', '\0abc')
+        self.assertIn('\0', u'\0abc')
+        self.assertIn(u'\0', u'\0abc')
+        self.assertIn(u'\0', 'abc\0')
+        self.assertIn('\0', u'abc\0')
+        self.assertIn(u'\0', u'abc\0')
+        self.assertIn(u'a', '\0abc')
+        self.assertIn('a', u'\0abc')
+        self.assertIn(u'a', u'\0abc')
+        self.assertIn(u'asdf', 'asdf')
+        self.assertIn('asdf', u'asdf')
+        self.assertIn(u'asdf', u'asdf')
+        self.assertNotIn(u'asdf', 'asd')
+        self.assertNotIn('asdf', u'asd')
+        self.assertNotIn(u'asdf', u'asd')
+        self.assertNotIn(u'asdf', '')
+        self.assertNotIn('asdf', u'')
+        self.assertNotIn(u'asdf', u'')
         self.assertRaises(TypeError, u"abc".__contains__)
+        self.assertRaises(TypeError, u"abc".__contains__, object())
     def test_formatting(self):
 …
         self.assertEqual(u'%c' % 0x1234, u'\u1234')
         self.assertRaises(OverflowError, u"%c".__mod__, (sys.maxunicode+1,))
+        self.assertRaises(ValueError, u"%.1\u1032f".__mod__, (1.0/3))
         for num in range(0x00,0x80):
             char = chr(num)
+            self.assertEqual(u"%c" % char, char)
+            self.assertEqual(u"%c" % num, char)
+            self.assertEqual(u"%c" % char, unicode(char))
+            self.assertEqual(u"%c" % num, unicode(char))
+            self.assertTrue(char == u"%c" % char)
+            self.assertTrue(char == u"%c" % num)
         # Issue 7649
         for num in range(0x80,0x100):
 …
         self.assertEqual('%s' % Wrapper(), u'\u1234')
+    @test_support.cpython_only
+    def test_formatting_huge_precision(self):
+        from _testcapi import INT_MAX
+        format_string = u"%.{}f".format(INT_MAX + 1)
+        with self.assertRaises(ValueError):
+            result = format_string % 2.34
+    def test_formatting_huge_width(self):
+        format_string = u"%{}f".format(sys.maxsize + 1)
+        with self.assertRaises(ValueError):
+            result = format_string % 2.34
+    def test_startswith_endswith_errors(self):
+        for meth in (u'foo'.startswith, u'foo'.endswith):
+            with self.assertRaises(UnicodeDecodeError):
+                meth('\xff')
+            with self.assertRaises(TypeError) as cm:
+                meth(['f'])
+            exc = str(cm.exception)
+            self.assertIn('unicode', exc)
+            self.assertIn('str', exc)
+            self.assertIn('tuple', exc)
     @test_support.run_with_locale('LC_ALL', 'de_DE', 'fr_FR')
     def test_format_float(self):
 …
         if not sys.platform.startswith('java'):
+            with test_support.check_py3k_warnings():
+                buf = buffer('character buffers are decoded to unicode')
             self.assertEqual(
                 unicode(
                     buffer('character buffers are decoded to unicode'),
+                    buf,
                     'utf-8',
                     'strict'
 …
             (ur'\\?', '+AFwAXA?'),
             (ur'\\\?', '+AFwAXABc?'),
+            (ur'++--', '+-+---')
+            (ur'++--', '+-+---'),
+            (u'\U000abcde', '+2m/c3g-'),                  # surrogate pairs
+            (u'/', '/'),
+        ]
 …
             self.assertEqual(x.encode('utf-7'), y)
+        # surrogates not supported
+        self.assertRaises(UnicodeError, unicode, '+3ADYAA-', 'utf-7')
+        self.assertEqual(unicode('+3ADYAA-', 'utf-7', 'replace'), u'\ufffd')
+        # Issue #2242: crash on some Windows/MSVC versions
+        self.assertRaises(UnicodeDecodeError, '+\xc1'.decode, 'utf-7')
+        # Unpaired surrogates are passed through
+        self.assertEqual(u'\uD801'.encode('utf-7'), '+2AE-')
+        self.assertEqual(u'\uD801x'.encode('utf-7'), '+2AE-x')
+        self.assertEqual(u'\uDC01'.encode('utf-7'), '+3AE-')
+        self.assertEqual(u'\uDC01x'.encode('utf-7'), '+3AE-x')
+        self.assertEqual('+2AE-'.decode('utf-7'), u'\uD801')
+        self.assertEqual('+2AE-x'.decode('utf-7'), u'\uD801x')
+        self.assertEqual('+3AE-'.decode('utf-7'), u'\uDC01')
+        self.assertEqual('+3AE-x'.decode('utf-7'), u'\uDC01x')
+        self.assertEqual(u'\uD801\U000abcde'.encode('utf-7'), '+2AHab9ze-')
+        self.assertEqual('+2AHab9ze-'.decode('utf-7'), u'\uD801\U000abcde')
+        # Direct encoded characters
+        set_d = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789'(),-./:?"
+        # Optional direct characters
+        set_o = '!"#$%&*;<=>@[]^_`{|}'
+        for c in set_d:
+            self.assertEqual(c.encode('utf7'), c.encode('ascii'))
+            self.assertEqual(c.encode('ascii').decode('utf7'), unicode(c))
+            self.assertTrue(c == c.encode('ascii').decode('utf7'))
+        for c in set_o:
+            self.assertEqual(c.encode('ascii').decode('utf7'), unicode(c))
+            self.assertTrue(c == c.encode('ascii').decode('utf7'))
     def test_codecs_utf8(self):
 …
         # UTF-8 specific decoding tests
         self.assertEqual(unicode('\xf0\xa3\x91\x96', 'utf-8'), u'\U00023456' )
         self.assertEqual(unicode('\xf0\x90\x80\x82', 'utf-8'), u'\U00010002' )
         self.assertEqual(unicode('\xe2\x82\xac', 'utf-8'), u'\u20ac' )
+        self.assertEqual(unicode('\xf0\xa3\x91\x96', 'utf-8'), u'\U00023456')
+        self.assertEqual(unicode('\xf0\x90\x80\x82', 'utf-8'), u'\U00010002')
+        self.assertEqual(unicode('\xe2\x82\xac', 'utf-8'), u'\u20ac')
         # Other possible utf-8 test cases:
         # * strict decoding testing for all of the
         #   UTF8_ERROR cases in PyUnicode_DecodeUTF8
+    def test_utf8_decode_valid_sequences(self):
+        sequences = [
+            # single byte
+            ('\x00', u'\x00'), ('a', u'a'), ('\x7f', u'\x7f'),
+            # 2 bytes
+            ('\xc2\x80', u'\x80'), ('\xdf\xbf', u'\u07ff'),
+            # 3 bytes
+            ('\xe0\xa0\x80', u'\u0800'), ('\xed\x9f\xbf', u'\ud7ff'),
+            ('\xee\x80\x80', u'\uE000'), ('\xef\xbf\xbf', u'\uffff'),
+            # 4 bytes
+            ('\xF0\x90\x80\x80', u'\U00010000'),
+            ('\xf4\x8f\xbf\xbf', u'\U0010FFFF')
+        ]
+        for seq, res in sequences:
+            self.assertEqual(seq.decode('utf-8'), res)
+        for ch in map(unichr, range(0, sys.maxunicode)):
+            self.assertEqual(ch, ch.encode('utf-8').decode('utf-8'))
+    def test_utf8_decode_invalid_sequences(self):
+        # continuation bytes in a sequence of 2, 3, or 4 bytes
+        continuation_bytes = map(chr, range(0x80, 0xC0))
+        # start bytes of a 2-byte sequence equivalent to codepoints < 0x7F
+        invalid_2B_seq_start_bytes = map(chr, range(0xC0, 0xC2))
+        # start bytes of a 4-byte sequence equivalent to codepoints > 0x10FFFF
+        invalid_4B_seq_start_bytes = map(chr, range(0xF5, 0xF8))
+        invalid_start_bytes = (
+            continuation_bytes + invalid_2B_seq_start_bytes +
+            invalid_4B_seq_start_bytes + map(chr, range(0xF7, 0x100))
+        )
+        for byte in invalid_start_bytes:
+            self.assertRaises(UnicodeDecodeError, byte.decode, 'utf-8')
+        for sb in invalid_2B_seq_start_bytes:
+            for cb in continuation_bytes:
+                self.assertRaises(UnicodeDecodeError, (sb+cb).decode, 'utf-8')
+        for sb in invalid_4B_seq_start_bytes:
+            for cb1 in continuation_bytes[:3]:
+                for cb3 in continuation_bytes[:3]:
+                    self.assertRaises(UnicodeDecodeError,
+                                      (sb+cb1+'\x80'+cb3).decode, 'utf-8')
+        for cb in map(chr, range(0x80, 0xA0)):
+            self.assertRaises(UnicodeDecodeError,
+                              ('\xE0'+cb+'\x80').decode, 'utf-8')
+            self.assertRaises(UnicodeDecodeError,
+                              ('\xE0'+cb+'\xBF').decode, 'utf-8')
+        # XXX: surrogates shouldn't be valid UTF-8!
+        # see http://www.unicode.org/versions/Unicode5.2.0/ch03.pdf
+        # (table 3-7) and http://www.rfc-editor.org/rfc/rfc3629.txt
+        #for cb in map(chr, range(0xA0, 0xC0)):
+            #self.assertRaises(UnicodeDecodeError,
+                              #('\xED'+cb+'\x80').decode, 'utf-8')
+            #self.assertRaises(UnicodeDecodeError,
+                              #('\xED'+cb+'\xBF').decode, 'utf-8')
+        # but since they are valid on Python 2 add a test for that:
+        for cb, surrogate in zip(map(chr, range(0xA0, 0xC0)),
+                                 map(unichr, range(0xd800, 0xe000, 64))):
+            encoded = '\xED'+cb+'\x80'
+            self.assertEqual(encoded.decode('utf-8'), surrogate)
+            self.assertEqual(surrogate.encode('utf-8'), encoded)
+        for cb in map(chr, range(0x80, 0x90)):
+            self.assertRaises(UnicodeDecodeError,
+                              ('\xF0'+cb+'\x80\x80').decode, 'utf-8')
+            self.assertRaises(UnicodeDecodeError,
+                              ('\xF0'+cb+'\xBF\xBF').decode, 'utf-8')
+        for cb in map(chr, range(0x90, 0xC0)):
+            self.assertRaises(UnicodeDecodeError,
+                              ('\xF4'+cb+'\x80\x80').decode, 'utf-8')
+            self.assertRaises(UnicodeDecodeError,
+                              ('\xF4'+cb+'\xBF\xBF').decode, 'utf-8')
+    def test_issue8271(self):
+        # Issue #8271: during the decoding of an invalid UTF-8 byte sequence,
+        # only the start byte and the continuation byte(s) are now considered
+        # invalid, instead of the number of bytes specified by the start byte.
+        # See http://www.unicode.org/versions/Unicode5.2.0/ch03.pdf (page 95,
+        # table 3-8, Row 2) for more information about the algorithm used.
+        FFFD = u'\ufffd'
+        sequences = [
+            # invalid start bytes
+            ('\x80', FFFD), # continuation byte
+            ('\x80\x80', FFFD*2), # 2 continuation bytes
+            ('\xc0', FFFD),
+            ('\xc0\xc0', FFFD*2),
+            ('\xc1', FFFD),
+            ('\xc1\xc0', FFFD*2),
+            ('\xc0\xc1', FFFD*2),
+            # with start byte of a 2-byte sequence
+            ('\xc2', FFFD), # only the start byte
+            ('\xc2\xc2', FFFD*2), # 2 start bytes
+            ('\xc2\xc2\xc2', FFFD*3), # 2 start bytes
+            ('\xc2\x41', FFFD+'A'), # invalid continuation byte
+            # with start byte of a 3-byte sequence
+            ('\xe1', FFFD), # only the start byte
+            ('\xe1\xe1', FFFD*2), # 2 start bytes
+            ('\xe1\xe1\xe1', FFFD*3), # 3 start bytes
+            ('\xe1\xe1\xe1\xe1', FFFD*4), # 4 start bytes
+            ('\xe1\x80', FFFD), # only 1 continuation byte
+            ('\xe1\x41', FFFD+'A'), # invalid continuation byte
+            ('\xe1\x41\x80', FFFD+'A'+FFFD), # invalid cb followed by valid cb
+            ('\xe1\x41\x41', FFFD+'AA'), # 2 invalid continuation bytes
+            ('\xe1\x80\x41', FFFD+'A'), # only 1 valid continuation byte
+            ('\xe1\x80\xe1\x41', FFFD*2+'A'), # 1 valid and the other invalid
+            ('\xe1\x41\xe1\x80', FFFD+'A'+FFFD), # 1 invalid and the other valid
+            # with start byte of a 4-byte sequence
+            ('\xf1', FFFD), # only the start byte
+            ('\xf1\xf1', FFFD*2), # 2 start bytes
+            ('\xf1\xf1\xf1', FFFD*3), # 3 start bytes
+            ('\xf1\xf1\xf1\xf1', FFFD*4), # 4 start bytes
+            ('\xf1\xf1\xf1\xf1\xf1', FFFD*5), # 5 start bytes
+            ('\xf1\x80', FFFD), # only 1 continuation bytes
+            ('\xf1\x80\x80', FFFD), # only 2 continuation bytes
+            ('\xf1\x80\x41', FFFD+'A'), # 1 valid cb and 1 invalid
+            ('\xf1\x80\x41\x41', FFFD+'AA'), # 1 valid cb and 1 invalid
+            ('\xf1\x80\x80\x41', FFFD+'A'), # 2 valid cb and 1 invalid
+            ('\xf1\x41\x80', FFFD+'A'+FFFD), # 1 invalid cv and 1 valid
+            ('\xf1\x41\x80\x80', FFFD+'A'+FFFD*2), # 1 invalid cb and 2 invalid
+            ('\xf1\x41\x80\x41', FFFD+'A'+FFFD+'A'), # 2 invalid cb and 1 invalid
+            ('\xf1\x41\x41\x80', FFFD+'AA'+FFFD), # 1 valid cb and 1 invalid
+            ('\xf1\x41\xf1\x80', FFFD+'A'+FFFD),
+            ('\xf1\x41\x80\xf1', FFFD+'A'+FFFD*2),
+            ('\xf1\xf1\x80\x41', FFFD*2+'A'),
+            ('\xf1\x41\xf1\xf1', FFFD+'A'+FFFD*2),
+            # with invalid start byte of a 4-byte sequence (rfc2279)
+            ('\xf5', FFFD), # only the start byte
+            ('\xf5\xf5', FFFD*2), # 2 start bytes
+            ('\xf5\x80', FFFD*2), # only 1 continuation byte
+            ('\xf5\x80\x80', FFFD*3), # only 2 continuation byte
+            ('\xf5\x80\x80\x80', FFFD*4), # 3 continuation bytes
+            ('\xf5\x80\x41', FFFD*2+'A'), #  1 valid cb and 1 invalid
+            ('\xf5\x80\x41\xf5', FFFD*2+'A'+FFFD),
+            ('\xf5\x41\x80\x80\x41', FFFD+'A'+FFFD*2+'A'),
+            # with invalid start byte of a 5-byte sequence (rfc2279)
+            ('\xf8', FFFD), # only the start byte
+            ('\xf8\xf8', FFFD*2), # 2 start bytes
+            ('\xf8\x80', FFFD*2), # only one continuation byte
+            ('\xf8\x80\x41', FFFD*2 + 'A'), # 1 valid cb and 1 invalid
+            ('\xf8\x80\x80\x80\x80', FFFD*5), # invalid 5 bytes seq with 5 bytes
+            # with invalid start byte of a 6-byte sequence (rfc2279)
+            ('\xfc', FFFD), # only the start byte
+            ('\xfc\xfc', FFFD*2), # 2 start bytes
+            ('\xfc\x80\x80', FFFD*3), # only 2 continuation bytes
+            ('\xfc\x80\x80\x80\x80\x80', FFFD*6), # 6 continuation bytes
+            # invalid start byte
+            ('\xfe', FFFD),
+            ('\xfe\x80\x80', FFFD*3),
+            # other sequences
+            ('\xf1\x80\x41\x42\x43', u'\ufffd\x41\x42\x43'),
+            ('\xf1\x80\xff\x42\x43', u'\ufffd\ufffd\x42\x43'),
+            ('\xf1\x80\xc2\x81\x43', u'\ufffd\x81\x43'),
+            ('\x61\xF1\x80\x80\xE1\x80\xC2\x62\x80\x63\x80\xBF\x64',
+             u'\x61\uFFFD\uFFFD\uFFFD\x62\uFFFD\x63\uFFFD\uFFFD\x64'),
+        ]
+        for n, (seq, res) in enumerate(sequences):
+            self.assertRaises(UnicodeDecodeError, seq.decode, 'utf-8', 'strict')
+            self.assertEqual(seq.decode('utf-8', 'replace'), res)
+            self.assertEqual((seq+'b').decode('utf-8', 'replace'), res+'b')
+            self.assertEqual(seq.decode('utf-8', 'ignore'),
+                             res.replace(u'\uFFFD', ''))
     def test_codecs_idna(self):
 …
         self.assertEqual(u'Andr\202 x'.encode('ascii','ignore'), "Andr x")
         self.assertEqual(u'Andr\202 x'.encode('ascii','replace'), "Andr? x")
+        self.assertEqual(u'Andr\202 x'.encode('ascii', 'replace'),
+                         u'Andr\202 x'.encode('ascii', errors='replace'))
+        self.assertEqual(u'Andr\202 x'.encode('ascii', 'ignore'),
+                         u'Andr\202 x'.encode(encoding='ascii', errors='ignore'))
         # Error handling (decoding)
 …
         self.assertEqual(unicode('Andr\202 x','ascii','ignore'), u"Andr x")
         self.assertEqual(unicode('Andr\202 x','ascii','replace'), u'Andr\uFFFD x')
+        self.assertEqual(u'abcde'.decode('ascii', 'ignore'),
+                         u'abcde'.decode('ascii', errors='ignore'))
+        self.assertEqual(u'abcde'.decode('ascii', 'replace'),
+                         u'abcde'.decode(encoding='ascii', errors='replace'))
         # Error handling (unknown character names)
 …
         for encoding in (
             'cp037', 'cp1026',
             'cp437', 'cp500', 'cp737', 'cp775', 'cp850',
             'cp852', 'cp855', 'cp860', 'cp861', 'cp862',
+            'cp437', 'cp500', 'cp720', 'cp737', 'cp775', 'cp850',
+            'cp852', 'cp855', 'cp858', 'cp860', 'cp861', 'cp862',
             'cp863', 'cp865', 'cp866',
             'iso8859_10', 'iso8859_13', 'iso8859_14', 'iso8859_15',
 …
         for encoding in (
             'cp037', 'cp1026',
             'cp437', 'cp500', 'cp737', 'cp775', 'cp850',
             'cp852', 'cp855', 'cp860', 'cp861', 'cp862',
+            'cp437', 'cp500', 'cp720', 'cp737', 'cp775', 'cp850',
+            'cp852', 'cp855', 'cp858', 'cp860', 'cp861', 'cp862',
             'cp863', 'cp865', 'cp866',
             'iso8859_10', 'iso8859_13', 'iso8859_14', 'iso8859_15',
 …
         self.assertEqual(u'{0:abc}'.format(C()), u'abc')
         # !r and !s coersions
+        # !r and !s coercions
         self.assertEqual(u'{0!s}'.format(u'Hello'), u'Hello')
         self.assertEqual(u'{0!s:}'.format(u'Hello'), u'Hello')
 …
         self.assertEqual(u'{0}'.format([1]), u'[1]')
         self.assertEqual(u'{0}'.format(E(u'data')), u'E(data)')
-        self.assertEqual(u'{0:^10}'.format(E(u'data')), u' E(data)  ')
-        self.assertEqual(u'{0:^10s}'.format(E(u'data')), u' E(data)  ')
         self.assertEqual(u'{0:d}'.format(G(u'data')), u'G(data)')
-        self.assertEqual(u'{0:>15s}'.format(G(u'data')), u' string is data')
         self.assertEqual(u'{0!s}'.format(G(u'data')), u'string is data')
+        msg = 'object.__format__ with a non-empty format string is deprecated'
+        with test_support.check_warnings((msg, PendingDeprecationWarning)):
+            self.assertEqual(u'{0:^10}'.format(E(u'data')), u' E(data)  ')
+            self.assertEqual(u'{0:^10s}'.format(E(u'data')), u' E(data)  ')
+            self.assertEqual(u'{0:>15s}'.format(G(u'data')), u' string is data')
         self.assertEqual(u"{0:date: %Y-%m-%d}".format(I(year=2007,
 …
         self.assertRaises(ValueError, u"{0!rs}".format, 0)
         self.assertRaises(ValueError, u"{!}".format)
+        self.assertRaises(ValueError, u"{:}".format)
+        self.assertRaises(ValueError, u"{:s}".format)
+        self.assertRaises(ValueError, u"{}".format)
+        self.assertRaises(IndexError, u"{:}".format)
+        self.assertRaises(IndexError, u"{:s}".format)
+        self.assertRaises(IndexError, u"{}".format)
+        big = u"23098475029384702983476098230754973209482573"
+        self.assertRaises(ValueError, (u"{" + big + u"}").format)
+        self.assertRaises(ValueError, (u"{[" + big + u"]}").format, [0])
         # issue 6089
 …
         #  will fail
         self.assertRaises(UnicodeEncodeError, "foo{0}".format, u'\u1000bar')
+    def test_format_huge_precision(self):
+        format_string = u".{}f".format(sys.maxsize + 1)
+        with self.assertRaises(ValueError):
+            result = format(2.34, format_string)
+    def test_format_huge_width(self):
+        format_string = u"{}f".format(sys.maxsize + 1)
+        with self.assertRaises(ValueError):
+            result = format(2.34, format_string)
+    def test_format_huge_item_number(self):
+        format_string = u"{{{}:.6f}}".format(sys.maxsize + 1)
+        with self.assertRaises(ValueError):
+            result = format_string.format(2.34)
+    def test_format_auto_numbering(self):
+        class C:
+            def __init__(self, x=100):
+                self._x = x
+            def __format__(self, spec):
+                return spec
+        self.assertEqual(u'{}'.format(10), u'10')
+        self.assertEqual(u'{:5}'.format('s'), u's    ')
+        self.assertEqual(u'{!r}'.format('s'), u"'s'")
+        self.assertEqual(u'{._x}'.format(C(10)), u'10')
+        self.assertEqual(u'{[1]}'.format([1, 2]), u'2')
+        self.assertEqual(u'{[a]}'.format({'a':4, 'b':2}), u'4')
+        self.assertEqual(u'a{}b{}c'.format(0, 1), u'a0b1c')
+        self.assertEqual(u'a{:{}}b'.format('x', '^10'), u'a    x     b')
+        self.assertEqual(u'a{:{}x}b'.format(20, '#'), u'a0x14b')
+        # can't mix and match numbering and auto-numbering
+        self.assertRaises(ValueError, u'{}{1}'.format, 1, 2)
+        self.assertRaises(ValueError, u'{1}{}'.format, 1, 2)
+        self.assertRaises(ValueError, u'{:{1}}'.format, 1, 2)
+        self.assertRaises(ValueError, u'{0:{}}'.format, 1, 2)
+        # can mix and match auto-numbering and named
+        self.assertEqual(u'{f}{}'.format(4, f='test'), u'test4')
+        self.assertEqual(u'{}{f}'.format(4, f='test'), u'4test')
+        self.assertEqual(u'{:{f}}{g}{}'.format(1, 3, g='g', f=2), u' 1g3')
+        self.assertEqual(u'{f:{}}{}{g}'.format(2, 4, f=1, g='g'), u' 14g')
     def test_raiseMemError(self):
 …
         self.assertRaises(MemoryError, alloc)
+    def test_format_subclass(self):
+        class U(unicode):
+            def __unicode__(self):
+                return u'__unicode__ overridden'
+        u = U(u'xxx')
+        self.assertEqual("%s" % u, u'__unicode__ overridden')
+        self.assertEqual("{}".format(u), '__unicode__ overridden')
+    def test_encode_decimal(self):
+        from _testcapi import unicode_encodedecimal
+        self.assertEqual(unicode_encodedecimal(u'123'),
+                         b'123')
+        self.assertEqual(unicode_encodedecimal(u'\u0663.\u0661\u0664'),
+                         b'3.14')
+        self.assertEqual(unicode_encodedecimal(u"\N{EM SPACE}3.14\N{EN SPACE}"),
+                         b' 3.14 ')
+        self.assertRaises(UnicodeEncodeError,
+                          unicode_encodedecimal, u"123\u20ac", "strict")
+        self.assertEqual(unicode_encodedecimal(u"123\u20ac", "replace"),
+                         b'123?')
+        self.assertEqual(unicode_encodedecimal(u"123\u20ac", "ignore"),
+                         b'123')
+        self.assertEqual(unicode_encodedecimal(u"123\u20ac", "xmlcharrefreplace"),
+                         b'123&#8364;')
+        self.assertEqual(unicode_encodedecimal(u"123\u20ac", "backslashreplace"),
+                         b'123\\u20ac')
+        self.assertEqual(unicode_encodedecimal(u"123\u20ac\N{EM SPACE}", "replace"),
+                         b'123? ')
+        self.assertEqual(unicode_encodedecimal(u"123\u20ac\u20ac", "replace"),
+                         b'123??')
+        self.assertEqual(unicode_encodedecimal(u"123\u20ac\u0660", "replace"),
+                         b'123?0')
+    def test_encode_decimal_with_surrogates(self):
+        from _testcapi import unicode_encodedecimal
+        tests = [(u'\U0001f49d', '&#128157;'),
+                 (u'\ud83d', '&#55357;'),
+                 (u'\udc9d', '&#56477;'),
+                ]
+        if u'\ud83d\udc9d' != u'\U0001f49d':
+            tests += [(u'\ud83d\udc9d', '&#55357;&#56477;')]
+        for s, exp in tests:
+            self.assertEqual(
+                    unicode_encodedecimal(u"123" + s, "xmlcharrefreplace"),
+                    '123' + exp)
 def test_main():
     test_support.run_unittest(__name__)

Note: See TracChangeset for help on using the changeset viewer.

/python/vendor/Python-2.7.6	merged	eligible
/python/vendor/current	merged	eligible

Context Navigation

Changeset 391 for python/trunk/Lib/test/test_unicode.py

Legend:

python/trunk

python/trunk/Lib/test/test_unicode.py

Download in other formats: