Unicode

Unicode 标签下共有 2 篇文章

Python2 的正则在 Mac 和 Linux 上的不同表现

• bwangel Python Unicode re blog

表现

s = u'玛丽黛佳眉笔只-需-18,冲p腹t製o2𝒂I5EfW4xPmTq𝒃o2打🤔开桃o寶'

这个字符串 s 是一段淘口令,核心内容就是 𝒂 和 𝒃 之间的 ID I5EfW4xPmTq, 我们想用一个正则表达式将 ID 捕获出来。

𝒂 和 𝒃 的 unicode 码点不在基本平面内,在1号平面内。Unicode 各个平面的字符范围参考 维基百科

在 MacOS …

细说:Unicode, UTF-8, UTF-16, UTF-32, UCS-2, UCS-4

• bwangel unicode utf-16 ucs blog

原文链接: Malecrab 的博客

这篇文章讲的非常清楚了,我这里复制一份用于备份,查找。

Unicode与ISO 10646

全世界很多个国家都在为自己的文字编码,并且互不相通,不同的语言字符编码值相同却代表不同的符号(例如:韩文编码 EUC-KR 中 “한국어” 的编码值正好是汉字编码GBK中的“茄惫绢”)。

因此,同一份文档,拷贝至不同语言的机器,就可能成了乱码,于是人们就想:我们能不能定 …