Python2 的正则在 Mac 和 Linux 上的不同表现
表现
s = u'玛丽黛佳眉笔只-需-18,冲p腹t製o2𝒂I5EfW4xPmTq𝒃o2打🤔开桃o寶'
这个字符串 s 是一段淘口令,核心内容就是 𝒂 和 𝒃 之间的 ID I5EfW4xPmTq
, 我们想用一个正则表达式将 ID 捕获出来。
𝒂 和 𝒃 的 unicode 码点不在基本平面内,在1号平面内。Unicode 各个平面的字符范围参考 维基百科
在 MacOS …
s = u'玛丽黛佳眉笔只-需-18,冲p腹t製o2𝒂I5EfW4xPmTq𝒃o2打🤔开桃o寶'
这个字符串 s 是一段淘口令,核心内容就是 𝒂 和 𝒃 之间的 ID I5EfW4xPmTq
, 我们想用一个正则表达式将 ID 捕获出来。
𝒂 和 𝒃 的 unicode 码点不在基本平面内,在1号平面内。Unicode 各个平面的字符范围参考 维基百科
在 MacOS …
原文链接: Malecrab 的博客
这篇文章讲的非常清楚了,我这里复制一份用于备份,查找。
全世界很多个国家都在为自己的文字编码,并且互不相通,不同的语言字符编码值相同却代表不同的符号(例如:韩文编码 EUC-KR 中 “한국어” 的编码值正好是汉字编码GBK中的“茄惫绢”)。
因此,同一份文档,拷贝至不同语言的机器,就可能成了乱码,于是人们就想:我们能不能定 …