PHP匹配UTF-8中文字符的正则表达式

netxdiy

浏览: 679043 次
性别:
来自: 上海

最近访客更多访客>>

u012363178

smzyyyjyrctl

88250

abiandbel

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

急着用的朋友可以先拿去用，这个正则非原创，但是经过我的修改，如有问题，请回复告知，代码是写给PHP初学者的，高手请自抠正则。

先不要被上面那个稀奇古怪的代码吓到，看完这篇文章以后，你就不会觉得它了不起了：）另外，本文不会卖弄大量的关于编码的概念，如果需要额外的扩展阅读，请通过google查找，相信一定能够满足您的阅读需求。

关于编码：

上海的邮政编码是200000 ，上海的地理编码（经纬度）是lat:31.2356；lng:121.4728，上海的电话编码（国际区号）是：086021。类比在计算机里面，“汉”字的gb2312编码是：1011 1010 1011 1010（16进制：BABA）；“汉”字的Unicode编码是 0110 1100 0100 1001（16进制：6C49）；“汉”字的UTF-8编码是1110 0110 1011 0001 1000 1001 （16进制：E6B189）。所以，不同的汉字，在不同的编码方式下，表示的方法也是不一样的。

关于unicode：

随着全球化的到来，全球性的的沟通变得异常的普遍，在互联网的世界里，为了能够让用户方便的访问全世界不同地域，不同文字（编码）的站点，历史上先后有两个试图独立设计Unicode的组织，即国际标准化组织（ISO）和一个软件制造商的协会（unicode.org）。在1991年前后，双方都认识到世界不需要两个不兼容的字符集。于是它们开始合并双方的工作成果，并为创立一个单一编码表而协同工作。于是，真正意义上的Unicode孕育而生。

Unicode的学名是"Universal Multiple-Octet Coded Character Set"，简称为UCS。UCS可以看作是"Unicode Character Set"的缩写。简单的说Unicode是一种可以容纳全世界所有语言文字的编码方案。

unicode编码在前面已经看到了，补充一点，有的时候还会用10进制中文字符，所以“汉”字还有可能是这个样子：27721

关于UTF-8：

UTF-8是unicode编码的扩展（也可以说是子集：Unicode Translation Format），由Ken Thompson于1992年创建，只要将某个字符的unicode编码一一插入相应的空位（刚好有16个空位）就可以成为一个UTF-8编码，细心的研究一下刚才给出的“汉”字的例子，你就能发现这一点。

1 1 1 0 _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _

好了，我们现在已经了解了关于unicode，编码和UTF-8的相关知识（虽然并不全面），但是我们还需要一些工具：

一个进制转换的页面（觉得麻烦的话可以google现成的）：

一份编码对照表：

http://www.ansell-uebersetzungen.com/gbuni.html

准备好以后，我们就开始DIY匹配UTF-8中文字符的正则表达式，有能力的朋友可以不阅读下面的文章，自己对照正则表达式判断和分析过程（我一开始就是这么做的！），下面的进度比较快，对编码不了解的朋友需要借助参考资料阅读。

仔细研究《编码对照表》，你会发现unicode编码中的汉字编码区间是连续的，位于4E00和9FA0之间，用《进制转换页面》把16进制转换成2进制：

4E00 :  0100 1110 0000 0000
9FA0 :  1001 1111 1010 0000

上面的二进制编码就是要写入1 1 1 0 _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 的16个空位，就像：

1110 0100 1011 1000 1000 0000
1110 1001 1011 1110 1010 0000

将新组成的2进制形式UTF-8编码使用《进制转换页面》整理成16进制的（分析过程使用）格式：

1110 0100 1011 1000 1000 0000 : E4 B8 80
1110 1001 1011 1110 1010 0000 : E9 BE A0

精确拆分的结果如下：

第一段：E4 B8 80 到 E4 BF BF
第二段：E5 80 80 到 E8 BF BF
第三段：E9 80 80 到 E9 BE A0

正则的作者显然是为了编写的方便，将汉字的UTF-8编码集扩大为了：E4 80 80 到 E9 BF BF ，在对使用效果影响不大的情况下，我们也不妨简化处理：

[".chr(228)."-".chr(233)."]{1}表示一个E4（228的16进制表示）到E9之间的编码，[".chr(128)."-".chr(191)."]{1}表示80到BF之间的编码，于是就组成了 ([".chr(228)."-".chr(233)."]{1}[".chr(128)."-".chr(191)."]{1}[".chr(128)."-".chr(191)."]{1}){1}这个匹配UTF-8单个汉字的正则，最后经过修正，成为本文开始给出的表达式。

http://www.csask.com/blog/?p=20

php 扩展正则表达式函数 ereg

要激活 regexp 的支持在配置 PHP 时加上 --with-regex[=TYPE]。TYPE 可以是 system，apache 或 php 之一。默认使用 php。

PHP 的 Windows 版本已经内置该扩展模块的支持。无需加载任何附加扩展库即可使用这些函数。

运行时配置
本扩展模块在 php.ini 中未定义任何配置选项。

资源类型
本扩展模块未定义任何资源类型。

预定义常量
本扩展模块未定义任何常量。

范例
例子 1. 正则表达式例子

view plain copy to clipboard print ?