`
netxdiy
  • 浏览: 680504 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

搜索引擎URL中的汉字解析

 
阅读更多

<script type="text/javascript"><!-- google_ad_client = "pub-0241434510974184"; /* auto-http.cn 右边 ,468x60 */ google_ad_slot = "0902256228"; google_ad_width = 468; google_ad_height = 60; // --></script><script src="http://pagead2.googlesyndication.com/pagead/show_ads.js" type="text/javascript"></script>

搜索引擎URL中的汉字解析

代码说明一切:

<?php
/*
*Createdon2008-2-4
*
*Tochangethetemplateforthisgeneratedfilegoto
*Window-Preferences-PHPeclipse-PHP-CodeTemplates
*/
//"http://www.baidu.com/baidu?wd=%D5%FD%D4%F2%B1%ED%B4%EF%CA%BD&q=3"

functionrequestCharacters($strURL)
{
if(preg_match_all("/(%[a-zA-Z0-9]{2})+/",$strURL,$matches)!=FALSE)
{
return$matches[0][0];
}
return"";
}

functionConvertUrlDecode($textUrlChar)
{
$textUrl=htmlspecialchars(urldecode($textUrlChar));
return$textUrl;
}

functionConvertEncoding($textEncode)
{
$textEncode=mb_convert_encoding($textEncode,"UTF-8","GB2312");
return$textEncode;
}


functionChinese($word="")
{
if(empty($word))
{
return"";
}
if(preg_match("/^([".chr(228)."-".chr(233)."]{1}[".chr(128)."-".chr(191)."]{1}[".chr(128)."-".chr(191)."]{1}){1}/",$word)==true||preg_match("/([".chr(228)."-".chr(233)."]{1}[".chr(128)."-".chr(191)."]{1}[".chr(128)."-".chr(191)."]{1}){1}$/",$word)==true||preg_match("/([".chr(228)."-".chr(233)."]{1}[".chr(128)."-".chr(191)."]{1}[".chr(128)."-".chr(191)."]{1}){2,}/",$word)==true)
{
return"结果:很好,这是一个UTF-8编码的汉字";
}
else
{
return"结果:抱歉,这不是一个UTF-8编码的汉字";
}
}
$radioGB2312="";
$radioUTF8="";
$radioflg=$_REQUEST['radioflg'];
if($radioflg=="GB2312")
{
$radioGB2312="checked";
}
elseif($radioflg=="UTF-8")
{
$radioUTF8="checked";
}
else
{
$radioUTF8="checked";
}

?>

<!DOCTYPEhtmlPUBLIC"-//W3C//DTDXHTML1.0Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<htmlxmlns="http://www.w3.org/1999/xhtml"xml:lang="ja"lang="ja">
<head>
<metahttp-equiv="Content-Language"content="ja"/>
<metahttp-equiv="Content-Script-Type"content="text/javascript"/>
<metahttp-equiv="Content-Type"content="text/html;charset=utf-8"/>
<title>URL解析</title>
<scriptlanguage="Javascript">
functionbtSubmit()
{
document
.urlrequest.action='urlcharacters.php';
document
.urlrequest.submit();
}
functionradioSubmit(flgType)
{
document
.urlrequest.radioflg.value=flgType;
}
</script>
</head>
<body>
<formname="urlrequest"method="post">
<textareaname="urltext"rows="8"cols="40"><?=$_REQUEST["urltext"];?></textarea>
<p>

<inputtype="radio"name="mainrd"id="GB2312"onclick="javascript:radioSubmit('GB2312')"value="0"<?=$radioGB2312?>>
<labelid="label_GB2312"for="GB2312"style="CURSOR:hand">GB2312</label>

<inputtype="radio"name="mainrd"id="UTF-8"onclick="javascript:radioSubmit('UTF-8')"value="1"<?=$radioUTF8?>>
<labelid="label_UTF-8"for="UTF-8"style="CURSOR:hand">UTF-8</label>

</p>
<p><inputtype="button"value="URL汉字编码解析"onclick="javascript:btSubmit();"/></p>
<p>
<?php
$strURL=$_REQUEST["urltext"];//"http://www.baidu.com/baidu?wd=%D5%FD%D4%F2%B1%ED%B4%EF%CA%BD&q=3";

$textEncode=requestCharacters($strURL);


echo"正则表达式提取:".$textEncode;

$convertText=ConvertUrlDecode($textEncode);


if($radioflg=="GB2312")
{
$convertText=ConvertEncoding($convertText);
}


echo"<br><br>URL解析:$convertText<br><br>";

echoChinese($convertText);

?>
</p>

<inputtype="hidden"name="radioflg"id="radioflg"value="<?=$radioflg?>"/>
</form>
</body>
</html>


分享到:
评论

相关推荐

    爬虫,爬取文本信息,进行中文分割.zip

    这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对...

    利用爬虫爬取文本,进行中文分割,统计词频.zip

    这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对...

    SetoolMaster是一款让你入门即入狱的python3开发的进阶型社会工程学工具。.zip

    这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对...

    [完整][中文][WEB安全测试].(美)霍普.扫描版.pdf

    7.8 使用cURL模仿搜索引擎 151 7.9 通过假造Referer头信息来伪造工作流程 152 7.10 仅获取HTTP头 153 7.11 使用cURL发送POST请求 154 7.12 保持会话状态 156 7.13 操纵Cookie 157 7.14 使用cURL上传文件 158 7.15 ...

    IIS服务器SSI(rewrite重写)插件的帮助资料

    简单的搜索引擎友好的网址 46 富关键词URLS 47 使用IIS作为反向代理 48 藏匿文件扩展名: 49 仿真基于主机头的虚拟网站 49 阻断内联图像(阻止盗链) 50 重定向非WWW的版本到WWW 51 强制SSL或者非SSL到一个指定的...

    Java EE常用框架.xmind

    Lucene是根据关健字来搜索的文本搜索工具(全文搜索引擎),只能在某个网站内部搜索文本内容,不能跨网站搜索 全文搜索引擎是在硬盘上的搜索,比传统Mysql数据库是要快的 比传统SQL多的功能:查询的结果有...

    asp.net知识库

    asp.net的网址重定向方法的比较:面向搜索引擎友好 也谈 ASP.NET 1.1 中 QueryString 的安全获取写法 ASP.NET运行模式:PageHandlerFactory 利用搜索引擎引用来高亮页面关键字 网站首页的自动语言切换 应用系统的多...

    记事狗微博程序V1.5.0

    33、后台可一键查看网站的Alexa排名、搜索引擎收录和反向链接等; 34、后台可禁止前台IP访问或者设置后台的IP访问; 35、集成Ucenter模块,可与集成该模块的系统(比如爱聚合、discuz等)同步注册、登陆; 36、可在...

    记事狗微博客系统V1.1.0

    33、后台可一键查看网站的Alexa排名、搜索引擎收录和反向链接等; 34、后台可禁止前台IP访问或者设置后台的IP访问; 35、集成Ucenter模块,可与集成该模块的系统(比如爱聚合、discuz等)同步注册、登陆; 36、可在...

    Search all Tabs-crx插件

    像所有搜索引擎一样,此扩展支持诸如“ AND”和“ OR”之类的搜索运算符。当有许多打开的选项卡(如普通选项卡管理器扩展)时,您可以使用此扩展找到相关内容。也可以索引本地文件。此扩展程序支持解析大约30种语言...

    精通ANDROID 3(中文版)1/2

    23.5.1 在Android搜索中使用操作键  23.5.2 使用应用程序特定的搜索上下文  23.6 资源  23.7 对平板电脑的意义  23.8 小结  第24章 文本到语音转换  24.1 Android中的文本到语音转换  24.2 使用语段...

    java开源包1

    AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...

    java开源包11

    AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...

    java开源包2

    AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...

    java开源包3

    AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...

    java开源包6

    AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...

    java开源包5

    AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...

    java开源包10

    AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...

    java开源包4

    AutoTips基于搜索引擎Apache Lucene实现。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是...

Global site tag (gtag.js) - Google Analytics