php 正则去除网页所有的 html,js,css,注释的简单示例

PHP使用正则去除网页中所有的 html,js,css,注释感兴趣的小伙伴,下面一起跟随编程之家 jb51.cc的小编两巴掌来看看吧!

/**
 * PHP使用正则去除网页中所有的 html,注释
 *
 * @param 
 * @arrange 512-笔记网: jb51.cc
 **/
$search = array ("'<script[^>]*?>.*?</script>'si",// 去掉 javascript
"'<style[^>]*?>.*?</style>'si",// 去掉 css
"'<[/!]*?[^<>]*?>'si",// 去掉 HTML 标记
"'<!--[/!]*?[^<>]*?>'si",// 去掉 注释 标记
"'([rn])[s]+'",// 去掉空白字符
"'&(quot|#34);'i",// 替换 HTML 实体 
"'&(amp|#38);'i","'&(lt|#60);'i","'&(gt|#62);'i","'&(nbsp|#160);'i","'&(iexcl|#161);'i","'&(cent|#162);'i","'&(pound|#163);'i","'&(copy|#169);'i","'&#(d+);'e"); // 作为 PHP 代码运行
$replace = array ("","","\1","\"","&","<",">"," ",chr(161),chr(162),chr(163),chr(169),"chr(\1)");
//$document为需要处理字符串,如果来源为文件可以$document = file_get_contents($filename);
$out = preg_replace($search,$replace,$document);
/***   来自编程之家 jb51.cc(jb51.cc)   ***/
也可以使用PHP的内置函数strip_tags()清除html,注释等标记

相关文章

Hessian开源的远程通讯,采用二进制 RPC的协议,基于 HTTP 传输。可以实现PHP调用Java,Python,C#等多语...
初识Mongodb的一些总结,在Mac Os X下真实搭建mongodb环境,以及分享个Mongodb管理工具,学习期间一些总结...
边看边操作,这样才能记得牢,实践是检验真理的唯一标准.光看不练假把式,光练不看傻把式,边看边练真把式....
在php中,结果输出一共有两种方式:echo和print,下面将对两种方式做一个比较。 echo与print的区别: (...
在安装好wampServer后,一直没有使用phpMyAdmin,今天用了一下,phpMyAdmin显示错误:The mbstring exte...
变量是用于存储数据的容器,与代数相似,可以给变量赋予某个确定的值(例如:$x=3)或者是赋予其它的变...