我正在寻找一种算法来压缩我用PHP编写的CMS的HTML输出,用CodeIgniter框架编写.
我试图删除任何尖括号之间的空格,除了< script>,< pre>和< style>元素,简单地忽略这些元素.我应该澄清这是连续标签之间的空白,它们之间没有文字.
我应该如何解析HTML以找到我想要删除的空格?
编辑:首先,我要删除不在< pre>中的所有制表符.标签.这可以用正则表达式完成,我敢肯定,但有哪些替代方案?
Minify做HTML(以及CSS和JS).
(第二个链接转到源代码,它注释了它所采取的步骤 – 如果你想创建自己的代码,应该是一个好的方法 – 它是BSD licensed.)
此外,正如Pete says所示,通过对HTML(以及CSS / JS /等)使用gzip压缩,您将获益更多,并且不会被Gordon在评论中提到的问题绊倒.