频道导航

如何使用Perl解析无效的HTML？

2019-04-28 Perl 前端之家

前端之家收集整理的这篇文章主要介绍了如何使用Perl解析无效的HTML？，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我维护一个 HTML格式的文章数据库.不幸的是,编写文章的编辑并不知道正确的HTML,所以他们经常写下这样的东西：

<div class="highlight"><html><head></head><body><p>Note that ...</p></html></div>

我尝试使用HTML :: TreeBuilder来解析这个HTML,但在解析它并转储结果树之后,< div class =“highlight”> …< / div>之间的所有元素都被解析了.消失了.我只剩下< div class =“highlight”>< / div>.

编辑经常也做过这样的事情：

<div class="article"><style>@font-face {   font-family: "Cambria"; }</style>Article starts here</div>

使用HTML :: TreeBuilder解析此结果为空< div class =“article”>< / div>再次.

任何想法如何处理这个破碎的HTML,并真正理解它？

解决方法

我会先通过 HTML::Tidy运行它：

#!/usr/bin/env perl

use strict; use warnings;
use HTML::Tidy;

my $html = <<EO_HTML;
<div class="highlight"><html><head></head>
<body><p>Note that ...</p></html>
</div>
EO_HTML

my $tidy = HTML::Tidy->new;

print $tidy->clean( $html );

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01//EN">
<html>
<head>
<Meta name="generator" content="tidyp for Windows (v1.04),see www.w3.org">
<title></title>
</head>
<body>
<div class="highlight">
<p>Note that ...</p>
</div>
</body>
</html>

您可以通过设置各种配置选项来控制输出.

然后,通过解析器提供已清理的HTML.

否则,您可以尝试使用HTML::TokeParser::Simple甚至只是HTML::Parser一次一步地构建一棵树,但我相信这种方式就是疯狂.

请记住,尝试构建树表示的解析器将比仅在识别它们时识别各种元素的流解析器更严格.

原文链接：https://www.f2er.com/Perl/171747.html

上一篇：如何检测是否在eval中运行Perl代码下一篇：Perl中的对象和类之间有什么区别？

猜你在找的Perl相关文章

漫谈 Perl 的 web 应用开发框架

忍不住在 PerlChina 邮件列表中盘点了一下 Perl 里的 Web 应用框架（巧的是 PerlBuzz 最近...

作者：前端之家时间：2020-08-13

perl中bless的理解

bless有两个参数：对象的引用、类的名称。类的名称是一个字符串，代表了类的类型信息，这...

作者：前端之家时间：2020-08-13

PERL GB2312 UTF-8 编码转换

gb2312转Utf的方法： use Encode; my $str = "中文"; $str_cnsoftware = encode(&...

作者：前端之家时间：2020-08-13

perl 计算硬盘利用率

perl 计算硬盘利用率，以%来查看硬盘资源是否存在IO消耗cpu资源情况；部份代码参考了...

作者：前端之家时间：2020-08-13

1 简单变量 Perl 的 Hello World 是怎么写的呢？请看下面的程序： #!/usr/bin/perl print ...

作者：前端之家时间：2020-08-13

Perl 中的正则表达式

正则表达式是 Perl 语言的一大特色，也是 Perl 程序中的一点难点，不过如果大家能够很好的...

作者：前端之家时间：2020-08-13

Perl和Shell区别

在学习Perl和Shell时，有很多人可能会问这样一个问题，到底先学习哪个或者学习哪个更好！ ...

作者：前端之家时间：2020-08-13

Perl命令行应用介绍

Perl 有很多命令行参数. 通过它, 我们有机会写出更简单的程序. 在这篇文章里我们来了解...

作者：前端之家时间：2020-08-13

perl的特殊变量

转自： http://bbs.chinaunix.net/thread-1191868-1-1.html# 让你的perl代码看起来更像per...

作者：前端之家时间：2020-08-13

Perl BackConnectShell + Rootlab t00l

2009-02-02 13:07 #!/usr/bin/perl # D.O.M TEAM - 2007 # anonyph; arp; ka0x; xarnuz # ...

作者：前端之家时间：2020-08-13

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章