使用Jsoup在符合此模式的两个块之间提取所有
HTML(字符串,文档或元素)的最佳方法是什么:
- <strong>
- {any HTML could appear here,except for a <strong> pair}
- </strong>
- ...
- {This is the HTML I need to extract.
- any HTML could appear here,except for a <strong> pair}
- ...
- <strong>
- {any HTML could appear here,except for a <strong> pair}
- </strong>
使用正则表达式这可能很简单,如果我将它应用于整个body.html():@H_301_5@
- (<strong>.+</strong>)(.+)(<strong>.+</strong>)
- ^
- +----- There I have my HTML content
但是,正如我从similar challenge中学到的那样,如果我使用已经解析过Jsoup的DOM,性能可以提高(即使代码稍微长一点) – 除了这次没有Element.nextSibling()和Element.nextElementSibling()都可以来救援.@H_301_5@
解决方法
我不知道它是否更快,但也许这样的东西会起作用:
- Elements strongs = doc.select("strong");
- Element f = strongs.first();
- Element l = strongs.last();
- Elements siblings = f.siblingElements();
- List<Element> result = siblings.subList(siblings.firstIndexOf(f) + 1,siblings.lastIndexOf(l));