java – Jsoup:在无CSS的HTML中提取两个块之间的所有HTML

前端之家收集整理的这篇文章主要介绍了java – Jsoup:在无CSS的HTML中提取两个块之间的所有HTML前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
使用Jsoup在符合此模式的两个块之间提取所有 HTML(字符串,文档或元素)的最佳方法是什么:
  1. <strong>
  2. {any HTML could appear here,except for a <strong> pair}
  3. </strong>
  4.  
  5. ...
  6. {This is the HTML I need to extract.
  7. any HTML could appear here,except for a <strong> pair}
  8. ...
  9.  
  10. <strong>
  11. {any HTML could appear here,except for a <strong> pair}
  12. </strong>

使用正则表达式这可能很简单,如果我将它应用于整个body.html():@H_301_5@

  1. (<strong>.+</strong>)(.+)(<strong>.+</strong>)
  2. ^
  3. +----- There I have my HTML content

但是,正如我从similar challenge中学到的那样,如果我使用已经解析过Jsoup的DOM,性能可以提高(即使代码稍微长一点) – 除了这次没有Element.nextSibling()和Element.nextElementSibling()都可以来救援.@H_301_5@

例如,我在Jsoup中搜索了类似jQuery的nextUntil,但是找不到类似的东西.@H_301_5@

是否有可能提出比上述基于正则表达式的方法更好的东西?@H_301_5@

解决方法

我不知道它是否更快,但也许这样的东西会起作用:
  1. Elements strongs = doc.select("strong");
  2. Element f = strongs.first();
  3. Element l = strongs.last();
  4. Elements siblings = f.siblingElements();
  5. List<Element> result = siblings.subList(siblings.firstIndexOf(f) + 1,siblings.lastIndexOf(l));

猜你在找的Java相关文章