如何从标记java中提取内容

我有一个严重的问题.
我想从标签提取内容,例如:

我期望的输出是:

Sub content here
Main content here

我试过使用正则表达式,但结果并不那么令人印象深刻.
通过使用:

Pattern.compile("

会在第一个< * / div>之前返回所有字符串塔索,有人可以帮我吗?

最佳答案
我建议避免使用正则表达式来解析HTML.您可以使用Jsoup轻松完成您的要求:

public static void main(String[] args) {
    String html = "

回应评论:如果你想将div元素的内容放入一个字符串数组中,你可以简单地做:

    String[] divsTexts = new String[divs.size()];
    for (int i = 0; i < divs.size(); i++) {
        divsTexts[i] = divs.get(i).ownText();
    }

作为对注释的回应:如果你有嵌套元素,并且你想为每个元素获得自己的文本,那么你可以使用jquery多选择器语法.这是一个例子:

public static void main(String[] args) {
    String html = "

上面的代码将解析以下HTML:

并打印以下输出

Main content here
Sub content here
a paragraph
with some bold text

相关文章

操作步骤 1、进入elasticsearch的plugin,进入ik。进入config。 2、在config下面建立以.dic为后缀的字典...
lengend data数据中若存在&#39;&#39;,则表示换行,用&#39;&#39;切割。
代码实现 option = { backgroundColor: &amp;#39;#080b30&amp;#39;, tooltip: { trigger: &...
问题原因 原因在于直接在js中取的变量并复制给var变量。 于是就变成这样。 解决办法 var data = &#...
前言 最近做了一个调查问卷导出的功能,需求是将维护的题目,答案,导出成word,参考了几种方案之后,选...
对于很多人来说,用字符编码都是熟能生巧,而不清楚为什么是那样的字符编码,所以我在这列了一个表,翻...