XML学习笔记（五）：使用 jdom和dom4j 解析XML

XML解析的详细分析与jaxp解析XML详见：XML学习笔记（四）：使用 DOM和SAX 解析XML

一、JDom

1、创建XML文件：

1）Document类即代表整个XML文档，把生成的Document 利用XMLOutputter 类输出即可。

2）映射关系：元素：Element；属性：Attribute；注解：Comment；文本信息：Text；

3）注意：addContent()是追加，setContent()会覆盖。

	/**
	 * 创建XML
	 * 
	 * @throws IOException
	 */
	private void createXML() {
		ArrayList<Element> eleList = new ArrayList<Element>();
		Document doc = null;

		try {
			// 新建一个Document
			doc = new Document();
			// 新建一个根元素 <root>
			Element root = new Element("root");
			// 给根元素添加文本内容
			root.setText("this is a root el");
			// 修改根元素 的名字
			root.setName("rootElement");
			// 给根元素添加属性
			root.setAttribute("name","属性");

			// 新建一个元素<APPNT>
			Element appntEle = new Element("APPNT");
			// 定义一个属性对象
			Attribute appntAttr = new Attribute("name","SAM-SHO");
			// 给<APPNT>元素添加属性
			appntEle.setAttribute(appntAttr);
			appntEle.setAttribute("age","28");
			// 给<APPNT>元素添加文本内容
			appntEle.setText("我是投保人");
			// 给<APPNT>元素添加注解
			Comment comment = new Comment("我是注解");
			appntEle.addContent(comment);

			// 新建一个元素<INSURED>
			Element insuredEle = new Element("INSURED");
			// 定义一个属性对象
			Attribute insuredAttr = new Attribute("name","SAMMY");
			// 给<INSURED>元素添加属性
			insuredEle.setAttribute(insuredAttr);
			insuredEle.setAttribute("age","49");
			// 给<INSURED>元素添加文本内容

			Text text = new Text("我是被保人,可以这样加文本");
			// insuredEle.setText("我是被保人");
			insuredEle.addContent(text);
			insuredEle.addContent("   ||我是追加");

			// addContent()是追加，setContent()会覆盖
			// insuredEle.setContent(new Text("....我会覆盖"));

			// 把新建的元素放入集合
			eleList.add(appntEle);
			eleList.add(insuredEle);

			// 把新建的元素添加到 根元素 <root>
			root.setContent(eleList);
			// 也可以使用addContent()一个一个加
			// root.addContent(appntEle);
			// root.addContent(insuredEle);

			// 把根元素添加到 Document
			doc.setRootElement(root);
			// doc = new
			// Document(root);//可以直接这样新建xml文档，同doc.setRootElement(root)

			String xmlStr = out.outputString(doc);
			System.out.println(xmlStr);// 打印到控制台

			out.output(doc,System.out);// 输出到控制台
			out.output(doc,new FileOutputStream("resources/root.xml"));// 输出到文件

		} catch (IOException e) {
			e.printStackTrace();
		}
	}

2、解析整个XML文档：

1）只要有一点Dom解析的基础，JDom的使用就会变得比较简单。

2）得到解析器、解析XML文件的步骤都是固定的。

3）我们获取到元素与属性后，可以直接输出，也可以set到预先定义好的JavaBean中。

	/**
	 * 解析XML
	 * 
	 * @throws IOException
	 */
	private void getXML() {

		try {

			// 1-获取解析器
			SAXBuilder dBuilder = new SAXBuilder();

			// 2-获取xml文件的流
			InputStream is = JDomXML.class.getClassLoader().getResourceAsStream("Request.xml");

			// 3- 解析XML文件
			Document doc = dBuilder.build(is);

			// 4-获取元素
			
			// 4-1 获取根元素<request>
			Element root = doc.getRootElement();// 拿到request

			// 4-2获取子元素<appnt>
			Element appntEle = root.getChild("appnt");

			// 4-2-1 获取<appnt>的<name>元素
			Element appntName = appntEle.getChild("name");
			logger.debug("<name>元素名称: " + appntName.getName());
			logger.debug("<name>元素文本信息: " + appntName.getText());

			// 4-2-2 获取<appnt>的<age>元素
			Element ageName = appntEle.getChild("age");
			logger.debug("ageName: " + ageName.getName());
			logger.debug("ageText: " + ageName.getText());

			// 4-3 获取子元素<insured>
			Element insuredEle = root.getChild("insured");
			
			// 4-3-1 获取<insured>的name属性
			Attribute nameAttr = insuredEle.getAttribute("name");
			logger.debug("nameAttr: " + nameAttr.getValue());

			// 4-3-2 获取<insured>的age属性
			Attribute ageAttr = insuredEle.getAttribute("age");
			logger.debug("ageAttr: " + ageAttr.getValue());
			logger.debug("直接拿ageAttr: " + insuredEle.getAttributeValue("age"));

			// 4-4 获取子元素<product>
			Element productEle = root.getChild("product");

			// 4-4 获取子元素<Service>
			List<Element> serviceLists = root.getChildren("Service");// 拿到<Service>元素
			for (Element servlce : serviceLists) {

				// 获取<Service>的两个属性： name和type
				logger.debug(servlce.getAttributeValue("name"));
				logger.debug(servlce.getAttributeValue("type"));

				// 获取<Service>的子元素 <RequestHandle>，可以有多个
				List<Element> requestLists = servlce.getChildren("RequestHandle");

				for (Element Request : requestLists) {

					// 获取 <RequestHandle>的子元素 <Handle>，可以多个
					List<Element> handleLists = Request.getChildren("Handle");

					for (Element handle : handleLists) {

						// 获取<Handle>的属性 ： name 和 type
						logger.debug(handle.getAttributeValue("name"));
						logger.debug(handle.getAttributeValue("type"));

						// 获取<Handle> 的子元素<init-param> 可以有多个
						List<Element> paramLists = handle.getChildren("init-param");
						for (Element init_param : paramLists) {

							// 获取<init-param>的两个子元素 <param-name>和<param-value>
							Element param_name = init_param.getChild("param-name");
							logger.debug("param-name: " + param_name.getTextTrim());

							Element param_value = init_param.getChild("param-value");
							logger.debug("param-value: " + param_value.getTextTrim());

						}
					}
				}

			}

		} catch (JDOMException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}

	}

二、Dom4j

1、简介：

1）Dom4j是以上各api中效率最好的，javm内部使用的也是Dom4j。

2）Dom4j的文档写的非常好，介绍的很详细。它的文档位于下载包下：如dom4j-1.6.1\docs\guide.html 。

3）使用Dom4j解析XML文档，可以使用强大XPath语法。语法地址：http://www.zvon.org/xxl/XPathTutorial/General_chi/examples.html

2、创建XML文档以及对其CRUD

1）Dom4j创建Document和Element都需要用到DocumentHelper 类。如

// 创建一篇文档
Document doc = DocumentHelper.createDocument();
// 创建元素			
Element ele = DocumentHelper.createElement("插入新元素")；

2）Dom4j的语法设计，使得链式编程得到很大的便利。如添加一个新元素：

			// 3-在<insured>下添加新元素，注意，addText\addAttribute都是操作在元素<DESC>上
			document.getRootElement().element("insured").addElement("DESC").addText("新加的元素").addAttribute("属性","值");

3）Dom4j的解析语法有一个很大的不足，就是作CRUD的时候必须一层一层的从根元素开始获取。（可以使用XPath语法解决）。如下面添加、删除、更新元素时，必须从根节点开始获取，然后操作：

			// 3-2 指定位置上添加新元素：如<product>元素下子元素 <price>下添加<插入新元素>
			// 这个插入很恶心，一点都不爽。
			Element product = document.getRootElement().element("product");
			List<Element> list = product.elements();
			list.add(2,DocumentHelper.createElement("插入新元素").addText("这个插入很恶心"));

			// 3-3 删除指定节点，如删除<appnt>的<age>子元素
			 Element ageEle = document.getRootElement().element("appnt").element("age");//得到<age>元素
			 // ageEle.remove(ageEle);//是否可以删除自己？？ 答案是不行
			 ageEle.getParent().remove(ageEle);//只能利用父亲元素的remove()方法

			// 3-4 更新 修改<appnt>的<name>子元素
			document.getRootElement().element("appnt").element("name").addAttribute("修改属性","修改的属性值").setText("修改文本域：SAM");

4）生成文档的输出：

①、尽量配合格式化OutputFormat 类一起使用，这样可以避免编码错误的发生。

②、使用字符流转码，如：new OutputStreamWriter(new FileOutputStream("resources/Request.xml"),"utf-8")

③、直接使用字节流配合OutputFormat 格式化一起使用。

// 4-输出到文档
			// 注意：这边有可能会有编码问题：其实用于读取写入sting化的xml文件(称为报文)时，都存在转码问题。
			// 以前有个项目，和天猫对接，天猫的报文编码为 GBK 的，我们的系统统一UTF-8.这样很明显需要转码。
			// 先用 GBK 读取后需要转成 UTF-8 才能使用。
			// 问题分析:
			// 1) 这边控制编码的是IO流的 FileWriter 。
			// 2) FileWriter默认会使用本地平台的码表，如你的平台编码为GB2312。而你的xml文档的编码为utf-8，这样写入中文会乱码，即写入的为GB2312 。
			// 3) XMLWriter这边只接受 Writer ，我们可以使用 OutputStreamWriter 指定写入的编码为utf-8即可。
			OutputFormat format = OutputFormat.createPrettyPrint();// 格式化编辑器
			XMLWriter writer = new XMLWriter(new FileWriter("resources/Request.xml"),format);
			// XMLWriter writer = new XMLWriter(new OutputStreamWriter(new FileOutputStream("resources/Request.xml"),"utf-8"));
			writer.write(document);
			writer.close();

			// 编码扩展：修改xml的编码为 GBK 。
			// document这边默认会转成utf-8，写出的时候需要指定格式化输出器的编码为 GBK，
			// 然后利用字节流 FileOutputStream 直接输出
			// 或者利用字节流转成字符流 OutputStreamWriter，但是需要指定转的编码
			// OutputFormat format = OutputFormat.createPrettyPrint();//格式化编辑器
			// format.setEncoding("GBK");
			// 字符流
			// XMLWriter writer = new XMLWriter(new OutputStreamWriter(new FileOutputStream("resources/Request.xml"),"GBK"),format);
			// 自节流
			// XMLWriter writer = new XMLWriter(new FileOutputStream("resources/Request.xml"),format);
			// writer.write(document);
			// writer.close();

			// 漂亮的格式输出到控制台
			OutputFormat format2 = OutputFormat.createPrettyPrint();
			// format2.setEncoding("GBK");
			writer = new XMLWriter(System.out,format2);
			writer.write(document);

5）其实Dom4j的语法，在文档中非常详细，这边就不多说了。注意输出编码问题即可。详细代码如下：

	/**
	 * 创建XML文档以及CRUD
	 * 
	 * @throws DocumentException
	 * @throws IOException
	 */
	public void createDocument() {

		/******* 在原有文档上添加 **********/

		try {
			// 1- 获取解析器
			SAXReader reader = new SAXReader();

			// 2-读取文档
			Document document = reader.read(new File("resources/Request.xml"));
			// Document document = reader.read(new InputStreamReader(new FileInputStream("resources/Request.xml"),"GBK"));

			// 3-在<insured>下添加新元素，注意，addText\addAttribute都是操作在元素<DESC>上
			document.getRootElement().element("insured").addElement("DESC").addText("新加的元素").addAttribute("属性","值");

			// 3-2 指定位置上添加新元素：如<product>元素下子元素 <price>下添加<插入新元素>
			// 这个插入很恶心，一点都不爽。
			Element product = document.getRootElement().element("product");
			List<Element> list = product.elements();
			list.add(2,DocumentHelper.createElement("插入新元素").addText("这个插入很恶心"));

			// 3-3 删除指定节点，如删除<appnt>的<age>子元素
			 Element ageEle = document.getRootElement().element("appnt").element("age");//得到<age>元素
			 // ageEle.remove(ageEle);//是否一删除自己？？ 答案是不行
			 ageEle.getParent().remove(ageEle);//只能利用父亲元素的remove()方法

			// 3-4 更新 修改<appnt>的<name>子元素
			document.getRootElement().element("appnt").element("name").addAttribute("修改属性","修改的属性值").setText("修改文本域：SAM");

			// 4-输出到文档
			// 注意：这边有可能会有编码问题：其实用于读取写入sting化的xml文件(称为报文)时，都存在转码问题。
			// 以前有个项目，和天猫对接，天猫的报文编码为 GBK 的，我们的系统统一UTF-8.这样很明显需要转码。
			// 先用 GBK 读取后需要转成 UTF-8 才能使用。
			// 问题分析:
			// 1) 这边控制编码的是IO流的 FileWriter 。
			// 2) FileWriter默认会使用本地平台的码表，如你的平台编码为GB2312。而你的xml文档的编码为utf-8，这样写入中文会乱码，即写入的为GB2312 。
			// 3) XMLWriter这边只接受 Writer ，我们可以使用 OutputStreamWriter 指定写入的编码为utf-8即可。
			OutputFormat format = OutputFormat.createPrettyPrint();// 格式化编辑器
			XMLWriter writer = new XMLWriter(new FileWriter("resources/Request.xml"),format2);
			writer.write(document);

			/******************** 创建新文档 ********************/

			// 创建一篇文档
			Document doc = DocumentHelper.createDocument();

			// 添加一个元素
			Element root = doc.addElement("catalog");
			// 为root元素添加注释
			root.addComment("An XML Catalog");
			// 添加标记
			root.addProcessingInstruction("target","instruction");

			// 创建元素
			Element journalEl = new BaseElement("journal");
			// 添加属性
			journalEl.addAttribute("title","XML Zone");
			journalEl.addAttribute("publisher","IBM developerWorks");
			root.add(journalEl);

			// 添加元素
			Element articleEl = journalEl.addElement("article");
			articleEl.addAttribute("level","Intermediate");
			articleEl.addAttribute("date","December-2001");

			Element titleEl = articleEl.addElement("title");
			// 设置文本内容
			titleEl.setText("Java configuration with XML Schema");
			// titleEl.addText("Java configuration with XML Schema");

			Element authorEl = articleEl.addElement("author");
			authorEl.addElement("firstname").setText("Marcello");
			authorEl.addElement("lastname").addText("Vitaletti");

			// 可以使用 addDocType() 方法添加文档类型说明。
			doc.addDocType("catalog",null,"file://c:/Dtds/catalog.dtd");

			// 将xml转换成文本
			doc.asXML();

			OutputFormat format3 = OutputFormat.createPrettyPrint();
			writer = new XMLWriter(System.out,format3);
			writer.write(doc);
		} catch (DocumentException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}

	}

3、使用Dom4j的语法解析XML文档。一般来说，比较麻烦，使用xpath更加简便。

	/**
	 * 使用Dom4j解析xml文档
	 */
	public void readXml() {
		try {

			// 1- 获取解析器
			SAXReader reader = new SAXReader();

			// 2-读取文档
			InputStream in = this.getClass().getClassLoader().getResourceAsStream("Request.xml");
			Document document = reader.read(in);

			// 3-读取根节点
			Element root = document.getRootElement();

			QName qName = root.getQName();
			String name = qName.getName();
			logger.debug("根节点的名称： " + name);

			name = root.getName();
			logger.debug("根节点的名称2 ： " + name);

			// 4-获取子节点
			Element appneEle = root.element("appnt");// 只有一个
			String appntName = appneEle.element("name").getTextTrim();
			String appntAge = appneEle.element("age").getTextTrim();
			logger.debug("appnt节点的name为 ： " + appntName + " |age为 " + appntAge);

			// 5-获取有多个子节点
			Element serviceEle = (Element) root.elements("Service").get(1);

			// 5-1 获取属性值
			String attrName = serviceEle.attribute("name").getName();
			String attrNameValue = serviceEle.attribute("name").getValue();
			logger.debug("第一个<Service>元素的的name属性名：为 ： " + attrName + " |值为 " + attrNameValue);

			String attrTypeValue = serviceEle.attributeValue("type");
			logger.debug("第一个<Service>元素的的type属性值为 " + attrTypeValue);

			// 5-2 获取多个同名子节点
			List<Element> serviceEles = root.elements("Service");
			for (Iterator<Element> iterator = serviceEles.iterator(); iterator.hasNext();) {
				Element element = (Element) iterator.next();
				// 递归
				treeWalk(element);
				// ...随意操作

			}
		} catch (DocumentException e) {
			e.printStackTrace();
		}

	}

	/**
	 * 递归方法
	 * 
	 * @param element
	 */
	public void treeWalk(Element element) {
		System.out.println(element.getName());

		for (int i = 0,size = element.nodeCount(); i < size; i++) {
			Node node = element.node(i);
			if (node instanceof Element) {

				treeWalk((Element) node);
			} else {
				// do something....
			}
		}
	}

4、XML与String的相互转换：

1）XML转String：Document.asXML()方法即可。

2）String转XML：需要使用DocumentHelper.parseText("")方法。

	/**
	 * XML与String的相互转换
	 */
	public void ConverXmlAndString() {
		try {
			Document document = DocumentHelper.createDocument();
			String text = document.asXML();

			String text2 = "<person> <name>James</name> </person>";
			Document document2 = DocumentHelper.parseText(text2);

		} catch (DocumentException e) {
			e.printStackTrace();
		}
	}

5、使用XPath解析XML文档。

1）必须添加jaxen.jar 包，在下载Dom4j包中就有，添加即可。

2）XPath的语法规范有中文版本，具体地址为：http://www.zvon.org/xxl/XPathTutorial/General_chi/examples.html

3）Dom4j中与XPath有关的主要方法为

//得到单个元素，如果为多个，默认取第一个
document.selectSingleNode("");

//得到符合条件的元素集合
document.selectNodes("");

4） XPath语法最主要的为："/"：绝对路径，需要层次分明；"//"：相对路径，获取多个值；"@"进行条件筛选。

5）具体语法代码如下：

<?xml version="1.0" encoding="UTF-8"?>
<rootElement name="属性">
	<user id="a1" name="33">用户1</user>
	<user id="a2" name="33">用户2</user>
	
	<APPNT id="1" name="SAM-SHO" age="28">我是投保人<!--我是注解--></APPNT>
	<INSURED id="2" name="SAMMY" age="49"><user id="a3">用户3</user></INSURED>
</rootElement>

	/**
	 * 利用强大的XPath 语法：http://www.zvon.org/xxl/XPathTutorial/General/examples.html
	 * 需要导入jaxen.jar包
	 */
	public void xPathTest() {
		try {
			// 1- 获取解析器
			SAXReader reader = new SAXReader();

			// 2-读取文档
			Document document = reader.read(new File("resources/xpath.xml"));

			// 3-利用XPath
			// 3-1 以斜线 / 开始,那么该路径就表示到一个元素的绝对路径
			Element rootEle = (Element) document.selectSingleNode("/rootElement");// 得到根元素<rootElement>元素
			System.out.println(rootEle.attributeValue("name"));// 属性

			// 3-2 得到<APPNT>元素: "/"绝对路径，层次必须清楚
			Node appntNode = document.selectSingleNode("/rootElement/APPNT");
			System.out.println(appntNode.getText());// 我是投保人

			// 3-3 双斜线 // 开头,则表示选择文档中所有满足双斜线//之后规则的元素,相对路径
			// 得到所有的user元素,不论层级，"用户3"也会在范围内
			List<Node> list = document.selectNodes("//user");
			for (Iterator<Node> iterator = list.iterator(); iterator.hasNext();) {
				Node node = (Node) iterator.next();
				System.out.println(node.getText());
			}

			// 3-4 删选元素:"@"，如id='a1'的<user>元素，需要有单引号''
			Node userNode = document.selectSingleNode("//user[@id='a1']");
			System.out.println(userNode.getText());// 用户1

			// @ 中可以使用 and 和or等逻辑:如 获取id='a1'或者id='a3'的<user>元素
			List<Node> listNodes = document.selectNodes("//user[@id='a1' or @id='a3']");
			for (Iterator<Node> iterator = listNodes.iterator(); iterator.hasNext();) {
				Node node = (Node) iterator.next();
				System.out.println("获取id='a1'或者id='a3'的<user>元素 : "+node.getText());
			}

			// @:获取id='a1'and name='33'的<user>元素
			userNode = document.selectSingleNode("//user[@id='a1' and @name='33']");
			System.out.println("获取id='a1'and name='33'的<user>元素: " + userNode.getText());

		} catch (DocumentException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}

	}

三、小结：

1、jaxp的api使用还是比较麻烦的，功能和效率都不是很好，直接可以被JDom和Dom4J代替。意见是如果不是万不得已，还是不要使用。

2、Dom4j 比JDom 的使用更加简便，且效率更高。

2、其实Java 内部的jaxm用的就是 Dom4j，所以一般我们使用Dom4j即可。而在解析xml时推荐使用更加强大简便的XPath语法。

原文链接：https://www.f2er.com/xml/297703.html

XML学习笔记（五）：使用 jdom和dom4j 解析XML

猜你在找的XML相关文章