浅析使用SAX解析XML
@H_
403_3@
1. 概述
@H_
403_3@Java解析XML通常有两种方式,DOM和SAX。DOM虽然是W3C的标准,提供了标准的解析方式,但它的解析效率一直不尽如人意,因为使用DOM解析XML时,解析器读入整个文档并构建一个驻留内存的树结构(节点树),然后您的
代码才可以使用DOM的标准接口来操作这个树结构。但大部分情况下我们只对文档的部分
内容感兴趣,根本就不用先解析整个文档,并且从节点树的根节点来索引一些我们需要的数据也是非常耗时的。
@H_
403_3@SAX是一种XML解析的替代
方法。相比于文档对象模型DOM,SAX是读取和操作XML数据的更
快速、更轻量的
方法。SAX允许您在读取文档时处理它,从而不必等待整个文档被存储之后才采取操作。它不涉及DOM所必需的开销和概念跳跃。
@H_
403_3@SAX解析XML文档采用事件驱动模式。什么是事件驱动模式?它将XML文档转换成一系列的事件,由单独的事件处理器来决定如何处理。
@H_
403_3@基于事件驱动的处理模式主要是基于事件源和事件处理器(或者叫监听器)来工作的。一个可以产生事件的对象叫做事件源,而一个可以针对事件做出响应的对象就被叫做事件处理器。
@H_
403_3@以下介绍使用SAX来解析XML,如果您对DOM解析感兴趣,请自行查阅相关资料。
@H_
403_3@
2. API
@H_
403_3@SAX API是一个基于事件的API,适用于处理数据流,即随着数据的流动而依次处理数据。
@H_
403_3@下面介绍类库中常用到的接口与类。
@H_
403_3@
2.1 ContentHandler接口
@H_
403_3@接口作用:用于接收XML文档逻辑
内容的
通知的处理器接口。这是我们做XML的SAX解析最常用到的接口。
@H_
403_3@该接口中常用的
方法:
public void characters(char[] ch,int begin,int length) throws SAXException;
public void endElement (String uri,String localName,String qName)
throws SAXException;
public void startDocument () throws SAXException;
public void startElement (String uri,String qName,Attributes atts)
throws SAXException;
@H_
403_3@
2.2 DTDHandler 接口
@H_
403_3@接口作用:用于接收与DTD相关的事件的
通知的处理器接口。
@H_
403_3@
2.3 EntityResolver接口
@H_
403_3@接口作用:用于解析实体的基本接口。
@H_
403_3@
2.4 ErrorHandler接口
@H_
403_3@接口作用:是用于
错误处理程序的基本接口。
@H_
403_3@
2.5 DefaultHandler类
@H_
403_3@实际上DefaultHandler就是实现了前述的四个事件处理器接口,然后提供了每个抽象
方法的默认实现。
@H_
403_3@我们在使用SAX时,一般都是继承自DefaultHandler,然后实现需要的
方法,而保持其他
方法默认实现。
@H_
403_3@
2.6 SAXParser
@H_
403_3@SAX解析器,此类的实例可以从SAXParserFactory.newSAXParser()
方法获得。
获取此类的实例之后,将可以从各种输入源解析XML。
@H_
403_3@简单示例:
@H_
403_3@xml
文件:
<employees>
<employee id="1">
<name>小明</name>
<age>29</age>
<address>四川成都</address>
</employee>
<employee id="2">
<name>老骆</name>
<age>35</age>
<address>四川成都</address>
</employee>
</employees>
@H_
403_3@处理器类:
package com.demo;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;
/** * 处理器类 * * @author 小明 * */
public class MyHandler extends DefaultHandler {
private Map<String,String> map;
private List<Map<String,String>> list;
private String currentTag;
private String currentValue;
private String nodeName;
public MyHandler(String nodeName) {
super();
this.nodeName = nodeName;
}
public List<Map<String,String>> getList() {
return list;
}
/** * 当读取到xml文档准备开始解析的时候,这时会触发这个方法的执行 */
@Override
public void startDocument() throws SAXException {
list = new ArrayList<Map<String,String>>();
}
/** * 当遇到元素开始的时候,调用这个方法 */
@Override
public void startElement(String uri,Attributes attributes) throws SAXException {
if (qName.equals(nodeName)) {
map = new HashMap<String,String>();
}
if (attributes != null && map != null) {
for (int i = 0; i < attributes.getLength(); i++) {
map.put(attributes.getQName(i),attributes.getValue(i));
}
}
currentTag = qName;
}
/** * 这个方法是用来处理xml文本节点所读取到的内容 */
@Override
public void characters(char[] ch,int start,int length)
throws SAXException {
if (currentTag != null && map != null) {
currentValue = new String(ch,start,length);
if (currentValue != null && !"".equals(currentValue.trim())
&& !"\n".equals(currentValue.trim())) {
map.put(currentTag,currentValue);
}
}
currentTag = null;
currentValue = null;
}
/** * 遇到结束标记的时候会调用这个方法 */
@Override
public void endElement(String uri,String qName)
throws SAXException {
if (qName.equals(nodeName)) {
list.add(map);
map = null;
}
}
}
@H_
403_3@服务类:
package com.demo;
import java.io.File;
import java.io.IOException;
import java.io.InputStream;
import java.util.List;
import java.util.Map;
import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import org.xml.sax.SAXException;
/** * 解析服务类 * * @author 小明 * */
public class SAXService {
/** * 解析XML节点 * * @param in * 待解析的XML输入流 * @param nodeName * 待解析的节点名称 * @return 完整解析列表 */
public static List<Map<String,String>> readXML(InputStream in,String nodeName) {
SAXParserFactory factory = SAXParserFactory.newInstance();
try {
SAXParser parser = factory.newSAXParser();
MyHandler handler = new MyHandler(nodeName);
parser.parse(in,handler);
in.close();
return handler.getList();
} catch (ParserConfigurationException e) {
e.printStackTrace();
} catch (SAXException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
return null;
}
/** * 解析XML节点 * * @param file * 待解析的xml文件对象 * @param nodeName * 待解析的节点名称 * @return 完整解析列表 */
public static List<Map<String,String>> readXML(File file,String nodeName) {
SAXParserFactory factory = SAXParserFactory.newInstance();
try {
SAXParser parser = factory.newSAXParser();
MyHandler handler = new MyHandler(nodeName);
parser.parse(file,handler);
return handler.getList();
} catch (ParserConfigurationException e) {
e.printStackTrace();
} catch (SAXException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
return null;
}
}
@H_
403_3@测试类:
package com.demo;
import java.io.File;
import java.util.List;
import java.util.Map;
public class SaxDemo {
public static void main(String[] args) {
File file = new File("demo.xml");
List<Map<String,String>> list = SAXService.readXML(file,"employee");
for (Map<String,String> map : list) {
System.out.println(map);
}
}
}