使用Libxml2操作XML文档

一、Libxml2介绍：

Libxml2是一个xml的c语言版的解析器，本来是为Gnome项目开发的工具，是一个基于MIT License的免费开源软件。它除了支持c语言版以外，还支持c++、PHP、Pascal、Ruby、Tcl等语言的绑定，能在Windows、Linux、Solaris、MacOsX等平台上运行。功能还是相当强大的，相信满足一般用户需求没有任何问题。

二、Libxml2安装：

一般如果在安装系统的时候选中了所有开发库和开发工具的话(Fedora Core系列下)，应该不用安装，下面介绍一下手动安装：

1)从xmlsoft站点或ftp(ftp.xmlsoft.org)站点下载libxml压缩包(libxml2-xxxx.tar.gz)

2)对压缩包进行解压缩

tar xvzf libxml2-xxxx.tar.gz

3)进入解压缩后的文件夹中运行

./configure

make

make install

安装完成后就可以使用简单的代码解析XML文件，包括本地和远程的文件，但是在编码上有一些问题。Libxml默认只支持UTF－8的编码，无论输入输出都是UTF-8，所以如果你解析完一个XML得到的结果都是UTF－8的，如果需要输出GB2312或者其它编码，需要ICONV来做转码(生成UTF－8编码的文件也可以用它做),如果系统中没有安装iconv的话，需要安装libiconv。

1)下载libiconv压缩包(例如libiconv-1.11.tar.gz)

2)对压缩包进行解压缩

tar xvzf libiconv-1.11.tar.gz

3)进入解压缩后的文件夹中运行

./configure

make

make install

三、关于XML：

在开始研究Libxml2库之前，先了解一下XML的相关基础。XML是一种基于文本的格式，它可用来创建能够通过各种语言和平台访问的结构化数据。它包括一系列类似HTML的标记，并以树型结构来对这些标记进行排列。

例如，可参见清单1中介绍的简单文档。为了更清楚地显示XML的一般概念，下面是一个简化的XML文件。

清单1.一个简单的XML文件

<?xml version="1.0" encoding="UTF-8"?>

<files>

<action>delete</action>

</files>

清单1中的第一行是XML声明，它告诉负责处理XML的应用程序，即解析器，将要处理的XML的版本。大部分的文件使用版本1.0编写，但也有少量的版本1.1的文件。它还定义了所使用的编码。大部分文件使用UTF-8，但是，XML设计用来集成各种语言中的数据，包括那些不使用英语字母的语言。

接下来出现的是元素。一个元素以开始标记开始(如<files>)，并以结束标记结束(如</files>)，其中使用斜线(/)来区别于开始标记。元素是Node的一种类型。XML文档对象模型(DOM)定义了几种不同的Nodes类型，包括:

Elements(如files或者age)

Attributes(如units)

Text(如root或者10)

元素可以具有子节点。例如，age元素有一个子元素，即文本节点10。

XML解析器可以利用这种父子结构来遍历文档，甚至修改文档的结构或内容。LibXML2是这样的解析器中的其中一种，并且文中的示例应用程序正是使用这种结构来实现该目的。对于各种不同的环境，有许多不同的解析器和库。LibXML2是用于UNIX环境的解析器和库中最好的一种，并且经过扩展，它提供了对几种脚本语言的支持，如Perl和Python。

四、使用Libxml2

项目中要实现一个管理XML文件的后台程序，需要对XML文件进行创建，解析，修改，查找等操作，下面介绍如何利用libxml2提供的库来实现上述功能。

1、创建XML文档：

我们使用xmlNewDoc()来创建XML文档，然后使用xmlNewNode(),xmlNewChild(),xmlNewProp(),xmlNewText()等函数向XML文件中添加节点及子节点，设置元素和属性，创建完毕后用xmlSaveFormatFileEnc()来保存XML文件到磁盘(该函数可以设置保存XML文件时的编码格式)。

示例1：

#include <stdio.h>

#include <libxml/parser.h>

#include <libxml/tree.h>

int main(int argc,char **argv)

{

xmlDocPtr doc = NULL; /* document pointer */

xmlNodePtr root_node = NULL,node = NULL,node1 = NULL;/* node pointers */

// Creates a new document,a node and set it as a root node

doc = xmlNewDoc(BAD_CAST "1.0");

root_node = xmlNewNode(NULL,BAD_CAST "root");

xmlDocSetRootElement(doc,root_node);

//creates a new node,which is "attached" as child node of root_node node.

xmlNewChild(root_node,NULL,BAD_CAST "node1",BAD_CAST "content of node1");

// xmlNewProp() creates attributes,which is "attached" to an node.

node=xmlNewChild(root_node,BAD_CAST "node3",BAD_CAST"node has attributes");

xmlNewProp(node,BAD_CAST "attribute",BAD_CAST "yes");

//Here goes another way to create nodes.

node = xmlNewNode(NULL,BAD_CAST "node4");

node1 = xmlNewText(BAD_CAST"other way to create content");

xmlAddChild(node,node1);

xmlAddChild(root_node,node);

//Dumping document to stdio or file

xmlSaveFormatFileEnc(argc > 1 ? argv[1] : "-",doc,"UTF-8",1);

/*free the document */

xmlFreeDoc(doc);

xmlCleanupParser();

xmlMemoryDump();//debug memory for regression tests

return(0);

}

2、解析XML文档

解析文档时仅仅需要文件名并只调用一个函数，并有错误检查，常用的相关函数有xmlParseFile(),xmlParseDoc(),获取文档指针后，就可以使用xmlDocGetRootElement()来获取根元素节点指针，利用该指针就可以在DOM树里漫游了，结束后要调用xmlFreeDoc()释放。

示例2：

xmlDocPtr doc; //定义解析文档指针

xmlNodePtr cur; //定义结点指针(你需要它为了在各个结点间移动)

xmlChar *key;

doc = xmlReadFile(url,MY_ENCODING,256); //解析文件

/*检查解析文档是否成功，如果不成功，libxml将指一个注册的错误并停止。一个常见错误是不适当的编码。XML标准文档除了用UTF-8或UTF-16外还可用其它编码保存。如果文档是这样，libxml将自动地为你转换到UTF-8。更多关于XML编码信息包含在XML标准中。*/

if (doc == NULL ) {

fprintf(stderr,"Document not parsed successfully. /n");

return;

cur = xmlDocGetRootElement(doc); //确定文档根元素

/*检查确认当前文档中包含内容*/

if (cur == NULL) {

fprintf(stderr,"empty document/n");

/*在这个例子中，我们需要确认文档是正确的类型。“root”是在这个示例中使用文档的根类型。*/

if (xmlStrcmp(cur->name,(const xmlChar *) "root")) {

cur = cur->xmlChildrenNode;

while(cur!=NULL) {

if ((!xmlStrcmp(cur->name,(const xmlChar *)"keyword"))) {

key = xmlNodeListGetString(doc,cur->xmlChildrenNode,51); font-family:Arial; font-size:13.63636302947998px; line-height:25.99431800842285px; margin:auto 0cm"> printf("keyword: %s/n",key);

xmlFree(key);

cur = cur->next;

xmlFreeDoc(doc);

3、修改XML元素及属性等信息

要修改XML文档里的元素及属性等信息，先需要解析XML文档，获得一个节点指针(xmlNodePtr node),利用该节点指针漫游DOM树，就可以在XML文档中获取，修改，添加相关信息。

示例3：

得到一个节点的内容：

xmlChar *value = xmlNodeGetContent(node);

返回值value应该使用xmlFree(value)释放内存

得到一个节点的某属性值：

xmlChar *value = xmlGetProp(node,(const xmlChar *)"prop1");

返回值需要xmlFree(value)释放内存

设置一个节点的内容：

xmlNodeSetContent(node,(const xmlChar *)"test");

设置一个节点的某属性值：

xmlSetProp(node,(const xmlChar *)"prop1",(const xmlChar *)"v1");

添加一个节点元素：

xmlNewTextChild(node,(const xmlChar *)"keyword",(const xmlChar *)"test Element");

添加一个节点属性：

xmlNewProp(node,(const xmlChar *)"test Prop");

4、查找XML节点

有时候对一个XML文档我们可能只关心其中某一个或某几个特定的Element的值或其属性，如果漫游DOM树将是很痛苦也很无聊的事，利用XPath可以非常方便地得到你想的Element。下面是一个自定义函数：

示例4：

xmlXPathObjectPtr get_nodeset(xmlDocPtr doc,const xmlChar *xpath) {

xmlXPathContextPtr context;

xmlXPathObjectPtr result;

context = xmlXPathNewContext(doc);

if (context == NULL) {

printf("context is NULL/n");

return NULL;

result = xmlXPathEvalExpression(xpath,context);

xmlXPathFreeContext(context);

if (result == NULL) {

printf("xmlXPathEvalExpression return NULL/n");

if (xmlXPathNodeSetIsEmpty(result->nodesetval)) {

xmlXPathFreeObject(result);

printf("nodeset is empty/n");

return result;

在doc指向的XML文档中查询满足xpath表达式条件的节点，返回满足这一条件的节点集合查询条件xpath的写法参见xpath相关资料。在查询完毕获取结果集后，就可以通过返回的xmlXPathObjectPtr结构访问该节点：

示例5：

xmlChar *xpath = ("/root/node/[@key='keyword']");

xmlXPathObjectPtr app_result = get_nodeset(doc,xpath);

if (app_result == NULL) {

printf("app_result is NULL/n");

return;

int i = 0;

xmlChar *value;

if(app_result) {

xmlNodeSetPtr nodeset = app_result->nodesetval;

for (i=0; i < nodeset->nodeNr; i++) {

cur = nodeset->nodeTab[i];

value = xmlGetProp(cur,(const xmlChar *)"key");

if (value != NULL) {

printf("value: %s/n/n",d_ConvertCharset("utf-8","GBK",(char *)value));

xmlFree(value);

value = xmlNodeGetContent(cur);

xmlXPathFreeObject (app_result);

通过get_nodeset()返回的结果集，我们可以获取该节点的元素及属性，也可以修改该节点的值。示例中在获取值打印的时候用到d_ConvertCharset()函数来改变编码格式为GBK，以方便正确读取可能的中文字符。

5、编码问题

由于Libxml一般以UTF-8格式保存和操纵数据，如果你的程序使用其它的数据格式，比如中文字符(GB2312，GBK编码)，就必须使用Libxml函数转换到UTF-8。如果你想你的程序以除UTF-8外的其它编码方式输出也必须做转换。

下面的示例程序提供几个函数来实现对数据编码格式的转换，其中有的要用到Libiconv，因此为了确保他们能正常工作，先检查以下系统中是否已经安装libiconv库。

示例6：

xmlChar *ConvertInput(const char *in,const char *encoding) {

unsigned char *out;

int ret;

int size;

int out_size;

int temp;

xmlCharEncodingHandlerPtr handler;

if (in == 0)

return 0;

handler = xmlFindCharEncodingHandler(encoding);

if (!handler) {

printf("ConvertInput: no encoding handler found for '%s'/n",encoding ? encoding : "");

size = (int) strlen(in) + 1;

out_size = size * 2 - 1;

out = (unsigned char *) xmlMalloc((size_t) out_size);

if (out != 0) {

temp = size - 1;

ret = handler->input(out,&out_size,(const unsigned char *) in,&temp);

if ((ret < 0) || (temp - size + 1)) {

if (ret < 0) {

printf("ConvertInput: conversion wasn't successful./n");

} else {

printf("ConvertInput:conversion wasn't successful. converted: %i octets./n",temp);

xmlFree(out);

out = 0;

out = (unsigned char *) xmlRealloc(out,out_size + 1);

out[out_size] = 0; /*null terminating out */

printf("ConvertInput: no mem/n");

return out;

示例7：

char * Convert( char *encFrom,char *encTo,const char * in) {

static char bufin[1024],bufout[1024],*sin,*sout;

int mode,lenin,lenout,ret,nline;

iconv_t c_pt;

if ((c_pt = iconv_open(encTo,encFrom)) == (iconv_t)-1) {

printf("iconv_open false: %s ==> %s/n",encFrom,encTo);

iconv(c_pt,NULL);

lenin = strlen(in) + 1;

lenout = 1024;

sin = (char *)in;

sout = bufout;

ret = iconv(c_pt,&sin,(size_t *)&lenin,&sout,(size_t *)&lenout);

if (ret == -1) {

iconv_close(c_pt);

return bufout;

示例8：

char *d_ConvertCharset(char *cpEncodeFrom,char *cpEncodeTo,const char *cpInput) {

static char s_strBufOut[1024],*cpOut;

size_t iInputLen,IoUtLen,iReturn;

if ((c_pt = iconv_open(cpEncodeTo,cpEncodeFrom)) == (iconv_t)-1) {

printf("iconv_open Failed!/n");

iInputLen = strlen(cpInput) + 1;

IoUtLen = 1024;

sin = (char *)cpInput;

cpOut = s_strBufOut;

iReturn = iconv(c_pt,&iInputLen,&cpOut,&IoUtLen);

if (iReturn == -1) {

return s_strBufOut;

通过上述函数，可以方便的在XML文件中保存并操纵中文字符。

原文链接：https://www.f2er.com/xml/299659.html

使用Libxml2操作XML文档

猜你在找的XML相关文章