您好,欢迎来到爱go旅游网。
搜索
您的当前位置:首页XML和RDF异构数据源的语义集成和检索

XML和RDF异构数据源的语义集成和检索

来源:爱go旅游网
维普资讯 http://www.cqvip.com 第34卷 第9期 Vo1.34 ・计算机工程 2008年5月 May2008 No.9 Computer Engineering 软件技术与数据库・ 文章编号:100t)--3428(2008)09--0073—03 文献标识码;A 中图分类号:TP391 XML和RDF异构数据源的语义集成和检索 严玮峰,李生琦 (宁夏大学数学计算机学院,银川750021) 摘要:提出一种基于Schema的数据管理框架。该框架利用分层式的体系结构和全局视图(GA、,)的集成方法,对分布式的异构数据源XML 和RDF进行语集成。讨论了分层式体系结构的组成、映射过程和查询处理。实验结果表明了该框架的可行性。 关健词:语义集成;语义网;模式匹配 Semantic Integration and Retrieval of Heterogeneous XML and RDF Data Sources YAN Wei-feng,LI Sheng qi (School of Mathematics and Computer Science,Ningxia University,Yinchuan 750021) [Abstract|This paper describes a schema—based data management framework which uses a layered architecture and a Global-As—View(GAY) approach to semantically integrate distibutred heterogeneous XML nd aRDF data sources.Composiion tof the layered architecture,mapping process nd aquery processing are discussed.The experimental results show that the rameworfk is feasible. [Key wordsl semantic integration;semantic Web;schema matching 1概述 Internet的飞速发展使网络成为信息传播和交换的重要 为网络中的其它结点用户系统提供服务和使用服务,本文提 出了如下分层的体系结构,如图2所示。 应用层 服务层 手段。但是Web上信息的语义无法被计算机理解,语义网 (semantic web)应运而生,其层次结构[11如图1所示。 表示层 语法层 图2异构数据语义集成分层体系结构框架 该体系结构框架分为4层,每个下层功能的实现都是其 上层功能实现的前提,它们相互依附,在每个自治节点内部 达到了紧耦合的要求。该系统自上而下的结构如下: 图1语义孵的层次结构 (1)应用层(application layer),提供统一的图形用户接口 语义网提出在Web内容上增加语义,使异构数据源具有 交互性。虽然RDF和XML都能用来表示Web上的信息,但 两者差异很大:RDF数据具有域结构(概念层次上的关系), 而XML数据具有文档结构(元素层次上的关系) 。Web环境 下的异构数据源集成,特别是基于RDF/XML的数据集成问 (Graphic User Interface,GUI),为用户查询数据提供便利。在 网络的每个自治节点上,用户直接通过这个统一的图形化接 口来与本地数据源集成管理系统和网络上其他数据源的集成 管理系统进行交互,使人机交互界面更友好。 (2)服务层(service layer),包括查询模块(query module)和 映射模块(mapping module)。通过查询模块,可以与网络上其 他自治节点交互,形成一个基于网络的多数据库(multi— database)检索系统,实现在一个在相对广泛的数据源中进行 查询的模型。通过映射模块,可以与网络中其他自治系统进 行语义交互,建立一个混合型体系结构。 (3)表示层(representation layer),通过包装器(XML/RDF 基金项目:国家自然科学基金资助项目(60663003) 题,已成为数据集成研究领域及相其关领域的重要课题。 2分层体系结构框架系统 异构数据源的语义集成通常采用概念模型(conceptual mode1),例如E R模型、本体模型。本文系统使用基于Schema 的数据集成技术来集成异构的XML和RDF数据源,其设计 采用混合型体系结构(hybrid architecture)和全局视图 (Global—As—View,GAV)的方法 j。 考虑到系统的自治性,数据库维护的便利性,还有异构 数据源之间的交互性等诸多问题,为使此数据集成管理系统 可以像传统的数据库那样管理自己的本地数据源,同时又能 作者简介:严玮峰(1981一),男,硕士研究生,主研方向:信息集成, 知识工程;李生琦,教授 收稿日期:2007—05—23 E—mail:gennyie@163.com 一73— 维普资讯 http://www.cqvip.com wrapper),将本地数据源中的模式(schema)和数据(data)统一 转化为局部本体。分别使用RDFS(RDF Schema)和RDFMS (RDF Mapping Schema)描述局部本体和映射。 (4)语法层(syntax layer),位于系统底层,为局部本体和 数据实例提供统一的语法,为语义交互打下基础。 综上所述,这种分层式的体系结构框架,为目前异构信 息系统集成面临的异构性、分布性和自治性挑战 J,提供了 比较有效的解决方案,而且充分考虑了由Tim Berners—Lee提 出的在语义网上实现异构数据源的语义交互性。 3映射过程 Web中的每个节点所提供的数据源是XML或RDF。 XML数据使用xML Schema来描述,而RDF数据的类和属 (a)S1的局部本体 (b)s2的局部本体 性则使用RDF Schema来描述。局部本体和全局本体间的映 射通过模式匹配(schema matching)[51来建立。保护好RDF数 据源的域结构(domain structure)和XML数据源的文档结构 (document structure)是映射过程的关键。 3.1局部本体的映射 本文方法使用RDFS将局部元数据(1ocal metadata)表示 成局部本体;关系型数据也用RDFS表示;表关系表示成RDF 类;各表属性表示成RDF属性。在转换XML数据为RDF 数据时,将复杂类型(含有嵌套子元素)的元素表示成RDF类, 将简单类型(不含嵌套子元素)的元素和属性表示成RDF属 性。分别将异构的数据源映射为RDFS表示的局部本体,如 图3~图5所示。 CS Department faculty ・ (c) 3的局部本体 图6 RDFS描述的局部本俸 _nalme(“王小红”) L pub(“P01p02”1 faculty 3.2全局本体的映射 通过模式匹配集成RDFS描述的各个局部本体,形成全 局本体。模式匹配的功能是把全局本体G和分布的各个局部 本体R作为输入,返回元素G和R之间的映射M作为输出。 同时,全局本体通过从局部RDF Schema中归并或增加元数 据得到更新。 _name(“李小龙”)l _lid title L pub(“p02 04”) publication type Local XML id(“p01”) 广-I title(“tl”) L type(“book”1 publication RDF Schema中的元素包括类和属性。用本地RDF Schema同全局RDF ̄ontology匹配时,对于本地RDF Schema Schema 中的每个元素 ,如果在全局ontology中已经存在与之语义 等价的元素 ,则这两个元素归并;否则,将元素 拷贝到 全局ontology成为 。映射表包含了局部RDF本体和全局 , 图3异构的数据源SI(SML) RDF本体之间的映射信息。通常,如果全局本体 中的各个 类、类的属性或它们之间的关系,由分布不同的数据源 和 觚 一— 二圃 通过模式匹配归并而得,则产生形如( , , )的映射信 息。如果全局ontology 中的类和属性是拷贝局部本体 而 产生的,则产生形如( , )的映射信息。 4查询处理 对XML数据源的查询,可用PXQuery(Partial XQuery) 图4异构的数据源S2(RDF) f 0ceedIngs Author horAut r- —_L表示,它遵循XQuery[61规则,是XQuery的一个子集,包含  ̄roc可__] 4个子旬:for,let,where,return。而对RDF数据源的查询, 匪 rJ ——0—0——1 —fl ——————t——————叫r臣珥 ——————— ——————— —————'= = l UU糟■l UU ■  {[ Itl I 2003 l 0l01 l李小龙l北京大学l广 _r— 堡I I [王,lJ 堑工堕坐 兰]亡 亘七: 图5异构的数据源S3(RDB) 可使用RDQL ,它采用类似SQL语法的表达,由以下子旬 构成:SELECT,FROM,WHERE,AND和usING。本文用三 元组( , , )表示一个PXQuery的查询Q,其中, 和 分别是包含在return子旬和where子旬中所有xML路径 分别将图3---图5中的 l, , 3转换成用RDFS表示的 局部本体,如图6所示。 表达式的集合; 是一些,其项由形如vRc的表达式构 -7 一 维普资讯 http://www.cqvip.com 成,v∈vo ,R是一个比较操作(例如:=, ,>_,≤,≥,≠),C代 表常量。用三元组( , ,CQ)表示一个RDQL的查询,其 中, 和 是两个集合,分别是SELECT子句和WHERE 如下: SELECT?title WHERE(?article,<lo:title>,?title),//lo代表局部本体的命名空间 (?article,<rdfx:contin>,a?writer), (?writer,<lo:wholename>,?wholename) AND(?wholename eq“a2”) 子句中所有RDF路径表达式的集合。 4.1源查询的分析与转换 将分析源查询从字符串类型转化为三元组,如果在XML 源上,则使用PXQuery查询,将它转换成三元组 ( , , );如果在RDF源上,则使用RDQL查询表达式, 将它转换成三元组( , , )。因为两者的查询过程相似, ‰ 一 4.3返回的查询结果集成 通过集成本地查询结果和远程查询返回的查询结果,可 得到最终的查询结果。这不仅要在移除相似记录的同时,联 合来自不同数据源的查询结果,还要使用某些关键属性来关 联查询记录,实现查询过程的语义集成。 所以只须进行相应变换就能得到。 4.2源查询的分解 使用查询重写算法RDQL2RDQL或RDQL2PxQuery,将 用户源查询重写为各个异构数据源上的目标子查询,这要用 5结束语 本文提出了一种集成异构XML和RDF数据源的方法, 使用分层式的体系结构框架,为异构信息系统当前面临的挑 战提供了一种解决方案,使异构数据源具有语义交互性。 参考文献 [1]Berners—Lee T SemanticWeb[EB/OL].(2000—12—06).http://www.w3. orgl2000/talks/1206一xml2k—Tim.tbl/.XML2000. 到生成的映射表信息。查询重写可以用函数表达式 O =,(01, )来表示,其中,Q1是源查询;M是映射信息, 通过查询重写算法,(Q1, )就能生成需要的目标子查询。 例如,查找由作者“ 2”出版的所有图书,代码如下: SELECT?title [2]Halevy A Y Piazza:Data Management Infrastructure for Semantic Web Applications[C]//Proceedings of the 12th International World Wide Web Conference.is.1.]:IEEE Press,2003:556—567. [3]Lenzerini M.Data Integration:A Theoretical Perspective[C]// Proceedings of the 21st ACM SIGACT-SIGMOD—SIGART WHERE(?book,<go:title>,?title),//go代表全局本体的命名空间 (?book,<rdfx:contains>,?author), (?author,<go:name>,?name) AND(?name eq“a2”) 首先,可得到: {Book・title} {Book,Book・tilte,Author,Author・name} CQ ,Symposium on Principles of Database Systems.IS.1.]:ACM Press, 2003:233—246. [4]张付志.信息集成技术在数字图书馆中的应用研究[J].计算机 工程,2005,3l(7):90—92. [5]Rahm E,Bernstein P A.A Survey of Approaches tO Automatic Schema Matching[J].VLDB Journal,2001,l0(4):334—350. ={Auth0r.name,eq,”a2”) 再使用映射表信息 更新源查询为语义等价的三元组, 如下: ’ [6]Boag S,Chamberlin D,Fern ̄dez M E et a1.XQuery 1 L(】:An XML {Article・title} {Article,Article・irlfe,Writer,Writer,Wholename} Query Language[EB/0L].(2003—12—12).http://www.w3.org/TR/ xquery/W3C Working ̄Draft. CQ i{Writer・wholename,eq,”a2”) [7]HP Labs.RDQL—RDF Data Query Language[EB/OL].(2003—12—05). http:llwww.hp1.hp.com/semweb/rdq!.htm. 然后,将源查询重写为各异构数据源上的目标子查询, (上接第72页) 阈值B—threshold越高,则召回率Recall越低,因为阈值 降低虽然可能误判一些正常邮件为敏感邮件类别,但减少了 漏判的概率。在贝叶斯分类模块,设置B—threshold=O.4,并 该方法对海量数据的处理有很高的分类效率和较高的准确 率。该方法也同样适用于垃圾邮件的过滤技术,对大量邮件 进行自动分类和转发,有效减少了系统分发邮件的工作量。 将基于中文分词的普通贝叶斯算法与基于数据库查询的贝叶 斯算法的最终结果进行了比较,如表5所示。 表5结果比较 训练时间/s测试时间/s 召回率 准确率 基于中文分词的贝叶斯分类 基于数据库查询的贝叶斯分类 参考文献 [1]张培颖,李村合.一种中文分词词典新机制一一四字哈希机 制[J].微型电脑应用,2006,22(10):35—36. [2]Shaffer C A.数据结构与算法分析[M].张京:电子工业出版社,2001. 铭,刘晓丹,译.北 5 5 2 329 478 O 926 O.930 O 941 O.987 [3]周志军.中文邮件分类系统的研究及其实现[D].苏州:苏州大 学,2005—04. 结果显示,与基于分词的分类方法相比,本文提出的分 类方法在效率上优势十分明显,召回率相当但准确率略高, [4]郑刚,彭宏,郑启伦.存储过程在嵌入式多功能数据挖掘器 毅,赵景亮,等.Oracle 9i PL/SQL从入门到精 更加适合对海量邮件的处理和分析,完全能够满足实际需求。 中的应用[J].计算机应用,2006,26(6):102—104. [5]谈竹贤,王通[M].北京:中国水利水电出版社,2002—02. [6]高朝瑞.GKD—Base PL/SQL存储过程和包的研究与实现[D].长 6结束语 结合某安全部门的现实需求,本文研究了针对解析后存 储在数据库中的海量邮件数据的敏感类别分类技术,提出一 种基于数据库编程语言的分类方法,结合ORACLE PL/SQL 存储过程与贝叶斯算法对邮件进行分类处理。实验结果表明, 沙:国防科技大学,2004. [7]毛国君,段立娟,王大学出版社,2005. 75— 实.数据挖掘原理与算法[M].北京:清华 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igat.cn 版权所有 赣ICP备2024042791号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务