XML和RDF异构数据源的语义集成和检索

来源：爱go旅游网

维普资讯 http://www.cqvip.com 第３４卷　第９期　Ｖｏ１．３４　・计算机工程　２００８年５月　Ｍａｙ２００８　Ｎｏ．９　Ｃｏｍｐｕｔｅｒ　Ｅｎｇｉｎｅｅｒｉｎｇ　软件技术与数据库・　文章编号：１００ｔ）－－３４２８（２００８）０９－－００７３—０３　文献标识码；Ａ　中图分类号：ＴＰ３９１　ＸＭＬ和ＲＤＦ异构数据源的语义集成和检索　严玮峰，李生琦　（宁夏大学数学计算机学院，银川７５００２１）　摘要：提出一种基于Ｓｃｈｅｍａ的数据管理框架。该框架利用分层式的体系结构和全局视图（ＧＡ、，）的集成方法，对分布式的异构数据源ＸＭＬ　和ＲＤＦ进行语集成。讨论了分层式体系结构的组成、映射过程和查询处理。实验结果表明了该框架的可行性。　关健词：语义集成；语义网；模式匹配　Ｓｅｍａｎｔｉｃ　Ｉｎｔｅｇｒａｔｉｏｎ　ａｎｄ　Ｒｅｔｒｉｅｖａｌ　ｏｆ　Ｈｅｔｅｒｏｇｅｎｅｏｕｓ　ＸＭＬ　ａｎｄ　ＲＤＦ　Ｄａｔａ　Ｓｏｕｒｃｅｓ　ＹＡＮ　Ｗｅｉ－ｆｅｎｇ，ＬＩ　Ｓｈｅｎｇ　ｑｉ　（Ｓｃｈｏｏｌ　ｏｆ　Ｍａｔｈｅｍａｔｉｃｓ　ａｎｄ　Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ，Ｎｉｎｇｘｉａ　Ｕｎｉｖｅｒｓｉｔｙ，Ｙｉｎｃｈｕａｎ　７５００２１）　［Ａｂｓｔｒａｃｔ｜Ｔｈｉｓ　ｐａｐｅｒ　ｄｅｓｃｒｉｂｅｓ　ａ　ｓｃｈｅｍａ—ｂａｓｅｄ　ｄａｔａ　ｍａｎａｇｅｍｅｎｔ　ｆｒａｍｅｗｏｒｋ　ｗｈｉｃｈ　ｕｓｅｓ　ａ　ｌａｙｅｒｅｄ　ａｒｃｈｉｔｅｃｔｕｒｅ　ａｎｄ　ａ　Ｇｌｏｂａｌ－Ａｓ—Ｖｉｅｗ（ＧＡＹ）　ａｐｐｒｏａｃｈ　ｔｏ　ｓｅｍａｎｔｉｃａｌｌｙ　ｉｎｔｅｇｒａｔｅ　ｄｉｓｔｉｂｕｔｒｅｄ　ｈｅｔｅｒｏｇｅｎｅｏｕｓ　ＸＭＬ　ｎｄ　ａＲＤＦ　ｄａｔａ　ｓｏｕｒｃｅｓ．Ｃｏｍｐｏｓｉｉｏｎ　ｔｏｆ　ｔｈｅ　ｌａｙｅｒｅｄ　ａｒｃｈｉｔｅｃｔｕｒｅ，ｍａｐｐｉｎｇ　ｐｒｏｃｅｓｓ　ｎｄ　ａｑｕｅｒｙ　ｐｒｏｃｅｓｓｉｎｇ　ａｒｅ　ｄｉｓｃｕｓｓｅｄ．Ｔｈｅ　ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔｓ　ｓｈｏｗ　ｔｈａｔ　ｔｈｅ　ｒａｍｅｗｏｒｆｋ　ｉｓ　ｆｅａｓｉｂｌｅ．　［Ｋｅｙ　ｗｏｒｄｓｌ　ｓｅｍａｎｔｉｃ　ｉｎｔｅｇｒａｔｉｏｎ；ｓｅｍａｎｔｉｃ　Ｗｅｂ；ｓｃｈｅｍａ　ｍａｔｃｈｉｎｇ　１概述　Ｉｎｔｅｒｎｅｔ的飞速发展使网络成为信息传播和交换的重要　为网络中的其它结点用户系统提供服务和使用服务，本文提　出了如下分层的体系结构，如图２所示。　应用层　服务层　手段。但是Ｗｅｂ上信息的语义无法被计算机理解，语义网　（ｓｅｍａｎｔｉｃ　ｗｅｂ）应运而生，其层次结构［１１如图１所示。　表示层　语法层　图２异构数据语义集成分层体系结构框架　该体系结构框架分为４层，每个下层功能的实现都是其　上层功能实现的前提，它们相互依附，在每个自治节点内部　达到了紧耦合的要求。该系统自上而下的结构如下：　图１语义孵的层次结构　（１）应用层（ａｐｐｌｉｃａｔｉｏｎ　ｌａｙｅｒ），提供统一的图形用户接口　语义网提出在Ｗｅｂ内容上增加语义，使异构数据源具有　交互性。虽然ＲＤＦ和ＸＭＬ都能用来表示Ｗｅｂ上的信息，但　两者差异很大：ＲＤＦ数据具有域结构（概念层次上的关系），　而ＸＭＬ数据具有文档结构（元素层次上的关系）　。Ｗｅｂ环境　下的异构数据源集成，特别是基于ＲＤＦ／ＸＭＬ的数据集成问　（Ｇｒａｐｈｉｃ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ，ＧＵＩ），为用户查询数据提供便利。在　网络的每个自治节点上，用户直接通过这个统一的图形化接　口来与本地数据源集成管理系统和网络上其他数据源的集成　管理系统进行交互，使人机交互界面更友好。　（２）服务层（ｓｅｒｖｉｃｅ　ｌａｙｅｒ），包括查询模块（ｑｕｅｒｙ　ｍｏｄｕｌｅ）和　映射模块（ｍａｐｐｉｎｇ　ｍｏｄｕｌｅ）。通过查询模块，可以与网络上其　他自治节点交互，形成一个基于网络的多数据库（ｍｕｌｔｉ—　ｄａｔａｂａｓｅ）检索系统，实现在一个在相对广泛的数据源中进行　查询的模型。通过映射模块，可以与网络中其他自治系统进　行语义交互，建立一个混合型体系结构。　（３）表示层（ｒｅｐｒｅｓｅｎｔａｔｉｏｎ　ｌａｙｅｒ），通过包装器（ＸＭＬ／ＲＤＦ　基金项目：国家自然科学基金资助项目（６０６６３００３）　题，已成为数据集成研究领域及相其关领域的重要课题。　２分层体系结构框架系统　异构数据源的语义集成通常采用概念模型（ｃｏｎｃｅｐｔｕａｌ　ｍｏｄｅ１），例如Ｅ　Ｒ模型、本体模型。本文系统使用基于Ｓｃｈｅｍａ　的数据集成技术来集成异构的ＸＭＬ和ＲＤＦ数据源，其设计　采用混合型体系结构（ｈｙｂｒｉｄ　ａｒｃｈｉｔｅｃｔｕｒｅ）和全局视图　（Ｇｌｏｂａｌ—Ａｓ—Ｖｉｅｗ，ＧＡＶ）的方法　ｊ。　考虑到系统的自治性，数据库维护的便利性，还有异构　数据源之间的交互性等诸多问题，为使此数据集成管理系统　可以像传统的数据库那样管理自己的本地数据源，同时又能　作者简介：严玮峰（１９８１一），男，硕士研究生，主研方向：信息集成，　知识工程；李生琦，教授　收稿日期：２００７—０５—２３　Ｅ—ｍａｉｌ：ｇｅｎｎｙｉｅ＠１６３．ｃｏｍ　一７３—　维普资讯 http://www.cqvip.com ｗｒａｐｐｅｒ），将本地数据源中的模式（ｓｃｈｅｍａ）和数据（ｄａｔａ）统一　转化为局部本体。分别使用ＲＤＦＳ（ＲＤＦ　Ｓｃｈｅｍａ）和ＲＤＦＭＳ　（ＲＤＦ　Ｍａｐｐｉｎｇ　Ｓｃｈｅｍａ）描述局部本体和映射。　（４）语法层（ｓｙｎｔａｘ　ｌａｙｅｒ），位于系统底层，为局部本体和　数据实例提供统一的语法，为语义交互打下基础。　综上所述，这种分层式的体系结构框架，为目前异构信　息系统集成面临的异构性、分布性和自治性挑战　Ｊ，提供了　比较有效的解决方案，而且充分考虑了由Ｔｉｍ　Ｂｅｒｎｅｒｓ—Ｌｅｅ提　出的在语义网上实现异构数据源的语义交互性。　３映射过程　Ｗｅｂ中的每个节点所提供的数据源是ＸＭＬ或ＲＤＦ。　ＸＭＬ数据使用ｘＭＬ　Ｓｃｈｅｍａ来描述，而ＲＤＦ数据的类和属　（ａ）Ｓ１的局部本体　（ｂ）ｓ２的局部本体　性则使用ＲＤＦ　Ｓｃｈｅｍａ来描述。局部本体和全局本体间的映　射通过模式匹配（ｓｃｈｅｍａ　ｍａｔｃｈｉｎｇ）［５１来建立。保护好ＲＤＦ数　据源的域结构（ｄｏｍａｉｎ　ｓｔｒｕｃｔｕｒｅ）和ＸＭＬ数据源的文档结构　（ｄｏｃｕｍｅｎｔ　ｓｔｒｕｃｔｕｒｅ）是映射过程的关键。　３．１局部本体的映射　本文方法使用ＲＤＦＳ将局部元数据（１ｏｃａｌ　ｍｅｔａｄａｔａ）表示　成局部本体；关系型数据也用ＲＤＦＳ表示；表关系表示成ＲＤＦ　类；各表属性表示成ＲＤＦ属性。在转换ＸＭＬ数据为ＲＤＦ　数据时，将复杂类型（含有嵌套子元素）的元素表示成ＲＤＦ类，　将简单类型（不含嵌套子元素）的元素和属性表示成ＲＤＦ属　性。分别将异构的数据源映射为ＲＤＦＳ表示的局部本体，如　图３～图５所示。　ＣＳ　Ｄｅｐａｒｔｍｅｎｔ　ｆａｃｕｌｔｙ　・　（ｃ）　３的局部本体　图６　ＲＤＦＳ描述的局部本俸　＿ｎａｌｍｅ（“王小红”）　Ｌ　ｐｕｂ（“Ｐ０１ｐ０２”１　ｆａｃｕｌｔｙ　３．２全局本体的映射　通过模式匹配集成ＲＤＦＳ描述的各个局部本体，形成全　局本体。模式匹配的功能是把全局本体Ｇ和分布的各个局部　本体Ｒ作为输入，返回元素Ｇ和Ｒ之间的映射Ｍ作为输出。　同时，全局本体通过从局部ＲＤＦ　Ｓｃｈｅｍａ中归并或增加元数　据得到更新。　＿ｎａｍｅ（“李小龙”）ｌ　＿ｌｉｄ　ｔｉｔｌｅ　Ｌ　ｐｕｂ（“ｐ０２　０４”）　ｐｕｂｌｉｃａｔｉｏｎ　ｔｙｐｅ　Ｌｏｃａｌ　ＸＭＬ　ｉｄ（“ｐ０１”）　广－Ｉ　ｔｉｔｌｅ（“ｔｌ”）　Ｌ　ｔｙｐｅ（“ｂｏｏｋ”１　ｐｕｂｌｉｃａｔｉｏｎ　ＲＤＦ　Ｓｃｈｅｍａ中的元素包括类和属性。用本地ＲＤＦ　Ｓｃｈｅｍａ同全局ＲＤＦ￣ｏｎｔｏｌｏｇｙ匹配时，对于本地ＲＤＦ　Ｓｃｈｅｍａ　Ｓｃｈｅｍａ　中的每个元素　，如果在全局ｏｎｔｏｌｏｇｙ中已经存在与之语义　等价的元素　，则这两个元素归并；否则，将元素　拷贝到　全局ｏｎｔｏｌｏｇｙ成为　。映射表包含了局部ＲＤＦ本体和全局　，　图３异构的数据源ＳＩ（ＳＭＬ）　ＲＤＦ本体之间的映射信息。通常，如果全局本体　中的各个　类、类的属性或它们之间的关系，由分布不同的数据源　和　觚　一—　二圃　通过模式匹配归并而得，则产生形如（　，　，　）的映射信　息。如果全局ｏｎｔｏｌｏｇｙ　中的类和属性是拷贝局部本体　而　产生的，则产生形如（　，　）的映射信息。　４查询处理　对ＸＭＬ数据源的查询，可用ＰＸＱｕｅｒｙ（Ｐａｒｔｉａｌ　ＸＱｕｅｒｙ）　图４异构的数据源Ｓ２（ＲＤＦ）　ｆ　０ｃｅｅｄＩｎｇｓ　Ａｕｔｈｏｒ　ｈｏｒＡｕｔ　ｒ－　—＿Ｌ表示，它遵循ＸＱｕｅｒｙ［６１规则，是ＸＱｕｅｒｙ的一个子集，包含　￣ｒｏｃ可＿＿］　４个子旬：ｆｏｒ，ｌｅｔ，ｗｈｅｒｅ，ｒｅｔｕｒｎ。而对ＲＤＦ数据源的查询，　匪　ｒＪ　——０—０——１　—ｆｌ　——————ｔ——————叫ｒ臣珥　———————　———————　—————＇＝　＝　ｌ　ＵＵ糟■ｌ　ＵＵ　■　　｛［　Ｉｔｌ　Ｉ　２００３　ｌ　０ｌ０１　ｌ李小龙ｌ北京大学ｌ广　＿ｒ—　堡Ｉ　Ｉ　［王，ｌＪ　堑工堕坐　兰］亡　亘七：　图５异构的数据源Ｓ３（ＲＤＢ）　可使用ＲＤＱＬ　，它采用类似ＳＱＬ语法的表达，由以下子旬　构成：ＳＥＬＥＣＴ，ＦＲＯＭ，ＷＨＥＲＥ，ＡＮＤ和ｕｓＩＮＧ。本文用三　元组（　，　，　）表示一个ＰＸＱｕｅｒｙ的查询Ｑ，其中，　和　分别是包含在ｒｅｔｕｒｎ子旬和ｗｈｅｒｅ子旬中所有ｘＭＬ路径　分别将图３－－－图５中的　ｌ，　，　３转换成用ＲＤＦＳ表示的　局部本体，如图６所示。　表达式的集合；　是一些，其项由形如ｖＲｃ的表达式构　－７　一　维普资讯 http://www.cqvip.com 成，ｖ∈ｖｏ　，Ｒ是一个比较操作（例如：＝，　，＞＿，≤，≥，≠），Ｃ代　表常量。用三元组（　，　，ＣＱ）表示一个ＲＤＱＬ的查询，其　中，　和　是两个集合，分别是ＳＥＬＥＣＴ子句和ＷＨＥＲＥ　如下：　ＳＥＬＥＣＴ？ｔｉｔｌｅ　ＷＨＥＲＥ（？ａｒｔｉｃｌｅ，＜ｌｏ：ｔｉｔｌｅ＞，？ｔｉｔｌｅ），／／ｌｏ代表局部本体的命名空间　（？ａｒｔｉｃｌｅ，＜ｒｄｆｘ：ｃｏｎｔｉｎ＞，ａ？ｗｒｉｔｅｒ），　（？ｗｒｉｔｅｒ，＜ｌｏ：ｗｈｏｌｅｎａｍｅ＞，？ｗｈｏｌｅｎａｍｅ）　ＡＮＤ（？ｗｈｏｌｅｎａｍｅ　ｅｑ“ａ２”）　子句中所有ＲＤＦ路径表达式的集合。　４．１源查询的分析与转换　将分析源查询从字符串类型转化为三元组，如果在ＸＭＬ　源上，则使用ＰＸＱｕｅｒｙ查询，将它转换成三元组　（　，　，　）；如果在ＲＤＦ源上，则使用ＲＤＱＬ查询表达式，　将它转换成三元组（　，　，　）。因为两者的查询过程相似，　‰　一　４．３返回的查询结果集成　通过集成本地查询结果和远程查询返回的查询结果，可　得到最终的查询结果。这不仅要在移除相似记录的同时，联　合来自不同数据源的查询结果，还要使用某些关键属性来关　联查询记录，实现查询过程的语义集成。　所以只须进行相应变换就能得到。　４．２源查询的分解　使用查询重写算法ＲＤＱＬ２ＲＤＱＬ或ＲＤＱＬ２ＰｘＱｕｅｒｙ，将　用户源查询重写为各个异构数据源上的目标子查询，这要用　５结束语　本文提出了一种集成异构ＸＭＬ和ＲＤＦ数据源的方法，　使用分层式的体系结构框架，为异构信息系统当前面临的挑　战提供了一种解决方案，使异构数据源具有语义交互性。　参考文献　［１］Ｂｅｒｎｅｒｓ—Ｌｅｅ　Ｔ　ＳｅｍａｎｔｉｃＷｅｂ［ＥＢ／ＯＬ］．（２０００—１２—０６）．ｈｔｔｐ：／／ｗｗｗ．ｗ３．　ｏｒｇｌ２０００／ｔａｌｋｓ／１２０６一ｘｍｌ２ｋ—Ｔｉｍ．ｔｂｌ／．ＸＭＬ２０００．　到生成的映射表信息。查询重写可以用函数表达式　Ｏ　＝，（０１，　）来表示，其中，Ｑ１是源查询；Ｍ是映射信息，　通过查询重写算法，（Ｑ１，　）就能生成需要的目标子查询。　例如，查找由作者“　２”出版的所有图书，代码如下：　ＳＥＬＥＣＴ？ｔｉｔｌｅ　［２］Ｈａｌｅｖｙ　Ａ　Ｙ　Ｐｉａｚｚａ：Ｄａｔａ　Ｍａｎａｇｅｍｅｎｔ　Ｉｎｆｒａｓｔｒｕｃｔｕｒｅ　ｆｏｒ　Ｓｅｍａｎｔｉｃ　Ｗｅｂ　Ａｐｐｌｉｃａｔｉｏｎｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　１２ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｗｏｒｌｄ　Ｗｉｄｅ　Ｗｅｂ　Ｃｏｎｆｅｒｅｎｃｅ．ｉｓ．１．］：ＩＥＥＥ　Ｐｒｅｓｓ，２００３：５５６—５６７．　［３］Ｌｅｎｚｅｒｉｎｉ　Ｍ．Ｄａｔａ　Ｉｎｔｅｇｒａｔｉｏｎ：Ａ　Ｔｈｅｏｒｅｔｉｃａｌ　Ｐｅｒｓｐｅｃｔｉｖｅ［Ｃ］／／　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２１ｓｔ　ＡＣＭ　ＳＩＧＡＣＴ－ＳＩＧＭＯＤ—ＳＩＧＡＲＴ　ＷＨＥＲＥ（？ｂｏｏｋ，＜ｇｏ：ｔｉｔｌｅ＞，？ｔｉｔｌｅ），／／ｇｏ代表全局本体的命名空间　（？ｂｏｏｋ，＜ｒｄｆｘ：ｃｏｎｔａｉｎｓ＞，？ａｕｔｈｏｒ），　（？ａｕｔｈｏｒ，＜ｇｏ：ｎａｍｅ＞，？ｎａｍｅ）　ＡＮＤ（？ｎａｍｅ　ｅｑ“ａ２”）　首先，可得到：　｛Ｂｏｏｋ・ｔｉｔｌｅ｝　｛Ｂｏｏｋ，Ｂｏｏｋ・ｔｉｌｔｅ，Ａｕｔｈｏｒ，Ａｕｔｈｏｒ・ｎａｍｅ｝　ＣＱ　，Ｓｙｍｐｏｓｉｕｍ　ｏｎ　Ｐｒｉｎｃｉｐｌｅｓ　ｏｆ　Ｄａｔａｂａｓｅ　Ｓｙｓｔｅｍｓ．ＩＳ．１．］：ＡＣＭ　Ｐｒｅｓｓ，　２００３：２３３—２４６．　［４］张付志．信息集成技术在数字图书馆中的应用研究［Ｊ］．计算机　工程，２００５，３ｌ（７）：９０—９２．　［５］Ｒａｈｍ　Ｅ，Ｂｅｒｎｓｔｅｉｎ　Ｐ　Ａ．Ａ　Ｓｕｒｖｅｙ　ｏｆ　Ａｐｐｒｏａｃｈｅｓ　ｔＯ　Ａｕｔｏｍａｔｉｃ　Ｓｃｈｅｍａ　Ｍａｔｃｈｉｎｇ［Ｊ］．ＶＬＤＢ　Ｊｏｕｒｎａｌ，２００１，ｌ０（４）：３３４—３５０．　＝｛Ａｕｔｈ０ｒ．ｎａｍｅ，ｅｑ，”ａ２”）　再使用映射表信息　更新源查询为语义等价的三元组，　如下：　’　［６］Ｂｏａｇ　Ｓ，Ｃｈａｍｂｅｒｌｉｎ　Ｄ，Ｆｅｒｎ￣ｄｅｚ　Ｍ　Ｅ　ｅｔ　ａ１．ＸＱｕｅｒｙ　１　Ｌ（】：Ａｎ　ＸＭＬ　｛Ａｒｔｉｃｌｅ・ｔｉｔｌｅ｝　｛Ａｒｔｉｃｌｅ，Ａｒｔｉｃｌｅ・ｉｒｌｆｅ，Ｗｒｉｔｅｒ，Ｗｒｉｔｅｒ，Ｗｈｏｌｅｎａｍｅ｝　Ｑｕｅｒｙ　Ｌａｎｇｕａｇｅ［ＥＢ／０Ｌ］．（２００３—１２—１２）．ｈｔｔｐ：／／ｗｗｗ．ｗ３．ｏｒｇ／ＴＲ／　ｘｑｕｅｒｙ／Ｗ３Ｃ　Ｗｏｒｋｉｎｇ￣Ｄｒａｆｔ．　ＣＱ　ｉ｛Ｗｒｉｔｅｒ・ｗｈｏｌｅｎａｍｅ，ｅｑ，”ａ２”）　［７］ＨＰ　Ｌａｂｓ．ＲＤＱＬ—ＲＤＦ　Ｄａｔａ　Ｑｕｅｒｙ　Ｌａｎｇｕａｇｅ［ＥＢ／ＯＬ］．（２００３—１２—０５）．　ｈｔｔｐ：ｌｌｗｗｗ．ｈｐ１．ｈｐ．ｃｏｍ／ｓｅｍｗｅｂ／ｒｄｑ！．ｈｔｍ．　然后，将源查询重写为各异构数据源上的目标子查询，　（上接第７２页）　阈值Ｂ—ｔｈｒｅｓｈｏｌｄ越高，则召回率Ｒｅｃａｌｌ越低，因为阈值　降低虽然可能误判一些正常邮件为敏感邮件类别，但减少了　漏判的概率。在贝叶斯分类模块，设置Ｂ—ｔｈｒｅｓｈｏｌｄ＝Ｏ．４，并　该方法对海量数据的处理有很高的分类效率和较高的准确　率。该方法也同样适用于垃圾邮件的过滤技术，对大量邮件　进行自动分类和转发，有效减少了系统分发邮件的工作量。　将基于中文分词的普通贝叶斯算法与基于数据库查询的贝叶　斯算法的最终结果进行了比较，如表５所示。　表５结果比较　训练时间／ｓ测试时间／ｓ　召回率　准确率　基于中文分词的贝叶斯分类　基于数据库查询的贝叶斯分类　参考文献　［１］张培颖，李村合．一种中文分词词典新机制一一四字哈希机　制［Ｊ］．微型电脑应用，２００６，２２（１０）：３５—３６．　［２］Ｓｈａｆｆｅｒ　Ｃ　Ａ．数据结构与算法分析［Ｍ］．张京：电子工业出版社，２００１．　铭，刘晓丹，译．北　５　５　２　３２９　４７８　Ｏ　９２６　Ｏ．９３０　Ｏ　９４１　Ｏ．９８７　［３］周志军．中文邮件分类系统的研究及其实现［Ｄ］．苏州：苏州大　学，２００５—０４．　结果显示，与基于分词的分类方法相比，本文提出的分　类方法在效率上优势十分明显，召回率相当但准确率略高，　［４］郑刚，彭宏，郑启伦．存储过程在嵌入式多功能数据挖掘器　毅，赵景亮，等．Ｏｒａｃｌｅ　９ｉ　ＰＬ／ＳＱＬ从入门到精　更加适合对海量邮件的处理和分析，完全能够满足实际需求。　中的应用［Ｊ］．计算机应用，２００６，２６（６）：１０２—１０４．　［５］谈竹贤，王通［Ｍ］．北京：中国水利水电出版社，２００２—０２．　［６］高朝瑞．ＧＫＤ—Ｂａｓｅ　ＰＬ／ＳＱＬ存储过程和包的研究与实现［Ｄ］．长　６结束语　结合某安全部门的现实需求，本文研究了针对解析后存　储在数据库中的海量邮件数据的敏感类别分类技术，提出一　种基于数据库编程语言的分类方法，结合ＯＲＡＣＬＥ　ＰＬ／ＳＱＬ　存储过程与贝叶斯算法对邮件进行分类处理。实验结果表明，　沙：国防科技大学，２００４．　［７］毛国君，段立娟，王大学出版社，２００５．　７５—　实．数据挖掘原理与算法［Ｍ］．北京：清华　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文