第28卷 第1期 Vo1.28 NO.1新乡学院学报:自然科学版 Journal of Xinxiang University:Natural Science Edition 2011年2月 Feb,20l1 聚类算法在图书馆中的应用 茹蓓,赵芳 (新乡学院计算机与信息工程学院,河南新乡453003) 摘要:依据图书馆的现有信息,结合数据挖掘的流行方向,应)-l聚类算法分析研究读者的借阅行为,获 f得对图书馆管理有用的信息,提高图书馆管理工作效率和资源利用率。 关键词:数据挖掘;聚类算法;借阅行为;聚类分析;k-means算法 中图分类号:TP274;TP3l2 文献标志码:A 文章编号:1674—3326(2011)0l一0041—03 The Application of Clustering Algorithm in the Library RU Bei.ZHAO Fang (College of Computer and Information Engineering,Xinxiang University,Xinxiang 453003,China) Abstract:By using the data of the library,clustering algorithm will be applied to analyse readers’patterns of behavior.This will provide the decision—making criterions for the management of library and improve the level of service to readers. Key words:data mining;clustering algorithm;readers’patterns of behavior;clustering analysis;k-means algorithm 0 引言 根据读者借阅的历史数据,利用数据挖掘技术可以挖掘这种数据背后隐藏的信息,预测读者的阅读需 求信息。掌握读者的借I列规律,是图书馆开展个性化服务的基础。数据挖掘能为图书馆员提供先进的业务 处理和信息服务工具,提高工作效率。 1 聚类算法中的k-means算法 1.1聚类算法的概念 聚类的目的是把大量数据点的集合分成若干类,使每个类中的数据存在最强的相似性,不同类的数据 存在最大差别。按照相似程度的高低,将事物样本、对象或变量逐一归类。 聚类的数学描述如下:被研究的样本集为E,类C为E的一个非空子集,即C∈E且C≠ 。聚类就是 满足条件1)CI UC2 UC3 U…UCx=E和2)c n cj= (对任意 的类Cf,C2,C3,…C 的集合【”。由条件 1)可知,E中的每个样本必属于某一个类;由条件2)可知,E中的每个样本最多只属于一个类[2l。 由聚类生成的簇是一组数据对象的集合,它们与同一个簇中的对象彼此相似,与其他簇中的对象相异。 1.2聚类中k—means算法 该算法接受输入量k,把 个数据对象划分为k个聚类,基于对象之间的距离来计算相异度 引。k-means 算法是在完成每一次对象划分后,以每个类的所有对象的平均值作为该集合的新的中心,直到所有的集合 不再发生变化为止 】。假设对 个对象进行聚类,其结果要求产生k个类,算法的基本过程描述如下:1) 首先随机地选择k个对象,每个对象作为一个类的中心,分别代表将分成的k个类。2)根据“距离中心最 近”的原则,寻找与各个对象最为相似的类,将其他对象划分到各个相应的类中。3)在完成对象的分配之 后,针对每一个类,计算其所有对象的平均值,作为该类的新的中心。4)根据“距离中心最近”原则,重 收稿日期:2010—12一l1 修回日期:2Ol1 01.17 作者简介:茹蓓(1977一),女,河南新乡人。讲师,硕士生,研究方向:计算机科学。E-mail:xxujsjru@163.corn。 赵芳(1981一),女,河北青苑人 讲师,硕士生,研究方向:计算机科学研究。 ・42・ 新乡学院学报:自然科学版 2011生 新划分所有对象。5)NN ̄N 3),至所有产生的类没有变化为止。假设给定ki={til,rf2….,tit},类中心计算 表达式定义为:m = —t芝 ,( 1)㈣。 j=t 1-3 数据挖掘过程中的k-means算法分析 聚类分析读者借阅量,可以得到读者借书频率的高低。根据系统的实际数据,运用k-means聚类算法, 做数据挖掘过程的分析。随机地从读者借阅量表中抽取2O名学生的记录,形成表1。 表1读者借阅本数表 Tab.1 The number of readers borrowin ̄ 运用k-means算法对表1里的数据进行挖掘,首先把聚类的个数设置为3。一类为很少去图书馆借书的 学生即惰性学生,第二类为一般学生,第三类为经常去图书馆借书的学生即活跃学生。将借阅量作为考查 对象,从表l的借阅量中得到{1,3,5,7,9,17,24,27,26,28,27,36,36,39,42,49,57,79,106,142},设置 前三个数据作为三个类中心,即为m1=l,m2:3,m3=5。选择欧氏距离为度量距离,其定义如下: (f, )=xl—l xiz-—xjl 1I .+ , , {1,2,3,…,刀}, (1) 其中的 I, f2,而3…., 和 l, 2, ,…, 是两个m维的数据对象。运用式(1)计算与类中心的距离,得到 表2。当迭代到聚类结果重复时,结束。 表2部分读者借阅本数聚类结果 Tab.2 Clustering results of part of reader borrowing 2聚类结果分析 如表2,我们得到kl、 、如这三列数据,每列数据是一个元组,代表着具有相同借阅习惯的一组数据。 如kl为{1,3,5,6,10,16},表示借阅量很少的情况,对应于表1中相应读者就是不活跃的学生,ml 为这类读者的平均借阅本数,惰性学生的学号是{201675321,201697355,201686432,201656762,201653479, 201645686},他们平均每年去图书馆借书的数量为6.8本。据此可知有27%的学生平常很少去图书馆借阅 图书。一般学生的学号是{201664321,201639510,201665477,201675432,201667974,201653233,201653378, 201624566。201679941,201696421,201684328},他们平均每年去图书馆借书35.6本。可知此类学生占 47%。活跃学生的学号是{201656321,201643221,201665495},他们平均每年借书量为108.6本。 3对策与措施 采用聚类算法中的k-means算法聚类分析了图书馆的读者借阅信息,根据读者的借阅信息将其划分为 活跃学生、一般学生、惰性学生。针对上述分析结果图书馆可采取相应措施,制定书籍管理的下一步措施, 实现图书馆的个性化服务。 参考文献: 【l】Olfa Nasraoui,Mrudula Pavuluri.Accurate Web Recommendations Based on Profile-Speciifc URL_Predictor Neural Networks[J].Communications ofthe ACM,2004,22(10):300—301. [2】Agarwal R C,Agarwal C C.A treeprojection algorithm for generation of Frequent itemsets[J].Journal of Paralleland Distributed Computing,200 1,6 1(3):350-37 1. 茹蓓,赵芳:聚类算法在图书馆中的应用 ・43・ [3]宋浩远.基于模型的聚类方法研究[J].重庆科技学院学报,2008,1O:71—73 [4】张肖燕,杨振.基于频繁模式矩阵的最大频繁项目集挖掘算法[J].计算机应用与软件,2007(7):123—126. [5]龚宇花,刑耐生.数据挖掘技术在高校数字化图书馆申的应用[J].电脑知识与科技,2008(9):1547—1557. 【责任编辑邢怀民】 (上接第29页) Hy =l'ty,这种情况下只有一组能态,即能级E 对应的量子状态只有(1t'x,ny)态。 综合上述三种情况,当 / =P/q为有理数时,(nx ,n;)的可能组态个数共有f=[ /p]+[,z√g】+1。 它们均满足(3)式和(4)式,其能量均为 所以此能级的简并度就是厂。 当 / =P/g为无理数时,欲使(3)式成立,必然要求n:=nx,且 ny。这就说明,当 / 为无理 数时,不可能存在另一组态(Hx ,Fly ),使其能量也为E一 即能量是非简并的。对应于经典二维各向异性 谐振子的运动轨迹就是一条既不封闭也不稳定的曲线。 4结束语 由上述讨论可见,二维各向异性谐振子的能级简并与参量 / 有关,即只有在分振动的周期或圆频 率成简单整数比时,能级才会出现简并,并对应一种特殊的动力学对称性及守恒量,至于这种守恒量是否 就是Runge—lenz矢量以及推广到三维谐振子势场中是什么情况,这还有待于今后的进一步研究。 参考文献: [1]曾谨言.量子力学[M】.北京:科学出版社,2000:314. [2】喀兴林.高等量子力学[M】.北京:高等教育出版社,2000:256. [3】马中骐.物理学中的群论[M】.北京:科学出版社,2006:57. [4】周衍柏.理论力学教程[M】.北京:高等教育出版社,1986:65.74. [5】漆安慎,杜婵英.力学[M].北京:高等教育出版社,1997:276. 【责任编辑邢怀民】