您的当前位置：首页一种改进的协同过滤推荐算法

一种改进的协同过滤推荐算法

来源：爱go旅游网

2020年第40卷第1期

()JournalofHebeiUniversitNaturalScienceEditiony

河北大学学报(自然科学版)

Vol.40No.1

2020

:/DOI10.3969.issn.10001565.2020.01.012j

一种改进的协同过滤推荐算法

李昆仑,戎静月,苏华仃

()河北大学电子信息工程学院,河北保定 071000

疏性、冷启动、可扩展性等问题.本文主要针对数据稀疏性问题和冷启动问题导致的推荐效果不精确,提出了一种改进的数据填充方式和相似度计算方法.首先根据用户评分习惯对用户进行层次聚类,其次利用用户基本信息如年龄初步计算用户之间的相似度,并将共同评分项所占比值作为权重得到用户相似度,最后利用加入相似度的权重以获得最终填充值.计算相似度寻找近邻Sloe-one算法计算前K个相似用户的填充值,p集时,将用户基本属性作为相似度权重,并且引入S并得到最终imoid函数来添加时间戳对相似度的影响,g的相似度计算方法.实验结果表明,推荐精度得到了显著提高,数据稀疏性问题和冷启动问题得到了改善.

;关键词:协同过滤;数据稀疏性;相似度;评分尺度Simoidg

()中图分类号:TP301 文献标志码:A 文章编号:10001565202001007710

摘要:协同过滤推荐算法是目前个性化推荐系统中应用比较广泛的一种算法,但也同样面临着数据稀

Animrovedcollaborativefilterinecommendationalorithmpgrg

,SLIKunlun,RONGJinueUHuadingyg

(,H,B)ColleeofElectronicInformationEnineerinebeiUniversitaodin71000,Chinagggyg0

:AbstractThecollaborativefilterinecommendationalorithmisoneofthemostwidelsedalo-grgyug

,rithmsinthepersonalizedrecommendationsstem,butitalsofacesproblemssuchasdatasarsitcoldypy

,startandscalabilit.Thispaermainlroosesanimroveddatafillinethodandsimilaritalcula-ypypppgmyc

,theuser􀆳sbasicinformationsuchasaeisusedtocalculatethesimilaritetweenusersandtheratioofgyb

,thecommonscorinitemsisusedastheweihttoobtaintheusersimilarit.FinalltheSloe-onealo-ggyypg,rithmisusedtocalculatethepaddinaluesofthefirstKsimilarusersandthesimilariteihtsaregvywg

,addedtoobtainthefinalpaddinalue.Whencalculatinimilaritofindthenearestneihborsetthegvgsytg,basicattributeoftheuserisusedasthesimilariteihtandtheSimoidfunctionisintroducedtoaddtheywgg

tionmethodfortheinaccuraterecommendationeffectcausedbhedatasarsitroblemandthecoldytpyp

,,startproblem.Firstltheuserishierarchicalllusteredaccordinotheuser'sscorinabitsandthenyycgtgh

imactofthetimestamnthesimilaritndobtainthefinalsimilaritalculationmethodTheexeri-ppoyaycp

,mentalresultsshowthattherecommendationaccuracissinificantlimrovedandatthesametimetheygypdatasarsitroblemandthecoldstartproblemareimroved.pypp

:;;;;KeordscollaborativefilterindatasarsitsimilaritSimoidscorincalegpyyggsyw

收稿日期:20190703

)国家自然科学基金资助项目( 基金项目:61672205

,李昆仑(男,河北保定人,河北大学教授,博士,主要从事模式识别、图像处理、计算机网络、智能信息处理第一作者:1962—)—),戎静月(女,河北石家庄人,河北大学在读硕士研究生.主要从事推荐算法、机器学习、数据分析等方向研究. 通信作者:1993

:E-mailroninueRRR@163.comgjgy:等方向研究.E-maillikunlun@hbu.edu.cn

河北大学学报(自然科学版)

第40卷

大数据、互联网的快速发展,电商也随之发展起来并得到了用户的认可和应用.随着近年来随着云计算、

电商用户及商品数目的增多,为了使用户在大量的商品中快速、方便地找到符合自己需求的项目,同时电商

1]将用户需要的项目推荐给用户,许多学者进行了相关的研究,个性化推荐系统[应运而生.推荐算法是推荐2]3]4-5]

、、、求,目前主要的推荐算法有协同过滤推荐算法[基于内容的推荐算法[基于关联规则的推荐算法[混]6

合推荐算法[等.其中协同过滤推荐算法不需要考虑具体推荐内容,技术上易于实现,所以应用最为广泛.但]7

、是也面临着一些难以解决的问题,比如数据缺失引起的数据稀疏性问题[新用户加入引起的冷启动问]8-9]10

、题[用户兴趣变化引起的用户兴趣漂移[等问题.

系统中最重要的部分,算法的优劣直接影响推荐效果的好坏.传统的推荐算法已经很难满足用户的个性化需

基于用户的协同过滤推荐算法主要是根据用户的历史评分数据,用已评分的数据计算用户相似度产生

近邻集,从而产生推荐.随着电商项目的迅速增加,推荐系统中用户和产品的数量持续增加,用户购买量及评(分数的增长远远比不上电商项目的增长速度,当用户和产品数量达到千万或更多时,用户对产品的评U-I分)矩阵将变得十分庞大.然而,推荐系统中每个用户对产品的评价是有限的,因此U从而-I矩阵十分稀疏,

]11

产生数据稀疏性问题[在个性化推荐系统中,用户对产品的喜好程度通常可以由其对历史产品的评价信.

息来反映.面对稀疏的评估数据,推荐系统难以准确地判断用户偏好.

]带来很大误差,进而影响推荐系统的推荐精度.对此文献[提出的改进的算法中加入了用户兴趣相似性和13方法来降低数据稀疏性.上述方法都是通过加入一些新的因素,调整不同因素所占的比例,与传统相似度相结合来提高推荐精度,虽然数据稀疏性在一定程度上得到了缓解,但是计算量却明显增大.

]16启动问题[用户的冷启动是针对推荐系统的新用户,他们对有些产品的评价记录很少甚至没有,该推荐系.

12]

,针对数据稀疏性问题,传统的解决方案是用现有数据的均值填充缺失的数据[但是这会给预测结果

]评分相似性;文献[给用户的属性分配权重加入到相似度的计算当中,提出了一种基于用户多属性的协同14]过滤算法;文献[将用户属性、用户兴趣与传统的相似度相结合,调整不同的权重,通过动态选择近邻集的15

另一方面,冷启动问题也会引起推荐系统推荐精度差的问题.冷启动问题包括用户冷启动问题和项目冷

统无法从少量的评价数据中获得新用户的兴趣爱好,因此无法准确推荐.项目冷启动意味着当新项目添加到系统时,很少被用户选中甚至没有.针对这些新项目,系统很难找到合适的办法来准确向用户推荐.由于本文

]17

法很多,常用的方法主要包括以下3个方面:向新用户随机推荐或推荐热门产品[随机推荐之后,根据1).

主要针对基于用户的协同过滤推荐算法,主要研究用户冷启动.针对冷启动问题,目前解决冷启动问题的方用户的反馈不断改进用户的偏好模型,与此同时可能给用户推荐的产品用户都不喜欢,这样会降低用户对系统的信任度.随机推荐的改进是向用户推荐热门产品,但仍然无法做到个性化推荐;传统协同过滤的改进2)

18]19]

,)]方法[对用户或产品间相似性度量方法的改进;结合机器学习的方法[对此文献[提出加入用户的3.20

]注册信息,利用用户的注册信息进行推荐.文献[提出利用用户的社交网络账号,对新用户推荐其好友喜21欢的物品.由于涉及用户隐私,数据获取并不容易实现.

针对数据稀疏性和用户冷启动问题,本文首先通过改进的填充方式填充原有的稀疏数据,充分利用有评分的数据,避免了一个或几个用户对数据填充的不准确,提高了填充精度.然后在相似度的计算中加入用户的属性,如年龄、性别、职业、邮编,这样可以避免新用户的加入造成的冷启动问题.实验结果表明,与传统方法相比,该方法具有更高的推荐精度.

1 推荐系统中常用的相似性计算方法及评分预测方法

进行商品推荐,因此近邻用户的寻找精度将直接影响推荐效果.近邻用户是通过相似度的计算来确定的,将)集;根据所有近邻用户对目标项目的评分,来预测目标用户对目标项目的评分从而进行推荐.3

]22

,传统的基于用户的推荐算法中最重要的工作是寻找到目标用户的近邻集[通过近邻用户向目标用户

相似度按照由大到小的顺序排列,取前N个用户得到目标用户的近邻集.推荐算法大致可分为3步:获取1)

)用户项目评分矩阵,对其数据进行预处理;通过用户/项目之间的相似度获得目标用户的最相似近邻用户-2

第1期

李昆仑等:一种改进的协同过滤推荐算法

1.1 常用相似度计算方法

相似度计算是寻找近邻用户的关键,相似度计算主要包括余弦相似度、修正的余弦相似度、皮尔森相关

1.1.1 余弦相似度

23]

,余弦相似度主要是通过计算2个向量的夹角来判断其相似性,又称为夹角余弦[取值在-1~1,夹角

余弦越大,表示2个向量的夹角越小,则其相似程度越高.具体的计算公式如下:

(sim(u,v)=cosu,v)=

系数、各种距离相似度等.

1.1.2 修正余弦相似度

余弦相似度没有考虑用户的评分尺度的影响,即有些用户对所有项目的评分相对较高,而有些用户要求

))严格对所有项目的评分相对较低,例如(和(的余弦相似度值为1,但实5,5,51,1,12个向量将会非常相似,

际情况恰好相反.因此提出修正的余弦相似度,将用户的平均评分引入计算公式,减少评分尺度的影响,具体

24]

:计算公式如下[

u·v.

‖u‖×‖v‖

()1

sim(u,v)=

1.1.3 皮尔森相关系数

25]

,皮尔森相关系数,又称为相关相似性,需要找到2个用户共同评过分的项目,然后计算其相关性[计

算公式如下:

sim(u,v)=

∑i∈Iu∑i∈Iu,v()rrui-u2

()(v,)rrrui-uri-v∑i∈Iv()rrvi-v2

()2

1.1.4 距离相似度

前面介绍的余弦相似度主要关注向量方向的差异度,而距离相似度关注2个点的距离,距离越近相似度越大.距离包括欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、马氏距离等,因为距离和相似度大致

成反比.距离相似度公式如下:

sim(u,v)=.

1+d(u,v)

()4

∑

i∈s∑

()rrui-u2

i∈s()(v,)rrrui-uri-v∑

i∈s()rrvi-v2

()3

1.2 常用评分预测方法

根据相似度确定目标的近邻用户之后,需要通过近邻用户对目标项目的评分进行评分预测,评分预测方

1.2.1 平均评分法

26]

平均评分法是根据近邻用户对目标项目所有评分的均值直接作为目标用户对目标项目的评分[设近.

…,,,2,…,),邻用户为U=(项目为I=(具体公式如下:u1,u2,um)ii1in1

r(u,i)=

n法有平均评分法、加权平均评分法、偏移的加权平均评分法.

[7]

,具体公式如下:u与近邻用户k的相似度2

1.2.2 加权平均评分法

平均评分法将所有近邻集中的用户评分数据取均值作为目标评分,但是忽略了相似度权重的影响,与目标用户相似度越高,评分预测的结果越准确,所以加权的平均评分法引入相似度的权重,为目标用户s(u,k)

∑

k∈Ur(k,i).

()5

1.2.3 偏移的加权平均评分法

由于用户评分有高有低,加权平均评分法没有考虑用户评分尺度的影响,所以引入了偏移的加权平均评

∑r(u,i)=

∑

k∈Us(u,k)r(k,i)

(,)suk||k∈U()6

河北大学学报(自然科学版)

第40卷

28]

,分法[为用户u对所有项目的平均评分,为近邻用户k对所有项目的平均评分,为第k个用户对rrrukk,i第i个项目的评分,具体公式如下:

2 传统推荐算法中几个关键部分的改进

()s(u,k)rrk,i-kk∈U∑(,)rui=r.u+

(,)suk|∑k∈U|

()7

针对传统的协同过滤推荐算法进行优化,对原始数据集进行预处理,将评分数目远小于项目数目的数据过滤掉,进行初步降维.由于数据的稀疏性问题,需对数据集中缺失的数据部分进行填充,根据用户评分习惯

[9]

进行层次聚类,并将用户基本信息和共同评分项所占的比值作为计算相似度的权重.通过S算法loe-one2p

计算前k个最相似用户对缺失数据的填充值,同时加入相似度权重得到最终填充值.针对填充后的数据,首先在传统相似度的基础上,加入用户基本信息作为相似度的权重,其次通过Simoid函数引入用户项目评分g2.1 相似度计算

用户相似度是寻找近邻用户集的依据,传统的相似度计算方式是以用户具有相同的兴趣为前提,仅通过用户对项目的评分来计算相似度,不考虑不同用户的属性,如性别、年龄、职业等对用户相似度造成的影响,由此得到的用户相似度准确度不高.本文基于传统的相似度计算方式,首先加入编码后的用户信息求得欧氏距离,其次引入指数函数作为相似度的用户信息权重,针对时间改变造成用户兴趣漂移的问题,加入评分时间戳的影响,最后引入S表明评分时间越相近,用户的相似度越高,权重imoid函数作为时间戳的函数,g越大.

函数表达式为

s(u,i)=.u,i1+e-t()8

的时间戳对相似度的影响,获得目标用户的最近邻集,最后利用改进后的相似度对目标用户进行推荐.

传统的相似性用皮尔森相关系数

sim(u,v)=

其中s为目标用户u与近邻用户v共同评分项集合,为用户u对项目i的评分,为用户u对所有项目rru,iu的平均评分.

改进后的相似度计算公式

∑

i∈s∑

()rru,i-u2

i∈s()(v,)rrru,i-uri-v∑i∈s()rrv,i-v2

()9

Db(u,v)=

sim(u,k)=β×

为用户u对项目i的评分时间戳所占的权重大小,评分时间越相近评分s(u,i)β表示用户信息所占的权重,

权重越大,则相似度越高,为最终相似度的计算公式,为用户u对项目i的评分.sim(u,k)ru,i加入用户属性和时间戳的相似度,可以在一定程度上减少新用户加入造成的冷启动问题,使得推荐效果更佳准确.

其中Db(是对用户性别、年龄、职业编码后计算的欧式距离,为对用户u的信息进行编码后的向量,u,v)ru,b∑

i∈s∑

()rs(u,i)-ru,i×u2

i∈s()(k,)rs(u,i)s(k,i)-r-ru,i×uri×u(,)

e-Dbuv,β=

∑i∈Iu,v2

(),rru,b-v,b()10()11

∑i∈s()rs(k,i)-rk,i×k,

()12

2.2 数据填充

由于用户项目评分数据稀疏性问题,在计算相似度寻找近邻用户会产生很大误差,造成推荐效果不佳,-因此将评分数目远小于项目数目的数据进行过滤、删除,然后对缺失的数据进行填充,传统填充方式虽然完

第1期

李昆仑等:一种改进的协同过滤推荐算法

成了对缺失数据的填充,但推荐效果并没有明显改善,对此本文在传统填充方式上,引入用户属性和相似度权重,利用Sloe-one算法对填充算法进行改进.p代表积极、消极、中立态度的用户群体.

聚类过程如下:

根据用户对项目的评分信息,利用层次聚类,对用户数据进行聚类.根据用户对项目评分均值分成3类,

即评分均值大于4的用户,均值小于2的用户,均值在2~4的用户,分别用Uo、分别Up、Un表示3个类别,

IfElseIfElse要填充的用户和在同一个簇中其他用户的相似度,然而传统的相似度计算方式是利用评分数据计算欧氏距离,当新加入的用户没有评分信息时,无法计算距离,对此本文引入用户的基本信息来计算相似度.对用户信息进行O利用编码后的用户信息,基于欧氏距离计算相似ne-hot编码和LabelEncoder编码,

度,同时加入共同评分项作为权重,获得相似度值.利用Sloe-one算法计算前m个用户对缺失值的填充数p据,并加入相似度的权重获得最终填充数值.通过设定相似度阈值,来筛选出相似度高的用户,过滤掉相似度低的用户.如果阈值过小,会降低填充精度,如果阈值过大,会导致计算量增大,因此,需要多次反复实验,在保证合理的计算量的前提下,尽可能提高填充精度,确定最终的阈值m.

根据用户对某个项目的评分预测另Sloe-one算法原本是计算不同项目之间的评分差的一种线性算法,p

一个项目的评分.本文利用S通过用户a、及用户a对项目I的评分,loe-one算法的思想,b的平均评分差,p计算对项目I无评分的用户b的填充数据.具体计算公式如下:

()rrai-bi,()13

a)∩N(b)|N(|

,()PbrR(a,b)14i=ai-其中,为用户a、为a用户评过分的项目;为b用R(a,b)b对所有共同评分项目的平均评分差;N(a)N(b)

i∈N(a)b)∩N(

分别对聚类后的每个簇进行缺失值的填充,对数据进行降维、减少计算量的效果.填充之前首先计算需

2≤r→rUn.al≤4a∈

r→rUp,al≤2a∈

r→rUo,al≥4a∈

∑R(a,b)=

户评过分的项目;是a、为用户a对项目i的评分,为用户b对项N(a)∩N(b)b均评过分的项目集合;rraibi目i的评分;为用户a|N(a)∩N(b)|是a、b均评过分的项目数.Pbi评分的填充数据,ri是用户b对项目ai对项目i的评分.

各缺失值的填充计算公式如下:

Db(u,v)=

Uu∩Uv,α=,nvUu∪Un(,)α,simab=Dbuv×u,v∑i∈Iu,v2

(),rrb,u,i-b,v,i()15()16()17()18()19

Pbrj=ajPoj∑=

∑-m()rrai-bi,

a)∩N(b)|N(|

i∈N(a)b)∩N(

u=1

其中Db(为编码后的欧式距离,为用户u的信息编码与对项目i的评分组成的向量,为共同评u,v)rαb,u,iu,v分项所占的权重,为用户a与用户b加入用户信息和共同评分项后的相似度,simaPbj为用户b对项目j的b缺失值的填充值,Poj为最终的填充值.

由以上分析可知,根据用户评分习惯对用户进行层次聚类,达到了初步降维的效果,并且聚类后求相似

(simj)u,o×Pu,mimu,o∑u=1s

度的准确度有所提高.在计算相似度时加入用户的基本信息,改善了冷启动的影响.加入共同评分项的权重,

精度,从而能更准确地推荐.

算法如下.

河北大学学报(自然科学版)

第40卷

进一步提高了相似度的准确度.通过均值填充,减少评分尺度的影响,并且加入相似度权重,提高了填充值的

引入用户性别、年龄、职业这些基本信息.对用户进行层次聚类,最后得到3种不同的用户群体;Ste1:p

)对不同的用户群体运用公式(计算要填充的用户与其他用户的相似度,按从大到小取前m个Ste2:17p),通过公式(利用上述集合中的向量对目标向量进行缺失值的初步填充;Ste3:18p

引入相似度权重,对目标向量进行最终的缺失值填充;Ste4:p

值,组成一个近邻用户集;

直到数据集填充完毕.Ste5:重复步骤1、2、3、4,p

2.3 评分预测

…,,通过相似度的计算得到了目标用户的近邻用户集U=(根据每个近邻用户对目标项目u1,u2,um)))的评分利用填充公式(和(对目标项目进行评分预测,第k个近邻用户对第i个目标用户的预测结果1819

,)为r然后利用预测公式(对最终的目标项目进行预测评分,然后循环此步骤,直到对所有的目标项目20k,i评分完成预测,最终形成推荐.

最后根据改进的相似度的计算方法,用ToN取前N个最相似的用户进行推荐.p

r(u,r=g)u∑+

k∈U3 实验结果与分析

的数据稀疏度是0.第2次是0.8882,25.

()sim(u,k)rrk,i-k.

(,)simuk|∑k∈U|

()20

所提出的方法和改进前的方法进行对比分析.原始数据的稀疏度是0.经过2次实验,其中第1次实验16,3.1 实验环境和数据集介绍

实验使用的计算机的配置是IntelCorei5-7200的CUP,8GB运行内存,Windows10家庭中文版位

首先简单介绍本文涉及到的实验环境和选取的数据集以及实验的评价指标,然后根据该数据集将本文

本实验采用的是由M它还有innesota大学GrouLens研究小组提供的100K的MovieLens数据集,p

数据集主要包含2部分数据:用户对项目的评分数据,该数据集包含91m、20m等几个版本.1)43个用户,评分为1~5分,且每个用户项目评分次数不少于2用户基本属性1682部项目,100000条评分数据,0次.2)

数据,该数据集包含用户的性别、年龄、职业、邮编的基本信息.本次实验采用2次5折交叉验证,分别计算系统的MA得到最终的实验结果.E值,

操作系统,编程语言使用P版本为P编辑器用的是Jthon语言,thon3.6,uterNotebook.yypy

此系统采用平均绝对误差MA表明其值越小,则预score等.E作为评价指标,MAE为预测值和真实值之差,

,2,,…,},测的结果越准确.假设推荐系统对项目的预测评分集合为{项目的实际评分为{rrrp1,p2,p3,1r3n…,,)则用户MA表示E值可以用式(21pn}

3.2 实验评价指标

、、目前推荐算法性能的评价指标主要有平均绝对误差(均方误差(查全率、查准率、MAE)MSE)F1-

MAEu)系统的MA表示E可以用式(22

∑=

ni=1

r|i-pi|.

nMAEi()21

∑MAE=

ni=1

()22

第1期

李昆仑等:一种改进的协同过滤推荐算法

3.3 实验结果与分析

3.3.1 第1轮实验结果

图1描述的是聚类前后,均采用改进的填充方式进行填充,用皮尔森系数计算相似性时系统的MAE值

体比聚类前的MA这样可以选择少量的近邻用户,降低系统的成本,并且通过聚类,降低了数据的维E值低,度,大大减少了计算量.当近邻用户数在2在计算量少和系统成本低的前提下,系统的MA00~400时,E值为3通过聚类得到的模型最佳.50,

随近邻用户取值的变化曲线.其中NCUFP曲线为聚类前系统的MAE曲线,CUFP曲线为聚类后系统的

从图1中可以看到,训练集经过聚类后系统的MA并且整MAE曲线,E值随近邻用户的变化趋势比较平缓,趋于最低,当相似用户大于4聚类效果不太明显,但系统的成本和计算量会增加,所以选择近邻用户数00时,

图2描述的是不对用户进行聚类,分别用均值填充和改进填充进行填充,并且用皮尔森系数和改进的皮

尔森系数求相似度得到的系统的MAE随近邻用户的变化曲线的对比图.NC-MFPS曲线代表用均值填充,皮尔森计算相似性得到的系统MA用皮尔森计算相似性得E曲线,NC-UFPS曲线代用改进填充方式填充,统MAE曲线.

到的系统MA改进的皮尔森相似度计算相似性,得到的系E曲线;NC-FUPS曲线代表用改进填充方式填充,

图1 聚类前后的MAE值对比

Fi.1 ComarisonofMAEbeforeandafterclusteringpg

图2 不聚类改进填充相似度MAE值对比Fi.2 imrovesfillinsimilaritEcomarisongpgyMAp

在相同的相似度计算条件下,系统的MA针对N可以得E值明显降低了;C-UFPS和NC-FUPS的曲线对比,到通过改进后的方式计算相似度寻找近邻用户,系统的MAE值到在近邻用户取150~750时低于改进前的后的方式的推荐性能更优.同时,改进后的方式加入了用户的基本信息,更利于改善冷启动问题.

针对图2中的N可以得出通过改进后的填充方式比均值填充方式,C-MFPS和NC-UFPS曲线的对比,

由于改进相似度的计算方式后得到的近邻用户更精确了,从而降低了系统的误差.由NMAE.C-FUPS曲线,

可以看出当近邻用户在3所以在选择合适的近邻用户的数量下,改进00~400的时候系统的MAE值最低.森系数求相似度得到的系统的MA皮尔森E随近邻用户的变化曲线的对比图.MFPS曲线代表用均值填充,计算相似性得到的系统MA用MF用皮尔森计算E曲线,PS表示;UFPS曲线代表用用改进填充方式填充,相似性得到的系统MA用U改进的皮尔森相似度E曲线,FPS表示;FUPS曲线代表用改进填充方式填充,计算相似性,得到的系统MA用FE曲线,UPS表示.

显降低了系统的MA从图3中的MF可以得到,通过改进填充之后系统的E.PS和UFPS曲线的对比图,

通过U可以得到通过改进后的方式计算相似度寻MAE值比改进前明显降低了,FPS和FUPS的曲线对比,从而降低了系统的误差.由F可以看出当近邻用户在3UPS曲线,50~450的时候系统的MAE值最低.

图3整体可以看出聚类后的系统MA改进填充方式和相似度计算后明E随近邻用户的增加变化不大,图3描述的是对用户进行聚类,分别用均值填充、改进填充进行填充,并且用皮尔森系数和改进的皮尔

找近邻用户,系统的MA由于改进相似度的计算方式后得到的近邻用户更精确了,E值低于改进前的MAE,

河北大学学报(自然科学版)

第40卷

聚类前后系统的MA 图4描述的是对数据进行填充时,E值随填充选取的近邻用户的变化曲线.

图3 聚类后改进填充相似度MAE值对比Fi.3 MAEcomarisonafterclusteringpg

图4 聚类前后填充选取不同近邻用户MAE值对比Fi.4 ComarisonofMAEofdifferentneihborinsersgpggu

近邻用户小于8通过聚类系统的MA由此得到根据用户属性聚类0时,E值要小于改进之前系统的MAE值.降低了系统的MA提升了系统精度.实验过程中聚类最小的用户数是8当近邻用户大于8E,0,0之后聚类前

由图4可以看出通过聚类,系统的MA并且通过2条曲线的对比,在E值随近邻用户的波动比较平缓.

3.3.2 第2轮预测结果

经过第2次交叉验证实验,同样得到4个图,分别是图5、图6、图7、图8.同样得到用改进聚类、改进填

充、改进相似度计算方式的方法得到不同系统的MAE值随近邻用户的变化曲线.

后效果相差不大.

图5 聚类前后的MAE值对比

Fi.5 ComarisonofMAEbeforeandafterclusterin.gpg

图6 不聚类改进填充相似度MAE值对比Fi.6 imrovesfillinimilaritEcomarisongpgsyMAp

统的MA由于对数据进行预处理后,第1次实验的数据稀疏度是0.第2次是0.第2次实E值.8882,25,验的稀疏度要高于第1次实验,可以得到,数据越稀疏,系统的MA因此通过改进填充方式,降低E值越大,数据的稀疏度尤为重要.

通过对比实验1与实验2的结果,发现在选取相同近邻用户时实验2系统的MAE值要高于实验1系

第1期

李昆仑等:一种改进的协同过滤推荐算法

图7 聚类后改进填充相似度MAE值对比Fi.7 MAEcomarisonafterclusteringpg

图8 聚类前后填充选取不同近邻用户MAE值对比Fi.8 ComarisonofMAEofdifferentneihborinsersggugp

4 结论

针对传统推荐算法在数据稀疏情况下存在的问题提出了一种改进的协同过滤推荐算法,首先针对数据缺失引起的数据稀疏性问题,该算法通过加入用户属性的影响,对填充方式进行了相应的改进并对数据进行填充,在一定程度上缓解了数据稀疏性带来的影响;其次针对相似度计算不准确导致推荐精度降低的问题,在传统相似度计算的基础上,加入用户基本属性和时间戳的影响,对相似度进行了相应的改进.经过实验验证,本算法提高了推荐的准确性,并且减少了冷启动给系统带来的影响,提高了系统的可扩展性.

参考文献:

[]]1 ZOUCF,ZHANGDQ,WANJF,etal.Usinoncetlatticeforpersonalizedrecommendationsstemdesin[J.gcpyg[]],2 LIUXJ.Animrovedclusterin-basedcollaborativefilterinecommendationalorithm[J.ClusterComutin2017,pggrgpg[][]3 SHUJB,SHENXX,LIUH,etal.Acontent-basedrecommendationalorithmforlearninesourcesJ.Multimediaggr

()::/2021281-1288.DOI10.1007s10586-017-0807-6.

,()::/IEEESstemsJournal2015,1111-10.DOI10.1109JSYST.2015.2457244.y

,()::/Sstems201711-11.DOI10.1007s00530-017-0539-8.y

[]//4 XIY,YUANQ.Intellientrecommendationschemeofscenicsotsbasedonassociationrulemininlorithm[C]In-gpgag[],5 GUOQJJIWT,ZHOURY.Alorithmstudnderbiataenvironmentofpersonalizedrecommendationbasedongyugd

/1109ICIS.2017.7959988.

:/ternationalConferenceonRobots&IntellientSstem,IEEE,2017.DOI10.1109ICRIS.2017.53.gy

[//I/,:userinterestmodelC]EEEACISInternationalConferenceonComuter&InformationScience2017.DOI10.p

[]6 WANGHM,ZHANGP,LUT,etal.Hbridrecommendationmodelbasedonincrementalcollaborativefilterinndyga

:/2017.DOI10.1109CSCWD.2017.8066717.

//I,content-basedalorithms[C]EEEInternationalConferenceonComuterSuortedCooerativeWorkinDesingppppg

[][//I7 SONGMQ.Acollaborativefilterinecommendationalorithmbasedonmulti-dimensionaldatafillinC]EEEIn-grgg[],HEJH,8 WEIJCHENK,etal.Collaborativefilterinnddeelearninasedrecommendationsstemforcoldstarti-gapgby[]9 SUC,ZHANGBT.AcollaborativefilterinecommendationalorithmbasedonweihtedSimRankandsocialtrustgrgg[],[]10 SUNBSDONGLY.DnamicmodelsdativeyouserinterestdriftbasedonclusterandnearestneihborsJ.IEEEypg

,()::/Access2017991-1.DOI10.1109ACCESS.2017.2669243.

[//I,:/C]nternationalConferenceonMaterialsScience2017.DOI10.10631.4982551.

[],:/temsJ.ExertSstemswithAlications2017,69:29-39.DOI10.1016.eswa.2016.09.040.pyppj

,:/ternationalConferenceonComuter&Communications2017.DOI10.1109ComComm.2016.7924688.pp

河北大学学报(自然科学版)

第40卷

[]]11 YUCY,HUANGLP.CluCF:AclusterinFalorithmtoaddressdatasarsitroblem[J.ServiceOrientedCom-gCgpyp,()::/utinndAlications2017,11133-45.DOI10.1007s11761-016-0191-8.pgapp[]]万品哲,张德智.基于改进用户相似性度量和评分预测的协同过滤推荐算法[小型微型计算机系统,12 李昆仑,J.2018,39

()::/3567-571.DOI10.3969i.ssn.1000-1220.2018.03.031.j

[]]::/王成良,文俊浩.基于评论与评分的协同过滤算法[计算机应用研究,13 李伟霖,J.2017,34(2)361-3,DOI10.3969.j[]]::基于用户评论评分与信任度的协同过滤算法[计算机应用研究,14 王余斌,王成良,文俊浩.J.2018,35(5)94-97.DOI[]]:王春春,成亚飞,等.基于用户多属性与兴趣的协同过滤算法[计算机应用研究,15 赵文涛,J.2016,33(12)3630-3633.[]16 POZOM,CHIKYR,MEZIANEF,etal.Enhancinewusercold-startbasedondecisiontreesactivelearninisingngbyg

:/DOI10.3969i.ssn.1001-3695.2016.12.025.j/10.3969i.ssn.1001-3695.2018.05.019.jissn.1001-3695.2017.02.009.

[]17 FELICIOCZ,PAIXAOKVR,BARCELOSCAZ,etal.Preferencelikescoretocoewithcold-startuserinrecom-p

2016.0020.

[//Castwarm-userspredictionsC]onferenceonComutationalCollectiveIntellienceTechnoloiesandAlications.ppggpp

,:/_SrinerCham,2017.DOI10.1007978-3-319-67074-414.pg[//I:/mendersstemsC]EEEInternationalConferenceonToolswithArtificialIntellience.2017.DOI10.1109ICTAI.yg

[][]18 LIB,ZHUX,LIR,etal.Ratinnowledesharinincross-domaincollaborativefilterinJ.IEEETransactionsongkggg

,()::/Cbernetics2017,4551068-1082.DOI10.1109TCYB.2014.2343982.y

[],YUANXJ,19 WUXJDUANCY,etal.Anovelcollaborativefilterinlorithmofmachinelearnininteratinre-gaggbygg

s00521-018-3509-.y

[],::/strictedBoltzmannmachineandtrustinformationJ.NeuralComutinlications2018(5)1-8.DOI10.1007pg&App

[]20 LIL,ZHOUY,XIONGH,etal.Collaborativefilterinasedonuserattributesanduserratinsforrestaurantrecom-gbg

[//2,EmendationC]017IEEE2ndAdvancedInformationTechnololectronicandAutomationControlConferencegy(,:/IAEAC)IEEE,2017.DOI10.1109IAEAC.2017.80493.

[][//21 ZHUJH,MINGQ,LIUY.Trust-distrust-awarepoint-of-interestrecommendationinlocation-basedsocialnetworkM][][//I22 DANGY,WANGZZ,LIUXZ.DesinofoutdoorrecommendationalorithmbasedonuserlocationC]EEEIn-gg[]]::严宣辉,黄波.基于S计算机系统应用,23 林建辉,VD与模糊聚类的协同过滤推荐算法[J.2016,25(11)156-163.DOI[]]::/陈然.基于多层次混合相似度的协同过滤推荐算法[计算机应用,24 袁正午,J.2018,38(3)633-638.DOI10.11772.j[]]():关维国,邹林杰,等.基于P计算机应用,25 郝德华,earson相关系数的快速虚拟网格匹配定位算法[J.2018,383763-[]]::景丽萍,于剑.融合社交信息的矩阵分解推荐方法研究综述[软件学报,26 刘华锋,J.2018,29(2)340-362.DOI10.[]27 LIUH,XUQ,JINGW,etal.MIMOantennapolnomialweihtedaveraedesinmethodofdownward-lookinr-ygggga

/13328.cnki.os.005391.jj

:/768.DOI10.11772i.ssn.1001-9081.2017071760.jissn.1001-9081.2017071718./10.15888.cnki.csa.0074.j

,:/ternationalConferenceonComuter&CommunicationsIEEE,2017.DOI10.1109ComComm.2016.7925020.pp,,,,:/_WirelessAlorithmsSstemsandAlicationsSrinerCham,2018.DOI10.1007978-3-319-94268-158.gypppg

,],://raSAR[J.InternationalJournalofAntennasandProaation2017:1-18.DOI10.115520173029847.ypg[]]:::杜子芳.中国电影线上评分系统的改进[计算机应用,28 谢荻帆,J.2018,38(4)1218-1222.DOICNKISUN:JSJY.0.[],[]29 LIUYN,LIUDSXIEHH,etal.AresearchontheimrovedsloeonealorithmforcollaborativefilterinJ.In-ppgg

,()::/ternationalJournalofComutincienceandMathematics2016,73245.DOI10.1504IJCSM.2016.077865.pgS2018-04-051.

(责任编辑:孟素兰)

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文