您好,欢迎来到爱go旅游网。
搜索
您的当前位置:首页基于知识图谱的机器学习领域研究进展分析

基于知识图谱的机器学习领域研究进展分析

来源:爱go旅游网
基于知识图谱的机器学习领域研究进展分析

作者:敬思 许建飞

来源:《江苏科技信息》 2018年第13期

0 引言

机器学习是一门多领域交叉的学科,研究计算机如何学习及模拟人类的学习行为,通过获取新知识,将已有的知识结构进行重组,以实现不断改善自身性能的目的。机器学习于20世纪50年代中叶已被提出,并其后的30多年时间里,机器学习的相关研究不断发展。机器学习具有多学科交叉的属性,其已普遍应用于人工智能领域。张润等[1]认为如何使大数据转变成更有价值的知识的方式是运用机器学习技术,并且通过实证研究得出,在很大程度上,若希望机器学习模型的效果有明显的提升,则数据的规模需要进行扩大。郭亚宁等[2]认为机器学习的核心是学习,其研究的重点是如何让机器能够像人一样,通过外界环境的影响来改善自己的性能。

不少学者对机器学习的算法作了相关研究:何清等[3]基于大数据环境下探究了大数据分治策略与抽样、大数据特征选择、大数据分类、大数据聚类、大数据关联分析以及大数据并行算法这6种机器学习的算法;刘斌等[4]探讨了传统的机器学习所存在的问题和局限,并提出了更适合处理大数据的存储量大、可扩展性高的并行机器学习算法;肖红[5]通过对我国大数据的现状、特性以及分类的研究,为处于大数据下的机器学习算法提出了相应的建议和方法;曹雪[6]通过对当今机器学习所涉及的领域及其发挥的作用进行探讨,肯定了机器学习在人工智能方面有着重要的推动作用,并通过现有成果对机器学习的发展进行了预测。

如今我国机器学习领域的研究愈来愈热,应用范围也越来越广泛。通过对我国机器学习领域的现状进行研究,会对我国机器学习未来发展的动向和趋势有着重大的意义。本文以我国机器学习领域的CSSCI论文作为数据源,通过知识图谱的形式,展现和评价机器学习的研究现状以及研究热点。

1 数据与方法

1.1 数据来源

为了科学地对机器学习领域的发展现状以及前沿进行研究,笔者以中国知网数据库作为数据来源。将“机器学习”作为“篇名”,文献分类限定在“信息科技”,并将文献发表的时间区间设置为2007—2017年,文献检索的范围设置为CSSCI期刊。

1.2 研究方法及工具

随着科技的发展,可视化分析软件成为分析文献信息的前沿方法,可直观地可视化处理和分析文献。将CiteSpace作为本文使用的主要分析软件。有关学者基于Java平台开发了可视度强的CiteSpace软件,该软件具有显示、识别以及分析相关研究领域的现状及发展前景的功能,是分析科学文献数据的强大可视化工具[7]。

2 文献计量分析

本文分析机器学习领域在近10 年来的研究情况,对历年CSSCI的论文数量进行了统计,其变化趋势如图1所示。不难看出,在2007—2012年间,国内机器学习研究相关的论文数量呈

现出缓和上升的态势,表明这段时间机器学习研究并无突破性的进展,研究处于缓慢进步阶段。自2014年之后发文量猛然增长,因此这个时间节点可以视为国内机器学习研究热潮的爆发点,随后该研究领域成果迅速增长。特别是2016年阿尔法狗与李世石大战围棋胜利后,使得人工智能再次引起学者们高度重视。在2016—2017年期间机器学习研究的热点和受重视程度增长愈发迅速,成为当时研究热点。

3 机构分布

从机构和学术团队层面分析国内机器学习的研究情况,运行CiteSpace 统计高产科研机构如图2 所示。从发表文献的层面分析,上海交通大学、吉林大学、浙江大学是机器学习的高产机构。说明这3个研究机构在机器学习研究上有较强的领域影响力和科研实力,紧随其后的有国防科技大学、北京邮电大学、哈尔滨工业大学等7所科研单位。

对科研单位之间的合作情况进行分析,在CiteSpace中设置相应参数,C/CC/CCV 3个阈值为(2,2,20),(4,3,20),(4,3,20),Top N=30,Top N%=15,Article Labeling Threshold=2,得到机器学习的研究机构合作图谱如图3所示。其中标签的字号大小表示中心性强弱,字号越大,其中心性越强。节点环用于表示年轮,边用于体现机构间的合作关系。结果显示网络节点数量为N=23,连线数量为E=3,网络密度为Density=0.011 9,说明国内研究机器学习领域的机构之间合作较少,各机构间的联系不够紧密。

针对各研究单位在不同时间窗中的研究情况进行分析,统计了各个机构在机器学习研究领域的时序图谱,结果如图4所示。其中不同的颜色间隔代表不同的年代时序,节点颜色与上方年代颜色是一一对应的。2007年苏州大学计算机科学与技术学院在核心期刊发表了机器学习相关的研究成果,分析结果表明该机构所产生的影响力较大,且在后续年份发文量呈持续增长的态势。

4 作者分布

通过对机器学习领域的研究作者分布情况进行分析,检索的所有文献中共包含46名作者,根据文献计量学中有关高产作者的定律,筛选了发文量排名前十的作者统计,其结果如图5所示,其中2/5的高产作者来自于苏州大学,再一次证明了该科研团队在该研究领域的科研水平与实力,值得关注的是复旦大学、南昌大学、湖南工学大学等学者也不甘示弱,发文量紧随其后。

针对作者的合作情况进行分析,对于CiteSpace中的参数设置与先前描述一致。生成的机器学习研究机构合作图谱如图6所示。其中标签的字号大小表示中心性强弱,字号越大,其中心性越强。节点环用于表示年轮,边用于体现机构间的合作关系。结果显示,网络节点数量为N=46,连线数量为E=32,网络密度为Density=0.037 2。由于机器学习研究领域的机构多达26所,该网络密度属于较低水平,表明国内作者之间的鲜有合作,缺乏合作意识,且鲜有的合作往往局限于同一科研机构内,未形成牢固的跨机构的科研群体。

5 关键词共现排序

关键词通常为某个领域研究的重点,通过对关键词进行共现分析能够准确地把握研究领域的现状和研究热点。其构建思想来源于文献计量学中的文献被引以及文献耦合理论,是用于分析文献之间的相关连接强度[8]。在CiteSpace 中选择“Keyword”节点类型,对于

CiteSpace 中的参数设置与先前描述一致。运行得到关键词共现知识图谱,其结果如图7所示,图中显示共有节点235个,连线754条。

图中关键词之间的共现关系是通过节点间连线反映的,节点的大小表示该节点关键词词频的高低,节点越大,则该词频越高。频次位于前十的关键词如表1所示,该表记录了各个词频的中心性。从总体上看,该领域的研究热点较为分散,其关键词共现网络密度较低,并未形成较为明显的集中研究热点。由于研究的文献均与“机器学习”相关,因此“机器学习”一词未放入表1中。从统计结果可以看出,机器学习研究与支持向量机、神经网络、数据挖掘等领域或算法有着紧密的联系。学者十分关注支持向量机,支持向量机作为机器学习中十分重要的一种学习算法,属于有监督学习模型,常用于分类以及回归分析中来识别和分析数据。它能够灵活的应用于高纬度、非线性等实际场景问题中,并且算法本身有着十分严谨的理论基础[9]。神经网络是一种计算模型,其思想是通过模拟大脑来对数据进行分析[10]。随着信息的爆发,如今机器学习主要基于大数据环境下,来进行相应的分析和研究。而大数据的基础是数据挖掘[11],所以数据挖掘与机器学习也有一定的联系。数据挖掘是一个通过相关算法来提取隐藏在庞大、冗杂数据中信息的过程[12]。表1显示,这些关键词在共现网络图中的中心性占比较高,因此可初步认为机器学习领域中支持向量机、特征选择、神经网络、人工智能、数据挖掘是研究热点。

6 结论及建议

本文运用CiteSpace可视化软件,通过绘制知识图谱,来对我国CSSCI于2007—2017年引用的机器学习文献进行了分析,本文对于国内机器学习的知识图谱研究结果及建议如下:

(1)时间分布图谱显示,机器学习的研究成果在近十年内发展迅速,特别在2014年以后,其增长速率上升显著,现今正处于急速增长的阶段。其科研成果主要发表在计算机与信息类刊物上。现阶段该研究领域受重视程度逐步上升,其研究的广度及深度有加强趋势。

(2)科研机构分布及作者分布图谱显示,众多的科研机构参与到机器学习研究领域,呈现该领域多元化的局面,并且出现了如苏州大学、上海交通大学、吉林大学、浙江大学等一些实力较强的科研团队,但机构间的相互合作不够密切。高产作者促进了该领域的发展,但高产作者仅局限于机构内部进行合作,实施跨单位交流的学者较少。部分作者由于盲目从众,导致研究成果存在重叠的情况,科研成果的研究深度欠缺。因此建议研究机构在扩大科研投入时,应确保研究人员的积极性和专注度,通过开展研究交流活动,来构建稳定的良好、稳定合作环境,并共同深推进该领域的研究。

(3)关键词共现图谱显示,机器学习中支持向量机、神经网络、数据挖掘等相关算法被广泛重视和讨论,并得到普遍关注。从总体上看,机器学习研究成果的关键词结构较为分散,其研究热点尚未集中。

(4)文献被共引信息显示,机器学习领域的高频被引期刊和高频被引文献均主要集中在信息类和计算机类期刊中,说明机器学习具有较强的技术性。并且该研究成果在信息类期刊中占比较大,说明信息类期刊十分重视该领域,并大力支持该领域研究成果的发表。

(5)研究前沿时序图谱显示,机器学习的前沿主题较多,其涉及多门学科交错的特征较为明显。人工智能流行使机器学习中的随机森林、卷积神经网络等算法发展迅速。“情感分类”“大数据”等热词开始进入机器学习的研究领域,促使本课题的研究逐步深入。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igat.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务