专利名称:一种基于关键词序列结构的文档相似度度量方法及
系统
专利类型:发明专利
发明人:陆介平,倪巍伟,杨春立,李爱东申请号:CN201910406178.9申请日:20190516公开号:CN110175328A公开日:20190827
摘要:本发明公开了一种基于关键词序列结构的文档相似度度量方法,该方法包括:存储两篇文档W与W并设置关键词序列,在文档W与W内分别查找所述关键词序列中的所有关键词出现的位置集合;根据关键词出现的位置生成关于关键词序列分别在文档W与W中的特征集合,进而得到所述关键词序列分别在W与W中的结构特征值;根据所述关键词序列在W与W中的结构特征值计算文档W与W关于所述关键词序列的相似度。本发明有利于规避文档词句语义角度度量相似性的偏差,本发明也可以规避已有方法中的从关键词角度度量相似性时,忽视一组关键词前后因果关系在文档分布结构特征提取中影响的不足,实用性更强,准确率更高。
申请人:镇江市高等专科学校
地址:212003 江苏省镇江市学府路61号
国籍:CN
代理机构:南京苏高专利商标事务所(普通合伙)
代理人:王恒静
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- igat.cn 版权所有 赣ICP备2024042791号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务