您好,欢迎来到爱go旅游网。
搜索
您的当前位置:首页一种从中文电子文档中自动提取词语的方法[发明专利]

一种从中文电子文档中自动提取词语的方法[发明专利]

来源:爱go旅游网
专利内容由知识产权出版社提供

专利名称:一种从中文电子文档中自动提取词语的方法专利类型:发明专利发明人:于娟

申请号:CN201310156494.8申请日:20130428公开号:CN103207921A公开日:20130717

摘要:本发明涉及一种从中文电子文档中自动提取词语的方法,其特征在于包括以下步骤:步骤S01:将电子文档处理为一组由特定词性的原子词所组成的词串;步骤S02:统计该些原子词词串及其子串的频率,将出现次数超过N次的原子词词串做为候选词语,其中N为可设定参数;步骤S03:删除候选词语集合中仅做为子串出现的词语,得到文档中出现的词语的集合,实现自动提取中文电子文档中的词语的目的。本发明的效果和益处是:解决了自动提词性能不高、自动化程度有限的实际问题和困难。高效的自动提词方法是文本自动处理的基础,是信息检索、文本摘要、内容管理等应用的有力保证。良好的词语提取方法能够促进上述工作的自动化程度和性能。

申请人:福州大学

地址:350108 福建省福州市闽侯县上街镇大学城学园路2号福州大学新区

国籍:CN

代理机构:福州元创专利商标代理有限公司

代理人:蔡学俊

更多信息请下载全文后查看

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igat.cn 版权所有 赣ICP备2024042791号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务