专利名称:一种从中文电子文档中自动提取词语的方法专利类型:发明专利发明人:于娟
申请号:CN201310156494.8申请日:20130428公开号:CN103207921A公开日:20130717
摘要:本发明涉及一种从中文电子文档中自动提取词语的方法,其特征在于包括以下步骤:步骤S01:将电子文档处理为一组由特定词性的原子词所组成的词串;步骤S02:统计该些原子词词串及其子串的频率,将出现次数超过N次的原子词词串做为候选词语,其中N为可设定参数;步骤S03:删除候选词语集合中仅做为子串出现的词语,得到文档中出现的词语的集合,实现自动提取中文电子文档中的词语的目的。本发明的效果和益处是:解决了自动提词性能不高、自动化程度有限的实际问题和困难。高效的自动提词方法是文本自动处理的基础,是信息检索、文本摘要、内容管理等应用的有力保证。良好的词语提取方法能够促进上述工作的自动化程度和性能。
申请人:福州大学
地址:350108 福建省福州市闽侯县上街镇大学城学园路2号福州大学新区
国籍:CN
代理机构:福州元创专利商标代理有限公司
代理人:蔡学俊
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- igat.cn 版权所有 赣ICP备2024042791号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务