您好,欢迎来到爱go旅游网。
搜索
您的当前位置:首页一种基于无监督学习的中文分词系统及方法[发明专利]

一种基于无监督学习的中文分词系统及方法[发明专利]

来源:爱go旅游网
专利内容由知识产权出版社提供

专利名称:一种基于无监督学习的中文分词系统及方法专利类型:发明专利

发明人:高翔,于敬,文辉,纪达麒,桂洪冠申请号:CN201710543999.8申请日:20170705公开号:CN107423288A公开日:20171201

摘要:本发明公开了一种基于无监督学习的中文分词系统及方法,其中系统包括语料数据处理模块,用于获取语料数据,将语料数据转换为纯文本;离线模型训练模块,用于将纯文本进行编码、清洗、去重处理后,进行字向量模型训练;在线分词模块,用于接收输入文本,利用训练好的字向量模型输出输入文本对应的分词结果。本发明可针对不同领域或系统选择语料数据的范围及内容;免去人工标注数据的时间及经济成本,通过字向量模型的使用,完成了一套无监督的中文分词系统。

申请人:达而观信息科技(上海)有限公司

地址:200000 上海市浦东新区中国(上海)自由贸易试验区亮秀路112号A座501A、501B室

国籍:CN

代理机构:北京卓唐知识产权代理有限公司

更多信息请下载全文后查看

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igat.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务