一种基于无监督学习的中文分词系统及方法[发明专利]

来源：爱go旅游网

专利内容由知识产权出版社提供

专利名称：一种基于无监督学习的中文分词系统及方法专利类型：发明专利

发明人：高翔,于敬,文辉,纪达麒,桂洪冠申请号：CN201710543999.8申请日：20170705公开号：CN107423288A公开日：20171201

摘要：本发明公开了一种基于无监督学习的中文分词系统及方法，其中系统包括语料数据处理模块，用于获取语料数据，将语料数据转换为纯文本；离线模型训练模块，用于将纯文本进行编码、清洗、去重处理后，进行字向量模型训练；在线分词模块，用于接收输入文本，利用训练好的字向量模型输出输入文本对应的分词结果。本发明可针对不同领域或系统选择语料数据的范围及内容；免去人工标注数据的时间及经济成本，通过字向量模型的使用，完成了一套无监督的中文分词系统。

申请人：达而观信息科技(上海)有限公司

地址：200000 上海市浦东新区中国(上海)自由贸易试验区亮秀路112号A座501A、501B室

国籍：CN

代理机构：北京卓唐知识产权代理有限公司

更多信息请下载全文后查看

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文