专利名称:一种基于无监督学习的中文分词系统及方法专利类型:发明专利
发明人:高翔,于敬,文辉,纪达麒,桂洪冠申请号:CN201710543999.8申请日:20170705公开号:CN107423288A公开日:20171201
摘要:本发明公开了一种基于无监督学习的中文分词系统及方法,其中系统包括语料数据处理模块,用于获取语料数据,将语料数据转换为纯文本;离线模型训练模块,用于将纯文本进行编码、清洗、去重处理后,进行字向量模型训练;在线分词模块,用于接收输入文本,利用训练好的字向量模型输出输入文本对应的分词结果。本发明可针对不同领域或系统选择语料数据的范围及内容;免去人工标注数据的时间及经济成本,通过字向量模型的使用,完成了一套无监督的中文分词系统。
申请人:达而观信息科技(上海)有限公司
地址:200000 上海市浦东新区中国(上海)自由贸易试验区亮秀路112号A座501A、501B室
国籍:CN
代理机构:北京卓唐知识产权代理有限公司
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容