(12)发明专利申请
(10)申请公布号 CN 111861046 A(43)申请公布日 2020.10.30
(21)申请号 201910265161.6(22)申请日 2019.04.02
(71)申请人 南京大学
地址 210093 江苏省南京市鼓楼区汉口路
22号(72)发明人 丁晓蔚 戴峰
(74)专利代理机构 南京瑞弘专利商标事务所
(普通合伙) 32249
代理人 刘珊珊(51)Int.Cl.
G06Q 10/06(2012.01)G06Q 50/18(2012.01)G06F 16/33(2019.01)G06F 16/36(2019.01)G06F 40/279(2020.01)
权利要求书1页 说明书5页 附图5页
()发明名称
基于大数据和深度学习的专利价值智能评估系统(57)摘要
本发明提出基于大数据和深度学习的专利价值智能评估系统,包括用户端、专利评估端和专利数据库服务器,专利评估端分别与专利数据库服务器和用户端交互,专利评估端从用户端或专利数据库服务器获取初始文本数据;专利评估端包括文本向量化模块和专利价格评估模块;其中,文本向量化模块对获取的初始文本数据进行分词处理,提取出的所有词互不相同,然后将每个词转换为词向量,并计算整个初始文本数据的平均词向量;专利价格评估模块将平均词向量转化为文本矩阵,并输入训练好的专利价格评估模型,输出专利价格并发送给用户端。本发明可以在不依赖专家经验的情况下,准确的评估专利的价格,评估速度快,准确度高。
CN 111861046 ACN 111861046 A
权 利 要 求 书
1/1页
1.基于大数据和深度学习的专利价值智能评估系统,其特征在于,包括用户端、专利评估端和专利数据库服务器,专利评估端分别与专利数据库服务器和用户端交互,专利评估端从用户端或专利数据库服务器获取初始文本数据;
专利评估端包括文本向量化模块和专利价格评估模块;其中,文本向量化模块对获取的初始文本数据进行分词处理,提取出的所有词互不相同,然后将每个词转换为词向量,并计算整个初始文本数据的平均词向量;
专利价格评估模块对平均词向量进行编码,将平均词向量中的每一个元素映射为一个唯一的正整数编码,然后设置一个r×t维的文本矩阵,将各元素的编码按照相应元素在平均词向量中的排序逐一填写在文本矩阵中,填写的顺序为从文本矩阵的第一行首位开始逐行填写,若平均词向量的编码数量大于r×t,则将多出部分删除,若平均词向量的编码数量不足r×t,则将文本矩阵中空出的位置补0;
专利价格评估模块将文本矩阵输入预先训练好的专利价格评估模型,输出初始文本数据对应的专利价格,并将得到的专利价格反馈给用户端;
所述专利价格评估模型为深度神经网络模型,该模型的训练步骤为:a.获取已知专利价格的专利文本,通过文本向量化模型提取专利文本的平均词向量;b.通过专利价格评估模块将提取出的平均词向量转化为文本矩阵,在进行训练前,为每个文本矩阵添加专利价格标签,然后以文本矩阵及其相应的价格标签作为训练数据输入深度神经网络模型反复训练,直至满足预设的停止条件,此时深度神经网络模型训练完毕。
2.根据权利要求1所述的基于大数据和深度学习的专利价值智能评估系统,其特征在于,专利评估端获取待评估专利的方式为:
用户通过用户端向专利评估端上传待评估的专利文本;或
用户通过用户端向专利评估端上传待评估的专利文本的检索信息,专利评估端根据检索信息从专利数据库服务器检索到相应专利文本并下载。
3.根据权利要求2所述的基于大数据和深度学习的专利价值智能评估系统,其特征在于,文本向量化模块通过预先训练好的文本词向量模型将提取出的词转化为词向量,文本词向量模型的训练方法为:
将作为训练样本的每个词表示成one-hot形式,然后选定一个词向量的维度X,将表示为one-hot形式的训练样本输入神经网络中,经过训练输出指定维度的词向量。
4.根据权利要求3所述的基于大数据和深度学习的专利价值智能评估系统,其特征在于,所述平均词向量的计算方法为:
vaverage=(v1+v2+…+vn)/n
v1至vn为初始文本数据经过分词处理后提取出的词的词向量,n为提取出的词的总数。
2
CN 111861046 A
说 明 书
基于大数据和深度学习的专利价值智能评估系统
1/5页
技术领域
[0001]本发明涉及价值评估领域,尤其是一种基于大数据和深度学习的专利价值智能评估 系统。
背景技术
[0002]专利的价格评估对于专利的转让、质押、融资等具有重要的意义,目前专利价格的 评估基本采用专家评估的方式,这种评估方式很大程度上依赖于专家经验,而这种依赖 性给专利价格的评估带来了很大的风险。如果专家经验不可靠或者估计错误,将会给专 利的转让等其他交易带来很大的成本。而现有技术中缺乏系统的、面向大众的专利价值 评价系统。
发明内容
[0003]发明目的:为填补现有技术的空白,本发明提出一种基于大数据和深度学习的专利 价值智能评估系统,该系统可以在不依赖专家经验的情况下,准确的评估专利的价格。[0004]技术方案:为实现上述目的,本发明提出以下技术方案:[0005]基于大数据和深度学习的专利价值智能评估系统,包括用户端、专利评估端和专利 数据库服务器,专利评估端分别与专利数据库服务器和用户端交互,专利评估端从用户 端或专利数据库服务器获取初始文本数据;
[0006]专利评估端包括文本向量化模块和专利价格评估模块;其中,[0007]文本向量化模块对获取的初始文本数据进行分词处理,提取出的所有词互不相同, 然后将每个词转换为词向量,并计算整个初始文本数据的平均词向量;[0008]专利价格评估模块对平均词向量进行编码,将平均词向量中的每一个元素映射为一 个唯一的正整数编码,然后设置一个r×t维的文本矩阵,将各元素的编码按照相应元素 在平均词向量中的排序逐一填写在文本矩阵中,填写的顺序为从文本矩阵的第一行首位 开始逐行填写,若平均词向量的编码数量大于r×t,则将多出部分删除,若平均词向量 的编码数量不足r×t,则将文本矩阵中空出的位置补0;
[0009]专利价格评估模块将文本矩阵输入预先训练好的专利价格评估模型,输出初始文本 数据对应的专利价格,并将得到的专利价格反馈给用户端;[0010]所述专利价格评估模型为深度神经网络模型,该模型的训练步骤为:[0011]a.获取已知专利价格的专利文本,通过文本向量化模型提取专利文本的平均词向 量;[0012]b.通过专利价格评估模块将提取出的平均词向量转化为文本矩阵,在进行训练前, 为每个文本矩阵添加专利价格标签,然后以文本矩阵及其相应的价格标签作为训练数据 输入深度神经网络模型反复训练,直至满足预设的停止条件,此时深度神经网络模型训 练完毕。
[0013]进一步的,专利评估端获取待评估专利的方式为:
3
CN 111861046 A[0014]
说 明 书
2/5页
用户通过用户端向专利评估端上传待评估的专利文本;或
[0015]用户通过用户端向专利评估端上传待评估的专利文本的检索信息,专利评估端根据 检索信息从专利数据库服务器检索到相应专利文本并下载。[0016]进一步的,文本向量化模块通过预先训练好的文本词向量模型将提取出的词转化为 词向量,文本词向量模型的训练方法为:
[0017]将作为训练样本的每个词表示成one-hot形式,然后选定一个词向量的维度X,将 表示为one-hot形式的训练样本输入神经网络中,经过训练输出指定维度的词向量。[0018]进一步的,所述平均词向量的计算方法为:[0019]vaverage=(v1+v2+…+vn)/n
[0020]v1至vn为初始文本数据经过分词处理后提取出的词的词向量,n为提取出的词的总 数。
[0021]有益效果:与现有技术相比,本发明具有以下优势:[0022]本发明提供了一种用于专利价格评估的工具,这是一种面向大众的专利价值智能评 估系统,任何人都可以通过用户端访问专利评估端,对自己所持有的或者别人的专利进 行价值评估。整个评估过程不依赖于专家经验,评估速度快,且准确度高。附图说明
[0023]图1为本发明的系统结构图;[0024]图2为本发明的工作流程图;
[0025]图3为CNN卷积神经网络的拓扑图;[0026]图4为ResNet的拓扑图;
[0027]图5为ResNet的残差学习单元拓扑图。
具体实施方式
[0028]下面结合附图和具体实施例对本发明作更进一步的说明。
[0029]本发明提出了一种基于大数据和深度学习的专利价值智能评估系统,该系统的架构 如图1所示,包括:用户端、专利评估端和专利数据库服务器,专利评估端分别与专利 数据库服务器和用户端交互,专利评估端从用户端或专利数据库服务器获取初始文本数 据。[0030]上述系统的工作流程如图2所示:专利评估端包括文本向量化模块和专利价格评估 模块,文本向量化模块对获取的初始文本数据进行分词处理,提取出的所有词互不相同, 然后将每个词转换为词向量,并计算整个初始文本数据的平均词向量;专利价格评估模 块对平均词向量进行编码,将平均词向量中的每一个元素映射为一个唯一的正整数编 码,然后设置一个N×N维的文本矩阵,将编码后的元素按照其在平均词向量中的排序 逐一填写在文本矩阵中;专利价格评估模块将文本矩阵输入预先训练好的专利价格评估 模型,输出初始文本数据对应的专利价格,并将得到的专利价格反馈给用户端。[0031]上述方案中,专利价格评估模型为深度神经网络模型,该模型的训练步骤为:[0032]a.获取已知专利价格的专利文本,通过文本向量化模型提取专利文本的平均词向 量;[0033]b.通过专利价格评估模块将提取出的平均词向量转化为文本矩阵,在进行训练
4
CN 111861046 A
说 明 书
3/5页
前, 为每个文本矩阵添加专利价格标签,然后以文本矩阵及其相应的价格标签作为训练数据 输入深度神经网络模型反复训练,直至满足预设的停止条件,此时深度神经网络模型训 练完毕。
[0034]上述方案中,专利评估端获取待评估专利的方式为:[0035]用户通过用户端向专利评估端上传待评估的专利文本;或[0036]用户通过用户端向专利评估端上传待评估的专利文本的检索信息,专利评估端根据 检索信息从专利数据库服务器检索到相应专利文本并下载。[0037]上述方案中,文本向量化模块通过预先训练好的文本词向量模型将提取出的词转化 为词向量,文本词向量模型的训练方法为:
[0038]将作为训练样本的每个词表示成one-hot形式,然后选定一个词向量的维度X(例 如),将表示为one-hot形式的训练样本输入神经网络中,经过训练输出指定维度的 词向量。
[0039]下面通过一个具体的实施例对本发明的原理进行进一步阐述。[0040]设文本向量化模块分词处理后提取的词共n个,分别记为w1、w2……wn,则初始 文本数据可以表示为:[0041]Wo=w1+w2+…+wn[0042]用文本词向量模型将每个词转化为词向量,记得到的n个词向量分别为v1、v2…… vn,则有:
[0043]f(Wo)=∑f(wk)=v1+v2+…+vn[0044]其中,f( )表示文本词向量模型的转化函数,wk表示第k个词;[0045]对词向量做向量加法,再把得到的向量的每个维度都除以词的数量,就得到平均词 向量:
[0046]vaverage=(v1+v2+…+vn)/n
[0047]专利价格评估模块对平均词向量进行编码,将平均词向量中的每一个元素映射为一 个唯一的正整数编码,设映射函数为g(x),可根据需求设置,g(x)的表达式为:[0048]g(Wo)=∑g(wk)=u1+u2+…+un
[0049]u1至un分别为平均词向量中的每一个元素的编码。[0050]然后设置一个r×t维(例100*100)的文本矩阵,将各元素的编码按照相应元素在 平均词向量中的排序逐一填写在文本矩阵中,填写的顺序为从文本矩阵的第一行首位开 始逐行填写,若平均词向量的编码数量大于r×t,则将多出部分删除,若平均词向量的 编码数量不足r×t,则将文本矩阵中空出的位置补0;填好的文本矩阵m为:
[0051]
[0052]
专利价格评估模块将文本矩阵输入预先训练好的专利价格评估模型,输出初始文本 数据对应的专利价格,并将得到的专利价格反馈给用户端;
[0053]将平均词向量和价格区间作为特征和标签放入一个深度神经网络进行训练,得到多 个回归模型,深度神经网络如图2所示,得到的回归模型为:
5
CN 111861046 A[00][0055][0056][0057]
说 明 书
4/5页
V=conv2(W,m,valid)+bprice=Φ(V)其中,conv2表示卷积公式,其卷积的展开式为:
其中,W表示输入,K表示卷积核,m*n为卷积核的大小。
[0059]具体的卷积过程如下:类比为图像,我们的文本矩阵是单通道的,假定我们的卷积 核是一个4维张量K,它的每一个元素是Ki,表示输出中处于通道i的一个单元和输 入j,k,l,中处于通道j中的一个单元的连接强度,并且在输出单元和输入单元之间有k行l列的 偏置。假定输入由观测数据W组成,它的每一个元素是Wi,表示处于通道i中第j行 第k列的j,k,值。假定我们的输出Z和输入W具有相同的形式,如果输出Z是通过对K和W 进行卷积而不设计翻转K得到的,那么,有:
[0060][0061]
[0058]
这里对所有的l,m和n进行求和是对所有(在求和式中)有效的张量索引的值进 行
求和。
[0062]
深度神经网络训练的过程如下:
[0063]假设我们想要训练这样一个卷积网络,它包含步幅为s的步幅卷积,该卷积的核为 K,作用于单通道的矩阵W,定义为c(K,W,s),如上式。假设我们想要最小化某个损 失函数J(W,K)。在前向传播过程中,我们需要用c本身来输出Z,然后Z传递到网络 的其余部分并且被用来计算损失函数J。在反向传播过程中,我们会得到一个张量G, G满足:
为了训练网络,我们需要对核中的权重求导,为了实现这个目的,我们在本实施例 中使用一个函数:
[0065][0066]
[00]
如果这一层不是网络的底层,我们需要对W求梯度来使得误差进一步反向传播,我
们可以使用如下的函数:
[0067]
深度神经网络训练结束后,即可用来评价新的专利文本,通过文本向量化模型提
取 新的专利文本的平均词向量;然后通过专利价格评估模块将提取出的平均词向量转化为 文本矩阵,将文本矩阵输入深度神经网络,即可得到专利价格评估结果。[0069]在上述实施例中,深度神经网络采用CNN卷积神经网络,CNN卷积神经网络拓扑图 如图3所示,本实施例中采用的CNN卷积神经网络包括但不限于LeNet-5、ResNet,ResNet 的结构如图4所示,其中的残差学习单元如图5所示,[0070]残差学习单元执行的计算过程为:
6
[0068]
CN 111861046 A[0071][0072][0073]
说 明 书
5/5页
xl+1=ReLU(yl)其中,xl和xl+1分别表示第l个残差单元的输入和输出,每个残差单元包含多层结
表示恒等映射,即
基于这个 式子,
构,F是残差函数,表示学习到的残差,求得从浅层l到深层L的学习特征为:
[0074][0075][0076][0077]
利用链式规则,可以求得反向过程的梯度:
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人
员 来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也 应视为本发明的保护范围。
7
CN 111861046 A
说 明 书 附 图
1/5页
图1
8
CN 111861046 A
说 明 书 附 图
2/5页
图2
9
说 明 书 附 图
图3
10
3/5页
CN 111861046 A
CN 111861046 A
说 明 书 附 图
4/5页
图4
11
CN 111861046 A
说 明 书 附 图
5/5页
图5
12
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- igat.cn 版权所有 赣ICP备2024042791号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务