2008年10月
集美大学学报(自然科学版)
JournalofJimeiUniversity(NaturalScience)
Vo.l13No.4Oct.2008
[文章编号]1007-7405(2008)04-0365-07
基于对策论的电子商务交易协商的模型研究
王兆明,凌永辉
1
2
(1.集美大学工商管理学院,福建厦门361021;2.浙江师范大学数理与信息工程学院,浙江金华321004)
[摘要]为了提高交易效率和降低交易成本,有必要实现电子交易的自动或半自动协商.在现有的一些成果基础上,采用Agent技术,以对策论为理论基础,讨论了在具有多目标属性及信息不完全性情形下的协商过程,并得出了在这种情形下进行多回合协商时的最佳策略次序,最后通过虚拟交易来论证该模型的合理性.
[关键词]多Agent协商;MAS;电子商务;对策论;多目标[中图分类号]N94512;O225
[文献标志码]A
0引言
在电子商务自动协商领域中,首先要建立交易双方的静态策略模型.Agent技术的出现和发展为
实现这些功能提供了技术上的可能.多Agent协商(MultiagentNegotiation)是指多个Agent借助通信,交换各自目标,直到多Agent目标一致或不能达成协议.多Agent协商、协作与协调是DAI(DistributedArtificialIntelligence,分布式人工智能)研究的核心问题之一.对策论(GameTheory)
[2]
亦称博弈论,是研究具有对抗或竞争性质现象的数学理论和方法,也由此成为处理多Agent系统MAS(MultiAgentSystem)协商问题的重要数学工具.对策论为DAI问题提供了丰富的模型,并从中引申出了许多新的研究方法
[3-8]
[1]
.对策论一个新的发展方向学习理论
[9]
,该理论试图解决对策论
中理性参与人假设给应用带来的限制,其中的进化学习理论是关于人类理性假定最弱的学习理论.文献[2-10]在内容上缺少基于对策论基础上的静态策略模型建立的详细论述,以及在MAS环境下具体的实现过程.针对这一点,本文提出用对策论的理论来建立电子商务交易中静态的协商模型,并通过一个虚拟交易过程来验证模型的合理性.
1基于MAS电子商务交易协商系统的体系结构
本文主要是针对电子协商提出了一个多Agent的电子交易框架,来提高交易效率及降低成本.框架中以多Agent系统代替交易双方的参与人,形成由买方多Agent系统和卖方多Agent系统组成的交易协商模式.图1为整个协商系统的结构图.
买方多Agent系统由搜索Agent、决策Agent、协商Agent、交易Agent、模型库及商品信息库所组成.搜索Agent主要用于在商品信息库中搜集相关的商品信息并将所得信息返回给决策Agen;t决策Agent通过分析处理后得到一系列策略模型并存入模型库中;协商Agent从模型库中选取策略模型,通过管理Agent与卖方Agent进行协商,将最终的协商结果返回给交易Agen;t交易Agent通过管理Agent与卖方Agent进行最终的交易.卖方多Agent系统的工作模式与买方多Agent系统基本一样,所不同的是它的信息库为用户需求库.双方多次的协商以及最终交易的实现是通过管理Agent来完成的.
[收稿日期]2007-06-27
[修回日期]2007-10-30
[基金项目]厦门市社会科学规划项目
[作者简介]王兆明(1951),男,副教授,从事软件工程、电子商务应用研究.(366(
集美大学学报(自然科学版)第13卷
2基于对策论的静态协商模型
21基本假设
基本假设:1)买卖Agent双方均为理性智能体;2)买卖Agent双方均为自利的;3)买卖Agent双方的利益是完全对立的;4)买卖Agent双方的赢得效用矩阵是公共知识;5)买卖Agent双方具有不同的偏好信息且均不为对方所了解.
假设说明: 假设3)意味着双方进行的是二人有限零和对策(称为矩阵对策).
!有限∀指双
方的策略集均为有限集;!零和∀指在任一局势下,双方赢得效用之和为零,即一方的所得值恰好为另一方的所失值.#假设4)意味着双方的策略集及效用函数为双方所共知.事实上,虽然在实际中很难做到这一点,但即使做不到,他们仍然会尽可能地收集信息,使所获得的信息接近该假设.∃假设5)说明双方的协商过程是在不完全信息的情形下进行的,此时双方均有私人信息.22静态协商模型的建立221模型的基本要素
本文所讨论的是买卖Agent就某一交易(该交易涉及多个目标,如商品的价格、数量、质量等)进行协商,以求能够得到双方都满意的协商结果.模型中的基本要素说明如下:
设该交易共涉及到N个目标属性,分别记为g1,g2,%,gN.买方Agent对这N个目标的权重向量(偏好信息)为
(1)
=(1,2,%,N),其中k(k=1,2,%,N)是买方Agent对第k个目标gk&[0,1],
(2)
k
(1)(1)(1)T(1)
的权重值,满足,%,1],
(2)2
(2)N(2)
T
(1)k
∋
N
k=1
k=1=1.卖方Agent对这N个目标的权重向量为
(1)(2)
=(1,
(2)
(2)
),其中=1.
(k=1,2,%,N)是卖方Agent对第k个目标gk的权重值,满足k&[0,
∋
N
k=1
k
设买方Agent在该交易协商中的策略集为S1={,1,2,%m},卖方Agent在该交易协商中的策略集为S2={ 1, ,2,%,m),2,%, n}.买方Agent在某一协商回合中选取策略i的概率为xi(i=1
卖方Agent在某一协商回合中选取策略 j的概率为yj(j=1,2,%,n).
记买方Agent的第k个目标在局势(i, j)中的赢得值为aij,即,在买方Agent选取策略i,卖方Agent选取策略 j的协商谈判中,买方Agent的赢得值,此时由假设3)可知,卖方Agent的赢得值为-aij.于是,买方Agent的第k个目标的赢得矩阵为:
(k)
(k)
第4期王兆明,等:基于对策论的电子商务交易协商的模型研究
(367(
a11
A
(k)
(k)
%%
a1n!
(k)
=!am1
(k)
=(aij)m)n(k=1,2,%,N).
(1)
(2)
(k)
(k)
amn
(k)
综合上述模型要素的符号说明,现将协商模型表示为G={S1,S2,,,{A222目标赢得矩阵的规范化
}k=1}.
N
由于各目标间的物理量纲及背景的不一致性,必须将各目标属性值进行规范化,以便于各目标方案值间的优劣比较.规范化的方法有很多,可根据具体情况选用不同的方法,本文采用如下的规范化公式:
bij=((aij-aimin)/(aimax-aimin))i,i=1,2,%,m;j=1,2,%,n.
其中:参数pi由决策者确定(常取pi=1),并且aimin=1min{aij},aimax=max{aij}.∗j∗n1∗j∗n
易知,若aij=aimax,则bij=1,表示局势(i, j)是关于该目标为最优的;若aij=aimin,则bij=0,表示局势(i, j)是关于该目标为最差的;若aimin (k) (k) (k) (k) p (1) (k=1,2,%,N)通过规范化公式处理后,可以分别得到相应的新 * =(bij)m)n(k=1,2,%,N),此时协商模型转变为G={S1,S2,,, (1)(2) }k=1}. N 223多目标协商问题的处理过程 因矩阵对策理论所处理的是单目标意义上的对策问题,所以在利用矩阵对策来处理多目标协商问题时,需要首先解决的一个问题就是如何将多目标情形转化为单目标的情形.由于已经知道双方的目标权重向量,故本文采用线性加权法来处理这个转化过程,需要注意的是,由于双方的协商过程是在不完全信息情形下进行的,因此双方都会根据自己的偏好结构而得到各自估计的协商模型. 事实上,对于买方Agent而言,作变换 b 记矩阵B (1) (1) (1) ij = ∋ N k=1 kbij,i=1,2,%,m;j=1,2,%,n, (k) (k) (1)(k) (2) =(bij)m)n,则,可将买方Agent的N个目标赢得矩阵B (1) (1) * (1) =(bij)m)n(k=1,2,%,N), * 通过变换(2)转化成为新赢得矩阵B 估计的协商模型G1={S1,S2,B 商谈判是以B (1) =(bij)m)n.于是,买方Agent将协商模型G转变成它所 * (1) }.由于协商的不完全信息性,买方Agent认为双方正在进行的协 ). 为买方赢得矩阵的协商模型G1(卖方Agent的赢得矩阵为-B 对于卖方Agent而言,作变换 b 记矩阵B (2) (2) (2) ij = ∋ N kbij,i=1,2,%,m;j=1,2,%,n, (k) (k) (2)(k) (3) k=1 =(bij)m)n,则,可将买方Agent的N个目标赢得矩阵B (2) (2) * (2) =(bij)m)n(k=1,2,%,N), * 通过变换(3)转化为新的赢得矩阵B 估计的协商模型G2={S1,S2,B G2 * =(bij)m)n.于是,卖方Agent将协商模型G转变成它所 (2) },并认为双方正在进行的是以B (2) 为买方赢得矩阵的协商过程 (买方Agent自身的赢得矩阵为-B ). 224策略模型的建立 由以上论述可知,由于买卖Agent双方偏好信息的不同,使得双方各自均估计出一个协商模型,并且认为对方是处于自身所估计的协商模型中,从而由矩阵对策理论可以得到两个协商模型的最优策略解的相应数学规划模型. 协商模型G1={S1,S2,B * (1) }最优策略的线性规划模型为: (368( max{W (1) 集美大学学报(自然科学版)第13卷 (1) } min{V } ∋ (P1)m m i=1 bxi+W i (1)ij (1) ,j=1,2,%,n, (Q1)∋ n n j=1 bijyj∗V,i=1,2,%,m, j (1)(1) ∋x i=1 =1, ∋y j=1 =1, xi+0,i=1,2,%,m. 协商模型G2={S1,S2,B * (2) yj+0,j=1,2,%,n.min{V (2) }的最优策略的线性规划模型为: (2) max{W } } ∋ (P2)m m bxi+W i (2) ij (2) ,j=1,2,%,n, (Q2)i=1 ∋ n n bijyj∗V,i=1,2,%,m, j (2)(2) j=1 ∋x i=1 =1, ∋y j=1 =1, xi+0,i=1,2,%,m. 述两对对偶线性规划进行求解. 不妨设得到的模型G1的最优解为:xG2的最优解为:x * (2) (2) (2) (2) * (1)T yj+0,j=1,2,%,n. 易知,(P1)与(Q1)、(P2)与(Q2)都是互为对偶的线性规划,于是用单纯形或对偶单纯形方法可对上 =(x1,x2,%,xm),y (2) (2) (2) (2) (1) (1) (1) T (1)T =(y1,y2,%,yn).模型 (1)(1)(1)T =(x1,x2,%,xm),y=(y1,y2,%,yn). * 225最优策略解的讨论及模型结论 通过对多目标协商问题的处理,得到了买方Agent认为的以G1为双方协商过程的协商模型、卖方Agent认为的以G2为双方协商过程的协商模型.这样,买方Agent会采用G1中的最优策略,卖方Agent会采用G2中的最优策略.从而可知,双方的实际期望赢得与原来估计的期望赢得将出现不一致.具体来说就是,在协商过程中,买方Agent采用最优策略解x策略解y (1) (1) * * * ,并认为卖方Agent会采用最优 (4) (2) ,于是得到了买方Agent在目标gk(k=1,2,%,N)的估计期望赢得值为 m (k) =(x (1) )B T(k) y,k=1,2,%,N. (1) 同样地,卖方Agent采用最优策略解y n (k) (2) ,并认为此时买方Agent会采用最优策略解x T (k) ,故此 (5) 时估计出买方Agent在目标gk(k=1,2,%,N)的期望赢得值为: =(x (2) )By,k=1,2,%,N. (1) (2) 实际上,买卖Agent双方在协商谈判中各自采取的最优策略解分别为xAgen在t目标gk(k=1,2,%,N)的实际期望赢得值为 v 因(x,y (1) (1) *(k) 和y (2) ;因此,买方 (6) =(x (1) )B T(k) y,k=1,2,%,N. (1) (2) )是协商模型G1的鞍点,故有(x)B T(k) y (1) ∗(x (1) )B T(k) y (2) ,即m (k) ∗v (k) , k=1,2,%,N,于是得到 ∋ (1) (1) (1) (1) N k=1 m(1) k (k) ∗ ∋ k=1 N (1)k v. * (k) (7) 式(7)说明,买方Agent若按照自己的偏好结构,并且采用模型G1所得的最优策略解参与协商谈判,那么他的实际赢得值至少不会比原先估计的赢得值要差.也就是说:一般情形下,对最优解x 中的各分量x1,x2,%,xm按从大到小排序,所得结果为xi1,xi2,%,xim,其中i1,i2,%,im是 (1) (1) (1) 1,2,%,m的一个排列;如果买方Agent在多次的协商过程中,依次采取策略,im,那么最i,i,%12终的协商结果是买方Agent所期望的满意结果. 类似地,由于(x,yv (k) (2) (2) )是协商模型G2的鞍点,从而有(x *(1) )B T(k) y (2) ∗(x (2) )B T(k) y (2) ,即 ∗n(k) (k=1,2,%,N),故可得:第4期王兆明,等:基于对策论的电子商务交易协商的模型研究 (369( (8) ∋ N k=1 (2)k v (k) ∗ k=1 ∋ N (2)k n. * (k) 式(8)说明,卖方Agent若按照自己的偏好结构,并且采用模型G2所得的最优策略解参与协商谈判,那么他的实际赢得值至少不会比原先估计的赢得值要差.同样可以得到卖方Agent的最佳策略次序为 j1, , jn,其中j1,j2,%,jn是1,2,%,n的一个排列,由yj2,% (2) 的各分量y1,y2,%,yn排序 (2)(2)(2) 后得到. 综上所述,买卖Agent双方在具有不完全信息的多目标属性协商过程中,可以采用自身所估计的协商模型中的最优策略解进行协商,最后所得的协商结果将是双方均满意的期望结果.这一结论是由式(7)和式(8)所保证的. 3协商模型的应用以及运行过程 31协商模型的应用 现在通过一个虚拟交易来实现对本协商模型的应用.交易双方分别假设为商品的供应商和商品的生产厂商,其中买方Agent代表供应商,卖方Agent代表生产厂商.双方需要对一项商品贸易(如空调、冰箱等)进行交易协商,其涉及到的目标属性有商品的价格(g1)、数量(g2)和质量(g3).311基本数据 根据协商模型的基本假设4),可以得到双方共有的数据.说明如下:假设双方策略集中均有三个策略:S1={1,2,3};S2={ 1, 2, 3}.三个(买方Agent的)目标赢得矩阵: 400-700-900A (1) 20-30-40(2) -4 (3) 710= -300200 600,A = -1510 45,A = 5-2-8. 800-100-50050-5-25-1016(1)(2) 其中,A中的元素值是买方对于单个商品在协商后的赢得值;A的元素值定义为协商后与协商前所成 (3) 交的商品数量的差值;A中的元素值的取值范围为[-10,10],从10到-10表示质量从优到差. (1)T 此外,由模型的基本假设5),假设双方的目标权重向量分别为:=(0.45,0.2,0.35),(2)T=(0.5,0.35,0.15).这个数据对于双方而言是私有数据,不为对方所了解.312目标赢得矩阵的规范化 (i) 利用公式(1)对上述三个目标赢得矩阵A(i=1,2,3)进行规范化,结果分别为: 0.76470.117600.66670.11110 (1)(2)B=0.35290.64710=0.8824,B.27780.55560.9444, 1.00000.47060.23530.30000.8500 (3)B=0.75000.4000 从规范结果可以看出,在矩阵B是最差的.同样地,在矩阵B (2) (1)(3) 1.00000.3889 1.00000.1000. 1.667000.55000.8000中,(3, 1)关于目标g1是最优的,而(1, 3)则关于目标g1中亦可得出相应结果. 和B 313多目标处理过程及最优解的获得 在对买方Agent的三个目标赢得矩阵进行规范化后,双方根据自己的私有数据,分别利用公式 (1) (2)和公式(3)进行多目标变换过程.这样,买方Agent得到了单目标意义上的新赢得矩阵B ,卖方Agent得到了单目标意义上的新赢得矩阵为B :0.58250.37260.3500(1)(2)B =0 =.47690.54230.6210,B1.00000.48210.4192(2) 0.66080.38620.85000.22520.57800.45390.15000.7867.0.2960(370( 集美大学学报(自然科学版)第13卷 从而,可以利用单纯形或对偶单纯形法来求解双方各自估计的协商模型的最优解,所得结果分别为:P1:x (1)(2) =(0,0.7197,0.2803),W T T(1)(2) =0.5254;Q1:y=0.5375;Q2:y (1)(2) =(0.2580,0.7420,0),V=(0.2111,0.7889,0),V T T(1)(2) =0.5254;=0.5375. P2:x=(0,0.6738,0.3262),W 314协商赢得值的计算 根据模型的最优解,买方Agent在进行协商时,会以0.7197的概率选择策略2,以0.2803的概率选择策略3来进行协商,且不会选择策略1;并且估计卖方Agent会以07420的概率选择策略 2,以02580的概率选择 1来与之进行协商,且认定对方不会选择策略 3.在这种情形下,买方Agent估计出自身在各个目标的期望赢得值分别为:m(x (1) (1) =(x (1) )B T(1) y (1) =0.5813,m (2) = )B (1) T(2) y (1) =0.5015,m (1) (2) (3) =(x (3) (1) )B T(3) y (1) =0.4673. 于是,买方Agent估计的加权期望总赢得值为: 1m+2m+3m=0.45)0.5813+0.2)0.5015+0.35)0.4673=0.5254.另一方面,卖方Agent在进行协商时,则会以07889的概率选择策略 2,以02111的概率选择策略 1来与买方Agent进行协商,且不会选择策略 3.同时估计买方Agent此时会以06738的概率选择策略2,以03262的概率选择策略3,来与之进行协商,并认定对方不会选择策略1.在这种情况下,卖方Agent估计出买方Agent在各目标的期望赢得值分别为:n (1) (1) (1) =(x (2) (2) )B T(1) y (2) =0.5841,n (2) (3) (2) =(x (2) )B T(2) y (2) =0.5038,n (3) =(x (2) )B T(3) y (2) =0.4608. 于是,卖方Agent估计的加权期望赢得值为: 1n+2n+3n=0.5)0.5841+0.35)0.5038+0.15)0.4608=0.5375.然而,买方Agent的实际期望赢得值分别为:v (1) (1) (2) (2) =(x1v (2)(1) (1) )B T(1) y (2) =0.5843,v+3v+3v (2)(1) (3) (2) =(x (1) )B T(2) y (2) =0.5028,v (3) =(x (1) )B T(3) y (2) =0.4627. 故,买方Agent实际的加权期望总赢得值为: (1) +2v (2) (1)(2) =0.45)0.5843+0.2)0.5028+0.35)0.4627=0.5254.=0.5)0.5843+0.35)0.5028+0.15)0.4627=0.5375. (k) 卖方Agent实际加权期望赢得值为:1v+2v 从而得到了: (1) (2) (3) ∋ 3 m(1)k = k=1 ∋ 3 (1)k v, (k) k=1 ∋ 3 (2)k v (k) = k=1 ∋ 3 kn. (2)(k) k=1 这样,便验证了结论公式(7)和(8)的正确性.如果假定双方在选择策略时,遵循!最优解中概率越大的策略,对自己的利益就越好∀这一选择原则,那么就可以得到双方在协商过程中的最佳策略次序分别为:买方:2,3,1;卖方: 2, 1, 3. 另外,通过虚拟交易过程不仅验证了协商模型的合理性,并且可以看出,随着策略集维数、目标属性个数的增加,模型所得出的结果将会越显著,这使得该协商模型有着广泛的应用背景.32MAS环境下的协商系统运行过程 本文所得出的基于对策论的协商模型为MAS的电子商务交易系统奠定了基础,其运行过程如下:对于买方Agent(内部结构如图1所示)系统,首先由决策Agent获取相关的信息资源,然后根据目标模块的相关要求生成了四个基本数据,即,双方的策略集S1和S2、目标赢得矩阵A2,3)及目标权重向量 (1) (i) (i=1, .进而,由这四个基本数据,经过目标赢得矩阵规范化(公式(1))及多 目标变换处理(公式(2))后,得到协商模型的最优解,最后决策Agent将上述四个数据及最优解反馈给模型库,同时存入其知识库.在模型库中得出协商Agent在进行协商过程中所得的最佳策略次序,并将所得结果及决策Agent所得结果全部提供给协商Agen.t 协商Agent在本系统中主要完成各目标期望赢得值、加权期望总赢得值等方面的计算,根据自身的评价机制来协调协商过程的进程,以完成整个协商过程的任务.最后交由交易Agent的评判机制决第4期王兆明,等:基于对策论的电子商务交易协商的模型研究 (371( 定是否完成最终交易.而卖方Agent系统的运行过程与买方Agent系统的运行过程是相类似的. 4结束语 本文应用Agent技术,以对策论为理论基础,考虑了多目标属性问题及具有私人信息的协商过程,从中引入以双方对各目标的权重作为各自的私人偏好信息.讨论了双方在不完全信息情况下的协商情形,得出了双方应如何在多回合的协商中选取最优策略来达到满意的协商结果,最后以一个虚拟交易来验证了模型的合理性.今后,在协商过程中如何考虑并利用历史信息做出新决策以进行动态协商,及各种信息的不完全性、模糊性等方面有待于进一步的研究. [参考文献] [1]何炎祥,陈莘萌.Agent和多Agent系统的设计与应用[M].武汉:武汉大学出版社,[3]NASHJF.Essaysongametheory[M].Cheltenham:EdwardElgarPress,1996. [4]KRAUSS,WILKENFELDJ,ZLOTKING.Multi-Agentnegotiationundertimeconstraints[J].ArtificialIntelligence, 1995,75(2):297!345.[5]SANDHOLMTW, 94:99!137. [6]ABHINAYM.Bargainingtheorywithapplication[M]. Cambridge:CambridgeUniversityPress,1999. 1997,94: 79!97. [7]KRAUSS.NegotiationandcooperationinMulti-Agentenvironments[J].ArtificialIntelligence,[9]陈建国.博弈论与不完全信息[M].北京:经济科学出版社, 2006. 2005,4(4):331!336. LESSERVR.Coalitionamongcomputationallyboundedagent[J].ArtificialIntelligence, 1997, 2001:10!12, 3!4,8!9. 1944. [2]VONNJ,MORGENSTEINO.Theoryofgamesandeconomicbehavior[M].Princeton:PrincetonUniversity, [8]MICHAELW.AnintroductiontoMulti-Agentsystems[M].Beijing:PublishingHouseofElectronicsIndustry,2003.[10]刘秋莲.基于多Agent系统的电子商务模型[J].广州大学学报:自然科学报, ResearchofModelinElectronicCommerceTrade NegotiationBasedontheTheoryofGames WANGZhao!ming,LINGYong!hui (1. SchoolofBusinessAdministration,2.SchoolofMathsandInfo, ZhejiangNormalUniversity, 1 2 JimeiUniversity,Xiamen361021,China; Jinhua321004,China) Abstract:WhethersuccessorfailureintheE!businessdependschieflyonbusinessnegotiations.Inor! dertoimprovethetradeefficiencyandreducethetradecos,titisnecessarytorealizeautomaticnegotiationsorhalf!automaticnegotiationsduringtheelectronictrade.Basedonsomeoutcomes,abusinessnegotiationmodelispresentedbymakinguseoftheAgenttechnology.Themodelisestablishedbasedonthetheoryofgames.Thispaperdiscussesthenegotiationprocess,whichhasthecharacterofmulti!goalsandincompleteinformation.Then,underthecondition,theoptimumstrategyorderduringboutsofnegotiationisobtained.Finally,thereasonabilityofthismodelisprovedbyinstanceofvirtualtrade. Keywords:MultiagentNegotiation;MAS;electroniccommerce;gamestheory;multi!goals (责任编辑朱雪莲) 因篇幅问题不能全部显示,请点此查看更多更全内容