您好,欢迎来到爱go旅游网。
搜索
您的当前位置:首页研究生信息检索论文模板(信息检索中的相关性问题研究),绝对的原创!

研究生信息检索论文模板(信息检索中的相关性问题研究),绝对的原创!

来源:爱go旅游网


信息检索中的相关性模型

摘要:鉴于相关性模型研究是相关性研究中的核心内容,首先阐释直觉与哲学视角的相关

性研究对信息检索领域相关性研究的借鉴意义,在此基础上,论述信息检索中相关性研究的四维模型(信息源、用户信息需求、时间构件)以及交互模型。其中对交互模型的阐述,主要集中于认知模型、片段模型及层次模型。

关键词:信息检索;相关性;模型

Models of Relevance in Information Retrieval

Abstract: Relevance is the main research issue in information retrieval and information

science ,and so are relevance models in relevance research .This paper explores the theoretical work about relevance from philosophy as well as intuitive understanding . A four-dimension model(information resource,representation of user’s problem time and components) and an interactive model are critically illuminated. A better understanding of the cognitive model,the episode model and the stratifend model is of great importance to the active model. Keywods:information retrieval;relevance;model

1.引言

自从上个世纪50年代Mooers、Taube、Perry等将计算机技术应用于信息检索之后,相关性(relevance)就成了该领域的核心研究内容。在过去的50多年里,相关性研究已经形成了面向系统与面向用户两个学派,其中代表性的观点有系统观、信息观与情境[1]。系统观的代表人物除了前面提到的3位之外,还包括Salton等,其研究主要围绕检索系统的分析、设计以及评估展开,其核心研究内容是检索模型以及查询表达式与文档或其替代品间的匹配算法。信息观的代表人物有Cooper、Ingwersen、Lancaster等,主要研究查询请求与文档间的概念关联性。情境观的代表人物有Wilson、Harter以及Schamber等,主要研究信息与用户信息需求情境间的关系,其基本观点认为只有用户才能完成有效的相关性判断。三者相较,系统观主要从客观的视角进行相关性研究;情境观主要基于主观的角度;信息观则介于两者之间,主观与客观兼具。以上观点对该领域研究的意义是显然的,不过有必要对其加以反与梳理,以免

陷人具体的细节中。Saracevic、Mizzaro、Cosjin以及Borlund等构建的多种相关性模型完成了该方向的研究,使相关性研究实现了系统化,达到了既见树木,又见森林目的。下面分别从其他学科以及信息科学的视角讨论相关性模型。

2.相关性模型--其他科学的视角

除信息检索外,相关性也是哲学、逻辑学、心理学以及通讯科学的主要研究内容。由

于哲学等学科的发展历史较信息检索要久远得多,其开展相关性研究的历史也明显早于信 息检索领域,因而对信息检索领域相关性研究的探讨无法绕开这些领域所提供的良好背景。除学术圈之外,相关性也是日常生活中广泛应用的概念,不过人们在使用时似乎并没有遵循什么严格的定义与框架,而完全基于直觉。 2.1 相关性的直觉理解

《美国传统词典》相关性词条的解释是“pertinence to the matte at hand”(与手头的事务有关);《汉语大字典》以及《现代汉语词典》对相关的解释是“彼此关联”,这些权威词典的解释实际上就是对相关性的直觉理解。几乎每天,甚至每时每刻,相关性都会出现在人们的日常生活、学习以及工作中,例如人际交流、信息检索以及信息咨询等交互式活动,人们都会根据直觉的理解将其应用于过滤、评价、推理、排序、接受、拒绝、联系、分类等任务,几乎没有人质疑过其定义问题。相关性是一个基础的认知概念,正如自然科学中的公理是相应学科开展研究的基础一样,相关性也已经成为信息检索领域开展研究与应用的基础川。相关性在日常各个领域的广泛应用,使得以相关性为基础的信息检索系统能够获得广泛 的成功,其内在的原因就是人们依据相关性的直觉能够非常容易地理解所检索的一切。相关性的直觉理解认为相关性的基本属性是动态的,是随着用户意图、认知水平以及手头事务的不同而变化的。虽然相关性的直觉理解在日常应用中没有遇到什么障碍,但不足之处在于缺乏对其本质的认识与思考。 2.2 哲学视角的相关性

哲学领域中,专门以相关性为主题展开研究的主要是Schutz[2],他认为相关性是决定“生命世界”(life world)中复杂联系的基本属性,并将其分为相互的3种类型,即:主题相关性(topical relevance)、解释相关性(interpretation relevance)以及动机相关性(motivational relevance),三者之间的关系见图1。其中,主题相关性是指从情境(horizon,指社会背景、个人经验等)中分离出来的主题(theme);解释相关性是指基于情境、知识积累以及过去的经验等对主题的解释;动机相关性主要指的是选择,即在多个解释中选择其一。Schutz认为这3类相关性之间存在动态交互以及相互依赖的关系,并将其称为“相关性统”(system of relevancies)。

Schutz研究的优势在于首次从理论上解释了多种不同类型相关性的存在及其交互性与依存性,从哲学角度为该领域存在的多种不同类型的相关性提供了坚实的理论基础,对信息检索领域的相关性研究具有重要的指导意义。

图1 相关性系统 3.相关性模型--信息科学的视角

在信息科学领域,Mizzaro与Saracevic分别构建了各自的相关性模型,而Cosjin与Borlund的研究则在Saracevic的基础上又前进了一步。 3.1 四维模型

Mizzaro在文献[3]中对信息检索领域的相关性研究进行了全面的综述,在此基础上提出了相关性的思维模型[4]。 3.1.1 第一维:信息源

Lancaster提出了“相关性是两个集合中元素间的关系”的观点[5],该观点已经成为学界的共识。Mizzaro的四维模型中也包括这样的两个集合,其中第一个集合主要包括文献、文献的替代品和信息3个元素,第二个集合是下文即将介绍的用户信息需求表示。

 文献,指用户从检索系统中检索出的物理实体(physical entity)。  文献的替代品(surrogate),指文献的表示,包括下列部分项目或全部:题名、关键词表、作者以及文摘等书目数据。

 信息,指用户在阅读检索出的文献时所获得的非实体性内容。

Mizzaro,认为三者的关系是:替代品<文献<信息,但这种关系不是一成不变的,在某些条件下可以修正。

3.1.2 第二维:用户信息需求表示

该维的思想主要来自于Belkin 的ASK 研究[6-7]。Belkin 认为用户与检索系统的交互过程包括以下几个阶段。

 最初,用户处于有问题需要信息的辅助予以解决的状态,即他有真实的信息需求(RIN,real information need)。

 然后,RIN被用户感知(perceive)并构建感知到的信息需求(PIN,perceived information need)。PIN是RIN的心理表示,由于有时用户可能并不能以正确的方式或方法感知RIN,因而PIN有别于RIN。

 其后,用户通过查询请求(request)表达(expression)PIN,即用自然语言描述PIN。  最后,用户(可能在检索中介的帮助下)借助于检索语言将查询请求形式化(formalisation)为查询表达式(query)。

4个元素(RIN,PIN,查询请求,检索表达式)与3项操作(感知、表达、形式化)间的关系 见图2:

图2 信息需求的转化 3项操作实际上并不像看起来那么简单,其中有许多重要问题有待解决。首先,当用户处于RIN状态时,从RIN到PIN的感知过程是非常困难的,用户必须了解一些他还不熟悉的内容,Belkin引入了ASK以强调用户可能不知道他到底想要了解什么。其次,表达可能受到下列诸问题的影响而产生偏差:①标签效应,实验证实用户信息需求的表达是通过“标签”或者关键词等实现的,而不是完整的陈述。②词表问题,源于文献中词汇与查询请求中词汇的不匹配,也源于词表词汇的无二义性以及自然语言中的同义现象。③形式化的难度,主要是用户难以掌握检索系统的检索语言。

图3 二维空间的相关性模型 由于这些问题的存在,用户不一定意识(PIN)到自己实际上想查询什么信息(RIN),他所表达出来的需求也可能与RIN甚至PIN存在一段距离;由于查询表达式(query)只是需求的形式化表示,与前三者也可能存在差异。

基于以上认识,Mizzaro认为相关性反映了两个集合(信息源与用户信息需求表示)中元素之间的两两关系(见图3),比如替代品与查询表达式的相关性、信息与用户RIN之间的相关性等;认为相关性是二维平面上的交点,图中的箭头表示偏序关系。通过图3可以解释许多已经得到广泛认同的相关性类别。比如,Vickery的“主题相关性”以及“用户相关性”分别对应图中的点1与3,而Cranfield实验以及TREC所依赖的相关性则为点1或点2。 3.1.3 第三维:时间

早先多数学者只考虑了上述二维的情况,实践证明这是远远不够的。文献、替代品或者信息对于某一特定的查询而言,可能在某一时刻是相关的,在其他时刻又是不相关的。这种变化常发生于用户已经学习了新知识或者RIN发生改变的时候。因此,图3的二维平面必须 修正以适应用户与信息检索系统的动态交互过程(见图4)。

时间维典型地体现了相关判断的动态性,由于用户具备的知识及其RIN都会随着时间的推移而变化,因此其对文献相关性的判断也必然是动态变化的。目前,时间因素对相关性的影响已经得到学界的认同,但也随之产生了另一个难以解决的问题,即相关性判别标准的制订更为棘手。

图4 三维空间的相关性模型 3.1.4 第四维:构件

Mizzaro认为图3与图4中的每一点可以分解为主题(topic)、任务(task)背景(context)3个构件。其中主题是用户的兴趣域;任务是用户信息查询后在所获文献的基础上开展的活动;背景则包含了主题与任务之外的所有内容。

总之,Mizzaro认为相关性集合可以定义为前面四维各自所形成集合的笛卡儿积,即信息源x用户信息问题表示x时间x构件。四维模型虽然将相关性的各个层面分析得淋漓尽致,但也已经将相关性置于无法准确测度的境地。 3.2 交互模型

上个世纪50以及60年代的信息检索系统是静态的批处理系统,从70年始,由于计算机网络技术的进步,信息检索系统逐渐发展成为动态的交互系统。实践中,交互已经成为信息检索系统一个非常重要的特征。Ingwersen、Bel-kin以及Saracevic分别提出了信息检索交互的认知模型、片段模型以及层次模型。 3.2.1 认知模型

Ingwersen的认知模型集中于发掘所有信息检索过程所涉及的认知元素,包括信息对象、信息检索系统与设施、界面、用户的认知空间以及社会/组织环境等。该模型的主要观点包括:①信息检索交互是一组认知过程的集合,并隐含在信息检索的所有过程中。②用户在与系统的交互过程中完成大量的认知建模。除了系统之外,用户还与信息对象进行交互。③用户的认知空间是一组结构化的且具有因果关系的元素集合,其中用户的认知以及语境(situation日contexts)是主要的影响因素。④交互是高度动态的[8-9]。

该模型似乎没有明确地对相关性予以阐述,不过由于认知表示与建模都是围绕或者基于相关性进行的,因此它对相关性的处理也是高度隐含的。

3.2.2 片段模型

Belkin认为信息检索的核心问题不是如何表示信息对象,而是如何描述用户的ASK,即认知以及情境层面才是用户求助于信息检索系统的真实原因。据此,Belkin提出了信息检索交互的片段模型,该模型认为用户与信息检索系统的交互是一系列发生于信息查询片段中的交互,其中,核心的交互过程是用户与信息的交互。在不同的时刻,用户交互的内容是不同的,每种交互都依赖于不同的因素,例如用户的当前任务、目标、意图、片段的历 史等。不同类型交互的存在是因为它们支持不同的过程,例如表示(representation)、比较(comparison)、摘要(summarization)、导航(navigation)以及可视化(visualization)等。因此,相关性只存在于部分类型的交互中,不过相关性是多种类型交互的基础。 3.2.3 层次模型

Saracevic提出的层次模型(见图5)也是将交互融人传统信息检索模型的一次尝试。该模型的基本假设包括:①用户与信息检索系统交互的目的是为了利用信息。②信息利用是与认知以及情境相联系的。该模型力图:①协调强化以系统为中心及以用户为中心的相关性研究,以充分发挥两者的优势,同时尽量避免两者的不足。②形成对信息检索领域相关性的本质认识。层次模型借鉴了人机交互的研究成果以及语言学中的分层理论。

Saracevic对层次模型的阐释源于获取一认知一应用(A一C一A)模型。在信息检索中,获取(acquisition)是指获取信息,认知(cognition)指的是吸收信息或者基于认知对信息加以处理,应用(application)则是利用所吸收的信息同时也基于认知、特定的情境以及环境对信息进行处理。A一c一A涉及不同的元素,而这些元素则具有不同的作用、目的、过程。信息检索交互是用户与系统之间通过界面的对话,该对话可以重复进行,其主要目的是影响与用户手头事务紧密相连的认知状态。

Saracevic认为信息检索交互是发生在几个互相联系的层面上的,每个层面包括不同的元素与过程。在用户方面包括认知、情感以及情境等层面。在计算机方面则包括工程、处理以及内容等层面。

用户方面:

图5 信息检索的层次模型  认知层面。用户与信息资源进行交互,并依据信息资源构建认知结构,用户对信息资源的解释、理解、吸收以及处理都是基于认知的,其中必然涉及基于用户现有的知识储备进行的相关性推理。

 情境层面。用户与手头问题进行交互,而该问题是产生信息需求以及与之相关联的查询的源动力。交互过程中情境可能被重新解释,作为结果的信息需求以及查询也得以更新,相关性是从认知到情境层次推理的必然结果。 计算机方面:

 工程层面。主要包括硬件、设计属性以及内嵌的特征,比如容量、性能、处理能力等。

 处理层面。着重考虑软件层面。在信息检索中主要是指处理用户层面与计算机层面在交互过程中的文本、查询表达式以及界面等的一些算法或方法。

 内容层面。主要集中了信息源,是信息对象及其表示等,还包括元数据。 Saracevic基于层次模型阐述了相关性的本质,认为用户与计算机交互的主要目的就是处理相关性。在交互过程中存在许多层次,每一层次都涉及相关性的思考与推理,反过来相关

性也可以在不同层次的思考中得以提升。也就是说,信息检索中存在着动态的、相互依赖的相关性系统。假如接受信息检索中相关性的本质是相互依赖的相关性系统,则必然存在以下的推论—不能将该相关性系统中的任何一个层次或者元素作为单独的或者唯一的相关性的观点。研究中不能只突出其一而忽略其他层次的相关性。情境的、心理的或者系统的相关性不存在也不可能存在于各自的真空中。

简言之,信息检索中的相关性是用户与系统之间交互式信息交流效果的反映。交互包括不同的层面,在这些层面中相关性是可推理的,这导致了相互依赖的相关性系统的存在。实践中,相关性系统使得交互在信息检索中的意义上得以实现,并且将不同的层面紧密结合起来。如果不存在这样的相关性系统,则目前使用的信息检索系统也将不复存在。 3.2.4 层次模型的改进

Saracevic以层次模型为基础,阐释了相关性的基本属性(关系、意图、背景、推理以及交互)与类别(系统/算法相关性、主题相关性、认知相关性、情境相关性以及动机相关性)。Cosjin与Borlund对Saracevic的情感/动机相关性定义提出了改进意见,即情感相关性不是动机相关性的同义词,动机相关性已经包含在相关性的意图属性中。该观点可以简单地从Saracevic有关意图与动机相关性的观点中得出结论,即意图是目标、任务、期望以及动机;动机相关性“描述了意图、目的以及用户的动机与检索出的文本或现存的文本之间的关系”。对两者简单分析一下就可发现:动机相关性也处理用户的意图、目标以及动机,其所有内容都已包含在意图属性中,因此动机相关性显得冗余。情感相关性是高度个性化的,也是非常主观的,Schamber以及Barry等的研究表明它贯穿了所有主观相关性类型的特征。据此,Cosjin修正了Saracevic的相关性模型,没有将情感相关性作为一个类别,而是作为一个与时间相关联的维度,并用社会一认知相关性取代了动机相关性。Cosjin认为社会一认知相关性是由用户与环境中群体的交互过程决定的,而情境相关性则与其存在明显区别—后者是完全主观的,这些差别在意图、推理以及交互属性方面尤其明显。

结束语

本文通过阐述直觉视角与哲学视角的相关性研究,并借鉴其研究意义,对信息检索

领域相关性研究,论述信息检索中相关性研究的四维模型(信息源、用户信息需求、时间构件)以及交互模型。其中对交互模型的阐述,主要集中于认知模型、片段模型及层次模型。并对层次模型提出了相应的改进意见。提出了情感相关性不是动机相关性的同义词,动机相关性已经包含在相关性的意图属性中的修改意见。

参考文献:

[1] 杨丽华. 信息检索的相关性问题及策略[J].哈尔滨金融高等专科学校学报, 2007(4):50 [2] 李建英, 王韵. 信息资源检索相关性存在问题及检索途径分析[J]榆林学院学报,2007(6):93 [3] 肖剑平. 信息检索失误认知与检索技巧的改善[J].情报探索,2007(7):69-70

[4] 付鹏, 徐吉平. 信息资源搜索引擎利用的方法与技巧[J].信息资源建设与管理,2008(3):55-58 [5] 汪若瑜, 秦小屿. 信息检索问题及技巧[J].西华大学学报,2008(5):48-51

[6] 崔航,文继荣,李敏强.基于用户日志的查询扩展统计模型[J].软件学报,2003,(9):1593-1599

[7] Schamber L. Relevance and information behavior. Annual Review of information Science and Technology,1994(annual issue):3-48

[8] Szrzcevic T. Relevance: a review of and a framework for the thinking on the notion in information science .Journal of the American Society for Information ,1975,26(6):321-343

[9] Mizzaro S. Relevance: the whole history.Journal of the American Society for Information Science,1997,48(9):810-832

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- igat.cn 版权所有 赣ICP备2024042791号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务