2014年9月 22卷第3 西安外国语大学学报 Ournal D, ’an International Studies U Sept.2014 Vo1.22.No.3 基于语料库的英汉高频复合词语义透明度研究 马文艳 ,Rena Helms Park ,苏向丽 (1.北京N_-r-大学外国语学院北京100081;2.多伦多大学教育学院加拿大多伦多M5S 3G3; 3.北京语言大学对外汉语研究中心北京100083) 摘要:本研究结合心理语言学和词汇语义学视角,对英、汉高频各1000个复合词的语义透明度类型进行了数值分 析,并将其与复合词的词频进行关联。结果表明:语义完全透明和半透明型复合词在两种语言中比例较高,完全隐晦 型复合词所占比例较低;汉语高频复合词的词频与语义透明度分布呈正相关,英语高频复合词的词频与语义透明度分 布无明显相关性。这充分体现了英汉词 r-结构分布上的共性与差异。 关键词:语料库;英语高频复合词;汉语高频复合词;语义透明度;词频 中图分类号:H030 文献标识码:A 文章编号:1673-9876(2014)03-0010-04 Abstract:The semantic transparency of 1000 English and Chinese high frequent compounds has been analyzed from the psy— chological and semantic aspec ̄and their word frequencies have been related.The results show that in both languagesthe ,number of Transparent—Transparent and Partially—Transparent compounds is larger than that of Opaque—Opaque compounds.Be— sides,the relationship between compound frequency and the degree of semantic transparency is different from that between English nd Chianese.Both of these results suggest the common features of mental lexicon process and diferences in word structures in English and Chinese. Key words:corpus;high ̄equent English compound;high frequent Chinese compound;semantic trnsparaency;word fre— quency 1.引言 词普遍性特征的少。即便偶有针对语料常用性的探讨,也 因其研究方法相对传统、单一,而缺乏一定的科学性。我们 科学、客观的 复合词是指两个或两个以上具有相对完整概念意义的 认为无论是心理语言学还是词汇语义学研究,研究方法以及具有实际意义的语料或研究对象都是研究之 本研究以语料常用、普遍性特征为出发点,运用 义在该词词义中的透明程度。因此复合词语义透明度是指 关键。因此,pss16.0,在自建的英汉复合词语料库的 “复合词的语义可以从其所组成的各个语素的语义推知的 社会科学统计软件s自由语素所组成的词。语义透明度是指词汇组成成分的语 从整词频率(简称“词频)和语义透明度类型分布的 程度”(王春茂、彭聃龄1999:267)。如:英语复合词story 基础上,book,汉语复合词“课桌”,其词义在某种程度上都可以从组 角度对两种不同类型语言的高频复合词进行对比分析,以 成该词的语素义中推断出来,因此复合词story book和“课 期回答下列问题:1)英汉高频复合词的语义透明度分布类型具有哪些共 桌”都具有一定的语义透明度。 复合词的语义透明度在心理词典表征(mental lexicon presentation)和词汇语义研究中发挥着重要作用。从心理 性和个眭特征? 2)英汉复合词的词频与语义透明度分布是否相关? 2.相关理论与研究现状 2.1复合词语义透明度的划分 词典的表征过程来看,语义透明度的高低影响着大脑在加 工该词时所承载的启动量(王春茂、彭聃龄2OO0:395),影响 着复合词在大脑表征产出时的正确机率(Fehringer 2012: 65-75),同时也决定着大脑在理解和表征该词时所使用的路 径模式。从词汇语义的研究上看,词汇语义透明度的高低 反映着构成语素义和整词语义的关系和紧密程度(董于雯 晋霞、李宇明2O38:60-65;方子纯2013:4145)。 语义透明度是一个连续统(Cruise 1991:39),由完全透 明到完全隐晦是一个逐步渐进的过程。对于复合词语义透 明度的划分,研究者们更多的是根据语素义在词义中的体 合词的语义透明度逐级划分为完全透明型,隐晦一透明型, 语复合词语素义与词义之间的关系概括为:1)语素义直接 011:1278.187),体现着语义词化和结构词化的发展过程(李 现程度来进行分类的。如Libben(2003:53)等人将英语复 以往对于复合词语义透明度的研究关注于一种语言特 透明一隐晦型和完全隐晦型四类。符淮青(1985:22)将汉 点分析的多,关注两种不同类型语言对比的少。研究中以 10・ 体现典型性复合词表征过程特征的多,针对体现常用复合 地、完全地表示词义;2)语素义直接地、部分地表示词义;3) .语素义间接表示词义;4)表词义的语素有的失落原义;5) 词,因为其比例高达75%,并且从构词方面来说,Algeo 语素义完全不表示词义五种类型。李晋霞、李宇明(2008: (1991:73)认为90%的新生复合词是名词,因此对名词复合 60-65)根据词义是否等于部分义之和将汉语复合词划分为 词的研究具有一定的代表l生和意义。为验证这些复合词的 完全透明、比较透明、比较隐晦和完全隐晦四种类型。本研 词频,我们参考了英语国家语料库中的词频统计。这1000 究中,我们根据Libben等人的划分方法,遵循语素义在词义 个复合词的词频从1 1433到140次不等,能够说明母语使用 中的体现程度原则,同时为便于分析研究和操作,将研究中 者经常接触使用的程度和范围,具有一定的普遍性。 涉及的英汉高频1000个复合词的语义透明度划分为3类: 在选择汉语复合词时,我们参考了A Frequency Diction- 完全透明型(Transparent-Transparent),也叫1T型,即复合词 ary ofMandarin Chinese(2009)。该频率词典以5千万现代 的语义可以全部或大部分从组成语素的语义中推断出来; 汉语语料库为基础,其文本选自现代口语、小说、新闻等材 半透明型(Partially—Transparent),也叫Pr型,即复合词的语 料,因此具有一定的权威性、时代性和普遍性。研究中我们 义只能从两个语素中的一个语素语义中推断出来;完全隐 依据词典中的词频选取了前1000个高频双语素复合名词。 晦型(Opaque—pOaque),也叫OO型,即复合词的语义无法从 同时,为确立所选复合词的词形与词性的一一对应关系,我 组成语素的语义中推断出来。 们还参考了《现代汉语词典》(第五版),对1000个双语素复 2.2词频与语义透明度研究 合词的词目语法类别进行了标注,力求做到以常用义所对 在心理词典表征的研究中,词频与语义透明度经常被 应的常用名词词性为唯一的研究对象。 研究者看作是判断大脑表征词汇工作过程的变量。如Mok (2O09:1039—1081)在分析了汉语复合词的学习过程后,认为 4.结果与讨论 词频越高,其语义透明度则越高。而且,词频和语义透明度 4.1英汉高频复合词的语义透明度分布 高的复合词,其构成语素语义的凸显性也很强。Pollatsek 根据语义透明度的划分,我们首先对英汉高频10130个 (20GI5:261-290)以词频和语义透明度为变量,通过分析失语 复合词的语义透明度进行了统计,发现英汉高频复合词语 症患者语言产出的正确率,对芬兰语复合词的心理表征特 义透明度的类型分布很不均匀。,ITI'型即完全透明型复合 点进行了研究,发现词频和语义透明度对失语症患者复合 词在两种语言中最多,分别占两种语言复合词总数的57% 词的产出过程有明显的影响。在研究中,Mok和Pollatsek, 和55.7%。OO型即完全隐晦型复合词在英汉两种语言中 为推断出心理词典表征过程的工作模式和路径,都运用了 所占数量最少,分别为15.3%和11%。这一结果与先前董 多种因素对复合词进行了操控。这种有选择地挑选典型复 于雯(2011:189)对汉语常用复合词词义透明度的统计研究 合词的研究方法虽可以反映出大脑在不同语义透明度隋况 结果一致。我们观察到,在rITI’型复合词中,语义透明度构 下的工作状态,但也会让人错误地认为,大脑在日常工作中 成类型主要有两类:1)词义C:语素义A+语素义B;2) 的表征状态理应如此。 词义C=语素义A=语素义B。其中第一种组合类型在两 在词汇语义学研究方面,词频与语义透明度的研究多 种语言中都存在,尤以英语复合词最为突出。如: 集中在对汉语复合词的分析上。研究者们往往通过设定语 lunchtime:the time in the middle of the day when peopl ̄ 料封闭域,从判断复合词构成语素的语义与整词词义的关 usually eat their lunch. 系,来研究常用、高频复合词的语义透明度分布情况。如, 1unch:a meal eaten in the middle of the day. 董玉雯(2Oll:178-187)从《现代汉语频率词典》中依据词 time:minutes or hours ere. 频,选取了500个双音节复合词,运用数量统计方法分析了 汉语复合词 汉语常用类复合词语义透明度的分布类型。该研究虽对语 车主:拥有车子的人,车子的主人。 义透明度和词频关系有所触及,但词频对语义透明度究竟 车:陆地上有轮子的交通工具。 会产生怎样的影响,不同类型语言中词频和语义透明度又 主:物主。 .体现了怎样的关系等方面的问题并没有进行深入的探讨。 而第二种类型在所研究的英语复合词中没有出现,但 因此本研究拟从心理语言学和词汇语义学视角,通过 在汉语复合词中占33%,如: 定量和定性分析的方法将英汉高频复合词的语义透明度和 朋友:泛指交谊深厚的人。 词频关系进行关联与研究,以期为上述问题探寻答案。 朋:朋友。 3.数据搜集与整理 友:朋友。 从心理词汇表征的过程来看,不管是语义组合C=A+ 本研究主要选择两种语言中含有双语素的复合词。研 B型还是C=A=B型,大脑对此类复合词进行语义提取时, 究中英语高频1000个复合词是从Longrnan Dictionary of 都会借助两个组成语素的语义对复合词整词词义进行加 Contemporary English(2004)整理出的11521条复合词中挑选 工。若两个语素的语义完全透明,则减轻了大脑所需承载 而来。在这11521条复合词中有名词、形容词、动词、副词、 的负荷。大脑在提取语义信息后,不需经过任何“空间”、 代词、介词等多种词性的复合词。我们选择了名词性复合 “方位”上的转换,直接译解信息,方便语言使用者间的交 .1 1・ 流。因此,从这个方面来看,1T型复合词既符合语言使用 的“经济原则”,又符合人类的认知规律,所以自然也就备受 语言使用者的青睐,在两种语言的常用词汇中比例就会很 高。 Prr型复合词的语义不能完全从语素语义中推断出来。 旗下:下属、部下。 旗:用布、纸、绸子或其他材料做成的标志,多半是长方 形或方形。 下:位置在低处的,跟“上”相对。 black和sheep在英语中很常见,但是由于其构词理据 如:英语复合词 shotgun:a long gun fired from the shoulder that shoots many small round balls at one time,used especially for killing birds or animals. shot:when someone fires a gun,or the sound that this makes. ugn:a weapon form which bullets are fired. gun与shotgun的复合词语义有重叠,但shot的语义与 复合词shotgun的语义有所不同。 汉语复合词 抱歉:心中不安,觉得对不住别人。 抱:用手臂围住。 歉:觉得对不住人。 语素“歉”与复合词抱歉语义有重叠,但“抱”的语义在 复合词中发生了转变。因此上述两个复合词的语义透明度 均为frr型。 j比外,我们还发现在两种语言的frr型复合词中都存在 OT型即语素A透明(T)+语素B隐晦(O)和TO型即语素 A隐晦(O)+语素B透明(T)。英语复合词是典型的右中 心型复合词,即位置居右的语素对于复合词整词的语义、形 态等方面都具有决定性作用。所以就英语PT型复合词来 说,OT型复合词的语义透明度要高于TO型复合词。如, OT型复合词shotgun和 r0型复合词fire engine,shotugn的 右语素gun决定了该词的语义范畴,其本身为透明型语素, 因此提升了复合词整词的透明度。而TO型复合词fier en— gine的右语素engine的语义隐晦,所以自然就降低了该词 的语义透明程度。与英语不同的是,Huang(1998)在分析了 《现代汉语词典》24,000条双音节复合词后,提出汉语复合 词的中心语素既非左亦非右,属无中心型复合词,因此任何 一个组成语素都不能完全决定复合词在语义、形态方面的 特征。如TO型复合词“抱歉”和OT型复合词“当局”,组成 语素均不能决定复合词的语义范畴,复合词的语义需要两 个语素义整合后才能提取,因此与英语OT型复合词相比, 汉语OT型复合词的心理表征过程更要依靠组成语素语义 的整合。 OO型复合词中语义与语素语义没有重合。如:英语复 合词 black sheep:someone who is regarded by other members of their family or group as a failure or embarrassment. black:having the darkest color. sheep:a farm animal that is kept for its wool and its meat. 汉语复合词 .1 2・ 已不为人所熟知,因此在心理词典表征时很难从组成语素 的语义中找到与复合词词义的联系。同样,汉语复合词语 素“旗”和“下”在心里表征过程时也无法从中找到复合词词 义与组成语素语义的关系。从心理词典的表征过程看,这 种复合词在语义表征和提取过程中对大脑产生不同程度的 认知负荷,并在交际中会产生“耗时”功效,因此自然会影响 这类复合词在人们日常语言使用中的出现频率。 4.2词频与语义透明度分布 在对两种语言的复合词词频进行统计时,我们发现两 种语言的不同语义透明度类型的复合词其整词频率分布状 态存在较大差异,如表1。 表1.不同语义透明度类型的英汉常用复合词整词频 率分布 英语三种类型的复合词在频率分布上较为分散,词频 值差异较大,以 型复合词最为突出。而在汉语不同语义 透明度类型的复合词中,其词频方差值相对较小,说明三种 语义透明度类型的复合词在词频分布上相对较为集中,均 在语言使用的高频范畴内,尤以1_r型复合词表现最为明 显。 为进一步验证词频与语义透明度之间的关系,我们对 语义透明度类型和词频进行了数值标记和级别整理。根据 英汉1000个常用复合词词频数值的均值和方差,两种语言 复合词的词频被标成了从1到5不同的级别,数值越大,代 表词频越高。每个级别中复合词的数量N=200。同时,根 据Libben(2( ̄)等人的研究结果,我们将rrr型、PI'型和OO 型三类语义透明度逐级降低的复合词也进行了从1到3的 级别排列,数值越大,则代表语义透明度越低。两种语言复 合词的整词频率各被标以上述两个变量,之后进行Pearson 相关系数和双侧检验后,结果如表2所示。 表2.英汉常用1000个复合词语义透明度与整词频率 相关系数 语义透明程度 整词频率 英语复合词语义透明度Pearson Correlation .007 l Sig.(2-tailed) .833 N 1000 10(x】 汉语复合词语义透明度Pearson Correlation .086” 1 [3]Cruise,D.A.Lexiale Semantics[M].Cambirdge:Cambridge University Prq ̄s,1991. ”.Correlation is signiifcant at the0.01 level(2-tailed) [4]Dupuy H.J.The Rationale,Development and Standardization of口Basic %rd Vocabulary Test[M].Washington:U.S.Government Printig Ofn- ice,1r974. 在英语高频1000个复合词中,r:0.00r7<1,P=0.833> 0.01,说明两个变量,即词频和语义透明度类型之间相关度 较低,语义透明度的变化不能显著地反映出复合词词频的 变化,三种不同语义透明度类型的复合词在5个级别的词 频数值中都有出现。这说明英语复合词的词频并不因语义 透明度类型不同而有变化,二者之间没有直接关系。但在 [5]Fehringer,C.The lexical representation of compound words in English: Evidence from aphasia[J].Language Sciences,2o12(34):65-75. [6]Huang,S.Chinese as a headless lnguage ian compounding morphology [A].In J.L.Packard(ed.).New Approaches to Chinese Word Forma- tion:Morphology.Phonology andthe LexiconinModem andA, 眦Chi- 汉语高频1000个复合词中,r=0.086,P=0.00r7<0.01,说明 nese[C].New York:Mouton de Gruyter,1998:261-284. [7]Ij ,G.,Gibson,M.,BornYcon,Y.&Sandra,D.Compoundfrac- 词频和语义透明度类型之间按双侧检验,检验水准为0.01 时,其关系显著,即语义透明度的变化可以显著地反映出复 合词词频的变化。语义透明度越高,其复合词的词频就越 高,如1Tr型复合词的词频多集中在级别5和4上。相反, 语义透明度越低则词频相对就越低,如O0型复合词的词频 多集中在2和1上。这说明汉语高频复合词的词频可以显 著地反映出语义透明度类型的变化,两者之间有直接关联。 英汉复合词词频与语义透明度关系的差异上也充分反 映出两种语言词汇结构分布上的不同。在英语语言中,复 合构词虽然表现出能产f生高、构词力强的特点,但复合词并 不是其主要的词汇类型,英语中的单纯词比例可达45%,而 复合词的比例只有25%(Dupuy 1974:46)。但在汉语词汇 结构中,复合词是主要的词汇类型,尤其是双音节复合词, 其数量可占词汇总数的73.6%,因此,汉语高频复合词词频 变化能够完全地反映出复合词语义透明度的分布状态。 5.结论 我们在英汉复合词语料库基础上对英汉高频复合词的 语义透明度进行了定性和定量分析,并将其与两种语言复 合词的词频进行了关联,结果表明两种语言复合词的语义 透明度分布既有共I生又有个性差异。这既反映出人类复合 造词过程中的共陛——“省力、经济”原则,又体现出两种语 言词汇结构分布上的差异——英语以单纯词为主,汉语以 复合词为主的特点。同时,这在理论和实践上为多语素词 汇在心理语言学和词汇语义学的研究提供了更加科学的依 据。 此外,本研究尚有不足之处有待日后完善。首先是词 汇选取样本相对较小;其次是运用释义对复合词的语义透 明度进行划分难免主观。今后在此方面可扩大选词范围, 对于语义透明度可采用多次量化的分析,从而进一步提高 研究的可信度。 参考文献 [1]A FrequencyDictionary ofMandarin Chinese[M].NewYork:Roufledge, 2OO9. [2]Algeo,J.Among the new words[J].American Speech,1991,66(2):71— 80. ttter:The role of semantic transparency and morphological headness[J]. Brain and Language,20o3(84):50-64. [8]Ijbben,G.Semantic transparency in the processing of compounds:Conse- quences for representation,processing,and impairment[J].Brain and aLnguage,1998(61):30-44. [9]Longman DictionaryofConteraporaryEnglish[M].2004. [10]Mok,L.W.Word—superiority effectas afunction of semantictransparen— cy of Chinese bimorphemic compound wodrs[J].Language and Cognitive Process,2oo9(24):1039—1081. [11]Pollatsek,A.,Hyona,J.,&Bertram,R.The role of septic trnasp ̄- ency in the processing of Finnish compound words[J].Language and Cognitive Processes,2o05(20):261-290. [12]方子纯.词汇意义的百种l生与搭配潜势[J].外语教学,2013(3):41. 45. [13]符淮青.现代汉语词汇[M].北京:北京大学出版社,1985. [147董于雯.汉语常用双音节词语义透明度研究[J].国际汉语学报, 20l1,2(1):178—187. [15]李晋霞,李宇明.论词义的语义透明度[J].语言研究,2008(3):印一 65. [16]王春茂,彭聃龄.合成词加工中的词频、词素频率及语义透明度[J]. 心理学报,1999(3):266-273. [17]王春茂,彭聃龄.多语素词的通达表征:分解还是整体[J].心理科学, 2OO0,23(4):395-398. [18]中国社会科学院语言研究所词典编辑室.现代汉语词典[M].北京: 商务印书馆,213O5. 基金项目:本文为教育部人文社会科学研究一般基金项目“基于 词价理论的第二语言词汇习得研究“(项目编号: 11YJA740090)的部分研究成果,同时在本文研究完成期间还 受到国家留学基金委公派访问学者(含博士后)项目资助(项 目编号:2011307315)。 作者简介:马文艳北京理工大学外国语学院讲师,博士,主要研究 方向为心理语言学与写作教学。 Rena-Helms Park,多伦多大学教育学院应用心理学系 副教授,硕士,主要研究方向为儿童语言习得、心理语言学。 苏向丽,北京语言大学对外汉语研究中心副教授,博士 后,主要研究方向为第二语言词汇教学。 收稿日期 2014-06.20 责任编校 禾木 ・l3・