基于语料库同义词辨析的一般方法
五一祝福-新郎新娘致辞
第
28
卷 第
6
期
2005
年
11
月
解放军外国语学院学报
JournalofPLAUniversityofFor
eignLanguages
Vol.28
No.6
Nov
12005
基于语料库同义词辨析的一般方法
张继东
,
刘 萍
12
(
1.
东华大学外语学院
,
上海
200051;2.
上海交通大学技术学院
,
上海
200231
)
摘 要
:<
br>基于语料库的同义词辨析方法包括
:
(
1
)
统计出同义词在语
料库的不同语域中的词频分布差异
;
(
2
)
以节点
词的跨距
为参照
,
统计同义词的显著搭配词
,
并计算同义词与其搭配词相互信息值(
MI
值
)
以及
Z
值
;
索行中所呈现
的同义词搭配特征
,
揭示出它们的类联结、搭配关系和语义韵等语言特征。
关键词:
同义词
;
语料库
;
语域
;
搭配
;<
br>语义韵
中图分类号
:H313
1
2
文献标识码
:
A
文章编号
:1002
2
722X
(
2005
)
06
2
0049
2
04
(
3
)
通过观察检
Corpus
2
basedApproachestotheDiffer
entiationofEnglishSynonyms
ZHANGJi
2
dong
,LIUPing
12
(
eofForeignLanguages,Donghua
University,Shanghai,200051,China;
calSchool,Sha
nghaiJiaoTongUniversity,Shanghai,200231,China
)
Abstract:Withincorpus
2
basedapproaches,
synonymscanbedifferentiatedwithreferenceto:1
)<
br>theirdistributionsamong
differentregisters;2
)
theirsignificantcollocates,andtheMIvaluea
ndZscorebetweensynonymsandtheircollocates;3
)their
collocationalbehaviormsthusdifferentiat
edwillhave
significantpedagogicalimplications.<
br>KeyWords:synonym;corpora;register;collocation;s
emanticprosody
0.
引言
英语是世界上使用最广泛的语言
之一
,
其词汇
量极其庞大
,
其中同义词占有很大比例
,是语言学
习的难点。据统计
,
英语语言中同义词、近义词的
数量约占总词
汇量的
60%
以上
(
贺晓东
,2003
)
,
它
们通过词形、词义、结构或用法等方方面面的相同
或相近构成了庞大的英语词汇体系
,
切实学懂、用
熟同义词是突破英语词汇的重要环节
,
更是提高英
语写作、阅读、会话等技能的关键。
传统的同义词辨析方法
,
多依赖于直觉经验
,
采用内省的定性方法
,
对同义词的词目意义条分缕
析
,
然而
,
一般的语言学习者在实际的运用中似乎
仍然难得要领。本文拟从语料库语言学的
角度
,
通
过对相关的语料库进行检索统计
,
发现同义词在不
同语域中的词频分布差异
,
计算出词语搭配的不同
相互信息值
,
通过
观察检索行中所呈现的同义词搭
配特征
,
揭示出它们不同的类联结、搭配关系和语义韵等语言特征。
收稿日期
:2005-3-28
1.
基于英语语料库的
同义词辨析
1
1
1
同义词在不同语域中词频分布差异
语域是人们在实
际的语言活动中
,
出于交际的
需要
,
或因其所从事的职业和兴趣相异
,
亦或因其
话语发生的情景、说话的对象、地点和话题的不同
而产生的一种言
语变体
,
体现为语言中的不同语体
风格、用语格调等。同义词由于其内在意义的差异
,
在不同的语域中往往会呈现出不同的分布特
征
,
所以统计它
们不同语域中的频率差异
,
有助于
将它们区分开来。
为了说明同义词在不同语
域中的分布频率对同
义词的辨析具有宏观指导作用
,
本文选取了一组同
义形容
词
:big
、
great
、
large,
对《朗文英语口语
和
书面语语料库》
(
简称
LGSWE
)
所提供的数据进行<
br>搜集
,
按会话、小说、新闻、学术文章四个语域进
行分类。
big、
great
、
large
之间的词义差异
,
学习者似
乎
能够直接从词典类工具书中就可以查询出来
,
但是
作者简介
:1.
张继东
(
1965-
)
,
男
,
安徽安庆人
,
东华大学外语学院讲师
,
研究方向为语料库语言学
;2.
刘 萍
(
1965-
)
,
女
,
安徽芜湖人
,
上海交通大学技术学院副教授
,
研究方向为语料库语言学与英语教学法。
・
50
・
解放军外国语学院学报
2005
年
一般的工具书对于词汇附加信息的语域分布信息却
没有涉及。从
LGSWE
每百万词中 的显示频率来看
,
我们发现
big
、
great
、
large
三词在以上四个语域中
的分布情况也有相当的差异。以每百万词计为统计
单 位
,Big
在前三个语域中的分布频率分别超过
200
词次
,
而在学术文章中则为
0
次
;great
在小说、新
闻和学术文章中 分布频率分别超过
200
词次
,
而在
会话语域则为
0
次
;large
在会话中为
0
次
,
在小
说、新闻 语域分别为
80
多词次
,
在学术文章中超
过
200
词次。见下表
1
。
表
、
GREAT
和
LA RGE
在
LGSWE
中每
百万词中分布频率
会话
BIGGREAT
LARGE
**
表示有搭配联系
,
值越大
,
关系越密切。
首先
,
我们对
large
的搭配词计算
MI
值
(
见表
2
)
,
发现其右侧“频繁出现”的 搭配词按
MI
值的
大小排列
,
分别为表示数量的
quant ities
、
amounts
、
numbers
、
numb er
、
amount;
表示范围的
scale
、
part;
表示面积的
cities
、
family
、
group、
house;
表示程度
的
deformations
、
discrepancies
、
extent;
后置程度副
词多为
enough
。
表
在
FLOB
语料库中与其搭配词的
相互信息值
搭配词
LARGE
NUMBER
SCALE
NUMBE RS
PART
EXTENT
QUANTITIES
AMOUNTS
D EFORMATIONS
DISCREPANCIES
FAMILY
AMOUNTCITIES
ENOUGH
GROUP
HOUSE
总计
395< br>16
12
8
8
7
7
5
4
4
4
3
3
3
3
3
MI
值
6
1
76
8
1
46
7
1
84
5
1
4 9
7
1
61
9
1
81
9
1
38< br>11
1
65
9
1
74
5
1
136
1
56
7
1
95
4
1
68
4
1
66
4
1
27
小说
**
**
*
新闻
**
**
*
学术文章
**
**
**
表示大于
200
次
;*
表示大于
80
次
以上的频率分布调查表明
,
对于同义词的辨析
如果我们仅仅从概念意义或句 法功能入手
,
是很难
辨析出同义词之间的细微差异的
,
但是
,
如果我们
以语域的频率分布情况为着眼点
,
我们就容易发现
同义词 在不同的语域中的概率
,
从而领会不同语域
中的用词优先原则
,
这种 方法对同义词的取舍能够
起到一定的宏观指导作用
,
使学习者能够实现对同
义 词的辨析由感性认识向理性认识方向的发展。
1
1
2
搭配词的计算与同义词的 辨析
搭配是词汇研究的重点
,
通过研究搭配词来区
分同义词也是一种行之有效 的研究方法。具体来讲
就是从语料库中将关键词的所有搭配词提取出来
,
采用统计手段 来测量各搭配词与关键词共现的显著
程度
,
以确定各词项之间在多大程度上相互吸引< br>,
进而概括出词项的典型搭配程度。这种方法不考虑
词项所处的句法结构
,计算的方式参照了
Krishnamurthy
(
1987:70
)对搭配的理解
,
即“有意
义的搭配词是指在被研究词的两侧
5
个 词的范围内
出现频数比按均匀分布所期望出现的频数高得多的
词”。常规的统计测量手段有两种
:Z
值
(
或
T
值
)
测量和
MI< br>值测量。
(
参阅桂诗春、杨惠中
,2002
)
除
bi g
、
great
、
large
这组同义形容词外
,
我们
还另选取
cause
、
leadto
一组同义动词
,< br>并对它们在
LOB
和
FLOB
语料库分别进行检索
,
统计出两组同
义词各自搭配词的相关
Z
值和
MI
值。通常一个搭配要在
0
1
01
水平上有显著意义
,Z
值必须等于或超
过
2
1
576,
搭配值越大
,
则搭配越密切
;
如果
MI
值
在
0
附近
,
则表示搭配词 之间没有什么联系
,
正值
Big
搭配词的
MI
值
(
见表
3
)
表示其显著搭配
词分别为表示形体、面积的< br>man
、
part
、
house;
后
置程度副词多为
enough
。另外
,
当
big
与
man
、
business
、
day
搭配时
,big
的含义会演变 为口语表
达中的
important
、
great
之义。
表
在
FLOB
语料库中与其搭配词的相互
信息值
搭配词
BIG
MAN
BUSINESS
ENOUGH
PART
DAYHOUSE
总计
263
8
6
6
4
3
3
MI
值
5
1
72
6
1
58
61
28
5
1
09
4
1
57
4
1
87
从
great
搭配词来看
(
见表
4)
,great
与
deal
、
many
、
ca re
、
length
、
pleasure
等词汇形成常用搭配
,
表示“强度加大”的意思
;great
的其他含义多表示
“伟大、重要” 之义或是出于固定名词称谓表达的
需要
,
如
GreatBritain
、
greatgrandfather
等。
第
6
期张继东
,
刘 萍 基于语料库同义词辨析的一般方法
・
51
・表
在
FLOB
语料库与其搭配词的相
互信息值
搭配词<
br>GREAT
DEAL
BRITAIN
HALL
MANY
CAR
E
WAR
GRANDFATHER
LENGTH
PART
PLEAS
URE
总计
546
34
16
8
5
4
43
3
3
3
MI
值
3
9
1
05
6
1
87
7
1
18
3
1
615
1
18
4
1
39
7
1
64
6
1
01
3
1
61
6
1
60
1
1
3
语义韵、类联结与同义词的辨析
在同义词的辨析过程中
,
我们对词典所提供的
意义有一定的掌握
,
但是
,
对于依
据语境的词语表
达的附加意义却很难把握。因为词汇的附加修辞意
义是人们在词语意义符号化的
过程中
,
各种附带经
验、体验或感受的综合
,
具有心理学的理据。语
言
中许多词语通过自身的含义就可以标示出词语的态
度附加功能
,
比如褒贬、
庄重与诙谐等。然而
,
语
言系统中还有很多概念意义单一的词汇
,
其
态度标
示功能就比较隐含
,
如
happen
、
occur;
cause
、
reason
和
cause
、
leadto<
br>等。对于这三组同义词
,
尽
管它们自身没有任何明显的态度标示功能
,
但是在
具体的检索行所提供的语境中却呈现出母语者的态
度倾向性。这种倾向性就是“
语义韵”。
那么
,
什么是“语义韵”呢
?
词汇作为构成语
篇
的基本语言单位
,
在语篇的线性展开中往往表现
出搭配的倾向性
:
它
们习惯性地吸引某些具有相同
和相似的语义特点的词项
,
与之构成搭配关系。由
于这些词项相同或相似的语义特征
,
与关键词项在
文本中的习惯性的共现
,
关键词也就被“传染”上
了有关的语义特征
,
它所在的语境也就弥漫了一种<
br>特殊的语义氛围
,
即语义韵
(
Louw,1993
)
。词汇搭
配在语篇中往往会形成三类语义韵
:
积极语义韵、
中性语义韵和消极
语义韵。在消极语义韵中
,
节点
对以上三个同义词的搭配词
MI
值的计算却具
有重要的词汇搭配信息价值
,
它能够让学习者较为
直观地了解到
英语母语者在实际的语言交际中提取
显著搭配词的特征
,
从一个侧面说明了母语者心理
词汇的提取方式
:
词汇的通达不完全是按照概念范
畴来进行的
,而可能是按照词的搭配频率状况进行
提取的
,
即高频搭配词汇的检索优先于低频搭
配词
的检索。这与传统的同义词差异的解释不尽相同。
以下我们再对同义使役动词
ca
use
和
leadto
进
行比较。通过
TACT
软件计算它
们在
LOB
语料库中
的
Z
值
,
结果显示出它们的显
著搭配词亦有很大的
差异
(
见表
5
、表
6
)
。
Cause
的右侧搭配词多为
词所吸引的词汇几乎都带有鲜明的消极语义特征,
suffering
、
alarm
、
harm
、clash
、
strike
等“问题类”
它们使整个语境呈现出一种负面
的、消极的语义氛
名词
;
而
leadto
的右侧搭配词既有表达消极
意义
围。积极语义韵的情况则恰恰相反
,
节点词所吸引
的
,
如
anarchy
、
interception
、
fears
、
reduction
等
,
的词汇具有积极的搭配词汇
,
由此形成一种积极的
也有表达积极意义的
,
如
appeasement
、
ceasefire
、
语义氛围。在中性语义韵中
,
搭配词的语
义特征处
progress
等。两者的差异体现在语义表达的积极词
于模棱两可状态<
br>,
既有消极含义的词项出现
,
也有
积极含义的词项出现
,呈现出一种错综的语义特征
汇和消极词汇的搭配概率的不同。
(
卫乃兴
,
2002
)
。因此
,
语义韵概念的引入对于同义
表
在
LOB
语料库中的显著搭配词
词的态度标示功能的确定将起到很好的解释作用。搭配词搭配频率频数
Z
值
以下我们将对相关的英语语料库随机提取词语
U
NNECESSARY1146
1
280
索引行
,
参照类联结
,
即词语搭配出现于其中的句
SUFFERING1
1
1
1
2
3
4
6
32
1
710
26
1
695
23
1
108
18
1
850
ALARMHARM
CLASH
表
在
LOB
语料库中的显著搭
配词
搭配词
ANARCHY
APPEASEMENT
INTERCEPTIO
N
CEASEFIRE
FEARS
搭配频率
1
1
1
1
1
频数
1
1
1
2
3
Z
值
42
1
244
42
1
244
42
1
24
4
29
1
855
24
1
363
法结构
(<
br>Mitchell,1975
)
,
分别对
cause
、
reason
和
cause
、
leadto
两组同义词进行语义韵
描述。对词语
检索行中节点词的搭配词进行统计、分析
,
确定其
显著搭配词的
语义韵。
我们首先对
cause
的动词和名词形式在
BROWN
语料
库中进行检索。为了便于与动词词组
leadto
和
名词
reason
进行对比研究
,
我们选取了“
V+N
”
(
如
ca
useproblems
、
leadtogreatsuccesses
)
和
“
N
+PREP+N
”
(
如
causeoffailure
)
两种类联结的
结构形式。先看类联结“
V+N
”的例子。
・
52
・
解放军外国语学院学报
2005
年
eutilitypolecausedabriefpowerfailure
intheimme
diate
hercausedalurchinRamey,a
ecklessne
sshadcausedaproliferationof
en
面
;
而reason
在“
N+of+N
”和“
N+for+N
”的类联结中
,
所吸引的词汇既有表达消极含义的词
汇
,
如
offensesandsins
、
failure
、
troubles等
,
也有
表达中性语义的名词词汇
,
如
myriadm
atter
、
differences
、
highpercentage、
acceptance
等
,
其所构
成的语义韵杂糅
,
包含积极和中性两种。此外
,
它
Cause
出现在“
V+N
”中时
,
其节点词右侧
2
们的差异也体现在各自出现的类联结上。<
br>Cause
的
至
4
的位置上
,
出现的主要名词词组有
:failure
、结构单一
,
从对名词
cause
词项“
N+PREP+N
”
proliferationofillwill
、anxiety
、
ahighrateof
类联结的
35
行随机
检索中
,
我们发现其中的
5
行为
“
N+for+N
”
,
占
14
1
28%,15
行为“
N+of+N<
br>”
,
各个科技专业领域里的技术词汇和次技术词汇
,
它占
42
1
86%
。另外
,cause
的前置修饰语并不是开放
们都
可以归入到“问题类”词汇
,
表达出事物“不性的
,
左一、左二位置定冠词<
br>the
居多
,
另外都有
合人意”的消极主义韵。
Leadto
的检索行如下例。
thelessobvious
、
theexact
、
a
、
theonly
、
the
angesinitsb
alanceleadalsotoimmediate
等修饰成分。
Reason
的
句法结构则比较丰
lethality
、
congestion
、
b
reakage
、
problems
等
,
多为
富
,
多为口语表达中衔接和连贯手段。从对
reason
hniquesforusing
it,leadingtoabetter
词项
335
行的检索中
,
我们发现句法结构“
There+
understandingofpbe+reason(
s
)
……”共计
63
例
;
“……
r
eason
(
s
)
moreambitiousw
ork.
+that+
同位语从句……”结构为
17
例
;
r
eason
(
s
)
+why
同位语从句……”
23
例
;
“……
“……
检索行中
leadto
的右置搭配词并没
有明显的语
义倾向性。
leadto
所吸引的搭配词既包括具有积极
含义的名
词词组
,
如
abetterunderstanding
、
amor
e
ambitiouswork,
也有消极的词汇
,
如
lossof
life
、
partybickering,
还有中性的词汇
,
如<
br>request
、
alterations
、
twopossible
modes
等
,leadto
所处的语
reasontodosth.
”
33
例
;
“
byreasonof
”
7
例
;
作为
“插入语”的“
for
……
reason
(
s
)
……”共计
67
例
,
另外
,在该结构中
reason
(
s
)
的前置修饰词非常丰
富
,
有数词、序数词、指示代词、不定代词、形容
词等
,
如
f
oronereason
(
alone
)
、
forpurelymathematicalreasons
、
forreasonsbestknownt
oitself
、
境语义杂糅
,
呈现出积极、中性和消极三种状态。
forreasonstobediscussedinthefollowing
等。
再看<
br>cause
的类联结“
N+PREP+N
”的检索行。
2.
结
语
ncipalunderlyingcausesforfamily
本研究基于语言的概率
特性
,
借助于语料库分
breakupsleadingto
~
AD
CA
别对四组同义词进行三个方面的分析
:
其一
,
通过
观察
同义词在语料库不同语域中的分布频率
,
揭示
bepromptlydetermin
ed
同义词出现的频率与语言系统的倾向程度具有相关
tudycoveringthecau
sesofinjuries
性
,
充分说明同义词在实际使用中存在着语域优先
H091380andhealthhazards
原则
;
其二
,
对同义词与其不同搭配词之间的相互
Reason
检索行如下例。
信息值
(<
br>MI
值
)
、
Z
值进行计算
,
推断出以英语为
asnoreasonforhertomarry
母语者在实际语言运用中的同义词搭配词提
取的心
taction,wasthecauseofthecrashmust
理表征
,
即同义词搭配词的提取不完全是按照概念
o,whenyouweredeadbyrea
sonof
范畴来进行的
,
而可能是按照词汇的搭配频率状况
youroff
ensesandsins.
进行的
;
其三
,
通过对同义词的语义韵
和类联结的
ciallydifficultforthereasonthatweare
统
计分析
,
厘清了同义词依据搭配语境所显示的不
busilybeing
同的
类联结方式和不同的词语态度标示功能。以上
someonelikeStanleyL1
先看
名词
cause
和
reason
的差异。首先
,
从语
义表达来看
,cause
词项“
N+PREP+N
”类联结中
的介
词所连接的主要仍然是“问题类”词汇
,
主要
名词词组有
:injuries
、
catastrophe
、
familybreakups
、pessimism
、
crash
、
decline
等
,
表达出事物的消极
的研究方法有效地澄清了同义词因部分义素重合而
产生的理解和运
用的困惑
,
是对传统的基于直觉判
断的同义词辨析方法的一种有效的补充。总之
,
基
于语料库的同义词辨析方法为我们提供了观察和描
述词语行为的新视角
,
同时也表明
,
(
下转第
96
页
)
・
96
・
解放军外国语学院学报
1981.
2005
年
探文坛上的经典小说家
,
对侦探小说的形成与发展
起了不可磨灭的推动
作用。经过他和其他作家的努
力
,
侦探小说才从雏形走向成熟
,
充分
显示出其艺
术性和文学性。
注释
:
①文中引文均摘自项星耀译《狄更斯文集・
德鲁德疑案》
,
上海译文出版社
1985
年出版。下文只标出页码
,
不再另
注。
[7]
王晶
.
西方通俗小说
:
类型与价值
[M].
昆明
:
云南
人民出版社
,2002.<
br>[8]
魏建馨
,
张学林
.
犯罪心理学
[M].
天津
:
南开大学
出版社
,2003.
[9]
项星耀
.
狄更斯文集・德鲁德疑案
[M].
上海
:
上海译
文出版
社
,1985.
[10]
颜培金
.
非常悬念
[M].
济南
:
山东友谊出版社
,
2002.
[11]
阎照祥.
英国史
[M].
北京
:
人民出版社
,2003.参考文献
:
[1]
埃德加・约翰逊
.
狄更斯———他的悲剧与胜
利
[M].
林
[12]Forster,John.
TheLifeofCh
arlesDickens
[M].London:
CecilPalmer,1873.[13]Ford,GeorgeHarry.&J
1
tLane.
TheDic
kens
Critics
[M].NewYork:CornellUniversityPr
ess,1966.
筠因译
.
天津
:
天津人民出版社
,19
92.
[2]
曹正文
.
世界侦探小说史略
[M].
上海:
上海译文出
版社
,1998.
[3]
陈挺
.
外国文学评介丛书
:
狄更斯
[M].
沈阳
:
辽宁人
[14]Fielding,K
1
J.
CharlesDickens:ACriti
calIntroduction
[M].London:Longmans,1958.
[1
5]Ford,GeorgeHarry.
DickensandHisReaders:Aspect
sof
NovelCriticismSince
1836[M].
民出版社
,1982.
[4]
黄禄善
,
刘培骧
.
英美通俗小说概述<
br>[M].
上海
:
上海
Princeton:Princeton
大学出版社
,1997.
[5]
罗大华
.
犯罪心理学
[M
].
北京
:
群众出版社
,1983.
[6]
罗经国
.
狄更斯评论集
[M].
上海
:
上海译文出版社
,
UniversityPress,1955.
(
责任编辑 周光磊
)
(上接第
52
页
)
依据巨大库容的语料库所提供的翔实的证据
,<
br>我们
就有可能对同义词的细微差异进行科学而全面的描
述。
参考文献
:
[1]
桂诗春
,
杨惠中
.
中国学习者英语语料库
[
M].
上
[6]Biber,Douglas,StigJohansson,Geoffre
yLeech,Susan
Conrad,EdwardFinegan.
LongmanGr
ammarofSpokenand
WrittenEnglish
[M].Beijing:
ForeignLanguagesTeaching
andResearchPress,2000.
[7]Krishnamurthy,cessofcompilation[A].
Look
ingUp:AnaccountoftheCOBUILDProjectinlexical
com
puting
[C].
海
:
上海外语教育出版社
,2003.
[2]
贺晓东
.
英语同义词词典
[Z].
北京
:
商务印书馆
,
2003.
[3]
潘
,
冯跃进
.<
br>基于语料库的同义词差异性特征调查
[J].
山东外语教学
,2000,
(
4
)
.
[4]
王文斌
.
词及词义心理研究——
—对心理词典论的考察
[J].
现代外语
,2002,
(
4
)
.
[5]
卫乃兴
.
词语搭配的界定与研究体系
[M].<
br>上海
:
上
:Collins
ELT,1987.62-85.
[8]Louw,nthetextorinsincerityinthewriter?The
di
agnosticpotentialofsemanticprosodies[A].
Textan
d
Technology:InHonourofJohnSinclair
[C].Eds.
M.
Baker,s&i
2
dam:John
Benjamins,1993
.
(
责任编辑 张立飞
)
海交通大学出版社
,2002.