基于语料库同义词辨析的一般方法

玛丽莲梦兔
717次浏览
2020年07月30日 05:40
最佳经验
本文由作者推荐

五一祝福-新郎新娘致辞



28
卷 第
6

2005

11

解放军外国语学院学报
JournalofPLAUniversityofFor eignLanguages
Vol.28
 
No.6
Nov
12005
基于语料库同义词辨析的一般方法
张继东
,
刘 萍
12
(
1.
东华大学外语学院
,
上海
200051;2.
上海交通大学技术学院
,
上海
200231
)
摘 要
:< br>基于语料库的同义词辨析方法包括
:
(
1
)
统计出同义词在语 料库的不同语域中的词频分布差异
;
(
2
)
以节点
词的跨距 为参照
,
统计同义词的显著搭配词
,
并计算同义词与其搭配词相互信息值(
MI

)
以及
Z

;
索行中所呈现 的同义词搭配特征
,
揭示出它们的类联结、搭配关系和语义韵等语言特征。
关键词:
同义词
;
语料库
;
语域
;
搭配
;< br>语义韵
中图分类号
:H313
1
2
  文献标识码
: A
  文章编号
:1002
2
722X
(
2005
)
06
2
0049
2
04
(
3
)
通过观察检
Corpus
2
basedApproachestotheDiffer entiationofEnglishSynonyms
ZHANGJi
2
dong ,LIUPing
12
(
eofForeignLanguages,Donghua University,Shanghai,200051,China;
calSchool,Sha nghaiJiaoTongUniversity,Shanghai,200231,China
)
Abstract:Withincorpus
2
basedapproaches, synonymscanbedifferentiatedwithreferenceto:1
)< br>theirdistributionsamong
differentregisters;2
)
theirsignificantcollocates,andtheMIvaluea ndZscorebetweensynonymsandtheircollocates;3
)their
collocationalbehaviormsthusdifferentiat edwillhave
significantpedagogicalimplications.< br>KeyWords:synonym;corpora;register;collocation;s emanticprosody
  
0.
引言
英语是世界上使用最广泛的语言 之一
,
其词汇
量极其庞大
,
其中同义词占有很大比例
,是语言学
习的难点。据统计
,
英语语言中同义词、近义词的
数量约占总词 汇量的
60%
以上
(
贺晓东
,2003
)
,

们通过词形、词义、结构或用法等方方面面的相同
或相近构成了庞大的英语词汇体系
,
切实学懂、用
熟同义词是突破英语词汇的重要环节
,
更是提高英
语写作、阅读、会话等技能的关键。
传统的同义词辨析方法
,
多依赖于直觉经验
,
采用内省的定性方法
,
对同义词的词目意义条分缕

,
然而
,
一般的语言学习者在实际的运用中似乎
仍然难得要领。本文拟从语料库语言学的 角度
,

过对相关的语料库进行检索统计
,
发现同义词在不
同语域中的词频分布差异
,
计算出词语搭配的不同
相互信息值
,
通过 观察检索行中所呈现的同义词搭
配特征
,
揭示出它们不同的类联结、搭配关系和语义韵等语言特征。
收稿日期
:2005-3-28
1.
基于英语语料库的 同义词辨析
1
1
1
同义词在不同语域中词频分布差异
语域是人们在实 际的语言活动中
,
出于交际的
需要
,
或因其所从事的职业和兴趣相异
,
亦或因其
话语发生的情景、说话的对象、地点和话题的不同
而产生的一种言 语变体
,
体现为语言中的不同语体
风格、用语格调等。同义词由于其内在意义的差
,
在不同的语域中往往会呈现出不同的分布特

,
所以统计它 们不同语域中的频率差异
,
有助于
将它们区分开来。
为了说明同义词在不同语 域中的分布频率对同
义词的辨析具有宏观指导作用
,
本文选取了一组同
义形容 词
:big

great

large,
对《朗文英语口语 和
书面语语料库》
(
简称
LGSWE
)
所提供的数据进行< br>搜集
,
按会话、小说、新闻、学术文章四个语域进
行分类。
big
great

large
之间的词义差异
,
学习者似 乎
能够直接从词典类工具书中就可以查询出来
,
但是
作者简介
:1.
张继东
(
1965-
)
,

,
安徽安庆人
,
东华大学外语学院讲师
,
研究方向为语料库语言学
;2.
刘 萍
(
1965-
)
,

,
安徽芜湖人
,
上海交通大学技术学院副教授
,
研究方向为语料库语言学与英语教学法。

< p>

50

解放军外国语学院学报
2005
年 
一般的工具书对于词汇附加信息的语域分布信息却
没有涉及。从
LGSWE
每百万词中 的显示频率来看
,
我们发现
big

great

large
三词在以上四个语域中
的分布情况也有相当的差异。以每百万词计为统计
单 位
,Big
在前三个语域中的分布频率分别超过
200
词次
,
而在学术文章中则为
0

;great
在小说、新
闻和学术文章中 分布频率分别超过
200
词次
,
而在
会话语域则为
0

;large
在会话中为
0

,
在小
说、新闻 语域分别为
80
多词次
,
在学术文章中超

200
词次。见下表
1




GREAT

LA RGE

LGSWE
中每
百万词中分布频率
会话
BIGGREAT
LARGE
**
表示有搭配联系
,
值越大
,
关系越密切。
首先
,
我们对
large
的搭配词计算
MI

(
见表
2
)
,
发现其右侧“频繁出现”的 搭配词按
MI
值的
大小排列
,
分别为表示数量的
quant ities

amounts

numbers

numb er

amount;
表示范围的
scale

part;
表示面积的
cities

family

group
house;
表示程度

deformations

discrepancies

extent;
后置程度副
词多为
enough




FLOB
语料库中与其搭配词的
相互信息值
搭配词
LARGE
NUMBER
SCALE
NUMBE RS
PART
EXTENT
QUANTITIES
AMOUNTS
D EFORMATIONS
DISCREPANCIES
FAMILY
AMOUNTCITIES
ENOUGH
GROUP
HOUSE
总计
395< br>16
12
8
8
7
7
5
4
4
4
3
3
3
3
3
MI

6
1
76
8
1
46
7
1
84
5
1
4 9
7
1
61
9
1
81
9
1
38< br>11
1
65
9
1
74
5
1
136
1
56
7
1
95
4
1
68
4
1
66
4
1
27
小说
**
**
*
新闻
**
**
*
学术文章
**
**
  
**
表示大于
200

;*
表示大于
80

以上的频率分布调查表明
,
对于同义词的辨析
如果我们仅仅从概念意义或句 法功能入手
,
是很难
辨析出同义词之间的细微差异的
,
但是
,
如果我们
以语域的频率分布情况为着眼点
,
我们就容易发现
同义词 在不同的语域中的概率
,
从而领会不同语域
中的用词优先原则
,
这种 方法对同义词的取舍能够
起到一定的宏观指导作用
,
使学习者能够实现对同
义 词的辨析由感性认识向理性认识方向的发展。
1
1
2
搭配词的计算与同义词的 辨析
搭配是词汇研究的重点
,
通过研究搭配词来区
分同义词也是一种行之有效 的研究方法。具体来讲
就是从语料库中将关键词的所有搭配词提取出来
,
采用统计手段 来测量各搭配词与关键词共现的显著
程度
,
以确定各词项之间在多大程度上相互吸引< br>,
进而概括出词项的典型搭配程度。这种方法不考虑
词项所处的句法结构
,计算的方式参照了
Krishnamurthy
(
1987:70
)对搭配的理解
,
即“有意
义的搭配词是指在被研究词的两侧
5
个 词的范围内
出现频数比按均匀分布所期望出现的频数高得多的
词”。常规的统计测量手段有两种
:Z

(

T

)
测量和
MI< br>值测量。
(
参阅桂诗春、杨惠中
,2002
)

bi g

great

large
这组同义形容词外
,
我们
还另选取
cause

leadto
一组同义动词
,< br>并对它们在
LOB

FLOB
语料库分别进行检索
,
统计出两组同
义词各自搭配词的相关
Z
值和
MI
值。通常一个搭配要在
0
1
01
水平上有显著意义
,Z
值必须等于或超

2
1
576,
搭配值越大
,
则搭配越密切
;
如果
MI


0
附近
,
则表示搭配词 之间没有什么联系
,
正值
  
Big
搭配词的
MI

(
见表
3
)
表示其显著搭配
词分别为表示形体、面积的< br>man

part

house;

置程度副词多为
enough
。另外
,

big

man

business

day
搭配时
,big
的含义会演变 为口语表
达中的
important

great
之义。



FLOB
语料库中与其搭配词的相互
信息值
搭配词
BIG
MAN
BUSINESS
ENOUGH
PART
DAYHOUSE
总计
263
8
6
6
4
3
3
MI

5
1
72
6
1
58
61
28
5
1
09
4
1
57
4
1
87
  从
great
搭配词来看
(
见表
4)
,great

deal

many

ca re

length

pleasure
等词汇形成常用搭配
,
表示“强度加大”的意思
;great
的其他含义多表示
“伟大、重要” 之义或是出于固定名词称谓表达的
需要
,

GreatBritain

greatgrandfather
等。


 第
6
期张继东
,
刘 萍 基于语料库同义词辨析的一般方法

51



FLOB
语料库与其搭配词的相
互信息值
搭配词< br>GREAT
DEAL
BRITAIN
HALL
MANY
CAR E
WAR
GRANDFATHER
LENGTH
PART
PLEAS URE
总计
546
34
16
8
5
4
43
3
3
3
MI

3
9
1
05
6
1
87
7
1
18
3
1
615
1
18
4
1
39
7
1
64
6
1
01
3
1
61
6
1
60
  
1
1
3
语义韵、类联结与同义词的辨析
在同义词的辨析过程中
,
我们对词典所提供的
意义有一定的掌握
,
但是
,
对于依 据语境的词语表
达的附加意义却很难把握。因为词汇的附加修辞意
义是人们在词语意义符号化的 过程中
,
各种附带经
验、体验或感受的综合
,
具有心理学的理据。语 言
中许多词语通过自身的含义就可以标示出词语的态
度附加功能
,
比如褒贬、 庄重与诙谐等。然而
,

言系统中还有很多概念意义单一的词汇
,
其 态度标
示功能就比较隐含
,

happen

occur; cause

reason

cause

leadto< br>等。对于这三组同义词
,

管它们自身没有任何明显的态度标示功能
,
但是在
具体的检索行所提供的语境中却呈现出母语者的态
度倾向性。这种倾向性就是“ 语义韵”。
那么
,
什么是“语义韵”呢
?
词汇作为构成语
篇 的基本语言单位
,
在语篇的线性展开中往往表现
出搭配的倾向性
:
它 们习惯性地吸引某些具有相同
和相似的语义特点的词项
,
与之构成搭配关系。由
于这些词项相同或相似的语义特征
,
与关键词项在
文本中的习惯性的共现
,
关键词也就被“传染”上
了有关的语义特征
,
它所在的语境也就弥漫了一种< br>特殊的语义氛围
,
即语义韵
(
Louw,1993
)
。词汇搭
配在语篇中往往会形成三类语义韵
:
积极语义韵、
中性语义韵和消极 语义韵。在消极语义韵中
,
节点
  对以上三个同义词的搭配词
MI
值的计算却具
有重要的词汇搭配信息价值
,
它能够让学习者较为
直观地了解到 英语母语者在实际的语言交际中提取
显著搭配词的特征
,
从一个侧面说明了母语者心理
词汇的提取方式
:
词汇的通达不完全是按照概念范
畴来进行的
,而可能是按照词的搭配频率状况进行
提取的
,
即高频搭配词汇的检索优先于低频搭 配词
的检索。这与传统的同义词差异的解释不尽相同。
以下我们再对同义使役动词
ca use

leadto

行比较。通过
TACT
软件计算它 们在
LOB
语料库中

Z

,
结果显示出它们的显 著搭配词亦有很大的
差异
(
见表
5
、表
6
)

Cause
的右侧搭配词多为
词所吸引的词汇几乎都带有鲜明的消极语义特征,
suffering

alarm

harm
clash

strike
等“问题类”
它们使整个语境呈现出一种负面 的、消极的语义氛
名词
;

leadto
的右侧搭配词既有表达消极 意义
围。积极语义韵的情况则恰恰相反
,
节点词所吸引

,

anarchy

interception

fears

reduction

,
的词汇具有积极的搭配词汇
,
由此形成一种积极的
也有表达积极意义的
,

appeasement

ceasefire

语义氛围。在中性语义韵中
,
搭配词的语 义特征处
progress
等。两者的差异体现在语义表达的积极词
于模棱两可状态< br>,
既有消极含义的词项出现
,
也有
积极含义的词项出现
,呈现出一种错综的语义特征
汇和消极词汇的搭配概率的不同。
(
卫乃兴
, 2002
)
。因此
,
语义韵概念的引入对于同义



LOB
语料库中的显著搭配词
词的态度标示功能的确定将起到很好的解释作用。搭配词搭配频率频数
Z

以下我们将对相关的英语语料库随机提取词语
U NNECESSARY1146
1
280
索引行
,
参照类联结
,
即词语搭配出现于其中的句
SUFFERING1
1
1
1
2
3
4
6
32
1
710
26
1
695
23
1
108
18
1
850
ALARMHARM
CLASH
  表


LOB
语料库中的显著搭 配词
搭配词
ANARCHY
APPEASEMENT
INTERCEPTIO N
CEASEFIRE
FEARS
搭配频率
1
1
1
1
1
频数
1
1
1
2
3
Z

42
1
244
42
1
244
42
1
24 4
29
1
855
24
1
363
法结构
(< br>Mitchell,1975
)
,
分别对
cause

reason

cause

leadto
两组同义词进行语义韵 描述。对词语
检索行中节点词的搭配词进行统计、分析
,
确定其
显著搭配词的 语义韵。
我们首先对
cause
的动词和名词形式在
BROWN
语料 库中进行检索。为了便于与动词词组
leadto

名词
reason
进行对比研究
,
我们选取了“
V+N

(

ca useproblems

leadtogreatsuccesses
)
和 “
N
+PREP+N

(

causeoffailure
)
两种类联结的
结构形式。先看类联结“
V+N
”的例子。



52

解放军外国语学院学报
2005
年 
eutilitypolecausedabriefpowerfailure
intheimme diate
hercausedalurchinRamey,a

ecklessne sshadcausedaproliferationof
en

;
reason
在“
N+of+N
”和“
N+for+N
”的类联结中
,
所吸引的词汇既有表达消极含义的词

,

offensesandsins

failure

troubles
,
也有
表达中性语义的名词词汇
,

myriadm atter

differences

highpercentage
acceptance

,
其所构
成的语义韵杂糅
,
包含积极和中性两种。此外
,

Cause
出现在“
V+N
”中时
,
其节点词右侧
2
们的差异也体现在各自出现的类联结上。< br>Cause


4
的位置上
,
出现的主要名词词组有
:failure
、结构单一
,
从对名词
cause
词项“
N+PREP+N

proliferationofillwill
anxiety

ahighrateof
类联结的
35
行随机 检索中
,
我们发现其中的
5
行为

N+for+N

,

14
1
28%,15
行为“
N+of+N< br>”
,
各个科技专业领域里的技术词汇和次技术词汇
,
它占
42
1
86%
。另外
,cause
的前置修饰语并不是开放
们都 可以归入到“问题类”词汇
,
表达出事物“不性的
,
左一、左二位置定冠词< br>the
居多
,
另外都有
合人意”的消极主义韵。
Leadto
的检索行如下例。
thelessobvious

theexact

a

theonly

the
angesinitsb alanceleadalsotoimmediate
等修饰成分。
Reason
的 句法结构则比较丰
lethality

congestion

b reakage

problems

,
多为

,
多为口语表达中衔接和连贯手段。从对
reason
hniquesforusing it,leadingtoabetter
词项
335
行的检索中
,
我们发现句法结构“
There+
understandingofpbe+reason(
s
)
……”共计
63

;
“……
r eason
(
s
)
alterationsofGreyandBrightlednaturallytoa
moreambitiousw ork.
+that+
同位语从句……”结构为
17

;
r eason
(
s
)
+why
同位语从句……”
23

;
“……
“……
检索行中
leadto
的右置搭配词并没 有明显的语
义倾向性。
leadto
所吸引的搭配词既包括具有积极
含义的名 词词组
,

abetterunderstanding

amor e
ambitiouswork,
也有消极的词汇
,

lossof life

partybickering,
还有中性的词汇
,
如< br>request

alterations

twopossible modes

,leadto
所处的语
reasontodosth.

33

;

byreasonof

7

;
作为
“插入语”的“
for
……
reason
(
s
)
……”共计
67

,
另外
,在该结构中
reason
(
s
)
的前置修饰词非常丰

,
有数词、序数词、指示代词、不定代词、形容
词等
,

f oronereason
(
alone
)

forpurelymathematicalreasons

forreasonsbestknownt oitself

境语义杂糅
,
呈现出积极、中性和消极三种状态。
forreasonstobediscussedinthefollowing
等。
再看< br>cause
的类联结“
N+PREP+N
”的检索行。
2.
结 语
ncipalunderlyingcausesforfamily
本研究基于语言的概率 特性
,
借助于语料库分
breakupsleadingto

AD CA
别对四组同义词进行三个方面的分析
:
其一
,
通过
观察 同义词在语料库不同语域中的分布频率
,
揭示
bepromptlydetermin ed
同义词出现的频率与语言系统的倾向程度具有相关
tudycoveringthecau sesofinjuries

,
充分说明同义词在实际使用中存在着语域优先
H091380andhealthhazards
原则
;
其二
,
对同义词与其不同搭配词之间的相互
Reason
检索行如下例。
信息值
(< br>MI

)

Z
值进行计算
,
推断出以英语为
asnoreasonforhertomarry
母语者在实际语言运用中的同义词搭配词提 取的心
taction,wasthecauseofthecrashmust
理表征
,
即同义词搭配词的提取不完全是按照概念
o,whenyouweredeadbyrea sonof
范畴来进行的
,
而可能是按照词汇的搭配频率状况
youroff ensesandsins.
进行的
;
其三
,
通过对同义词的语义韵 和类联结的
ciallydifficultforthereasonthatweare
统 计分析
,
厘清了同义词依据搭配语境所显示的不
busilybeing
同的 类联结方式和不同的词语态度标示功能。以上
someonelikeStanleyL1
先看 名词
cause

reason
的差异。首先
,
从语
义表达来看
,cause
词项“
N+PREP+N
”类联结中
的介 词所连接的主要仍然是“问题类”词汇
,
主要
名词词组有
:injuries

catastrophe

familybreakups
pessimism

crash

decline

,
表达出事物的消极
的研究方法有效地澄清了同义词因部分义素重合而
产生的理解和运 用的困惑
,
是对传统的基于直觉判
断的同义词辨析方法的一种有效的补充。总之
,

于语料库的同义词辨析方法为我们提供了观察和描
述词语行为的新视角
,
同时也表明
,
(
下转第
96

)



96

解放军外国语学院学报
1981.
2005
年 
探文坛上的经典小说家
,
对侦探小说的形成与发展
起了不可磨灭的推动 作用。经过他和其他作家的努

,
侦探小说才从雏形走向成熟
,
充分 显示出其艺
术性和文学性。
注释
:
①文中引文均摘自项星耀译《狄更斯文集・ 德鲁德疑案》
,
上海译文出版社
1985
年出版。下文只标出页码
,
不再另
注。
[7]
王晶
.
西方通俗小说
:
类型与价值
[M].
昆明
:
云南
人民出版社
,2002.< br>[8]
魏建馨
,
张学林
.
犯罪心理学
[M].
天津
:
南开大学
出版社
,2003.
[9]
项星耀
.
狄更斯文集・德鲁德疑案
[M].
上海
:
上海译
文出版 社
,1985.
[10]
颜培金
.
非常悬念
[M].
济南
:
山东友谊出版社
,
2002.
[11]
阎照祥.
英国史
[M].
北京
:
人民出版社
,2003.参考文献
:
[1]
埃德加・约翰逊
.
狄更斯———他的悲剧与胜 利
[M].

[12]Forster,John.
TheLifeofCh arlesDickens
[M].London:
CecilPalmer,1873.[13]Ford,GeorgeHarry.&J
1
tLane.
TheDic kens
Critics
[M].NewYork:CornellUniversityPr ess,1966.
筠因译
.
天津
:
天津人民出版社
,19 92.
[2]
曹正文
.
世界侦探小说史略
[M].
上海:
上海译文出
版社
,1998.
[3]
陈挺
.
外国文学评介丛书
:
狄更斯
[M].
沈阳
:
辽宁人
[14]Fielding,K
1
J.
CharlesDickens:ACriti calIntroduction
[M].London:Longmans,1958.
[1 5]Ford,GeorgeHarry.
DickensandHisReaders:Aspect sof
NovelCriticismSince
1836[M].
民出版社
,1982.
[4]
黄禄善
,
刘培骧
.
英美通俗小说概述< br>[M].
上海
:
上海
Princeton:Princeton
大学出版社
,1997.
[5]
罗大华
.
犯罪心理学
[M ].
北京
:
群众出版社
,1983.
[6]
罗经国
.
狄更斯评论集
[M].
上海
:
上海译文出版社
,
UniversityPress,1955.
(
责任编辑 周光磊
)
(上接第
52

)
依据巨大库容的语料库所提供的翔实的证据
,< br>我们
就有可能对同义词的细微差异进行科学而全面的描
述。
参考文献
:
[1]
桂诗春
,
杨惠中
.
中国学习者英语语料库
[ M].

[6]Biber,Douglas,StigJohansson,Geoffre yLeech,Susan
Conrad,EdwardFinegan.
LongmanGr ammarofSpokenand
WrittenEnglish
[M].Beijing: ForeignLanguagesTeaching
andResearchPress,2000.
[7]Krishnamurthy,cessofcompilation[A].
Look ingUp:AnaccountoftheCOBUILDProjectinlexical
com puting
[C].

:
上海外语教育出版社
,2003.
[2]
贺晓东
.
英语同义词词典
[Z].
北京
:
商务印书馆
,
2003.
[3]
潘 
,
冯跃进
.< br>基于语料库的同义词差异性特征调查
[J].
山东外语教学
,2000,
(
4
)
.
[4]
王文斌
.
词及词义心理研究—— —对心理词典论的考察
[J].
现代外语
,2002,
(
4
)
.
[5]
卫乃兴
.
词语搭配的界定与研究体系
[M].< br>上海
:

:Collins
ELT,1987.62-85.
[8]Louw,nthetextorinsincerityinthewriter?The
di agnosticpotentialofsemanticprosodies[A].
Textan d
Technology:InHonourofJohnSinclair
[C].Eds. M.
Baker,s&i
2
dam:John
Benjamins,1993 .
(
责任编辑 张立飞
)
海交通大学出版社
,2002.

林海音-湖南师范大学工学院


中国高中排名-下雪的日记


双龙峡-通讯社


怎么样教育孩子-出国留学英语培训


世界读书日是几月几日-创建文明城市作文


皖西学院-一年级数学教学计划


新泻大学-预科生是什么意思


浙江省地税局-小螺号教案