基于语料库的汉语同义词语体差异定量分析
注册开心网-职业生涯规划书模板
2012
年
06
月
第
3
期
基于语料
库的汉语同义词语体差异定量分析
Jun.,2012
No.3
基于语料库的汉语同义
词
语体差异定量分析
①
张文贤
(
[
摘
1,2,4<
br>1
邱立坤
2
宋作艳
3
3
陈保亚
4
②
北京大学
,
北京
100871;
北京师范大学
,
北
京
100875)
要
]
通过分析语体差异大的同义词
,
可以
了解语体之间的差异
。
本文采用定量分析的
方法
,
计算出
1
343
对具有显著口语
、
书面语语体差异的同义词
。
通过对这些词对
的调查分析可
语体差别最大的同义词中动词最多
;
重叠
、
词缀
、
古汉语遗留词汇在同义词中所占的比知
:
词性上
,
重都较小;
若一对同义词有音节上的差异
,
则口语倾向于为单音节
,
书面
语倾向于为双音节
。
本文
的调查结果对语言教学以及教材编写都有一定的启示
。
[
关键词
]
同义词
;
语体差异
;
定量分
析
;
对外汉语教学
[H195.1
中图分类号
][A
文献标
识码
][1003-7365(2012)03-0072-09
文章编号
]
零
、
引言
语体是学界一直探索的问题
。
近年来
,
不
断有学者就划分语体的标准进行讨论
,
如刘大为
(1994)、
陶红印
(1999)、
方梅
(2007)
等
。
还有一些学者在语体中发现
了汉语语法的规律
,
比如
方梅
(2000),
张伯江
(20
07),
王洪君等
(2009),
王伟
、
周卫红
(2005
),
宋作艳
、
陶红印
(2008)
等
。
而关于口语
与书面语在词汇上的差异的研究却相对较少
,
代表性成果为冯胜利
、
胡文泽<
br>(2005)
等
。
口语
、
书面语的词汇差异到底有多大
?
除了方言词以外
,
哪些常用的词汇有语体
差异
?
目前还
缺少这方面的定量研究
。
在对外汉语教学中
,
要使学生能够得体地表达
,
就要有语体意识
。
李泉
(2004)
认为
,
对
外
汉语教学的根本目的就是培养学习者准确地把握和正确地使用各种语体的能力
。
有些
教材注
明了词汇的语体差异
。
例如北京大学出版社出版的博雅系列汉语教材中
《
冲刺
2》
在生词注解
中就标明了某些词语有语体倾向
,
比
如第
233
页
:
揍
(
口语
),
攒
(
口语
);
第
235
页
:
渐次
(
书面
)。《
飞翔
1(
使用手册
)》:“
深邃
”,“
深刻
”;“
提第
5
页常用于书面语口语
、
书面语都
可以用语
,“
提醒
”
示
”
多用于书面语口语
、书面语都常用
。
那么
,
到底哪些同义词有语体上的差异
?
当
我们说某个词口语
、
书面语都可以用的时候
,
是不是意味着该词
的语体差异不大
?
在判断一对
“
基于语篇与语体的连词主观性研究
”
(
项目编号
:
基金项目
]
本文得到教育部人文社会科学研究青年基金
项目
①
[
11YJC740145)
以及国家自然科学基金项目
“<
br>基于自消歧模式的语法知识自动获取技术研究
”(
项目编号
:
6110
3089)
的资助
,
谨致谢忱
。
作者简介
]
张文贤
,
女
,
北京大学对外汉语教育学院
,
讲师
,
博士
,
研究方向为语言学及应用语言学
;
邱立坤
,
男,
北
②
[
京大学计算语言学研究所博士后
,
讲师
,
研究方向为计算语言学
;
宋作艳
,
女
,
北京师
范大学文学院
,
讲师
,
博士
,
研
究方向为语言学及
应用语言学
;
陈保亚
,
男
,
北京大学中文系教授
,
博士研究生导师
,
北京大学中国语言学中心研究
员
,
研究方
向为语言学及应用语言学
。
·72·
2012
年
06
月
第
3
期
汉语学习
ChineseLanguageLea
rning
2012Jun.,
No.3
同义词的语体差异时
,
除了
语感以外
,
还有没有其他依据
?
“
语体建立在同义性的基础上
”。“
语体的实质是在一些使用场合上有程雨民
(2004)
指出
”
区别的同一变体的选择
。
这样看来
,
比较词语的语体差异的最好办法就是看
同义词之间的语
体差异
。
本文通过考察同义词在不同语体中的分布
,
计算出它们的语体差异度
,
从而对同义词
的语体差异进行一个定量化的描述
,
然后分析这些同义词词对之间的区别特征
,
最后说明同义
词语体差异对教学的
启示
。
一
、
语料来源
尽管学者们对语体有不同的认识
,划分出来的类别也不统一
,
本文还是采用了口语
、
书面
语这一说
法
,
因为这种划分最方便
,
在教学中也是最常用的
。
本文所
使用的口语语料共计
149
《
我爱我家
》、《
编辑部的故事
》
万字
,
包括三部分
:
第一部分是电视情景剧的对白
,分别为
55
万
《
实话实说
》、《
对话
》61<
br>万字
;
第三部分是完全字和
13
万字
;
第二部分是电
视访谈节目的对白
,
13
万字
,7
万字
。
无准备的
自然谈话
,
包括北京大学自然口语语料库
,
北京语言大学口语语料
,
①
该语
《
人民日报
》
书面语语料选取的是语料库
(
1998
年
1
月份的数据
),
总字数为
186
万字
。
料库经过分词和词性标注
(
人工校对
),
但是为了使口语
语料库和书面语语料库具有一致的分
词和词性标注
,
我们没有使用该语料库的分词和词
性标注结果
,
而是使用同样的工具对口语和
书面语语料库进行自动分词和词性标注。
《
同义词词林
(
扩展版
)》。《
同义词词林
》
本文使用的同义词词典为由梅家驹等
(1984)
编纂而
成
,该词典按照树状的层次结构把所有收录的词条组织到一起
,
并把词汇分成五层类别
,
第一层有
12
个类
,
第二层有
97
个类
,
第三层有
1428
个类
,
第四层有
4223
个类
,
第五层有
17807
个类
。
哈尔滨
对之进行了大
规模的扩展
,
其最终的词表工业大学信息检索技术研究中心参照多部电子词典资源
,<
br>②
本文所取的同义词为第
《(
以下简称
《
词林
》)。
包含
7
万余条词语
,
称之为同义词词林
(
扩展版<
br>)》
《
五层
,
即
,
如果两个词在词林
》中属于同一个五层类
,
则我们视之为一对同义词
。
平均而言
,<
br>一个同
,《
词林
》
中的同义词并不一定是严格意义上的同义词
,
有许义词簇包含大约
5
个词
。
需要说明的是
多是近义词<
br>,
在下文中我们会进一步分析这一事实对实验结果的影响
。
二
、
同义词语体差异的计算方法
本文所使用的调查方法流程有如下几个步骤
:(1)
分别
对口语语料和书面语语料进行分
词和词性标注
;(2)
分别统计口语语料和书面语语料
的带词性词频
;(3)
将绝对词频转换为相
计算同义词的语体差异显著度
;(
5)
根据所得对词频
;(4)
遍历同义词词典中的第一对同义词
,
的
语义差异显著度对同义词进行排序
,
即可得出语体差异显著度比较大的词
。
下
面我们将详
细说明上述五个步骤的情况
。
2.1
分词和词性标注
中也
有部分语料不是书面语
,
但比例较小
。
本文按照词语的频率计算语体差异,
应该能够反映书面语
①
《
人民日报
》
《
人民
日报
》
词汇的全貌
。
即使某一口语词语出现在中
,
频率也不
会太高
,
不影响本文的结论
。
的相关说明请见
http:ir.hi
t.edu.cnphpwebsiteindex.php?module=pagemaster&PAGE
_user_op
②
《
同义词词林
(
扩展版
)》
=
view_printable&PAGE_id=162&lay_quiet=1
·73·
2012
年
06
月
第
3
期
基于语料
库的汉语同义词语体差异定量分析
Jun.,2012
No.3
本文的分析基于词语这
一级单位进行
,
因此首先要对词语进行分词和词性标注的预处理
。
我们使用中
国科学院计算技术研究所的
ICTCLAS
汉语分词系统对语料进行词语切分和词性
标
注
,
该软件所使用的词性标注体系与
“
人民日报
”
标注语料
库相同
,
便于在词性一级直接对
应
。
下面是一个经过词语切分和词性
标注的示例
:
迈向
v
充满
v
希望
n
的u
新
a
世纪
n。
,“v、n、a、u”
词与词之间用两
个空格隔开
,
词与词性之间用
“”
隔开分别表示动词
、
名词
、
形容
词和助词
。
2.2
统计带词性词频
对语料库
进行分词之后
,
我们就可以从语料库中统计出词语的频次
。
在汉语中存在大量
“
希望
”
的兼类词
,
一个词可能被标注多种词性
,
比如兼属于动词和名词
,
不同词性的词在语法
应该作为不同的单位进行分析<
br>。
通过词性标注
,
在一定程度上可以消解这种意义上差别较大
,
从而实现更细粒度的比较分析
。
歧义
,
因此
,
我们在分词
和词性标注的基础上统计出带词性的词频表
,
下面的表
1
和表
2分别标
明了书面语和口语语料库的带词性词频示例
。
2.3
将绝对词频转
换为相对词频
绝对词频容易受到语料库规模
、
分布不平衡等影响
,
一
般不能直接用于语料库之间的词汇
比较
。
因此
,
我们需要将绝对词频
转换为相对词频
,
通过相对词频的差异来比较同义词词对在
不同语体中的使用差异。
我们的转换方法是
(
以书面语语料库为例
):(1)
将书面语
语料库带词性词频表按频次降
序排列
;(2)
将词频表等分为
1000
块
,
每一块的
ID
分别为由
1
到
1000;(3
)
每一块中的所有词
语的相对词频为
1001-ID,
即绝对频次最高的一块
中相对词频为
1000,
绝对频次最低的一块
中相对词频为
1。
依照
相同的方法可以对口语语料库带词性词频进行转换
。
我们可以得到两
个相对词频表(
表
1、
表
2)。
表
1
书面语带词性词频示例
词
词性
的
u
在
p
和
c
了
u
是
v
一
m
有
v
不
d
对
p
中
f
为
p
工作
v
要
v
上
f
这
r
频次
60281
13078
12735<
br>11384
11009
7621
5071
4942
4556<
br>3677
3664
3655
3638
3614
3546
表
2
口语带词性词频示例
词
词性
的
u
我
r
是
v
不
d
你
r
就
d
了
y
这
r
说
v
有
v
一
m
也
d
了
u
他
r
我们
r
频次
3478
0
29752
25469
17914
16095
13980
12309
11026
9630
9059
8629
7828
7627
7557
7043
2.4
语体差异显著度
·74·
2012
年
06
月
第
3
期
汉语学习
ChineseLanguageLearning
Jun.,2012
No.3给定一对同义词
wi
和
wj,
设两个词在口语语料库中的相对词频分别为
fsi
和
fsj,
在书面语
语料库中的相对词频分别为
fw
i
和
fwj。
我们用一个词语在口语和书面语两种语料库中的相对
词频比来表
示该词语的语体差异显著度
,
如公式
(1)
中
S
i
表示
wi
的相对词频比
。
然后
,
可以
如公式
(2)
所
在两个词各自的语体差异显著度基础上计算两个词语之间的语体差异显著度
,
示
。
其中
OS
ij
表示同义词
wi
和<
br>wj
之间的语体差异显著度
。
公式
(1)
S
i
=
fs
i
fw
i
公式
(2)
OS
ij<
br>=
s
i
-s
j
s
i
+s
j
由于我们所使用的语料库是没有进行词义消歧的
,
所以
《
词林
》中的多义词在语料库中无
法分开
。
在这种情况下
,
我们只能使用
词性标注来消解一部分歧义
。
因此
,
在选择同义词词对
《
词
林
》
时
,
除了要求在中处于同一个第五层类之外
,
还要求两
个词的词性相同
。
“
今儿
”“
今日
”
比如和这一对
词在
《
词林
》
中属于同一个第五层类
(
类
ID为
Ca23A03),
并
“t”(
时间词
),
且两者具
有共同的词性标记因此我们可以将它们作为一对同义词来计算其语
。“
今儿
”
体差异显著度在口语和书面语语料库中的相对频次分别为
179
和
1,
而“
今日
”
的相
“
今儿
”“
今日
”对频次分别为
5
和
69,
因此
,
我们可以计算出和的语
体差异显著度为
0.999。
我们在调查时把词类分为
:
名词
(n)
、
动词
(v)、
副词
(d)、
代词
(r)、
形容词
(a)、
连词
(c)、
方位词
(f)、
介词
(p)
、
数词
(m)、
语气词
(y)、
助词
(u)
等。
与同一个词对应的可能有几个同义
词
,
每一对的语体差异度可能不同<
br>。
比如
“
要是
”
的同义词有
“
如果
、
假如
、
假使
、
倘若
、
若
”
等<
br>,
,“
要是
”,“
要是
”,“
要在计算语体差异时<
br>,
我们分别拿
“
要是
”
与
“
如果
”
与
“
假如
”
与
“
假使
”
“
倘若
”,“
要是
”“
若
”
是
”
与与进行
对比
。
三
、
实验结果与分析
3.1
实验结果
通过上
述方法得到每一对同义词差异的具体数值
,
数值越大语体差异越大
。
统计显示
,
差
异度大于
0.900
的同义词共有
2470
对
。
我们对这
2470
对进行了人工校对
,
删除不合格的同<
br>义词
,
得到
1343
对口语
、
书面语语体差异显著的
同义词
,
算法正确率为
54%。
不合格的同义词的产生
,
主
要是由于以下两种情况
:
第一
,
我们的语料库没有经过词义消
歧,
所以无法区分多义词的不同义项
,
这就使得对多义词的处理效果不好
。
比如
“
打
”
有很多
“
打
_
选购<
br>、
义项
,
每个义项都有对应的同义词
,
调查的结果就显示打<
br>_
发射
、
打
_
建造
、
打
_
砌
”
等
的差异度都在
0.9
之上
。
第二
,
有一些词对只是同类而已
,
也被当作了同义词
。
比如量词
、
助
词
、
表示职称或称呼类的名词等
。
出现错误的词对有“
班
_
旅
、
班
_
组
、
丝_
分
、
俩
_
两
、
呢
_
哉、
啊
_
也罢
、
哎
_
咦
、
校长
_
院长
、
总裁
_
总统
、
满族
_<
br>匈奴
、
姥姥
_
老妈妈
、
家长
_
县长
、
旗
_
市
、
奥运会
_
研讨
,会
、
年级
_
班组
”
等等
。
3.2语体差异最大的同义词
表
3
动词
v
30
语体差异大的前
100
对同义词的词性分布
词
(54
对
)
名词n
代词
r
实
193
形容词
a
2
副词<
br>d
26
连词
c
11
词
(46
对
)<
br>方位词
f
数词
m
虚
33
介词
p
2<
br>语气词
y
1
·75·
2012
年
06
月
第
3
期
表
4
动词
v
658基于语料库的汉语同义词语体差异定量分析
1330
对同义词的词性分布差异
实词
名词
n
形容词
a
25099
虚
代词
r8
副词
d
200
连词
c
41
词
数词<
br>m
21
方位词
f
35
Jun.,2012
No.3<
br>介词
p
18
我们对语体差异度最高的前
100
对同义词
,
即差异度在
0.9838
以上的词汇的词性进行了
统计
,
发现实词有
54
对
,
虚词有
46
对
。
其
中
,
动词
(30
对
)、
名词
(19
对,
包括
4
对时间名词
t)
所占的数量较大
。
出
乎意料的是
,
形容词居然只有两对
,
而且是同义词
,
它们是
“
不错
-
良
”、“
好
-
良好
”。
虚词方面
,
好同义副词的差别最大
(26
对
),
其
次为连词
,
有
11
对
,
再次为方
位词
(3
对
),
数词
(3
对
)。
如果把统计范围扩大到1330
对同义词
,
则数量大的词性的分布结果为上面的表
4,
可以
看出词性差异的排列次序几乎没有变化
,
仍然是实词里动词最多
,
其次为名词
。
虚词里最多的
是副词
,
其次为连词
,
然后是方位词
、
数词
、
介词
。
也就是说
,
前
100
对语体差异大的词基本能
够反映词汇语体差异在词性分布上的特点
。
3.3
同义词语体差异的类型
我们进一步考察了语体差异大的
1343对同义词
,
统计具有口语词汇特征的重叠
、
有词缀
的词和具有书
面语特征的古代汉语遗留词汇的出现情况
,
以及单双音节的对应情况等
。
3.
3.1
重叠与词缀
“
子
、
重叠与包含词缀儿
、
头<
br>”
的词汇为典型的口语词
,
但是数量并不多
。
口语为重叠式<
br>,
①
为副词外
,
“
慢慢
_
日益
”<
br>书面语为非重叠式的同义词有
9
对
,
除了
其余
8对均为动词
。
表
5
重叠与非重叠式
(
按差异度排列)
差异度
0.998
0.974
0.964
同义词
问问
_
讯问
听听
_
收听
看看
_
察看
差
异度
0.974
0.971
0.961
同义词
问问
_
咨询
谢谢
_
感谢
想想
_
思考
差异度
0.
974
0.969
0.918
同义词
慢慢
_
日益
想
想
_
思索
谈谈
_
座谈
“
子
、“
脑
子
_
脑
”、“
味儿
_
滋味
”
含有词缀儿<
br>、
头
”
的同义词语体差别最大
,
除了外
,
其
它的同
。“
儿
”
义词全部都在
0.97
以上是典型的口语词
标记
,
表中带有
“
儿
”
的口语词有
8
个<
br>②
,
带
“
子
”“
头
”
的有
5
个
,
带的只有
1
个
。
表
6
口语
词带有词缀
(
按差异度排列
)
差异度
0.999
0.998
0.996
0.990
0.909
同义词
事儿
_
事
宜
那会儿
_
其时
一块儿
_
共同
外头
_外侧
味儿
_
滋味
差异度
0.999
0.997
0.996
0.971
0.909
同义词
今儿
_
今日
样子
_
势头
一点儿
_
些许
房子
_
房屋<
br>差异度
0.999
0.997
0.991
0.968
同义词<
br>事儿
_
事务
女孩子
_
女童
这会儿
_
此时
片子
_
影片
脑子
_
脑
3.3.2
古代
汉语遗留词汇
书面语词汇是古代汉语在现代汉语中的遗留词汇
。
这样的词汇有
20
对
,
其中包括
“
比如
”、“
乐意
_<
br>甘于
”、“
叫
_
令
”、“
挨
_
倚<
br>”、“
看
_
访
”、“
好像
_
恍若
”
、“
瞧
_
觑
”、“
信
_
函
”、“
杀
_
说
_
诸如
”、“
慢慢
_
日趋
”、“
慢慢
_
日渐
”、“
慢慢
_
渐
”分别构成同义词
,
本表只列了一对
。
①
“
慢慢
_
日益
“
共同
”、“
一道
”、“
一齐
”<
br>与等分别构成同义词
,
本表只列了一个
。
②
“
一块儿
”
·76·
2012
年
06
月
第<
br>3
期
①
9
对实词
,
屠
”
其他
11
对为虚词
。
汉语学习
ChineseLanguageLearnin
g
2012Jun.,
No.3
表
7
书面语词是古代汉语的遗留(
按差异度排列
)
差异度
0.999
0.997
0.9
89
0.979
0.974
0.944
0.901
同义词
跟
_
与
就是说
_
即
乐意
_
甘于
看<
br>_
访
好像
_
恍若
信
_
函
杀
_
屠
差异度
0.998
0.994
0.984
0.976<
br>0.966
0.940
0.900
同义词
还
_
仍要是
_
倘若
叫
_
令
没有
_
尚未
瞧
_
觑
把
_
将
差异度
0.997
0.9
93
0.982
0.975
0.960
0.934
同义词
挺
_
颇
比如说
_
诸如
哪
_
焉
挨_
倚
还
_
尚
你
_
汝
全
_皆
3.3.3
汉语口语与书面语单双音节的对应关系
我们对提取出来的口语词与书
面语词差异度高的词对进行了考察
,
得到口语单音节
、
书面
语双音节
的
427
对
,
口语双音节
、
书面语单音节的
47<
br>对
,
二者的比例是
9:1。
可见
,
口语词单音
节词的数量远远多于书面语
。
口语是单音节
、
书面语是双音节的词汇有两类
:
一类是一个口语单音节词与几个书面语双音节词对应
,
如表
8所示
。
表
8
一个单音节词与多个双音节词对应
(
按差异
度排列
)
差异度
0.984
0.971
0.957
同义词<
br>办
_
设立
办
_
开设
差异度
0.977
0.964
同义词
扔
_
抛弃
扔
_
摈弃
扔
_
废弃
差异度
0.971
0.971
0.971
同
义词
帮
_
扶助
帮
_
协助
帮
_
声援
表
9
另一类是口语词是书面语词中的一个构成成分
,
如表
9
所示
。
单音节词是多音节词的一个成分
(
按音序排列
)差异度
0.965
0.953
0.959
0.976
0.966
0.980
0.975
0.960
0.961
0.993
0
.979
0.982
0.957
0.968
0.985
同义词
搬
_
搬迁
菜
_
蔬菜
得
_
得以
得
_
赢得
等
_
等候
盖
_
覆盖
家_
家园
开
_
开办
忙
_
忙碌
书
_
图书
推
_
推迟
写
_
编写
行
_<
br>施行
有
_
享有
差异度
0.980
0.971
0.977
0.990
0.974
0.980
0.985
0.963
0.973
0.979
0.966
0.966
0.979
0
.969
同义词
比
_
比照
带
_
带动
得_
获得
登
_
刊登
地
_
土地
跟
_
跟随
交
_
提交
开
_
开设
忙
_<
br>繁忙
算
_
计算
推
_
推动
写
_
书写
行
_
履行
找
_
查找
差异度
0.95
7
0.971
0.974
0.961
0.956
0.967
0.974
0.974
0.978
0.971
0.978
0.959
0.996
0.972
同义词
爱
_
喜爱
必
_
必将
得
_
博得
得
_
获取
等
_<
br>等待
对
_
针对
好
_
友好
交
_
交纳
开
_
召开
签
_
签署
听
_
听
取
屋
_
房屋
写
_
撰写
演
_
上演<
br>长
_
增长
口语双音节
、
书面语单音节的主要是虚词
,
如下表
10
所示
。
①
既是古代汉语遗留词汇
,又与口语词有单双音节差异的
,
列在下文表
10,
不在表
7重复列出
。
·77·
2012
年
06
月
第
3
期
表
10
基于语料库的汉语同义词语体差异定量分析<
br>口语双音节书面语单音节
(
按差异度排列
)
差异度
0.999
0.967
0.958
0.909
同义词
就是
_
即
或者
_
或
肯定
_
必
差异度
0.9840.965
0.936
同义词
里面
_
内
所以
_
故
已经
_
已
Jun.,2012
No.3
同义词<
br>要是
_
如
因为
_
因
仍然
_
仍
假如
_
若
差异度
0.980
0.961
0.926
四
、
对对外汉语教学的启示
4.1
词汇选择与语体的关系
正如刘大
为
(1994)
指出的
,
语体类型先是由交际需要决定的
,
交际需要支配着我们选择
不同的行为方式
,
不同的行为方式又会影响语言的形式变异<
br>,
使交际者在进行某一语体的行为
时倾向于选择某些语体特征
。
所以<
br>,
口语
、
书面语选择的词汇体现了其语体特点
。
吴丽君
(2004)
指出
,
口语体口语使用的是口语体词汇
,
书面语体书
面语使用的是书面语体词汇
,
通用
语体词汇包括书面语体口语词汇与口语体书面语词汇
。
本文统计出来的语体差异大的同义词
应该分别属于口语体口语与书面语体书面语。
在对外汉语教学中
,
可以有针对性地加入语体知识
,
增强学生
的语体意识
。
首先
,
可以从
总体上讲明语体与词汇的关系
。
我们从表
1、
表
2
中可以看出口语与书面语在用词上的一些
“
我
、
比如口语中人称代词你
、
他
、
我们
”
使用较多
;
若同义词有单双音节的差异时
,
实词差别
,<
br>在口语中倾向于使用单音节
,
在书面语中倾向于使用双音节
。
其次,
可以根据本文的结论设计
教会学生表达同一个意思时
,
书面语用什么词
汇
,
口语用什么词汇
。
比一些语体转换的练习
,
如
,
在教学中可以设计这样的练习
:
把下面的口语性强的句子改为书面语强的句子
:
①你听听新闻就知道了
,
我们的国家慢慢地强了
。
我们国家的实
力日益增强了
。
→
你收听新闻就知道了
,
“
天下第一山”。
②我们叫这座山为
“
天下第一山
”。
→
这座山被誉
为
4.2
单双音节词汇与语体的关系
单双音节的不同也是口语与书面语词汇差异的一个
重要类型
。
在对外汉语教学中
,
谈到
“
所以
”,“
故
”
词汇的语体差异时
,
我们常说是口语的是书面语的
,<
br>这时给留学生的印象是
,
口
语表达倾向于双音节
,
书面语表达
倾向于单音节
。
但有时却会使留学生得出完全相反的结论
,
“
买”,“
购买
”
比如我们告诉他是口语的是书面语
。
本文总结出了
哪些词汇在口语中是单音
节
,
而在书面语中是双音节
,
哪些词汇相反
。
在
1343
对同义词中
,
口语单音节
、
书面语双音节
的是
427
对
,
口语双音节
、
书面语
单音节的是
47
对
。
也就是说
,
有音节差异的词对共有474
对
,
占
35%。
除了少数同义词是单音节对单音节之外<
br>,
大多数同义词还是双音节对双音节
。
口语单音节
、
书面语双
音节的实词居多
,
口语双音节
、
书面语单音节的虚词居多
。
这是因
为这些虚词是对古汉语的继承
,
因为文言化而显得书面化
。
一
般认为
,
汉语词汇的发展经历了
现代汉语以双音节为主
。
张国宪一个
从古代汉语单音节向现代汉语双音节发展的过程
,
(1996)、
汤志祥
(2
001)
都有统计数据证明这一点
。
曹炜
(2003)
以
《
现代汉语词典
》
所收录词
“
从音节结构来看
,
语为
研究对象
,
得出的结论是口语词中双音节词占绝对优势
,
而书面语词
·78·
2012
年
06
月
第
3
期
汉语学习
ChineseLanguageLearning
2012Jun.,No.3
”
根据现代汉语的实际语料
,
中
,
单音节词的
数量逼近双音节词的数量
。
这一结论需要再验证
。
也有一些学者观察到单音节
在现代汉语中占有相当的地位
,
如刁晏斌
(2006)、
蔡长虹
(2
007)
等
。
什么是口语词
?
什么是书面语词
?
口
语词与俚语
、
方言词怎么区分
?
如果仅仅以词典或
词表为依据
,
不可避免地会将口语词与其它词语纠缠在一起
。
正如苏新春
、
顾
江萍
(2004)
所
指出的那样
,
口语词难以确定
,
一方面是因为与方言词纠缠在一起
,
另一方面是因为口语词自
身所发生的变化
。
本文从实际语料出发
,
研究普通话中常用的词汇
,
说明口语与书
面语词汇在
但这种差异的比例并未过半
。
音节上确实存在差异
,
4.
3
对外汉语教学中的同义词辨析视角
同义词教学是对外汉语教学中的难点
,
赵
新
、
李英
(2001)、
杨寄洲
(2004)、
敖桂华(2008)、
张博
(2008)、
苏英霞
(2010)、
田惠
刚
(2010)
等都从不同角度论述过同义词辨析问题
。
目前的
轻重
、
范围
;(2)
词义的褒贬色彩
;
同义词辨析主要是从以下
角度来进行的
:(1)
词义的侧重点
、
(3)
与该词时常搭配使用的
词
;(4)
语体差异
。
在这些常用的辨析方法中
,
语体特征
究竟占据
什么样的地位
?
前人大多认为语体差异在同义词辨析中占有很重要的地位,
比如吴丽君
(2004)
认为
“
近义词间的差别除了功能和使
用范围以外
,
很重要的一点就是适用语体的不
。
田惠刚
(2010)
认为
“
语体是同义词最重要的特征之一
”。
但是这些结论多来自感性
的认同
”
识
,
论证是举例性质的
,
没有统计方面的证据,
更没有指出语体差异的程度到底有多大
。
通过本文的调查分析
,
可以给同义词的语体特征一个更加准确的定位
。
首先
,
从整体上
同
义词的语体差异并不一定是同义词最主要的差异
。
第二
,
语体差异只是同义词
辨析的一看
,
个方面
,
但不一定是最主要的方面
,
因为只有
部分同义词有语体差异
。
第三
,
即使一对同义词
有语体差异
,
也不能简单地用音节
、
词缀等因素来解释
。
音节
、
词缀等只能用来解释少部分同
义词的差异
。
第四
,
虽然语体差异是
词汇
、
语法等综合作用的结果
,
要培养学生得体地运用语
言的能力要
考虑多种因素
,
但是毫无疑问
,
同义词是一个很好的切入点
。
在这些词上多做训
练
,
能够增强留学生的语体意识
。
对于语体差异
大的动词
、
副词
、
名词和连词
,
在教学时更要特
别
给予重视
。
五
、
结语
本文通过计算的方法得到了口语
、书面语实际语料中有语体差异的同义词
。
口语
、
书面语的同
义词
差异主要在词性以及音节上
。
动词
、
名词
、
副词
、
连词为语体差异大的词类
。
口语中单音节词多
得到一张口语
、
书面语语体差异大的同义词的列表
,
从词汇于书面语
。
本文的成果主要在于
:
首先
,
描写了口语
、
书面语在词汇特征上的差异
,
这使我们对语体的的角度考察了汉语的语体问题
。
其次
,
差异有了
更深入的认识
。
第三
,
本文的结论为对外汉语教学以及教材编写提供了参考依
据
。
参考文献
:
[1]J].
汉语学习
,2008,(3)
.
敖桂华
.
对外汉语近义词辨析教学对策
[
[2]J].
汉
语学报
,2007,(1).
蔡长虹
.
当代汉语词汇的单音节化现象考察[
[3]
曹
J].
语言教学与研究
,2003,(6).
炜
.
现代汉语口语词和书面语词的差异初探
[
[4]M].
上海<
br>:
上海外语教育出版社
,2004.
程雨民
.
英语语体学[
[5]A].
南开语言学刊
(
第
1
期
)[C
].
北京
:
商务印书馆
,2006.
刁晏斌
.
现代
汉语词的音节及其发展变化
[
·79·
2012
年
0
6
月
第
3
期
[6]
方
[7]
方
基
于语料库的汉语同义词语体差异定量分析
Jun.,2012
No.3
J].
中国语文
,2000,(5).
梅
.
自然口语中弱化连词的话语标记功能[
J].
修辞学习
,2007,(6).
梅
.
语体动因
对句法的塑造
[
[8]C].
北京
:
北京语言大学出版社
,
2005.
冯胜利
,
胡文泽
.
对外汉语书面语教学与研究的最新发展
[
[9]M].
北京
:
北京语言大学出版社
,2006.<
br>冯胜利
.
汉语书面用语初编
[
[10]
李
J].汉语学习
,2004,(1).
泉
.
面向对外汉语教学的语体研究的范围
和内容
[
[11]J].
世界汉语教学
,2010,(3).
李绍林
.
对外汉语教学词义辨析的对象和原则
[
[12]J].
修辞学习<
br>,1994,(3).
刘大为
.
语体是言语行为的类型
[
[1
3]J].
汉语学报
,2008,(4).
宋作艳
,
陶红印
.
汉英因果复句顺序的话语分析与比较
[
[14]“
口语词
”——<
br>对
《
现汉
》“
口
”[J].
辞书研究
,20
04,(2).
苏新春
,
顾江萍
.
确定的难点与对策
—取消标注的思考
[15]J].
汉语学习
,2010,(2).
苏英霞<
br>.
汉语学习者易混淆虚词的辨析视角
[
[16]M].
上海
:
复旦大学出版社
,2001.
汤志祥
.
当代汉语词语的共识状况及其
嬗变
[
[17]J].
当代语言学
,1999,(3).
陶红印.
试论语体分类的语法学意义
[
[18]J].
云南师范大学学报
,2010,(1).
田惠刚
.
双语体同义词语的探索及其教学实践意义
[
[19]A].
汉语口语与书面语教学
———2002
王福生
.对外汉语教学活动中口语和书面语词汇等级的划界问题
[
C].
北京
:<
br>北京大学出版社
,2002.
年国际汉语教学学术研讨会论文集
[
[2
0]“
了
2
”?———
兼论话主显身的主观近距交互式语体
[A].
语言学论丛
(
第四十
王洪君
,
李榕
,
乐耀
.
何时用
C].
北京
:
商务印书馆
,2009.<
br>辑
)[
[21]
王
J].
汉语学习
,2005,(4
).
伟
,
周卫红
.“
然后
”
一词在现代汉语口语中
使用范围的扩大及其机制
[
[22]J].
云南师范大学学报
,2004,(
3).
吴丽君
.
口语词汇与书面语词汇教学研究
[
[23]J].<
br>世界汉语教学
,2004,(3).
杨寄洲
.
课堂教学中怎么进行近义
词语用法对比
[
[24]
张
J].
语言教学与研究
,200
8,(6).
博
.
第二语言学习者汉语中介语易混淆词及其研究方法
[
[25]J].
修辞学习
,2007,(2).
张伯江
.
语体差异
和语法规律
[
[26]J].
汉语学习
,1996,(3).
张国宪
.
单双音节形容词的选择性差异
[
[27]
赵
J].
暨南大学华文学院学报
,2001,(2).
新
,
李英
.
对外汉语教学中的同义词辨析
[
Corpus-basedQuantitativeAnal
ysis
onStylisticDifferenceofChineseSynonyms
ZHANGWen-xiɑn
1
&QIULi-kun
2
&SONGZuo-
yɑn
3
&CHENBɑo-yɑ
4
PekingUniversity,B
eijing
100871;
3
BeijingNormalUniversity,
Beijing
100875)
Abstract:Byanalyzingthediffe
rencesinsynonyms,wecanunderstandthestylisticdiffer
ences.In
thispaper,certainalgorithmsareusedtoca
lculate1343pairsofsynonymswhichshowsignificant
stylisticdifferences.Fromquantitativeanalysisonthe
sepairs,weconcludethat:mostwordsinthe
affixes,a
ncientChinesewordsaresmallinproportion;ifonepairof
syn-pairsareverbs;overlapping,
onymshavediffere
ntsyllables,thespokenwordtendstobemonosyllabicandt
hewrittenworddisyl-
labic.Theseconclusionscanpr
ovidesomeinspirationforlanguageteaching.
Keywor
ds:synonym;stylisticdifference;quantitativeanalysi
s;teachingChineseasasecondlan-
guage
(
1,
2,4
·80·