《同义词词林》共享版改进
浙江人事考试网-西南财经大学本科招生网
哈工大《同义词词林》共享版的若干改进
(大连理工大学管理学院 罗志成,叶奋飞)
1 改进《同义词词林》共享版
在实验中,由于客观条件的限制,我们选择的语义
词典是《同义词词林》。《同义词词林》
是梅家驹等人
[1]
于1983年编纂而成,
初衷是希望提供较多的同义词语,对创作和翻译工作
有所帮助。但在我们发现,这本词典中不仅包括了一
个词语的同义词,也包含了一定数量的
同类词,即广义的相关词,可以参考表1.1中的词条示例。经此
分析之后,我们认为它完全
可以作为语义词典用到自然语言处理任务中。同时,《同义词词林》与Wor
dNet的格式有若
干相似之处,即都是用一个同义词集合来表示一个意思,所以可以引入WordNe
t中的各种语
义度量方法,在《同义词词林》中比较这些方法。
表1.1
词典结构示例
Ae07 农民 牧民 渔民
农民 农夫 农人 农 庄稼人 庄稼汉 田父
泥腿子 农家 耕夫 老乡
小农 个体农民
佃农 佃户
上中农 富裕中农
* * 菜农 棉农 茶农 烟农 蔗农 花农 药农 林农
雇农 贫农 下中农 中农
上中农 富农
自耕农 半自耕农 集体农民 人民公社社员
1)该表来源于《哈工大信息检索研究室同义词词林扩展版》说明
表1.2
《同义词词林》扩展前后比较
词典特征
词条总数
大类数
中类数
小类数
层次数
编码长度
扩展前
53,895个
12个
94个
1428个
3层
4
扩展后
77,343个
12个
97个
1400个
5层
8
由于《同义词词林》著作时间较为久远,且之后没有更新,所以原书中的某些词语成为
生僻词,而很多新词又没有加入。有鉴于此,哈尔滨工业大学信息检索实验室利用众多词语
相关资源,
并投入大量的人力和物力,完成了一部具有汉语大词表的《哈工大信息检索研究
室同义词词林扩展版》<
br>[2]
。扩展版剔除了原版中的14,706个罕用词和非常用词,最终的词表
<
br>包含77,343条词语。表1.2列出了扩展前后的《同义词词林》的主要特征。扩展后的《同义词词林》,含有比较丰富的语义信息。但是目前由于种种原因,《同义词词林》完整版并没有共
享,而
只是共享了其中的词典文件。期待着哈工大信息检索实验室能够在不久的将来能够将
完整版进行共享,以
满足研究和实际应用的需要。
在《哈工大信息检索研究室同义词词林》共享部分的基础上,我们根据项
目的实际需要,
进行了以下改进:
在扩展版电子版中加入了较高层次的集合,譬如说,Ab000002 男女老少。其中编码的
长度与哈
工大扩展版相同,为8位,下文将作详细说明。Ab000002之中,Ab仍然表示的是大
类和中类名
,00000表示该集合是一个中类的标题,而2表示的该类的深度为2。
我们参考WordNet
的保存格式,创建了新的索引文件和数据文件,其中索引文件和数据
文件中记录的格式将在下文说明。程
序中所有的数据文件和样本示例都列在附录之中。词典
索引文件和数据文件请参照附录A表1和表2。
1.1 词典中的编码
结合《同义词词林》原书中的介绍,以及《哈工大信息检索
研究室同义词词林扩展版》
说明,下边对词典中的编码作简要介绍。
《同义词词林》原版只提
供了三层编码,即大类用大写英文字母表示,中类用小写英文
字母表示,小类用二位十进制整数表示。例
如:“Ae 07 农民 牧民 渔民”,“Ae 07”是编码,“农
民 牧民 渔民”是该类的标题
。标题是由一个或者多个第四层的“段首(即每个段的第一个
词)”组成。根据标题词可以知道小类有分
成多少个第四级类,参见表5.1。
在哈工大的扩展版中,新增了第四级和第五级编码。新增的第四
级和第五级的编码与原
有的三级编码和并构成一个完整的编码,唯一的代表词典中的出现的词语。如:
Ba01A02= 物质 质 素
Cb02A01= 东南西北 四方
编码的方法说明如下:
第四级用大写英文字母表示,第五级用二位十进制整数表示。由于第五
级的分类结果需
要特别说明,例如,有的行是同义词,有的行是相关词,有的行只有一个词,可以分出具
体
的三种情况。在使用上,有时需要对这三种情况进行区别对待,所以有必要再增加标记来分
别
代表着几种情形。具体的标记参见表1.3。
表1.3 哈工大扩展版编码规则表
编码位
符号举例
符号性质
级别
1
D
大类
2
a
中类
3
1
4
5
小类
第三级
5
B
词群
第四级
6
0
7
2
8
= # @
原子词群
第五级 第一级 第二级
1)该表来源于《哈工大信息检索研究室同义词词林扩展版》说明
表中的编码位是按照从左到右的顺序排列。第八位的标记有3 种,分别是“=”、“#”、“@”,
“=”代表“相等”、“同义”。末尾的“#”代表“不等”、“同类”,属于相关词语。末尾的“@”
代表“自
我封闭”、“独立”,它在词典中既没有同义词,也没有相关词。
1.2
集合之间的关系
我们改进的同义词词林中加入了关系,包括上位关系(Hypernymy,用符号
$$表示)和
下位关系(Hyponymy,用符号~表示)。这样就丰富了《同义词词林
》的语义。在这里,由
于条件的限制,我们没有区分单词之间的关系和集合之间的关系,而把所有的关系
默认为是
集合之间的关系,这也就产生一定的误差。
根据我们的改进,生成了新的数据文件和索引文件。索引文件中任一条记录的格式如下:
lexicalName synsetNumber
数据文件中任一条记录的格式如下:
synsetOffset wordNumber
其中<>表示可以为有限多项,各个字段的含义如表所示:
表1.4
改进后的《同义词词林》文件格式说明
数据文件格式
字段名
synsetOffset
wordNumber
word
ptr
含义 字段名
索引文件格式
含义
同义词集合编号,长度为8lexicalName 词语名称
的字符串
集合中单
词的个数,用两位synsetNumber包含该词语的同义词集合的个数
十六进制整数表示
各个词语名称
指针,包括
pointer_symbol,
synset_offset
synsetOffset包含该词语的同义词集合的编号
synset_offset 目标集合在相应词性文件中
的编号
pointer_symbol 指针符号
2 建立词频文件和停用词文件
因为Resnik
[3]
等人的信息量方
法需要用到语料库中的词频统计文件,所以我们建立了两
个文件,一个是词语的词频文件,还有一个是同
义词集合的词频文件。其中,同义词集合的
词频计算是按照Resnik的方法
[3]
。
在建立词频文件时,我们利用了因特网上丰富的资源。在比较多个中文语料库词频文件
之
后,我们最终采用了英国Lancaster大学计算语言系网上发布的词频文件
[4]
。该文
件来源于
LCMC(Lancaster Corpus of Mandarin Chinese)
语料库,语料库中包含了《人民日报》2000
年全年的新闻材料。我们从词频文件中,筛选出《同义词
词林》扩展版中含有的56370个词
语,《同义词词林》扩展版一共有77492个词语,另外的21
122个词语在词频文件中没有出
现。我们这21122个基本上都是罕见词语,所以把它们的词频统一
设为0。
同义词集合的词频计算是按照Resnik的方法,即集合内所有词语以及下位集合所有词
语的词频之和。同时需要说明的是,在Resnik的统计中,只是加总了名词的词频,因为英
语中名词,动词,形容词有明显的区分。而在汉语当中,名词,动词,形容词并无严格的区
分,只能由他
们在句子中所起的作用作大致判断。所以,我们的同义词集合词频统计中包含
了所有的实词,而去掉了《
同义词词林》中第K类(助词)和第L类(敬语)。
因为在文本预处理中需要剔除停用词,从而需要
一个停用词表。我们利用了哈尔滨工业
大学信息检索实验室提供的《中文停用词表》。我们发现,其实这
个词表中的词语就是《同
义词词林》扩展版中第K类(助词)和第L类(敬语)下的词语
。
在预处理的过程中,我们也发现,虽然《同义词词林》扩展版涵盖的词语已经非常广泛,
但
是仍然存在文件中出现,但是词典中不包含的词语。我们对我们所建立的语料库中的这类
词语进行了统计
,在去掉数字之后,共有词语1869个。我们仔细观察了这1869个词语,发
现大部分都是人名,地
名,机构名等专用名称。所以,我们也把这些词语连同停用词一并剔
除。
致谢 <
br>首先衷心感谢哈工大信息检索实验室的研究者们,非常钦佩你们资源共享的精神。其次衷
心感谢大
连理工大学裘江南老师的指导。我在参与裘江南老师项目过程中,使用到《同义词词林》
扩展版,词语的
确是比较全和新。但是目前《同义词词林》共享版本比较简单,所以我们做了一
点点改进,请诸位多多指
教。
参考文献:
[1]
梅家驹,竺一鸣,高蕴琦等编.同义词词林.上海:上海辞书出版社,1983.
[2]
《同义词词林》扩展版.
http:
[3] Resnik, P. Using
information content to evaluate semantic
similarity. In Proceedings of the
14th
International Joint Conference on Artificial
Intelligence, Montreal, Canada,1995.
[4]
McEnery T, Xiao R. The Lancaster Corpus of
Mandarin Chinese.
http:langlcmc.访问时间:2007-6-12.