《同义词词林》共享版改进_「金点文库网」分享知识创造价值

浙江人事考试网-西南财经大学本科招生网

哈工大《同义词词林》共享版的若干改进
(大连理工大学管理学院罗志成，叶奋飞)

1 改进《同义词词林》共享版
在实验中，由于客观条件的限制，我们选择的语义词典是《同义词词林》。《同义词词林》
是梅家驹等人
[1]
于1983年编纂而成，初衷是希望提供较多的同义词语，对创作和翻译工作
有所帮助。但在我们发现，这本词典中不仅包括了一个词语的同义词，也包含了一定数量的
同类词，即广义的相关词，可以参考表1.1中的词条示例。经此分析之后，我们认为它完全
可以作为语义词典用到自然语言处理任务中。同时，《同义词词林》与Wor dNet的格式有若
干相似之处，即都是用一个同义词集合来表示一个意思，所以可以引入WordNe t中的各种语
义度量方法，在《同义词词林》中比较这些方法。

表1.1 词典结构示例
Ae07 农民牧民渔民
农民农夫农人农庄稼人庄稼汉田父泥腿子农家耕夫老乡
小农个体农民
佃农佃户
上中农富裕中农
* * 菜农棉农茶农烟农蔗农花农药农林农
雇农贫农下中农中农上中农富农
自耕农半自耕农集体农民人民公社社员
1)该表来源于《哈工大信息检索研究室同义词词林扩展版》说明

表1.2 《同义词词林》扩展前后比较
词典特征
词条总数
大类数
中类数
小类数
层次数
编码长度

扩展前
53，895个
12个
94个
1428个
3层
4
扩展后
77，343个
12个
97个
1400个
5层
8

由于《同义词词林》著作时间较为久远，且之后没有更新，所以原书中的某些词语成为
生僻词，而很多新词又没有加入。有鉴于此，哈尔滨工业大学信息检索实验室利用众多词语
相关资源，并投入大量的人力和物力，完成了一部具有汉语大词表的《哈工大信息检索研究
室同义词词林扩展版》< br>[2]
。扩展版剔除了原版中的14,706个罕用词和非常用词，最终的词表

< br>包含77,343条词语。表1.2列出了扩展前后的《同义词词林》的主要特征。扩展后的《同义词词林》，含有比较丰富的语义信息。但是目前由于种种原因，《同义词词林》完整版并没有共
享，而只是共享了其中的词典文件。期待着哈工大信息检索实验室能够在不久的将来能够将
完整版进行共享，以满足研究和实际应用的需要。
在《哈工大信息检索研究室同义词词林》共享部分的基础上，我们根据项目的实际需要，
进行了以下改进：
在扩展版电子版中加入了较高层次的集合，譬如说，Ab000002 男女老少。其中编码的
长度与哈工大扩展版相同，为8位，下文将作详细说明。Ab000002之中，Ab仍然表示的是大
类和中类名，00000表示该集合是一个中类的标题，而2表示的该类的深度为2。
我们参考WordNet 的保存格式，创建了新的索引文件和数据文件，其中索引文件和数据
文件中记录的格式将在下文说明。程序中所有的数据文件和样本示例都列在附录之中。词典
索引文件和数据文件请参照附录A表1和表2。

1.1 词典中的编码
结合《同义词词林》原书中的介绍，以及《哈工大信息检索研究室同义词词林扩展版》
说明，下边对词典中的编码作简要介绍。
《同义词词林》原版只提供了三层编码，即大类用大写英文字母表示，中类用小写英文
字母表示，小类用二位十进制整数表示。例如：“Ae 07 农民牧民渔民”,“Ae 07”是编码，“农
民牧民渔民”是该类的标题。标题是由一个或者多个第四层的“段首（即每个段的第一个
词）”组成。根据标题词可以知道小类有分成多少个第四级类，参见表5.1。
在哈工大的扩展版中，新增了第四级和第五级编码。新增的第四级和第五级的编码与原
有的三级编码和并构成一个完整的编码，唯一的代表词典中的出现的词语。如：
Ba01A02= 物质质素
Cb02A01= 东南西北四方

编码的方法说明如下：
第四级用大写英文字母表示，第五级用二位十进制整数表示。由于第五级的分类结果需
要特别说明，例如，有的行是同义词，有的行是相关词，有的行只有一个词，可以分出具体
的三种情况。在使用上，有时需要对这三种情况进行区别对待，所以有必要再增加标记来分
别代表着几种情形。具体的标记参见表1.3。

表1.3 哈工大扩展版编码规则表
编码位
符号举例
符号性质
级别

1
D
大类
2
a
中类
3
1
4
5
小类
第三级
5
B
词群
第四级
6
0
7
2
8
= # @

原子词群
第五级第一级第二级
1)该表来源于《哈工大信息检索研究室同义词词林扩展版》说明
表中的编码位是按照从左到右的顺序排列。第八位的标记有3 种，分别是“=”、“#”、“@”，
“=”代表“相等”、“同义”。末尾的“#”代表“不等”、“同类”，属于相关词语。末尾的“@” 代表“自
我封闭”、“独立”，它在词典中既没有同义词，也没有相关词。

1.2 集合之间的关系
我们改进的同义词词林中加入了关系，包括上位关系（Hypernymy，用符号 $$表示）和

下位关系（Hyponymy，用符号~表示）。这样就丰富了《同义词词林》的语义。在这里，由
于条件的限制，我们没有区分单词之间的关系和集合之间的关系，而把所有的关系默认为是
集合之间的关系，这也就产生一定的误差。
根据我们的改进，生成了新的数据文件和索引文件。索引文件中任一条记录的格式如下：
lexicalName synsetNumber

数据文件中任一条记录的格式如下：
synsetOffset wordNumber

其中<>表示可以为有限多项，各个字段的含义如表所示：

表1.4 改进后的《同义词词林》文件格式说明
数据文件格式
字段名
synsetOffset
wordNumber
word
ptr
含义字段名
索引文件格式
含义
同义词集合编号，长度为8lexicalName 词语名称
的字符串
集合中单词的个数，用两位synsetNumber包含该词语的同义词集合的个数
十六进制整数表示
各个词语名称
指针，包括
pointer_symbol，
synset_offset
synsetOffset包含该词语的同义词集合的编号

synset_offset 目标集合在相应词性文件中
的编号
pointer_symbol 指针符号

2 建立词频文件和停用词文件
因为Resnik
[3]
等人的信息量方法需要用到语料库中的词频统计文件，所以我们建立了两
个文件，一个是词语的词频文件，还有一个是同义词集合的词频文件。其中，同义词集合的
词频计算是按照Resnik的方法
[3]
。
在建立词频文件时，我们利用了因特网上丰富的资源。在比较多个中文语料库词频文件
之后，我们最终采用了英国Lancaster大学计算语言系网上发布的词频文件
[4]
。该文件来源于
LCMC（Lancaster Corpus of Mandarin Chinese）语料库，语料库中包含了《人民日报》2000
年全年的新闻材料。我们从词频文件中，筛选出《同义词词林》扩展版中含有的56370个词
语，《同义词词林》扩展版一共有77492个词语，另外的21 122个词语在词频文件中没有出
现。我们这21122个基本上都是罕见词语，所以把它们的词频统一设为0。
同义词集合的词频计算是按照Resnik的方法，即集合内所有词语以及下位集合所有词
语的词频之和。同时需要说明的是，在Resnik的统计中，只是加总了名词的词频，因为英
语中名词，动词，形容词有明显的区分。而在汉语当中，名词，动词，形容词并无严格的区
分，只能由他们在句子中所起的作用作大致判断。所以，我们的同义词集合词频统计中包含
了所有的实词，而去掉了《同义词词林》中第K类（助词）和第L类（敬语）。
因为在文本预处理中需要剔除停用词，从而需要一个停用词表。我们利用了哈尔滨工业
大学信息检索实验室提供的《中文停用词表》。我们发现，其实这个词表中的词语就是《同

义词词林》扩展版中第K类（助词）和第L类（敬语）下的词语。
在预处理的过程中，我们也发现，虽然《同义词词林》扩展版涵盖的词语已经非常广泛，
但是仍然存在文件中出现，但是词典中不包含的词语。我们对我们所建立的语料库中的这类
词语进行了统计，在去掉数字之后，共有词语1869个。我们仔细观察了这1869个词语，发
现大部分都是人名，地名，机构名等专用名称。所以，我们也把这些词语连同停用词一并剔
除。

致谢 < br>首先衷心感谢哈工大信息检索实验室的研究者们，非常钦佩你们资源共享的精神。其次衷
心感谢大连理工大学裘江南老师的指导。我在参与裘江南老师项目过程中，使用到《同义词词林》
扩展版，词语的确是比较全和新。但是目前《同义词词林》共享版本比较简单，所以我们做了一
点点改进，请诸位多多指教。

参考文献：
[1] 梅家驹,竺一鸣，高蕴琦等编.同义词词林.上海：上海辞书出版社，1983.
[2] 《同义词词林》扩展版.
http:
[3] Resnik, P. Using information content to evaluate semantic similarity. In Proceedings of the
14th International Joint Conference on Artificial Intelligence, Montreal, Canada,1995.
[4] McEnery T, Xiao R. The Lancaster Corpus of Mandarin Chinese.
http:langlcmc.访问时间：2007-6-12.

南京森林公安高等专科学校-宝宝满月贺词

北京二本学校有哪些-军港之夜歌词

电气工程及其自动化就业方向-心得体会格式

中级会计师准考证打印入口-信访维稳

感动生命-高三班主任工作计划

新疆招生-拿破仑传读后感

李敖北大演讲稿-地理小报

市场营销研究生-入党动机