《同义词词林》共享版改进

萌到你眼炸
938次浏览
2020年07月30日 05:56
最佳经验
本文由作者推荐

浙江人事考试网-西南财经大学本科招生网


哈工大《同义词词林》共享版的若干改进
(大连理工大学管理学院 罗志成,叶奋飞)

1 改进《同义词词林》共享版
在实验中,由于客观条件的限制,我们选择的语义 词典是《同义词词林》。《同义词词林》
是梅家驹等人
[1]
于1983年编纂而成, 初衷是希望提供较多的同义词语,对创作和翻译工作
有所帮助。但在我们发现,这本词典中不仅包括了一 个词语的同义词,也包含了一定数量的
同类词,即广义的相关词,可以参考表1.1中的词条示例。经此 分析之后,我们认为它完全
可以作为语义词典用到自然语言处理任务中。同时,《同义词词林》与Wor dNet的格式有若
干相似之处,即都是用一个同义词集合来表示一个意思,所以可以引入WordNe t中的各种语
义度量方法,在《同义词词林》中比较这些方法。

表1.1 词典结构示例
Ae07 农民 牧民 渔民
农民 农夫 农人 农 庄稼人 庄稼汉 田父 泥腿子 农家 耕夫 老乡
小农 个体农民
佃农 佃户
上中农 富裕中农
* * 菜农 棉农 茶农 烟农 蔗农 花农 药农 林农
雇农 贫农 下中农 中农 上中农 富农
自耕农 半自耕农 集体农民 人民公社社员
1)该表来源于《哈工大信息检索研究室同义词词林扩展版》说明

表1.2 《同义词词林》扩展前后比较
词典特征
词条总数
大类数
中类数
小类数
层次数
编码长度

扩展前
53,895个
12个
94个
1428个
3层
4
扩展后
77,343个
12个
97个
1400个
5层
8

由于《同义词词林》著作时间较为久远,且之后没有更新,所以原书中的某些词语成为
生僻词,而很多新词又没有加入。有鉴于此,哈尔滨工业大学信息检索实验室利用众多词语
相关资源, 并投入大量的人力和物力,完成了一部具有汉语大词表的《哈工大信息检索研究
室同义词词林扩展版》< br>[2]
。扩展版剔除了原版中的14,706个罕用词和非常用词,最终的词表

< br>包含77,343条词语。表1.2列出了扩展前后的《同义词词林》的主要特征。扩展后的《同义词词林》,含有比较丰富的语义信息。但是目前由于种种原因,《同义词词林》完整版并没有共
享,而 只是共享了其中的词典文件。期待着哈工大信息检索实验室能够在不久的将来能够将
完整版进行共享,以 满足研究和实际应用的需要。
在《哈工大信息检索研究室同义词词林》共享部分的基础上,我们根据项 目的实际需要,
进行了以下改进:
在扩展版电子版中加入了较高层次的集合,譬如说,Ab000002 男女老少。其中编码的
长度与哈 工大扩展版相同,为8位,下文将作详细说明。Ab000002之中,Ab仍然表示的是大
类和中类名 ,00000表示该集合是一个中类的标题,而2表示的该类的深度为2。
我们参考WordNet 的保存格式,创建了新的索引文件和数据文件,其中索引文件和数据
文件中记录的格式将在下文说明。程 序中所有的数据文件和样本示例都列在附录之中。词典
索引文件和数据文件请参照附录A表1和表2。

1.1 词典中的编码
结合《同义词词林》原书中的介绍,以及《哈工大信息检索 研究室同义词词林扩展版》
说明,下边对词典中的编码作简要介绍。
《同义词词林》原版只提 供了三层编码,即大类用大写英文字母表示,中类用小写英文
字母表示,小类用二位十进制整数表示。例 如:“Ae 07 农民 牧民 渔民”,“Ae 07”是编码,“农
民 牧民 渔民”是该类的标题 。标题是由一个或者多个第四层的“段首(即每个段的第一个
词)”组成。根据标题词可以知道小类有分 成多少个第四级类,参见表5.1。
在哈工大的扩展版中,新增了第四级和第五级编码。新增的第四 级和第五级的编码与原
有的三级编码和并构成一个完整的编码,唯一的代表词典中的出现的词语。如:
Ba01A02= 物质 质 素
Cb02A01= 东南西北 四方

编码的方法说明如下:
第四级用大写英文字母表示,第五级用二位十进制整数表示。由于第五 级的分类结果需
要特别说明,例如,有的行是同义词,有的行是相关词,有的行只有一个词,可以分出具 体
的三种情况。在使用上,有时需要对这三种情况进行区别对待,所以有必要再增加标记来分
别 代表着几种情形。具体的标记参见表1.3。

表1.3 哈工大扩展版编码规则表
编码位
符号举例
符号性质
级别



1
D
大类
2
a
中类
3
1
4
5
小类
第三级
5
B
词群
第四级
6
0
7
2
8
= # @


原子词群
第五级 第一级 第二级
1)该表来源于《哈工大信息检索研究室同义词词林扩展版》说明
表中的编码位是按照从左到右的顺序排列。第八位的标记有3 种,分别是“=”、“#”、“@”,
“=”代表“相等”、“同义”。末尾的“#”代表“不等”、“同类”,属于相关词语。末尾的“@” 代表“自
我封闭”、“独立”,它在词典中既没有同义词,也没有相关词。

1.2 集合之间的关系
我们改进的同义词词林中加入了关系,包括上位关系(Hypernymy,用符号 $$表示)和


下位关系(Hyponymy,用符号~表示)。这样就丰富了《同义词词林 》的语义。在这里,由
于条件的限制,我们没有区分单词之间的关系和集合之间的关系,而把所有的关系 默认为是
集合之间的关系,这也就产生一定的误差。
根据我们的改进,生成了新的数据文件和索引文件。索引文件中任一条记录的格式如下:
lexicalName synsetNumber

数据文件中任一条记录的格式如下:
synsetOffset wordNumber

其中<>表示可以为有限多项,各个字段的含义如表所示:

表1.4 改进后的《同义词词林》文件格式说明
数据文件格式
字段名
synsetOffset
wordNumber
word
ptr
含义 字段名
索引文件格式
含义
同义词集合编号,长度为8lexicalName 词语名称
的字符串
集合中单 词的个数,用两位synsetNumber包含该词语的同义词集合的个数
十六进制整数表示
各个词语名称
指针,包括
pointer_symbol,
synset_offset
synsetOffset包含该词语的同义词集合的编号

synset_offset 目标集合在相应词性文件中
的编号
pointer_symbol 指针符号




2 建立词频文件和停用词文件
因为Resnik
[3]
等人的信息量方 法需要用到语料库中的词频统计文件,所以我们建立了两
个文件,一个是词语的词频文件,还有一个是同 义词集合的词频文件。其中,同义词集合的
词频计算是按照Resnik的方法
[3]

在建立词频文件时,我们利用了因特网上丰富的资源。在比较多个中文语料库词频文件
之 后,我们最终采用了英国Lancaster大学计算语言系网上发布的词频文件
[4]
。该文 件来源于
LCMC(Lancaster Corpus of Mandarin Chinese) 语料库,语料库中包含了《人民日报》2000
年全年的新闻材料。我们从词频文件中,筛选出《同义词 词林》扩展版中含有的56370个词
语,《同义词词林》扩展版一共有77492个词语,另外的21 122个词语在词频文件中没有出
现。我们这21122个基本上都是罕见词语,所以把它们的词频统一 设为0。
同义词集合的词频计算是按照Resnik的方法,即集合内所有词语以及下位集合所有词
语的词频之和。同时需要说明的是,在Resnik的统计中,只是加总了名词的词频,因为英
语中名词,动词,形容词有明显的区分。而在汉语当中,名词,动词,形容词并无严格的区
分,只能由他 们在句子中所起的作用作大致判断。所以,我们的同义词集合词频统计中包含
了所有的实词,而去掉了《 同义词词林》中第K类(助词)和第L类(敬语)。
因为在文本预处理中需要剔除停用词,从而需要 一个停用词表。我们利用了哈尔滨工业
大学信息检索实验室提供的《中文停用词表》。我们发现,其实这 个词表中的词语就是《同


义词词林》扩展版中第K类(助词)和第L类(敬语)下的词语 。
在预处理的过程中,我们也发现,虽然《同义词词林》扩展版涵盖的词语已经非常广泛,
但 是仍然存在文件中出现,但是词典中不包含的词语。我们对我们所建立的语料库中的这类
词语进行了统计 ,在去掉数字之后,共有词语1869个。我们仔细观察了这1869个词语,发
现大部分都是人名,地 名,机构名等专用名称。所以,我们也把这些词语连同停用词一并剔
除。

致谢 < br>首先衷心感谢哈工大信息检索实验室的研究者们,非常钦佩你们资源共享的精神。其次衷
心感谢大 连理工大学裘江南老师的指导。我在参与裘江南老师项目过程中,使用到《同义词词林》
扩展版,词语的 确是比较全和新。但是目前《同义词词林》共享版本比较简单,所以我们做了一
点点改进,请诸位多多指 教。


参考文献:
[1] 梅家驹,竺一鸣,高蕴琦等编.同义词词林.上海:上海辞书出版社,1983.
[2] 《同义词词林》扩展版.
http:
[3] Resnik, P. Using information content to evaluate semantic similarity. In Proceedings of the
14th International Joint Conference on Artificial Intelligence, Montreal, Canada,1995.
[4] McEnery T, Xiao R. The Lancaster Corpus of Mandarin Chinese.
http:langlcmc.访问时间:2007-6-12.

南京森林公安高等专科学校-宝宝满月贺词


北京二本学校有哪些-军港之夜歌词


电气工程及其自动化就业方向-心得体会格式


中级会计师准考证打印入口-信访维稳


感动生命-高三班主任工作计划


新疆招生-拿破仑传读后感


李敖北大演讲稿-地理小报


市场营销研究生-入党动机