中文文本的关键词自动抽取和模糊分类_何新贵
世界各地风俗-冬姑娘
中 文 信 息 学 报
第13卷第1期JOURNALOFCHINESEINFOR
MATIONPROCESSINGVol.13No.1
①
中文文本的关键词自动抽取和模糊
分类
何新贵 彭甫阳
北京系统工程研究所
北京9702信箱19号100101
摘要 本文提出了中文文本分类的两种模糊方法,一种基于模糊集间的语义距离[2],一
种基于本文
中提出的`模糊分类网络'。两者都必须首先从文本中抽取关键词集合,本文给出
了一种主要采用统计方
法结合受限自然语言理解技术的模糊关键词集合提取方法,它与模糊
分类方法结合,可望达到文本信息的
自动分类。所提出的方法同样适合于模式识别之类问题
的解决。
关键词 文本 分类 模糊方法
模糊分类网络 语义距离
一、引言
文本的关键词抽取和语义分类是文本信息处理的两个重要课
题,如何更好地解决这两个
问题一直是研究人员十分关心的焦点。它们不但在各种文档资料的分类和管理
中十分重要,
而且在一些会议(例如我国的政协和人大会议)的议案处理时也是必须解决的问题。例如,
据
了解我国每年的政协会议都要提出上千项的提案,要求在几天的会议期间得出处理意见,即需
向委员们交待这些提案已经交由哪个部门处理,或交由哪几个部门会办,这就要求将所有提案
根据其内容
按照各部门的职能进行分类。而且,这种任务有严格的时间性要求,必须在会议结
束之前处理完毕,所以
它比一般文档资料分类在处理效率上有更高的要求。采用人工处理不
但效率低,而且由于处理人员的主观
片面性导致处理不公正或不合理的差错多,所以更需要借
助计算机来完成。
由于基于自然语言理
解的文本理解技术尚未达到实用程度,所以现在人们大都采用抽取
若干关键词来描述一个文本信息,即用
一个从文本中抽取的关键词集合在一定程度上来代表
文本的语义,然后藉此进行分类。传统方法中,关键
词在该关键词集合中的重要性是一样的,
其实这并不太符合实际。因为在实际问题中,尽管都是关键词,
但它们在描述相应文本的语义
中所起的作用是不一样的。语言和文字是人类描述客观世界的主要工具,稍
加分析即可发现,
其中包含着很多模糊性,因此文本信息的分类和处理应该采用模糊方法是很自然的事情
。我
们曾提出不妨用一个模糊关键词集合来更精细地描述一个文本,然后采用这种模糊关键词集
合来作为文本分类等处理的基础。本文将提出一些基于统计和模糊数学的方法来解决上述问
题。一些实践
表明,方法的实际应用效果很好。
①
本文1998年5月13日收到
9
二、模糊关键词集的自动抽取
人类的自然语言就其表达能力而言,可认为是万能的,它不仅能表
达思想和概念,叙述各
种知识和意见等,而且能用以表达感情和心情等一类非常抽象的东西。所以人类的
精神文明
和知识财富的很大一部分是通过自然语言得以保存和互相传递的。为了使现有的计算机能处理与自然语言有关的各种问题,让机器能理解自然语言当然是一条求之不得的途径。但由于
自然语言
的复杂性,这条途径困难很大,近期内没有可能得到解决。但是为了解决文本的语义
分类之类的问题,采
用首先抽取关键词集合,然后利用关键词集合进行分类的办法是可行的。
现在我们首先来叙述一种从文本
中提取模糊关键词集合的方法。在所提取出的模糊关键词集
合中各个关键词对描述该文本的语义所起的作
用是不同的,用其相应的隶属度来表示。这就
是说,不但要从文本中选择相关的关键词,而且要确定其相
应的隶属度,用以表示其对该文本
的重要性和代表性等含义。
如何根据正文的语义抽取这种可近
似表示正文语义的关键字集是一个需要较高智能的问
题。严格讲,除了要求能理解正文的含义之外,尚需
有总结概括的能力乃至有较深的领域知
识,才能较好地解决这个问题。这是难以用现有计算机来实现的。
下面我们提出一种主要采
用统计方法结合受限自然语言理解技术的模糊关键词集提取办法。
假设
文本已经过词的切分,把文本变成了一个词的序列,提取的步骤如下:
(1)首先将文本中的系词、前置
词、冠词、代词等词类去掉,将形容词或副词与其修饰的词
结合在一起当作一个复合词。
(2)
对文本从头开始逐词顺序往下扫描,并按下列方法进行统计:
A. 每个词在其第一次出现时设一个相
应的计数器,并置成1,此后该词每出现一次就
在其相应的计数器中加1。
B. 在标题或摘
要(如果有的话)中出现的词,除同A.中的处理外,再在相应的计数器
中外加一个整数T。
C. 在段首或段尾出现的词,除同A.中的处理外,再在相应的计数器中外加一个整数
P。
D. 在引言和结论段中出现的词,除同A.和C.中的处理外,再在相应的计数器中外加
一个整数I。
E. 根据受限自然语言理解技术,找出文本中的一些“关键句”,例如那些包含诸如“关
键
在于…”,“旨在…”,“主要目的(标)是…”等的句子。对在“关键句”中出现的
词,除同上述A.
、B.、C.、D.中的处理外,再在相应的计数器中外加一个整数K。
F. 对于一些特殊的领域,
根据受限自然语言理解技术和有关专家的意见,设立其它
加权方案进行加权。
(3)处理同义词
或转义词:在出现的多个同义词或转义词中选择计数器的积分最高者,保
留该词和相应计数器,然后把其
它同义词或转义词的计数器中的计分全部加入保留计数器中。
(4)处理近义词:在出现的多个近义词中
选择计数器的积分最高者,保留该词和相应计数
器,然后对其它近义词根据它与保留的近义词的语义近似
程度(用一个接近1的小数θ表示,
这要与语言学家一起来决定),将其计数器中的计分乘以θ之后加入
保留的计数器中。
(5)归一化:将所有词的计数器的计分相加得到和数S,然后每个计数器的计分除以
S再
放入计数器。
10
(6)截取关键词:设定阈限λ(一个选定在[
0,1]区间中的小数),进行“λ—滤波操作”,即把
该模糊关键字集中的隶属度小于λ(0<λ≤1
)的关键词滤掉,仅选取那些计数器的计分大于等
于λ的词作为关键词。
采用上述手段可把不够
重要的关键词忽略掉,而最终得到一个可以近似描述原文语义的
“模糊关键词集”。这里需要指出不同的
场合选用多大的λ值来进行滤波要根据实际情况而
定,不能一概而论。当然,为了比较两个文本的关联程
度,应该采用相同的产生“模糊关键词
集”的方法和相同的滤波基数λ。
三、模糊分类方法事物或一般对象的分类问题是处理和解决各类更复杂问题时的一个基本问题。在此,一
般对象可以是
人,各种物,各种事件,也可以是各类文献或文本等等。一种对象区别于另一种
对象往往是根据它们在特
征上有所区别。所谓分类就是采用某种方法把一些特征上类似的对
象归并在一起,把一个对象的集合分为
若干个子集,每个子集的元素具有类似的特征。这是对
精确分类的一种描述,但是实际经验告诉我们,很
多实际分类问题往往不好精确地确定某个对
象属于某个类,而只能给出某个对象属于某个类的可能性有多
大,这就引出了模糊分类的概
念。检索问题可认为是分类的反问题,即根据一组特征的描述(称为检索条
件)在一个集合中
找出所有满足检索条件的元素。可见检索和分类在方法上有类似之处,下面我们仅将讨
论分
类问题,给出两种模糊分类方法,并在下一节中把中文文献或文本的分类作为一个实例来说
明。
3.1 基于语义距离的模糊分类方法
在[2]中我们曾提出过模糊集间的语义距离和语义
关联度的概念,用以表示两个模糊集间
相关的程度。其实,任一对象或对象类都是通过它所具有的特征来
描述的,因此可用一个定义
在特征类上的模糊集来描述它们。
设C={c1,c2,…cn}为
由n个特征组成的论域,则一个对象或对象类可用定义在特征论
域C上的一个模糊集来描述:
O
={μ1c1,μ2c2,…,μncn},
语义上可表示对象O具有特征ci的可能度是μi,或者说
命题`对象O具有特征ci'的真度是
μi,其中μi是〔0,1〕间的一个实数或表示大小的语言值。
同样,任一对象类也可如此用C上的
模糊集描述。
设OL1,OL2,…,OLm是m个对象类
,O是一个被分类的对象,分别用模糊集F1,F2,…,
Fm和F来描述。于是,一个分类问题就可用
下列方法解决:
1.分别计算模糊集F和模糊集F1,F2,…,Fm之间的语义距离或语义关联度SD
(F,F1),
SD(F,F2),…,SD(F,Fm);
2.找出这些语义距离中的最小者
或语义关联度的最大者,设为SD(F,Fi);
3.于是Oli就是对象O该属于的类,因它与对象O
的语义关系最密切。
3.2 基于模糊分类网络的分类方法
任何一种对象的分类过程可视为一种
从特殊到一般的抽象过程,即从一个特殊对象具有
某些特征逐步地判定它应该属于哪个具有某些更抽象特
征的类。本节将来给出一种基于加权
模糊逻辑([1])的分类网络,可用它来方便地进行分类。
11
正如前述,一个对象或对象类都可用定义在特征类{c1,c2,…,cn}为论
域的模糊集来描
述,设一个对象类OLk的特征用下列模糊集表示:
OLk={wk1c1,w
k2c2,…wkncn},
语义上可解释为特征ci与对象类Olk相关的程度为wki。
如
果把`属于某个类'也视为某种特征,则一个分类问题可被解释为一个`加权模糊推理'
问题([1])
,即如果已知命题`对象O具有特征ci'的真度是μi,以及特征ci与对象类OLk相关
的程度(或
特征ci对于对象类OLk的相对权重)为wki(i=1,2,…n),则命题`对象O属于类
OLk
'与命题`对象O具有特征ci'(i=1,2,…,n)之间的关系可用一个加权模糊逻辑公式来表
示
:
n
i=1
∧
wki⊙(对象O具有特征ci)※(对象O属于类OLk),
CFk
k=1,2,…,m。
其中CFk表示该加权模糊逻辑蕴含公式的可信度或真度。根据加
权模糊逻辑,推理的结论
是:
n
T(对象O属于类OLk)=CFk
∑
wki⊙T(对象O具有特征ci)
i=1
其中T(P)表示命题P的真度, 和
⊙可为实数乘法、求极小运算或根据实际情况设计的其他
交型运算。这样我们从“对象具有某些具体特征
的程度”推出了“该对象具有更抽象的特征(属
于某抽象类的特征)的程度”。上述分类过程可以形象地
用一个网络图来表示(见图1)。
图1 模糊分类网络
我们把这种图称为`基于加权模糊逻辑的
模糊分类网络'或简称`模糊分类网络'。
更复杂的分类过程往往是一个从具体的特征逐步抽象化的过程
,即在上述分类网络中在
具体特征层和类层之间要加入几层抽象特征层,上一层比下一层更加抽象,从下
往上越来越抽
象,构成一个多层的模糊分类网络(见图2)。
其中各层的权重分别表示下一层的
特征(或对象)与上一层各个特征间的关系密切程度、
语义相关程度或隶属程度等各种含义。于是,分类
网络的每一层都表示了若干条加权模糊推
理规则。这样一来,我们便可从对象层开始逐层往上按加权模糊
逻辑进行推理,推出对象具有
更上一层抽象特征的程度或真度是多大,最后推出该对象属于某个类的程度
是多大。可见,推
12
理的最终结果是定义在类集合上的一个模糊集:
{v1类1,v2类2,…,vm类m}
这是一个模糊答案,为了给出精确的回答,模糊数学中提供了多
种精确化方法,例如:
1. 取隶属度最大者
答案={类k
vk=max(vi)}
2. λ-截法
对得到的模糊答案做λ-截,在λ-截中可能有若干个
类,表示把它分到其中哪个类都可
以。在我们已完成的一个有关提案处理的课题中,这种情况就表示某提
案应由若干个部门来
联合处理,即所谓`会办'。
图2 多层模糊分类网络
四、中文文
本的模糊分类
前面叙述的多层模糊分类网络可有广泛的应用,因为其中对象的含义是很一般的,可以代<
br>表各种各样的事物和概念,包括客观存在的和抽象虚构的,只要它们能用各种特征来描述即
可。文
本信息或文献的分类是一个典型的应用实例。在此,对象就被解释为文本信息或文献,
其特征就用它的关
键词或主题词集合来表示。正如前述,更贴切地我们可用一个定义在所有
关键词上的一个模糊集来表示一
个文本的主题思想。采用逐步分类的办法,即把关键词逐步
归并成一些越来越抽象的概念词,最后归到一
些分类项目,例如,学科、部门和编目等等(见图
3)。例如,从有羽毛、会飞等关键词归结出鸟类,从
有毛、食肉等关键词归结出兽类,……,进一
步又可把鸟类、兽类等等由于它们都会活动而归结为动物,
如此等等,一步更比一步抽象。由
于各个前提对得出结论的贡献是不同的,故在其间的连线上需赋以不同
的权重。而且这些权
重还可根据实际情况的反馈不断进行适当的修改,使得越来越符合实际。如此就可形
成一个
13
用于文本或文献的模糊分类网络,利用这种网络就可采用上述进行逐
层向上推理的分类方法
实现对文本的分类。显然,上述方法可方便地用一个软件来实现。
在实际
应用中,可以预先针对不同的领域按上述方法建立相应的模糊分类网络,然后文本
分类可分下列三步进行
:
第一步,对要被分类的文本或文献采用本文第2节所述的方法抽取模糊关键词集合;
第二步,
利用已建立的模糊分类网络按照上述方法逐步进行分类得到一个模糊集;
第三步,采用某种精确化方法,
例如λ-截法,对所得模糊集精确化,得到精确的分类结
果。
为了使文本的分类尽可能达到越来
越准确的程度,模糊分类网络中的权值应在应用中不
断动态修改,使之不断完善。权值修改既可人工进行
,也可采用类似人工神经元网络中的学习
机制,以一组样本来自动学习修改。
图3 正文的模糊
分类网络
五、结语
在上面的叙述中,本文给出了两种模糊分类的方法,即基于模糊集间语义距离
的分类方法
和基于模糊分类网络的分类方法。前者是比较直接的方法,后一种方法首先将分类问题变成<
br>一个加权模糊推理问题,使得一个分类问题可用一组加权模糊推理规则来描述,并通过模糊推
理计
算来解决原分类问题。进一步,论文又引进了一种模糊分类网络的概念,通过多层次的抽
象,将一个分类
问题形象地描述成结构十分清楚的层次网络。中文文本分类是它的一个典型
应用。我们已把这种方法实际
应用于`全国政协提案处理'课题,在对提案的分类处理中应用
相当成功,与人工分类对照符合率达百分
之九十左右。
最后值得指出,选择和模式识别等问题其实都可归结为一个分类问题,所以本文所提出的<
br>14
理论和方法同样适用于这些问题的解决。
参 考 文 献
[
1]何新贵.加权模糊逻辑及其广泛应用.《计算机学报》,1989,12(6):458~464.
[2]何新贵.模糊知识处理的理论和技术(第2版).北京:国防工业出版社.1998.
[3]Pe
ngFuyang,HeXingui,c
-AsianConferenceonExpertSys
tems,1995.98~103.
FuzzyClassificationofChineseT
exts
HeXingui PengFuyang
BeijingInstituteofS
ystemEngineering(BISE),9702-19,Beijing,100101
A
bstract Twomethodsfortextclassificationbasedonfuzz
ytechniquesarepresentedinthe
ptof`fuzzyclassifi
cationnetwork'the
needsofthesetwoclassification
methods,anapproachbasedonstatisticsandnaturallangu
ageun-
derstanintout
thatthemethodsarealsosu
itableforpatternrecognitionandtextretrieval.
Ke
ywords Text Classification Fuzzymethod Fuzzyclassi
ficationnetwork Semantic
distance
15