基于同义词扩展的贝叶斯网络检索模型
我学会了-工地实习
第26卷第11期计算机应用
V01.26No.1l
2006年11月
ComputerApplieations
Nov.2006
文章编号:1001—908
1(2006)11—2628一03
基于同义词扩展的贝叶斯网络检索模型
徐建民1”,白彦
霞1,吴树芳1
(1.河北大学数学与计算机学院,河北保定071002;2.天津大学系统工程研究
所,天津300072)
(yy.csi@mail.hbu.edu.cn)
摘
要:
利用同义词挖掘术语间的关系,对用于信息检索的简单贝叶斯网络进行若干改进,得到
一个包含术语间直
接关系的扩展模型。实验结果表明通过进一步调节扩展模型中的参数,可以获得
良好的检索效果。
关键词:贝叶斯网络;同义词;信息检索;强度关系
中图分类号:G354.4文献标识码:A
Extended
Bayesian
mtwork
retrieval
mo
del
based
on
synonyms
XU
Jian—minl一
,BAI
Y吼.)【ial,WU
shu.fan91
(1.c02妇e矿』l忆tk
,眦t洳n以co唧以8r
2.胁£拓姚旷跏把郴勖百聊8^够讹咖踟觇rs溉m咖300072,吼i
№)
Scie聊e,虢6ei№如哪如弘B∞di昭胁6ei
071002,c^i耽;
Abstract:To
capture
T】elationships
betwe
en
tems
by
me锄s
of
synonyms
andi
n臼oduceseveralmodi6cations
to
the
simple<
br>Bayesi蚰network
for
inf湎ation
retrieval
,aIl
extendedretrievalmodel
tllat
include
ddirect
relationsllips
between
te珊s
wa
s
pmposed.Experiment
resultsshowtllat
goo
d
retrieval
e&ctiveness
can
beacllieve
d
by
a由usting
tlle
p跏eter
ofthe
BayesiaTI
networksusedin
our
model.
Ke
y
wo“ls:Ba)resi锄networks;syIIorlyms;inf0册ationr
etrieval;strengtll陀l“叩sllip
传统的信息检索技术一般将用户查询和文档
进行精确匹信息检索的实践表明,由于自然语言中存在大量的同义
配¨o,无法满足语义概念上的匹配,
因而检索不到与查询术词、近义词,用户检索时很难全部列举出表示同一概念的不同
语语义相似或相关的
文档。当使用给定文档集合所包含的术
词汇,因而在检索时易造成漏检。利用同义词扩展查询,可以语间的关系时,可以提高信息检索系统的性能心j。然而,如解决检索系统的此类漏检问题,提高检索性能。
信息检索中
何准确获取术语间的关系,并在检索过程中合理使用就成为识别同义词的义类词典和词汇分类
体系资源包括Roget’s
提高性能的关键。贝叶斯网络作为人工智能领域处理概率问
nes
髓ms、w呲lNet以及《同义词词林》、《知网》等HJ。本文
题的主要方法,在过去的15年里已
经通过不同的方式应用到
利用哈尔滨工业大学信息检索实验室刘挺教授等对《同义词
了信息检索
领域口J。其灵活的拓扑结构,能表示术语间的条
词林》扩展后的版本《同义词词林(扩展版)》来获取
术语的同
件概率和概念语义,从而为更准确的检索信息提供了保证。
义词。
本文利用同
义词对简单贝叶斯网络检索模型进行扩展,解决
1.2贝叶斯网络
了术语间语义概念的匹配问题
,提高了检索性能。贝叶斯网络可有效表示和处理n维的概率分布图¨J。贝
1
相关知识
叶斯网络由定量和定性两部分组成:1)定性部分为有向无环
图肌G,c=(y,E),其中y={五
,置,…,以},五(i=1,
1.1信息检索中的同义词
2,…,n)表示节点,即所要解决
的随机变量;E为DAG中的
在信息表示和信息检索领域,同义词的概念并不等同于
弧组成的集
合,E中的弧表示变量间的条件依赖关系。2)定
语言学和日常生活中的同义词,它不考虑感情色彩和语
气,主
量部分是根据有向无环图得到的条件概率分布集合,每一个
要是指能够相互替换、表达相
同或相近概念的词汇【4J。用于
变量置E
y都对应一张条件概率分布表P(五Ip口(置))
,其
信息检索的同义词主要分为四类:1)等价词和等义词或词
中p口(墨)是砌(五)(G中
墨的父节点集合)中每个变量取值
组,即意义完全相等的词,如电脑一计算机、自行车一脚踏车
后的一个组合,这些概率值的大小反应了变量间的依赖程度。
等。2)准同义词和准同义词词组,即意义
基本相同的词和词
1.3
简单贝叶斯网络检索模型
组,如边疆一边境、住房一住宅等。
这类词在同义词中占很大
简单贝叶斯网络G。的变量集合K由两个不同的变量集
的比例。3)某
些过于专指的下位词。例如在词表中只使用
组成,即E=ruD。其中r={瓦,疋,…,%}是M个索
引
“球类运动”,而没有在下面列举出“门球”、“毽球”、“网球”
术语组成的集合,D={
Dl,D:,…,巩}是Ⅳ篇文档组成的
等词,这些过于专指的下位词也被看作同义词。4)极少数的<
br>集合。文中的符号t(D洲£=1,2,…,M;_『=1,2,…,Ⅳ)
反义词。这类词描述相
同的主题,但所包含的概念互不相容,
既表示术语(文档),也表示与其相关的变量和节点。术语变如平滑度一粗糙度等。
量正和文档变量口都是二进制的随机变量,取值集合分别为
收稿日期
:2006一05一11;修订日期:2006—06—27
基金项目:国家自然科学基金资助项目(7
0471049);河北省科学技术研究与发展计划项目(04213534)
作者简介:徐建民(19
66一),男,河北馆陶人,教授,博士研究生,主要研究方向:信息检索、不确定性信息处理;白彦霞(197
9一),女,河北
晋州人,硕士研究生,主要研究方向:信息检索;吴树芳(1980一),女,河北磁
县人,硕士研究生,主要研究方向:信息检索.
万 方数据
第ll期
徐
建民等:基于同义词扩展的贝叶斯网络检索模型
2629
h,屯}和{d,,di}。0和屯分
别表示“术语正不相关”和“术
语正相关”;d,和di分别表示“文档D,与给定的查询不相关”和“文档D,与给定的查询相关”。
图1给出了简单贝叶斯网络检索模型的拓扑,其中的弧
是由术语节点指向包含这些术语的文档节点,术语节点之间
或文档节点之间不存在弧。这意味着术语相互
边缘独立,文档
在给定其所包含术语的情况下相互条件独立。这样便得到了
仅包含一层术语和一
层文档的简单贝叶斯网络检索模型,该
模型由一个术语子网和一个文档子网组成。
图1简单贝叶
斯网络检索模型的拓扑
2
基于同义词扩展简单模型
2.1
扩展术语子网
在简单模型中,如果一篇文档B不包含查询Q中的任何
术语,那么可以肯定即使索引该文档的术语与查
询术语语义
相同或相似也检索不到该文档,因为文档节点仅通过共同的
术语节点相关。利用同义
词扩展术语子网,加入模拟术语节点
间直接关系的弧,就可以检索到那些与查询术语语义相同或
相似的文档。
图1仅包含一层术语和一层文档,即仅包含模拟术语和
文档间直接关系的弧,并不
包含模拟术语间直接关系的弧。在
扩展模型中,复制原始术语层丁中的每个术语节点正得到术
语
节点Z,形成一个薪术语层r’,因此扩展模型G。的变量集
合%=r
u
r
u
D。r中的术语变量ri也是二进制的随机
变量,取值集合为㈠’,屯’},屯’和屯’分别表
示“术语t不相
关”和“术语F’;相关”。这样就建立了两个完全相同的术语层
r和r,并通
过在术语节点间加入弧来模拟术语间的关系,以
此提高检索性能。
连接两个术语层的弧的指向:
1)任意术语以与其本身
正之间存在由t指向正的弧,即r’;一Z;2)若术语t与I
互为同
义词,则存在由r’,指向I的弧和由t指向t的弧,即
ri—I,Z—t。因此,术语节点L∈r的父
节点集合
凡(正)由术语节点Z及t的同义词节点r,组成。
图2
扩展模型的拓扑结构
扩展后的术语子网,定义任意根术语节点丁7j相关的边缘
概率∞1为P(t’i)=1/M(
M为给定集合中的术语数量),其不
相关的概率¨o为P(£’i)=1一P(t’;)。对于任意非根
术语节点
I,令p口(正)为几(t)中每个术语变量取值(相关或不相
关)后的一个组合,利
用一般正则模型的概率函数¨o可得:
P(屯lpo(t))=
口#
(1)
o
j5n【liJ・‘』5p【Ⅲ
∑
其中%为衡量每个术语r芦尸D(t)对术语正影响
程度
的权重,t’,∈p口(正)意味着只将p口(正)中相关术语的权重相
加。若术语L有多
个父节点,则权重%定义如下:
万 方数据
圹{赫,㈣
r卢,
O.5≤卢≤1
.0且i=,
@’
若1只有一个父节点r7。,则权重定义为:%=1.0。
公式(2
)中lP口(t)I表示术语节点t的父节点个数,届
为调节权重影响程度的参数。若口=0.5,则对
于只有一个同
义词的术语而言,术语本身和其同义词就具有了等同的重要
性,但实际上术语本身
要比同义词重要,故取值一般应大于
0.5;若J8=1.O,则术语的同义词对其不产生影响,这种情
况
等价于简单贝叶斯网络检索模型。除此之外,这样定义既保证
了玑对正的最大强度关系,又保
证了每一个同义词71’i对t
有相同的强度关系,即挖掘了术语间的强度关系。
2.2
文档子网
文档子网中的弧由索引该文档的术语节点指向文档节
点,文档节点Di的父节点集合
由该文档的所有索引术语节点
组成,即P口(D,)={正E引t∈2}。令po(Df)为PⅡ(哆)
中每个术语变量取值(相关或不相关)后的一个组合,同公式
(1)类似,定义文档B相关的条
件概率:
P(吃Ip8(q))=
∑~zt,#
(3)
公式(3)中%为文档
Dj∈D的索引术语正∈Di的权重,
埘F≥oVi,,,且∑%≤1.oV矗々∈p口(q)意味着只
将
p口(B)中相关术语的权重相加,所以Po(D,)中相关术语越
恭濮机黼舭撇(月棵证薪
庐
多,Di的相关概率值就越大。权重定义为埘。=“。
1.o.Vq∈D)。蛎为术语频度,
即术语正在文档Df中出现
的次数。i联为逆文档频度,定义为i娥=lg(^yni)+1,其中J7
、r
为测试集合中的文档数量,n;为包含术语正的文档数量。当
然也可以使用其他的权重公式
。
3
推理和检索
当查询Q提交给系统时,便开始了检索过程:首先,假定
查询
Q的每个术语r毋的状态为t’却(相关);然后,据此在整
个网络中推理,计算出每篇文档Di与查询
Q的相关概率P(哦
Q);最后,文档以概率递减的顺序呈现给用户。
由于扩展模型复制了一层
术语节点,这样贝叶斯网络中
就有大量的术语节点且许多节点又有多个父节点。因此,即使
对于
小的文档集合,一般的推理算法其效率也不够理想。为了
解决该问题,本文综合利用网络拓扑结构、术语
节点和文档节
点的概率函数,其相应的推理过程可分两步进行:
1)估计术语层r中任意术语L
的后验概率P(屯IQ):
P(屯IQ)=
∑口口P(£’,l
Q)(4)
q
En(Ⅲ
因为术语层r中的术语相互边缘独立,所以弘∈Q时,则
(4)式中的P(t’,lQ
)=1.0;否则尸(t’iQ)=1/M。注意,对于只
有—个父节点r。的术语正而言%=1.0,
若t∈Q,由(4)式可
得P(气IQ)=P(£’。lQ)=1.O,否则P(屯IQ)=P(t’。
lQ)=
1/肘。若术语正有多个父节点,”。用公式(2)代替,则:
煦加)_球磊¨,,隔
甜‘‘j
lQ)+胪(以lQ)
(5)
公式(5)考虑了t的所有父节点对其产生的影
响,为了
2630
计算机应用
2006年
有效地计算|P(屯
IQ)的值,可以简化为如下两种情况:
情况l对于任意术语L,若Po(t)中的所有术语都未
Q)=1/M。在查询Q中出现,(5)式的最终结果为:P(£i
中出现,则分下列四种情况讨论:
①P口(正)中的所有术语都在查询口中出现,这种情况比
较少见,(5)式的最终结果为P(
£.IQ)=1.0;
进行实验,分别比较它在10个标准的查全率(Recall)值所对
应
的平均查准率(Precision)值。实验结果如表l所示。从实
验数据可以看出:扩展模型(EB
N-口)的检索性能明显优于简
单模型(sBN),而且通过调节参数口的取值改变扩展模型中
术语问的强度关系可以获得更理想的检索效果。口=0.5时,
扩展模型的检索效果最佳,但是对于只有
一个同义词的术语
而言,缺乏辨别同义词的能力;对于卢取其他值的情况,如
Q)=
J
B=0.6和届=0.7,检索效果比较理想;卢=1.0时,扩展模型
等价于简单模型。
5<
br>情况2对于任意术语t,若PⅡ(I)中的术语在查询Q
②只有t在查询Q中出现,(5)式转化
为P(tf
字峨
③只有t的部分或全部同义词在查询Q中出现,(5)式
结语
文章利用同义词表示术语间关系的拓扑结构,提出一个
转化为酬Q)2丽爿备珠磊¨,㈠=f|Q)+岳
;
④弘和瓦的部分同义词在查询Q中出现,这种情况也
比较少见,(5)式转化为P(屯lQ)
=
扩展的贝叶斯网络检索模型,并通过实验将新模型和原模型
的检索性能进行分析与比
较。结果表明:新模型可以在不偏
离用户检索目标的前提下,扩大相关信息的检索,尤其是检索
非专业类文档,这主要是因为本实验所用的同义词识别工
丽爿h耻磊¨,‘‘㈨佩
2)基于以上
推理,计算文档B的最终后验概率:
具——《同义词词林(扩展版)》,目前收录的词汇大部分是一(6)
般意义上的同义词而非专业领域的同义词,随着同义词识别
技术的不断完善以及各种
义类词典所收录的词汇不断扩充,
所提模型会具有更好的应用价值。
P(弓l
Q)=<
br>∑加#|P(屯I
t?i5PoLql
Q)
最后,文档以概率递减的顺序呈现给
用户,这样就完成了
整个信息检索过程。
4
致谢:本实验所用的同义词识别工具——《
同义词词林
(扩展版)》,由哈尔滨工业大学信息检索实验室刘挺教授提
供,在此表示感谢!<
br>参考文献:
【1】殴沽,林守勋.基于贝叶斯网络模型的信息检索[J】.微电子学
与计
算机,2003,20(5):83—87.
【2】
DE
实验与分析
表1SB
N与EBN一8的Recau—n∞isi∞对照
CAMPOS
LM,FERNANDEz—L
uNAJM,HUE7IEJF.Cluste-
矗ng£e肋s
int11e
Bay
蒯alI
试th
two
nemofk冲hieval蒯el:a
new
approach
tem—lay∞【J】.Applied
S曲Computi“昏200
4。4(2):
149—158.
【3】
n删s龃d
i幽删ti蚰I.e—e
vd:
DE
CAMPOS
LM,FERNANDEz—LUNAJM,HUln'EJ
F.Bay鹪ian
肌in扫谢uction
to
the
specialis一
8ue【J】.
1小Ⅱ腿tion
PIDce8sing舳d
M蛐
学哪ent,2004,40(5):
727—733.
【4】陆勇,侯汉青.用于信息检索的
同义词自动识别及其进展【J】.
南京农业大学学报(社会科学版),2004,4(3):87—93
.
【5】
ACID
S,DE
CAMPOS
LM,FERNANDEz
—LUNAJM,以口Z.An
in—
fo玎n砒i∞喇矗eval
moddbase
d
on
simple
Bayesiall
networl【s【J].In・
实验所用文档来源于中国学术期刊网全文数据库。从该
tem砒ional
Jouma
l
of
InteUigent
systems,2003,18(2):251—26
5.
数据库共下载701篇文档作为文档测试集合,经处理后这些
文档被1083个代表文档主
要内容特征的术语索引,针对这些
文档共构造18个查询。为了准确比较简单模型和扩展模型
的
性能,参数届取6个不同的值(0.5,0.6,0.7,0.8,0.9,1.0)
(上接第2627
页)
为便于比较,设计了2个基准测试:1)位置抽取方法。提
取每篇文章第一语句产生摘要。
2)随机选取语句。这里的
“随机”指的是随机从句子集合里面挑选语句的办法。经过5
次随意
选择后,挑选中值作为最终结果,实验结果见表1。
【6】
DE
CAMPOS
LM,FERNANDEz・LUNAJM,HUETE
JF.ne
BNR
a
model:f曲nd砒ions衄d耐b珊ance
of
仃ieVal
Bay船ia
n
ne呐rk-ba∞d
re一
model【J】.Intemational
Jdum8l
0f
Approxim毗e
Reasoning,
2003,
34(2/3):265—285.
workshop
2003.
on
Aut
om8tic
Su唧d强tion【C】.Edmonton,Canada,
in
[
2】
ERKAN
G,RADEV
D.I七xPageRank:Presnge
Text
Multi—Document
Summari枷on【A】.Proceedin
gs
of
EMNLP
2004【C】.B呲elo—
结果证明对于多文档文本
摘要,在HI鸭框架下结合启发
规则和内容特征是一种有效的摘要算法。另一个方面,
Auth
ority中的词汇能作为关键词来阐明一些文档中的主题。
参考文献:
【1】
uN<
br>CY,HOVY
EH.The
na,Spain,2004.
【3】KLEIN
BERG
JM.Authodtative
souTces
in
a
h
)rI圯dinked
environ—
ment【J】.Joumal
ofthe<
br>ACM,1999,46(5):604—632.
【4】wUJ'KHUDANPUR
S.Building
a
topic—dependent
maximum
e
n—
potent试毗d
liIllitations
of
sentence
ex—
tmpy
l龃gu89e
modelfor
very
large
co甲珊【A】.Proceedi“铲of
IC—
tra矾on
for
summ8rization【A].PIoceedin98
ofthe
HL
T/N从CL
ASsP【C】,2002,1.777—780.
万方数据
<
br>基于同义词扩展的贝叶斯网络检索模型
作者:
作者单位:
徐建民, 白彦霞,
吴树芳, XU Jian-min, BAI Yan-xia, WU Shu-
fang
徐建民,XU Jian-min(河北大学,数学与计算机学院,河北,保定,071002
;天津大学,系统工程
研究所,天津,300072), 白彦霞,吴树芳,BAI Yan-
xia,WU Shu-fang(河北大学,数学与计算
机学院,河北,保定,071002)
计算机应用
JOURNAL OF COMPUTER APPLICATIONS
2006
,26(11)
4次
刊名:
英文刊名:
年,卷(期):
被引用次数:
参考文献(6条)
1.殴洁.林守勋
基于贝叶斯网络模型的信息检索[期刊论文]
-
微电子学与计算机
2003(05)
CAMPOS DEZ-LUNA JF
Clustering terms in the Bayesian network
retrieval model:a
new approach with two term-
layers 2004(02)
CAMPOS DEZ-LUNA JF
Bayesian networks and information
retrieval:an
introduction to the special issue
2004(05)
4.陆勇.侯汉青
用于信息检索的同义词自动识别及其进展[期刊
论文]
-
南京农业大学学报(社会科学版) 2004(03)
CAMPOS
DEZ-LUNA JM
An information retrieval model
based on simple Bayesian
networks 2003(02)
CAMPOS DEZ-LUNA JF
The BNR
model:foundations and performance of a
Bayesian
network-based retrieval model
2003(2-3)
相似文献(10条)
1.学位论文
陈富节
基于同义词扩展的贝叶斯网络结构化文档检索模型
2008
结构化文档检索系统利用文档的结构信息,对文档的部分内容建立索引并检索
呈现,所得查询结果能精细化地表达查询需求。
利用同义词扩展查询是实现基于语义检索
的一种有效方式。术语相似度能量化描述同义词间的相似程度。在信息检索系统中,利用量化的同义词关系扩展查询可以在不降低查准率的条件下提高查全率。
本文利用基于《知网》的术语相似
度计算方法量化同义词间的相似关系,并将这种关系引入到基于贝叶斯网络的结构化文档信息检索模型中,用于实
现
基于语义概念的检索,构造基于这种量化术语关系的扩展贝叶斯网络检索模型。详细描述了如何有效的
挖掘术语同义词关系并采用有效的量化算法对其
进行量化;给出了基于此量化同义词关系扩展的贝叶斯网
络结构化文档检索模型的拓扑结构,网络中各层结点的概率计算方法和模型推理与文档检索的
详细过程。
最后对扩展模型进行了评测,结果表明扩展模型能有效地提高检索性能,各个粒度不同的结构元素的排序也更能表
达查询需求。
2.会议论文
徐建民.陈富节.朱松
基于量化同义词扩展的贝叶斯网络结构化检索模型
2007
从文档
集合中挖掘术语间的同义词关系,引入术语相似度对其进行量化,综合运用文档的文本信息和结构信息,提出一个
基于同义词扩展的多层贝叶斯
网络检索模型,用于实现结构化文档检索任务。新模型合理地考虑了术语关
系,实现了基于语义概念的检索。实验结果表明通过调节扩展模型中的参数,可
以在不损失查全率的同时
获得更精确的检索结果,相关结果的排序也更加合理。
3.学位论文
徐建民
基于术语关系的贝叶斯网络信息检索模型扩展研究
2007
贝叶斯
网络又称信念网络,是一种对概率关系的有向图解描述,适用于不确定性和概率性事物,是现阶段处理不确定信息
的主流技术。由于不确定
性问题也广泛存在于信息检索领域,所以自上世纪八十年代末贝叶斯网络第一次
用于信息检索以来,基于贝叶斯网络的信息检索研究得到迅速发展,产
生了一系列信息检索模型。同义词
指在信息检索中能够互换,表达相同或相近概念的词。相关词指意义尽管不同,但经常一起出现,有一定关联关系
的
词。由于同义词、相关词都从语义上表达了用户的查询意图,因此同义词、相关词识别及其关系量化,
以及如何利用它们来扩展查询,一直是信息检索
领域重要的研究内容。
本文针对基于贝
叶斯网络信息检索模型存在的,没有合理利用术语之间关系的缺陷,利用同义词和相关词挖掘了术语之间关系,并
利用这些关系对
原有基于贝叶斯网络的信息检索模型进行了扩展。实验表明这种扩展提高了模型的检索性
能。主要研究成果包括:
⑴利用查询术语的同义词、词语相似度等概念对信念网络模型进行了扩
展,提出了基于查询术语相似关系的信念网络模型的扩展模型,利用实验验
证了模型扩展后的性能。 ⑵提出一种改进的共现频率法,利用该方法挖掘了索引术语之间的相关关系,将这种相关关系引入信
念网络模型,提出了一个具有两层术语节点的
扩展信念网络模型,利用实验验证了模型的性能。
⑶将查询术语同义词作为查询证据引入信念网络模型,提出了组合同义词证据的信念网络检索模型,实验验证了模
型性能。
⑷利用同义词方法挖掘了简单贝叶斯网络检索模型(SBN模型)中术语之间的关系,
提出了利用这种关系所产生的扩展SBN模型,并验证了模型的性能
。
⑸利用共现分析
法挖掘了术语之间的关系,将这种关系用于基于简单影响图的结构化文档检索模型(SID模型),提出了扩展的
SID检索模型,研究了
模型的拓扑结构和信息检索方法。
4.期刊论文
白彦霞.云彩霞.李珊.张秋菊.杨鹏.BAI Peng
多
层的贝叶斯网络检索模型
-计算机工程与应用2009,45(16)
利用术语相似度将同义词间的相似程度数
量化,以此量化关系对用于信息检索的简单贝叶斯网络进行若干改进,构造一个四层贝叶斯网络检索模型.给出新模型的拓扑结构、各层节点详尽的概率估计以及文档检索与推理过程.最后,对新模型进行评估,结果表
明该模型可以有效地提高检索性能,在一定程
度上实现基于语义的信息检索,这正是目前
信息检索发展的必然趋势.
5.期刊论文
徐建民.白彦霞.吴树芳.XU
Shu-fang
基于术语相似度的贝叶斯网络检索模
型扩展
-计算机工程2007,33(16)
利用术语相似度将同义词间的相似程度数量化,
以此量化关系对用于信息检索的简单贝叶斯网络进行改进,并进行有效的概率推理.实验结果表明新模
型
不仅具有良好的检索效果,而且相关文档的排序更加合理.
6.期刊论文
朱松.高艳萍
用于信息检索的贝叶斯网络模型扩展
-内蒙古科技与经济2009,
针对传统的信息检索方法采用基于关键词匹配的模式,
导致查询效率低下的问题,利用同义词对查询术语进行扩展,提出了一种用于信息检索的贝叶斯
网络模型
扩展,并引入词共现的方法挖掘术语之间的相关关系.实验结果表明,新模型能够有效地提高检索效率.
7.期刊论文
刘建荣.翟雪荣.赵晓鹏
基于同义词和关联规则的查询扩展模型
-福建电脑2010,26(5)
改进同义词获取和基于关联规则的相关词算法,建立一个扩展的贝叶斯网络模型,并给出文档相关度计算推理过程
.实验证明该方法平均精确度大幅度
提高.
8.学位论文
白彦霞
基于术语相似度的贝叶斯网络检索模型扩展研究
2007
随着网络
技术的迅速发展,传统的基于关键词匹配的信息检索技术已不能满足用户准确、全面定位信息的要求。因此,许多
研究者开始关注基于语
义的信息检索,将语义上相同、相近、相包含的术语进行匹配,以此来提高检索性
能。
利用同义词扩展查询可以扩大相关信息的检索,即提高查全率。但是盲目的扩展查询
就会以牺牲查准率为代价,因为这些同义词之间的相似程度存在着
区别,究竟使用哪些同义词来扩展查询
直接影响着检索结果的质量。术语相似度可以从一定程度上辨别这些同义词间的近似程度,从而可以更准确的确<
br>定用于扩展查询的同义词,即可以在不降低查准率的条件下提高查全率。
论文利用
术语相似度量化术语间的相似关系,并将这种量化的术语关系应用于基于贝叶斯网络的信息检索,构造基于这种量
化术语关系的扩展的贝叶斯
网络检索模型。文中给出了扩展模型的拓扑结构,各层节点详尽的概率估计以
及完整的文档检索与推理过程。最后对扩展模型进行评估,结果表明该模
型不仅可以有效地提高检索性能
,而且相关文档的排序也更加合理,在一定程度上实现了基于语义的信息检索,这正是目前信息检索发展的必然趋
势。
9.期刊论文
徐建民.陈振亚.白彦霞.Xu
Yanxia
利用查询术语同义词关系扩展信念网络
检索模型
-情报学报2008,27(3)
信念网络模型是一种重要的、基于贝叶斯网络的信息
检索模型.它定义了一个明确的样本空间,给出了信息检索的一个灵活有效的基本框架.本文针对
传统信
念网络模型没有利用术语之间关系的缺陷,利用信息检索用同义词和词语相似度等概念,提出了最优同义词、相似
概念、概念相似度等定义,提出了
一种概念相似度的计算方法.然后利用上述定义对传统信念网络模型进
行扩展,提出了一种基于查询术语同义词关系的扩展信念网络检索模型,讨论了扩展
模型的拓扑结构和利
用扩展模型进行信息检索的具体方法.实验结果表明,扩展后的信念网络模型比传统模型具有更好的检索性能.<
br>10.期刊论文
姚冬磊.赵晓鹏.卫耀伟
同义词挖掘及表示研究
-福建电脑2010,26(3)
针对同义
词进行查询扩展的计算复杂、不准确问题,提出一种同义词挖掘算法:每个概念用上下文特征词表示,利用完全加
权关联规则挖取这些记录中
频繁项作为同义词集的特征词,包含这些频繁项的概念构成同义词集,并对任
意两个同义词相似度进行计算.最后将获取的量化的同义词应用到贝叶斯网络
检索模型中,实验表明该算
法优于其它扩展算法.
引证文献(3条)
1.白彦霞.云彩霞.李珊.张秋菊.杨鹏
多层的贝叶斯网络检索模型[期刊论文]
-
计算机工程与应用
2009(16)
2.徐建民.朱松.陈富节
术语相似度和术语相关度在检索模型中的融合研究[期刊论文]
-
计算机应用
2007(12)
3.徐建民.白彦霞.吴树芳
基于术语相似度的贝叶斯网络检索模型扩展[期刊论文]
-
计算机工程
2007(16)
本文链接:http:odical_
授权使用:北京
师范大学(bjsfdx),授权号:6a44bc09-95d3-467d-8280-9e56010fe
b7c
下载时间:2010年12月24日