首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
为了区分与原查询正负相关的扩展词,提高查询扩展性能,将正负关联规则挖掘技术应用于查询扩展,提出一种基于关联规则q→ti和q→-tj挖掘的局部反馈查询扩展算法。该算法从初检的前列文档中挖掘只含查询词项的词间正负关联规则q→ti和q→-tj,构造正负规则库;从规则库中提取扩展词,分别构建正负扩展词库,从正扩展词库中删除与负扩展词相同的词后得到所需的扩展词,与原查询组合实现查询扩展。算法还给出一种新的查询扩展模型和扩展词权重计算方法,使扩展词权值更合理。实验结果表明算法不仅能发现虚假扩展词,而且还能改善和提高信息检索性能。  相似文献   

2.
为了区分与原查询正负相关的扩展词,提高查询扩展性能,将正负关联规则挖掘技术应用于查询扩展,提出一种基于关联规则q→ti和q→-(┐)tj挖掘的局部反馈查询扩展算法.该算法从初检的前列文档中挖掘只含查询词项的词间正负关联规则q→ti和q→ (┐)tj,构造正负规则库;从规则库中提取扩展词,分别构建正负扩展词库,从正扩展词库中删除与负扩展词相同的词后得到所需的扩展词,与原查询组合实现查询扩展.算法还给出一种新的查询扩展模型和扩展词权重计算方法,使扩展词权值更合理.实验结果表明算法不仅能发现虚假扩展词,而且还能改善和提高信息检索性能.  相似文献   

3.
周秀梅  黄名选 《计算机应用》2014,34(10):2820-2826
针对现有加权关联规则挖掘算法不能适用于矩阵加权数据的缺陷,给出一种新的矩阵加权项集剪枝策略,构建矩阵加权正负关联模式评价框架SRCCCI,提出一种新的基于SRCCCI评价框架的矩阵加权正负关联规则挖掘算法MWARM-SRCCCI。该算法克服了现有挖掘技术的缺陷,采用新的剪枝技术和模式评价方法,挖掘有效的矩阵加权正负关联规则,避免一些无效和无趣的模式产生。以中文Web测试集CWT200g为实验数据,与现有无加权正负关联规则挖掘算法比较,MWARM-SRCCCI算法的挖掘时间减幅最大可达74.74%。理论分析和实验结果表明,MWARM-SRCCCI算法具有较好的剪枝效果,候选项集数量和挖掘时间明显减少,挖掘效率得到极大提高,其关联模式可为信息检索提供可靠的查询扩展词来源。  相似文献   

4.
为了将完全加权关联规则挖掘技术应用于查询扩展,提出面向查询扩展的基于多种剪枝策略的完全加权词间关联规则挖掘算法,该算法能够极大地提高挖掘效率;提出了一种新的查询扩展模型和扩展词权重计算方法,使扩展词权值更加合理,在此基础上提出一种新的基于局部反馈的查询扩展算法,该算法利用完全加权关联规则挖掘算法自动从局部反馈的前列初检文档中挖掘与原查询相关的完全加权关联规则,构建规则库,从中提取与原查询相关的扩展词,实现查询扩展。实验结果表明,查询扩展算法的检索性能确实得到了很好的改善和提高,与现有查询扩展算法比较,在相同的查全率水平级下其平均查准率有了明显的提高。  相似文献   

5.
针对现有信息检索系统中存在的词不匹配问题,本文提出一种基于负关联规则挖掘与特征词抽取融合的局部反馈查询扩展算法。该算法首先从前列n篇初检局部文档中抽取特征词,建立特征词库;然后,对特征词库挖掘同时含有查询词和非查询词的频繁项集和非频繁项集,由此挖掘前件是查询项的负关联规则,提取负关联规则的后件作为负关联特征词,计算负关联特征词与原查询的相关性,根据相关性在特征词库中删除负关联特征词,将余下的特征词作为最终扩展词,和原查询组合成新查询实现查询扩展。实验结果表明,该算法能有效地提高和改善信息检索性能。  相似文献   

6.
将语词抽取、负关联规则挖掘和查询扩展技术应用于信息检索,提出一种基于语词抽取与负关联规则挖掘融合的信息检索系统模型及其算法.详细论述模型的设计思想、各模块的功能,以及模型的理论分析和检索算法.该模型能够将语词抽取、负关联规则挖掘和查询扩展三种技术融合,对初检文档集进行有效地处理,得到高质量的与原查询词相关的扩展词,和原查询组合成新查询,再进行二次检索,有效地解决了词不匹配的问题.实验结果表明,该模型有效,能改善和提高信息检索性能  相似文献   

7.
基于矩阵加权关联规则挖掘的伪相关反馈查询扩展   总被引:13,自引:0,他引:13  
黄名选  严小卫  张师超 《软件学报》2009,20(7):1854-1865
提出一种面向查询扩展的矩阵加权关联规则挖掘算法,给出与其相关的定理及其证明过程.该算法采用4种剪枝策略,挖掘效率得到极大提高.实验结果表明,其挖掘时间比原来的平均时间减少87.84%.针对现有查询扩展的缺陷,将矩阵加权关联规则挖掘技术应用于查询扩展,提出新的查询扩展模型和更合理的扩展词权重计算方法.在此基础上提出一种伪相关反馈查询扩展算法——基于矩阵加权关联规则挖掘的伪相关反馈查询扩展算法,该算法能够自动地从前列n 篇初检文档中挖掘与原查询相关的矩阵加权关联规则,构建规则库,从中提取与原查询相关的扩展词,实现查询扩展.实验结果表明,该算法的检索性能确实得到了很好的改善.与现有查询扩展算法相比,在相同的查全率水平级下,其平均查准率有了明显的提高.  相似文献   

8.
首先提出矩阵加权项集支持度计算方法,给出面向跨语言查询扩展的矩阵加权关联模式挖掘算法.然后提出基于矩阵加权关联规则挖掘的跨语言查询译后扩展算法.借助机器翻译进行首次跨语言检索,得到前列初检文档,并经用户相关性判断后得到相关反馈文档.通过计算支持度从相关反馈文档中挖掘含有原查询词的矩阵加权频繁项集,通过置信度-兴趣度评价框架从频繁项集中提取含有原查询词的关联规则,将规则的后件或前件作为扩展词,利用规则的置信度和兴趣度衡量扩展词的重要性,完成跨语言查询译后扩展.在NTCIR-5 CLIR标准测试集上的实验表明,文中算法可以有效提升跨语言查询扩展性能,有利于长查询的跨语言检索,译后后件扩展性能优于前件.  相似文献   

9.
针对现有查询扩展存在的缺陷,将完全加权关联规则挖掘技术应用于查询扩展,提出新的查询扩展模型和扩展词权重的计算方法;提出基于完全加权关联规则挖掘的局部反馈查询扩展算法。该算法能自动从初检的前列文档中挖掘与原查询相关的完全加权关联规则,从规则中提取与原查询相关的扩展词,实现查询扩展。实验结果表明,与现有查询扩展算法比较,该查询扩展算法的检索性能得到很好的改善和提高。  相似文献   

10.
黄名选  钟智  张师超 《计算机工程与设计》2012,33(5):1863-1866,1880
针对信息检索中存在的词不匹配问题,提出了基于频繁项集和负关联规则挖掘的局部反馈查询扩展模型及其算法.该算法对前列n篇初检文档挖掘频繁项集和非频繁项集,并从频繁项集中提取关联词;从频繁项集和非频繁项集中挖掘负关联规则,提取负关联规则后件作为负关联词,计算负关联词与整个原查询词的相关性;根据相关性删除关联词库中与负关联词相同的词项,将余下的关联词项作为最终扩展词,并与原查询组合成新查询,实现查询扩展.实验结果表明,该算法能发现虚假的负关联词,有效地提高和改善信息检索性能.  相似文献   

11.
传统关联规则挖掘是在整个事务数据库的时间范围内进行的,但有时用户想得到某一特定时间范围(如商品的促销阶段)内的关联规则,该文对这一问题进行了详细讨论,提出了基于定制时间的时态支持度、时态频繁项集、时态置信度、时态关联规则等概念,在传统Apriori算法的基础上提出了挖掘时态频繁项集的算法。另一方面,讨论了当同时考虑正、负关联规则出现的矛盾规则问题以及用相关性解决这一问题的方法,提出了挖掘正负时态关联规则的算法,实例说明了算法的执行过程及有效性。  相似文献   

12.
在图像关联规则挖掘的某些领域,要求提取出具有较高置信度的关联规则,同时对支持度的要求相对较低。提出了一种在兼顾支持度的情况下挖掘出高置信度的图像关联规则的方法。为了便于有效地提取图像关联规则,使用了名为bSQ(bit Sequential)的一种栅格数据格式。而后采取“逐层搜索”的方法,建立规则树,避免了传统方法在处理低支持度时产生的大量频繁项集。最后通过多图像关联规则提取优先级和图像数据立方体等技术在多幅图像中提取基于象素级的关联规则。通过实验证明,该方法能有效地提取图像数据高置信度关联规则,方法具有可行性。  相似文献   

13.
提出了一种挖掘量化关联规则的MQAR算法。此算法在挖掘关联规则时,只需扫描事务数据库一遍,提高了数据挖掘的效率;并且存放辅助信息所占的内存空间大大少于现有的挖掘算法;同时此算法不仅能挖掘出有关联的数据项集,还能找出这些项集之间数量上的相互关系。  相似文献   

14.
负关联规则增量更新算法   总被引:1,自引:1,他引:0       下载免费PDF全文
讨论负关联规则的更新问题。与正关联规则增量更新不同,负关联规则不仅存在于频繁项集中,更多存在于非频繁项集中。针对该问题提出一种负关联规则增量更新算法NIUA,利用改进的Apriori算法以及集合的性质挖掘出频繁、非频繁项集和负关联规则。实验结果表明,该算法是可取的。  相似文献   

15.
在由频繁项集产生关联规则时,利用提升度判断规则前、后件之间的正相关性可以避免产生一些无意义的关联。但是,这并不能保证规则前、后件中的项是正相关的,也不能减少挖掘频繁项集的时间开销。当规则的前件或后件存在负相关的项时,仍然可能产生无意义的关联规则。针对以上问题,基于数学期望,提出了正相关的频繁项集的概念,并改进了一种直接在FP-树中挖掘频繁项集的算法,挖掘出正相关的频繁项集,从而有效地解决以上问题。实验表明,该算法可以大幅度地减少所产生的频繁项集数量,显著地降低了挖掘频繁项集的时间开销。对于大型数据集,尤其是稠密型数据集,该算法具有良好的性能。  相似文献   

16.
挖掘关联规则是目前数据挖掘领域热点研究话题之一。它的目的在于在数据库中挖掘有趣的关联规则。在关联规则分析及Apriori算法分析上,针对Apriori算法的瓶颈问题,许多有效的改进算法被提出。文中提出了QPCA算法。该算法利用矩阵分析的方法,仅需要扫描数据库一次,同时此算法优化了连接和剪枝操作,通过快速的剪枝和连接可以很快地获取最少的候选项集,避免了频繁项集之间的重复判断连接,因此大大提高了算法的效率。实验结果表明,该算法在挖掘时间上有很大提高。  相似文献   

17.
关联规则挖掘是近年来数据挖掘领域中一个相当活跃的领域,频繁项集挖掘是关联规则挖掘中最重要的任务。最大频繁项集的规模远远小于频繁项集的规模,通过最大频繁项集可以导出所有的频繁项集,因此进行了很多专门挖掘最大频繁项集的研究。给出了关联规则和相关术语的基本概念,对最大频繁项集挖掘算法作了分析与评价,便于研究者对已有的算法进行改进,提出具有更好性能的新算法。  相似文献   

18.
多重最小支持度频繁项集挖掘算法研究   总被引:1,自引:0,他引:1  
张慧哲  王坚 《计算机应用》2007,27(9):2290-2293
某些情况下提取关联规则挖掘时需要根据项目的特点设置不同的最小支持度,针对此问题进行了多重最小支持度的频繁项集挖掘算法研究。在FP-growth的基础上提出了多重最小支持度树(MS-tree)的新方法,并设计了MS-growth算法对MS-tree进行频繁模式集的挖掘。该算法只需扫描一次数据库,克服了MSapriori算法在生成关联规则时需要重新扫描数据库的缺点。实验表明,新算法的性能可以和FP-growth算法相比,而且可以处理多重最小支持度的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号