首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
孙芯宇  吴江  蒲强 《计算机应用》2016,36(5):1313-1318
针对由不稳定聚类估计的相关模型影响检索性能的问题,提出了基于稳定性语义聚类的相关模型(SSRM)。首先利用初始查询前N个结果文档构成反馈数据集;然后探测数据集中稳定的语义类别数量;接着从稳定性语义聚类中选择与用户查询最相似的语义类别估计SSRM;最后通过实验对模型的检索性能进行了验证。对TREC数据集5个子集的实验结果显示,SSRM相比相关模型(RM)、语义相关模型(SRM),平均准确率(MAP)性能最少提高了32.11%和0.41%;相比基于聚类的文档模型(CBDM)、基于LDA的文档模型(LBDM)和Resampling等基于聚类的检索方法,MAP性能最少提高了23.64%,19.59%和8.03%。实验结果表明,SSRM有利于改善检索性能。  相似文献   

2.
因特网的飞速发展,网络资源呈爆炸式的增长。信息检索是人们上网的主要目的之一。目前的信息检索领域有许多检索方法与检索工具,为用户检索信息提供了许多途径。但如何利用搜索引擎实现更快更精确的搜索已经成为这一领域的研究热点。在研究现有的几种搜索引擎的基础上,提出了一种基于用户行为聚类的搜索引擎。通过分析不同的用户行为将搜索用户聚类成不同的用户组,为每组用户返回其喜欢的结果,优化查询结果。  相似文献   

3.
基于近似网页聚类的智能搜索系统   总被引:1,自引:1,他引:1  
从Internet用户的兴趣度出发,设计了一种基于近似网页聚类的智能搜索系统。该系统在用户利用常用搜索引擎系统进行信息检索时,消除搜索引擎返回的重复页,对剩余页面进行聚类,返回给用户聚类后的网页簇,这样用户就可以选择浏览自己感兴趣的页面,从而大大提高了信息检索的查准率;实验证明该系统在保证查全率和查准率的基础上大大提高了搜索效率。  相似文献   

4.
应用链接分析的web搜索结果聚类   总被引:3,自引:0,他引:3  
随着web上信息的急剧增长,如何有效地从web上获得高质量的web信息已经成为很多研究领域里的热门研究主题之一,比如在数据库,信息检索等领域。在信息检索里,web搜索引擎是最常用的工具,然而现今的搜索引擎还远不能达到满意的要求,使用链接分析,提出了一种新的方法用来聚类web搜索结果,不同于信息检索中基于文本之间共享关键字或词的聚类算法,该文的方法是应用文献引用和匹配分析的方法,基于两web页面所共享和匹配的公共链接,并且扩展了标准的K-means聚类算法,使它更适合于处理噪音页面,并把它应用于web结果页面的聚类,为验证它的有效性,进行了初步实验,实验结果显示通过链接分析对web搜索结果聚类取得了预期效果  相似文献   

5.
为了能准确挖掘用户兴趣点,首先利用概率潜在语义分析PLSA模型将“网页 词”矩阵向量投影到概率潜在语义向量空间,并提出“自动相似度阈值选择”方法得到网页间的相似度阈值,最后提出将平面划分法与凝聚式层次聚类相结合的凝聚式层次k中心点HAK medoids算法,实现用户兴趣点聚类。实验结果表明,与传统的基于划分的算法相比,HAK medoids算法聚类效果更好。同时,提出的用户兴趣点聚类技术在个性化服务领域可提高个性化推荐和搜索的效率。关键词:  相似文献   

6.
吴枫  仲妍  吴泉源  贾焰  杨树强 《软件学报》2009,20(10):2867-2884
相似性搜索在股票交易行情、网络安全、传感器网络等众多领域应用广泛.由于这些领域中产生的数据具有无限的、连续的、快速的、实时的特性,所以需要适合数据流上的在线相似性搜索算法.首先,在具有或不具有全局约束条件下,分别提出了没有索引结构的DTW(dynamic time warping)下限函数LB_seg_WFglobalLB_seg_WF,它们是一种分段DTW技术,能够处理数据流上的非等长序列间在线相似性匹配问题.然后,为了进一步提高LB_seg_WFglobalLB_seg_WF的近似程度,提出了一系列的改进方法.最后,针对流上使用LB_seg_WFglobalLB_seg_WF可能会出现连续失效的情况,分别提出了DTW的下限函数LB_WFglobal(具有全局约束条件)和上限函数UB_WF、下限函数LB_WF(不具有全局约束条件).通过增量方式快速估计DTW,极大地减少了估计DTW的冗余计算量.通过理论分析和统计实验,验证了该方法的有效性.  相似文献   

7.
张斌  苏一丹  曹波 《微计算机信息》2008,24(15):231-233
本文首先针对Web数据高纬的特点,提出一种基于方向相似性的蚁群聚类算法并将其应用于用户聚类;然后针对Web数据的动态性,引入聚类模型维护库,在原有聚类模型的基础上实现增量式用户聚类.实验结果表明,该方法能动态有效地实现用户聚类.  相似文献   

8.
针对目前搜索引擎搜索结果中普遍存在大量重复网页的现象,提出了一种基于聚类算法DBSCAN的搜索结果优化算法.该算法选取源搜索结果中排名靠前的部分网页,对这部分网页根据网页相似度进行DBSCAN聚类,最大限度剔除冗余网页,实现搜索结果的优化.实验结果表明本算法可以提高搜索结果的全面性和准确性,提升用户使用搜索引擎的满意度.  相似文献   

9.
Google的PageRank算法通过对超链接结构的分析,有效地提高了搜索结果的排序质量。PowerExtrapolation算法通过特征值直接求解马尔可夫超链接矩阵的主特征向量,但该算法的迭代次数与参数d的选择密切相关,而参数d的确定目前无明显规律可寻。另一方面,AdaptiveMethod通过将马尔可夫超链接矩阵稀疏化以达到节省迭代时间的目的。文章在PowerExtrapolation算法的基础上引入AdaptiveMethod,实验结果初步证明了新算法可以减少迭代运算的时间。  相似文献   

10.
近年来,随着建筑信息模型(BIM)构件库资源在互联网上迅猛增长,对大量 BIM 构件资源的聚类和检索应用变得日益迫切。现有方法还缺乏对 BIM 构件所承载的领域信息提取, 基于 BIM 构件所承载的领域信息,对 BIM 构件库资源开展聚类研究:①针对 BIM 构件,提出 了一种基于属性信息量的 BIM 构件相似性度量算法,以充分利用 BIM 构件属性信息。通过与 传统的Tversky相似性度量算法以及几何形状相似匹配算法相比,其在相似性度量上效果更好。 ②基于 BIM 构件间的相似性度量算法,提出了一种 BIM 构件库聚类方法。并在 BIMSeek 检索 引擎中集成了 BIM 构件的关键字检索功能以及分类器查看功能,为用户提供更丰富的检索和查 看方式。通过与传统的 K-medoids 和 AP 聚类算法相比,其聚类方法效果更好。  相似文献   

11.
针对目前Web聚类准确率不高的问题,提出一种基于Web页面链接结构和页面中图片主色调特征的聚类算法。通过分析Web页面中的链接结构和Web页面中所显示图片的主色调来比较页面之间的相似度,对Web站点中的Web页面进行聚类。聚类过程兼顾Web页面结构和页面的主要色彩特征。系统实验结果表明,该算法能有效提高聚类的准确性。  相似文献   

12.
基于关联规则的多层次Web聚类法研究   总被引:1,自引:0,他引:1  
提出了基于关联规则的多层次、超图分割聚类方法,用于对Web网页和用户进行有效聚类。该方法借助网站层次图,可以根据实际需要,在各个层次上进行聚类分析;在挖掘出满足一定Support的关联规则的基础上进行聚类,仅将高度相关的网页和用户聚在同一类,而将关联性较小的网页排除在聚类外。  相似文献   

13.
针对Web中数据密集型的动态页面,文本数据少,网页结构化程度高的特点,介绍了一种基于HTML结构的web信息提取方法。该方法先将去噪处理后的Web页面进行解析,然后根据树编辑距离计算页面之间的相似度,对页面进行聚类,再对每一类簇生成相应的提取规则,对Web页面进行数据提取。  相似文献   

14.
董晓君  程春玲 《计算机科学》2018,45(11):244-248
快速搜索和发现密度峰值的聚类算法(Clustering by Fast Search and Find of Density Peaks,CFSFDP)是一种新的基于密度的聚类算法,它通过发现密度峰值来有效地识别类簇中心,具有聚类速度快、实现简单等优点。针对CFSFDP算法的准确性依赖于数据集的密度估计和截断距离(dc)的人为选择问题,提出一种基于核密度估计的K-CFSFDP算法。该算法利用无参的核密度估计分析数据点的分布特征并自适应地选取dc,从而搜索和发现数据点的密度峰值,并以峰值点数据作为初始聚类中心。基于4个典型数据集的仿真结果表明,K-CFSFDP算法比CFSFDP,K-means和DBSCAN算法具有更高的准确度和更强的鲁棒性。  相似文献   

15.
16.
在电子商务网络资讯管理系统中,为了将用户检索结果网页按照不同主题划分显示给用户,帮助用户快速定位所需信息,有效完善用户体验,针对电子商务领域网页文本聚类面临的问题,提出融合自定义领域词典、基于聚类特征词典的特征选择和基于类别领域词表的初始中心点构造等策略的解决方案。实验结果表明,该方案能有效提高电子商务领域的网页文本聚类质量。对于其它特定领域文本聚类研究具有一定的参考价值。   相似文献   

17.
于永彦 《计算机工程》2012,38(10):22-26
Multi-RANSAC、RHT等方法难以有效实现多模型估计。为此,提出一种基于模型聚类的多模型估计方法。将数据点描述为所属模型的倾向集,把倾向集间的Jaccard距离描述为数据点的一种属性,基于该属性使用改进的Cobweb算法进行聚类。该方法无需预知模型数目和参数变换,可有效克服漏检、交叉模型误检等情况。实验结果表明,该方法具有高效、高精度等优点,适用于消隐点检测、相机自标定等领域。  相似文献   

18.
基于页面内容和站点结构的页面聚类挖掘算法   总被引:16,自引:0,他引:16  
提出了结合站点拓扑结构和Web页面内容的页面聚类改进算法,改进算法引入Web页面的内容链接比和页组的组内链接度,并修改了频繁访问页组支持度的计算公式,以此来提高挖掘结果的兴趣性.通过实验数据的比较,改进算法较一般算法的收敛性好,发现的频繁访问页组的兴趣性高.  相似文献   

19.
陈卓夷 《计算机科学》2007,34(4):119-120
关键帧提取是基于内容的视频检索的一个重要的组成部分,所提取的关键帧的有效性,直接影响视频检索的结果。文中提出了一种基于非参数密度估计聚类的关键帧提取方法。首先,通过提取图像的颜色特征和运动特征,然后利用均值漂移聚类方法对融合了颜色和运动信息的特征空间进行聚类。它能自动确定类别数并具有严格的收敛陛,从而大大减少了运算量,提高了运算速度。实验证明,本方法的提取结果与人的主观视觉感知系统具有良好的一致性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号