首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
We propose a parallelization scheme for an existing algorithm for constructing a web‐directory, that contains categories of web documents organized hierarchically. The clustering algorithm automatically infers the number of clusters using a quality function based on graph cuts. A parallel implementation of the algorithm has been developed to run on a cluster of multi‐core processors interconnected by an intranet. The effect of the well‐known Latent Semantic Indexing on the performance of the clustering algorithm is also considered. The parallelized graph‐cut based clustering algorithm achieves an F‐measure in the range [0.69,0.91] for the generated leaf‐level clusters while yielding a precision‐recall performance in the range [0.66,0.84] for the entire hierarchy of the generated clusters. As measured via empirical observations, the parallel algorithm achieves an average speedup of 7.38 over its sequential variant, at the same time yielding a better clustering performance than the sequential algorithm in terms of F‐measure. Copyright © 2015 John Wiley & Sons, Ltd.  相似文献   

2.
随着信息的爆炸式增长,现有的搜索引擎在很多方面不能满足人们的需要。Web文档聚类可以减小搜索空间,加快检索速度,提高查询精度。提出了一种融合SOM(Self-Organizing Maps)粗聚类和改进PSO(Particle Swarm Optimization)细聚类的Web文档集成聚类算法。首先根据向量空间模型表示法,用特征词条及其权值表示Web文档信息,其次用SOM算法对文档特征集进行粗聚类,得到一组输出权值,然后用这组权值初始化改进的PSO算法,用改进PSO算法对此聚类结果进行细化,最终实现Web文档聚类。仿真结果表明,该算法能有效提高文档查询的查准率和查全率,具有一定的实用价值。  相似文献   

3.
基于概念的论文相似性检索   总被引:1,自引:0,他引:1       下载免费PDF全文
Web上越来越多的论文给我们提出了一个新的课题:如何检索满足需求的论文。传统的基于查询项匹配检索方法往往无法准确地检索出满足用户需求的论文。这里给出了一种基于概念的论文相似性检索方法,有效地改进了传统的论文检索方法。介绍了一种对论文关键词进行层次聚类的算法,首先把论文关键词聚类为概念,从而生成一个概念树,然后用概念向量表示论文,每篇论文对应一个概念子树。在相似性检索时,采用改进的余弦相似性方法,根据概念向量计算论文的相似性,把与给定论文最相似的论文返回给用户。用这种算法,能很好地对论文进行基于概念的相似性检索。算法克服了基于查询项匹配检索的缺点,实验证明其有较高的查全率和查准率。  相似文献   

4.
在对用户兴趣模型探讨的基础上,提出了一种基于概念的用户兴趣模型,用于区别用户兴趣的大小.讨论了基于链接的查询聚类算法,并针对该算法的不足提出了一种基于概念的聚类算法,该算法根据用户兴趣模型建立查询-概念二分图,然后计算图中查询顶点间的概念相似度,并将概念相似度最高的查询顶点进行合并以实现聚类.设计实现了一个基于Web数据挖掘的个性化搜索引擎系统,对系统的个性化查询进行了测试,并对比分析了链接聚类和概念聚类的实验结果.  相似文献   

5.
基于近似网页聚类的智能搜索系统   总被引:1,自引:1,他引:1  
从Internet用户的兴趣度出发,设计了一种基于近似网页聚类的智能搜索系统。该系统在用户利用常用搜索引擎系统进行信息检索时,消除搜索引擎返回的重复页,对剩余页面进行聚类,返回给用户聚类后的网页簇,这样用户就可以选择浏览自己感兴趣的页面,从而大大提高了信息检索的查准率;实验证明该系统在保证查全率和查准率的基础上大大提高了搜索效率。  相似文献   

6.
介绍Web文档聚类的应用,针对现有文档聚类算法缺乏动态更新能力、经验参数过多以及缺乏对新词的把握等不足,提出动态调整的Web文档增量聚类(Dynamically Adjusted Incremental Web Document Clustering,DAIWDC)算法,并使用同义词词林优化结果.该算法在实验中达到了88%的正确率和75%的全面率,表明其具有较高的实用价值.  相似文献   

7.
在社会化标记系统中,常采用聚类等数据挖掘技术来解决标签冗余和语意模糊的问题.现有标签聚类算法大多根据不同标签在对象中共同出现的次数来计算它们之间的相似度,但是这种方法聚类的精确度与召回率并不高.针对此问题,提出一种新的标签聚类算法,充分考虑标签的标记信息,采用基于对象的特征向量来精确地表征一个标签,根据余弦相似度公式得到较为准确的标签相似度,然后采用K-Means算法将用户标签进行聚类.实验结果表明该算法能够得到更加精确的聚类结果.  相似文献   

8.
This paper presents a multi-ant colonies approach for clustering data that consists of some parallel and independent ant colonies and a queen ant agent. Each ant colony process takes different types of ants moving speed and different versions of the probability conversion function to generate various clustering results with an ant-based clustering algorithm. These results are sent to the queen ant agent and combined by a hypergraph model to calculate a new similarity matrix. The new similarity matrix is returned back to each ant colony process to re-cluster the data using the new information. Experimental evaluation shows that the average performance of the aggregated multi-ant colonies algorithms outperforms that of the single ant-based clustering algorithm and the popular K-means algorithm. The result also shows that the lowest outliers strategy for selecting the current data set has the best performance quality.  相似文献   

9.
针对电子商务系统中传统协同过滤推荐算法面临的稀疏性、准确性、实时性等问题,提出了一种基于用户谱聚类的协同过滤推荐算法。首先利用非负矩阵分解的方法对原始稀疏评分矩阵进行平滑处理,然后利用改进相似度的谱聚类方法将用户聚类,最后在用户所属类中寻找最近邻并产生推荐。用户谱聚类过程可离线完成,加快了在线推荐速度。在数据集MovieLens上的实验结果表明,该算法在平均绝对偏差、召回率、准确率等方面都有了较大改善,提高了推荐质量。  相似文献   

10.
针对用户查询与知识文档间检索失配问题,提出了一种基于相似度矩阵的本体检索匹配算法。该方法是对现有的检索匹配算法的一种改进。方法利用领域本体来快速确定候选匹配集;进而从三个层次来综合计算元素间的相似度;利用相似度矩阵得到两本体间的相似度。实验结果表明,在查全率、查准率和响应时间方面都有较好的表现。  相似文献   

11.
摘 要:针对于标准二分图网络推荐算法(NBI)的物质扩散机制过于简单的问题,基于聚类系数的改进NBI算法(简称NBICC)被提出。在文章中,推荐系统可以被抽象为一个有向加权二分图网络。在物质扩散的过程中,考虑到聚类系数因素的影响,重新定义了商品之间的相似度的计算公式,进而获得了更加精确的推荐结果。Ranking score,precison,recall等评价指标被应用在本文提出的新算法中,实验结果表明,这三样重要指标上,NBICC算法都强于标准NBI算法。  相似文献   

12.
朱海湾 《计算机应用研究》2020,37(2):390-397,420
针对基于蚁群聚类的蛋白质复合物挖掘算法中,静态PPI网络难以真实反映细胞的动态特性,收敛速度较慢、聚类准确性和召回率不高等问题,提出一种基于模糊粒度和紧密度的蚁群聚类动态加权PPI网络复合物挖掘方法(FGCDACC-DPC)。首先基于动态PPI网络的拓扑特性和生物特性设计了综合性权值度量(comprehensive weight metric,CWM),准确描述了蛋白质之间的相互作用;其次根据复合物的基本特征,构建一组稠密且高度共表达的复合核,然后设计模糊粒度和紧密度的拾起放下模型对其余节点聚类,降低了计算复杂度和随机性,加快聚类速度;最后基于功能信息传递和时序功能相关的思想分别构建了局部和全局权值更新策略,实现不同代蚁群和不同时刻网络之间的功能信息传递,提高聚类准确性。将FGCDACC-DPC算法应用在DIP数据上进行复合物挖掘,实验结果表明该算法的精度和召回率较高,能够较准确地识别蛋白质复合物。  相似文献   

13.
针对基于VSM(vector space model)的文本聚类算法忽略了词之间的语义信息和各维度之间的关系,导致文本的相似度计算不够精确,提出了一种基于语义相似度的群智能文本聚类的新方法。该方法融合了模拟退火算法的全局搜索和蚁群算法的正反馈能力。其思路是,首先从语义上分析文本,利用K-均值算法进行文本聚类,再根据K-均值算法的结果,使用蚁群和模拟退火算法进行调整聚类。测试结果表明这种算法能够提高聚类精度和召回率,也验证了混合算法的正确性。  相似文献   

14.
饶君  吴斌  东昱晓 《软件学报》2012,23(12):3175-3186
为使链路预测应用于大型复杂网络,设计并实现了一种基于MapReduce计算模型的并行链路预测算法,包含了9种基于局部信息的相似性指标,在稀疏网络上的时间复杂度为O(N).首先,在公共数据集上验证了并行算法的有效性,随着抽取因子的增加,召回率升高而准确率下降.在不同类型的10个大规模复杂网络数据集上的实验结果表明,基于MapReduce计算模型的并行链路预测算法比传统算法具有更高的效率,算法的运行时间随着并行程度的增加而下降.提出并证明了AUC(area under a receiver operating characteristic curve)评价指标的上下界,实验表明,上下界的中值和实际AUC值很接近,并且AUC评价指标侧重于预测分数值是否为0而不是分数值的大小.在网络拓扑性质中,平均聚集系数对AUC值的影响最大,并且AUC值随着网络平均聚集系数的增加而提高.  相似文献   

15.
设计并实现了一个基于FAQ(Frequently Asked Question)的OTC(Over The Counter)问答系统。描述了该系统的工作流程、系统结构;详细阐述了系统实现的关键技术,包括基于倒排索引的查找算法、根据用户问题建立候选问题集和基于知网的语义相似度计算方法等。运行结果表明,对于常问问题和普遍性的问题,系统有很高的准确率。  相似文献   

16.
文本聚类是自然语言处理中的一项重要研究课题,主要应用于信息检索和Web挖掘等领域。其中的关键是文本的表示和聚类算法。在层次聚类的基础上,提出了一种新的基于边界距离的层次聚类算法,该方法通过选择两个类间边缘样本点的距离作为类间距离,有效地利用类的边界信息,提高类间距离计算的准确性。综合考虑不同词性特征对文本的贡献,采用多向量模型对文本进行表示。不同文本集上的实验表明,基于边界距离的多向量文本聚类算法取得了较好的性能。  相似文献   

17.
目前对于查询相似度的计算通常是从比对检索结果与查询式的相似度来考虑。本文提出一种基于贝叶斯分类的算法来计算XML查询结果相似度。在计算出每个检索结果文档与查询式相似度的基础上,使用贝叶斯分类器将XML检索文档分类成相关与不相关两个集合,再由计算相关文档与不相关文档的相似度来决定最终的相似度值。最后,通过实验分析表明,在不影响查全率的前提下,这样得到的相似度计算精度比传统方法高15%左右,有效地提高了检索性能。  相似文献   

18.
We present a filter-and-refine method to speed up nearest neighbor searches with the Kullback–Leibler divergence for multivariate Gaussians. This combination of features and similarity estimation is of special interest in the field of automatic music recommendation as it is widely used to compute music similarity. However, the non-vectorial features and a non-metric divergence make using it with large corpora difficult, as standard indexing algorithms can not be used. This paper proposes a method for fast nearest neighbor retrieval in large databases which relies on the above approach. In its core the method rescales the divergence and uses a modified FastMap implementation to speed up nearest-neighbor queries. Overall the method accelerates the search for similar music pieces by a factor of 10–30 and yields high recall values of 95–99% compared to a standard linear search.  相似文献   

19.
个性化推荐是解决Internet中信息过载的重要工具,在研究有关个性化推荐的技术和相关动态的基础上,以用户实际应用为驱动,提出一种多维加权社会网络中的个性化推荐算法。首先,该算法构建了用户之间的多维加权网络;然后利用复杂网络的聚类方法——CPM算法寻找邻居用户;最后基于用户之间的相似性做出推荐。实验结果表明,应用该算法的多维网络的推荐系统与基于内容推荐系统和协同过滤推荐系统相比,有较高的查全率和准确率,个性化推荐质量有了一定程度的提高。  相似文献   

20.
基于领域本体的智能检索模型   总被引:1,自引:0,他引:1       下载免费PDF全文
在传统检索模型的基础上,结合本体概念,提出一种基于领域本体的检索模型。该模型利用本体中语义概念关系及语义扩展机制对查询关键词进行概念映射及扩展,通过计算文档相似度返回检索结果,提高检索的查准率和查全率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号