共查询到18条相似文献,搜索用时 138 毫秒
1.
社交网络结构错综复杂,主题社区是进行个性化推荐和商业推广的重要途径之一.然而,现有主题社区挖掘方法,要么仅基于链接关系和文本信息挖掘主题社区,要么在已划分社区的基础上挖掘主题,忽略了主题与社区的相互作用,导致社区内部话题相似度不高.因此,提出新的社区主题计算方法,进而建立一种融合主题相似度权重的主题社区发现模型(TSW... 相似文献
2.
3.
为了高效地获取与主题相关的资源,就垂直搜索引擎展开了研究。首先,在现有的PageRank算法基础上,提出一种改进的PageRank算法来测量网页的链接相似度;其次,从单个网页考虑,利用每个网页的url、title和正文,给出基于内容的相似度的计算方法;最后结合内容相似度和链接相似度,提出了一种基于链接和内容的BLCT主题爬行算法。实验结果表明,该算法在平均收获率和目标召回率上有显著提高,爬行的网页主题相关性也提高了。 相似文献
4.
用户通过检索平台能获得大量信息,但搜索结果往往会出现主题漂移、偏重旧网页的现象,不能满足用户实际需求.为改善这种现象,提出了一种改进的PageRank算法.该算法采用BM25相似度算法对主题相似度进行计算,根据相似度评分来赋予不同的影响权重,可以提相似度高的网页的排名;利用网页在搜索引擎周期内被搜索到的次数来表示网页存... 相似文献
5.
PageRank算法是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性。但由于它只考虑网页与网页之间的链接结构,忽略了网页与主题的相关性,容易造成主题漂移现象。在分析了原PageRank算法基础上,给出了一种基于语义相似度的PageRank改进算法。该算法能够按照网页结构和网页主要内容计算出网页的PageRank值,既不会增加算法的时空复杂度,又极大地减少了“主题漂移”现象,从而提高查询效率和质量。 相似文献
6.
7.
基于主题相似度指导网络蜘蛛穿越隧道的爬行算法 总被引:1,自引:0,他引:1
隧道穿越一直是主题网络蜘蛛爬行研究的难点,本文在分析了网页主题特征和普通隧道技术爬行算法缺点的基础上,提出了使用主题相似度指导网络蜘蛛穿越隧道的爬行算法,并用朴素贝叶斯分类器方法提高主题相似度计算精度。实验表明,本文提出的隧道穿越技术在查准率和查全率方面都比普通隧道技术有很大提高。 相似文献
8.
9.
10.
潜在狄利克雷分布(LDA)以词袋(bag of words,BOW)模型为基础,简化了建模的复杂度,但使得主题的语义连贯性较差,文档表征能力不强。为解决此问题,提出了一种基于语义分布相似度的主题模型。该模型在EM(expectation maximization)算法框架下,使用GPU(generalized Pólya urn)模型加入单词—单词和文档—主题语义分布相似度来引导主题建模,从语义关联层面上削弱了词袋假设对主题产生的影响。在四个公开数据集上的实验表明,基于语义分布相似度的主题模型在主题语义连贯性、文本分类准确率方面相对于目前流行的主题建模算法表现得更加优越,同时该模型提高了收敛速度和模型精度。 相似文献
11.
12.
13.
基于LDA主题模型的文本相似度计算 总被引:1,自引:0,他引:1
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果。实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果。 相似文献
14.
基于父个体相似度的自适应遗传算法 总被引:3,自引:2,他引:3
标准遗传算法在产生后代个体时采用先交叉后变异的策略,一方面当父个体非常相似时,交叉操作很难产生新的个体,影响算法对新的解空间进行搜索,从而导致种群多样性的丧失;另一方面交叉产生的优秀个体再历经变异,极有可能遭破坏而影响算法的收敛性。该文根据染色体的相似性,给出了个体相似度的概念,并在此基础上提出了依据父个体相似度的大小自适应地选择遗传算子(交叉或变异)的遗传算法。仿真实验表明,与采用常规遗传策略的遗传算法相比,新算法能显著提高解的质量和收敛速度。 相似文献
15.
自动挖掘科技文献话题,总结发展趋势及最新研究动态,有助于科技工作者的研究。该文提出一种话题发现和趋势分析的方法,该方法首先利用LDA话题模型抽取科技文献的话题,然后计算话题的强度和影响力,最后针对热门和冷门话题以及影响力高和影响力低的话题,进行了趋势分析。该文提出的话题强度和影响力计算方法,可以针对任何文集。对ACL 论文集的实验,显示了计算语言学领域过去的发展状况。和其他方法的对比实验,也验证了该文提出的话题强度和影响力的计算方法是正确和可行的。 相似文献
16.
PageRank基于链接分析计算页面的权威度,衡量网页的权威性,实现搜索结果的等级排序。文章针对传统PageRank存在的主题漂移问题提出了一种基于查询主题相关性的改进算法。通过引入搜索页面与查询主题的相关性度量,有效地抑制了传统PageRank算法的主题漂移问题,并通过实例加以验证。 相似文献
17.