共查询到19条相似文献,搜索用时 56 毫秒
1.
现有的搜索引擎查询结果聚类算法大多针对用户查询生成的网页摘要进行聚类,由于网页摘要篇幅较短,质量良莠不齐,聚类效果难以有较大的提高(比如后缀树算法,Lingo算法);而传统的基于全文的聚类算法运算复杂度较高,且难以生成高质量的类别标签,无法满足在线聚类的需求(比如KMeans算法)。该文提出一种基于全文最大频繁项集的网页在线聚类算法MFIC (Maximal Frequent Itemset Clustering)。算法首先基于全文挖掘最大频繁项集,然后依据网页集合之间最大频繁项集的共享关系进行聚类,最后依据类别包含的频繁项生成类别标签。实验结果表明MFIC算法降低了基于网页全文聚类的时间,聚类精度提高15%左右,且能生成可读性较好的类别标签。 相似文献
2.
陈菊红 《数字社区&智能家居》2008,3(12):1581-1582
随着英特网上信息量的迅速增长,用户想要从中找到感兴趣的信息变得越来越困难,传统的搜索引擎不能很好地解决这个问题。因此本文提出了一种带有聚类功能的个性化元搜索引擎,系统通过用户注册获得用户数据并对所有的用户进行聚类形成不同用户群病产生用户模式,搜索引擎调度模块通过用户模式来选择适合的搜索引擎进行调度得到个性化的搜索结果,再将检索到的结果进行聚类处理,返回给用户个性化的搜索结果。分析了带有聚类功能的个性化元搜索引擎的系统构成,详细介绍了每个模块的功能,最后展望了它的发展前景。 相似文献
3.
近年来研究表明使用主题语言模型增强了信息检索的性能,但是仍然不能解决信息检索存在的一些难点问题,如数据稀疏问题,同义词问题,多义词问题,对文档中不可见项和可见项的平滑问题。这些问题在一些领域相关文献检索中显得尤其重要,比如大规模的生物文献检索。本文提出了一种新的基于聚类的主题语言模型方法进行生物文献检索,这主要包括两个方面工作,一是采用本体库中的概念表示文档,并在此基础上进行模糊聚类,把聚类的结果作为数据集中的主题,文档属于某个主题的概率由文档与聚类的模糊相似度决定。二是采用EM算法来估计主题产生项的概率。把上述方法集成到语言模型中就得到本文的语言模型。本文的语言模型能够准确描述项在不同主题中的分布概率,以及文档属于某个主题的概率,并且利用本体中概念部分地解决了同义词问题,而且项可以由不同的主题产生,这也能够部分解决词的多义问题。本文的方法在TREC 2004/05 Genomics Track数据集上进行了测试,与简单语言模型以及现有主题语言模型相比,检索性能得到一定的提高。 相似文献
4.
CHEN Ju-hong 《数字社区&智能家居》2008,(34)
随着英特网上信息量的迅速增长,用户想要从中找到感兴趣的信息变得越来越困难,传统的搜索引擎不能很好地解决这个问题。因此本文提出了一种带有聚类功能的个性化元搜索引擎,系统通过用户注册获得用户数据并对所有的用户进行聚类形成不同用户群病产生用户模式,搜索引擎调度模块通过用户模式来选择适合的搜索引擎进行调度得到个性化的搜索结果,再将检索到的结果进行聚类处理,返回给用户个性化的搜索结果。分析了带有聚类功能的个性化元搜索引擎的系统构成,详细介绍了每个模块的功能,最后展望了它的发展前景。 相似文献
5.
6.
聚类分析在搜索引擎中的应用 总被引:8,自引:0,他引:8
为了快速、准确地从因特网上找到人们所需的信息,对网页信息进行聚类分析是非常重要的。该文分析了几种适用于搜索引擎的聚类方法,并讨论了聚类分析在设计搜索引擎时的应用。 相似文献
7.
8.
9.
10.
近年来,随着网络数据挖掘技术的迅猛发展,如何从搜索引擎查询日志中找到有用的信息成为一个重要的研究方向.首先详细讨论了Beeferman提出的针对搜索引擎查询日志的凝聚式聚类算法以及噪声数据对该算法的影响,指出了Chan的改进算法中的一个错误,最后提出一个新的改进算法,并且通过模拟实验对几种不同的算法进行了对比. 相似文献
11.
基于后缀树的Web检索结果聚类标签生成方法 总被引:1,自引:0,他引:1
对检索结果进行聚类能够方便用户从搜索结果中快速地找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果。该文提出了一种新的思路,注重于如何在聚类之前就产生好的标签,在生成了标签的基础上,再进行检索结果聚类。对于搜索引擎返回的结果,我们先统一建立一棵后缀树,然后计算后缀树中各个短语的得分,选取得分最高的若干短语作为候选标签。得到标签后,将搜索引擎返回的各个结果项分配到它所包含的标签对应的分类中,形成最后的聚类。实验表明,我们的方法是比较有效的。 相似文献
12.
以列表形式展示的搜索引擎查询结果往往使用户无法快速地找到真正需要的信息。采用对结果进行聚类后,以结构化的形式表现查询结果可以克服这一问题。文中阐述了聚类引擎包括的四部分工作及相关的技术,并对系统的性能和存在的问题进行了初步的分析,为此类系统的实现提供了基础。 相似文献
13.
网页搜索引擎查询日志的Session划分研究 总被引:4,自引:1,他引:3
搜索引擎查询日志中的session (以下简称session)是指某特定用户为得到某个信息需求而在一段时间内的搜索行为的连续序列。Session的正确划分是进行用户搜索行为分析等一系列工作的重要基础,目前尚没有关于session的系统研究工作。本文针对相关研究工作的问题重新统一定义了session的概念并进行探索和比较研究,得出结论(1)统计语言模型因数据稀疏问题不适合做session划分;(2)利用多种属性的决策树方法可以得到比较理想的结果,以session为单位进行评价,F值达到了78.6%。 相似文献
14.
一种层次化的检索结果聚类方法 总被引:2,自引:1,他引:2
检索结果聚类能够帮助用户快速地浏览搜索引擎返回的结果.传统的聚类方法由于不能生成有意义的类别标签因此是不适合的,为了改善检索结果层次化聚类的效果,采用了基于标签的聚类算法,提出了将DF、查询日志、查询词上下文特征融合的类别标签抽取算法,并以抽取的标签构造基础类别图,通过GBCA算法构建层次化聚类结果.实验证明了多特征融合模型的有效性;GBCA算法在类别标签抽取和F-Measure两个评价指标上都比STC和Snaket算法有很大的提高. 相似文献
15.
16.
17.
基于日志挖掘的搜索引擎用户行为分析 总被引:1,自引:0,他引:1
随着网络搜索用户的大规模增加,网络用户行为分析已成为网络信息检索系统进行架构分析、性能优化和系统维护的重要基石,是网络信息检索和知识挖掘的重要研究领域之一。为更好理解网络用户的搜索行为,该文基于7.56亿条真实网络用户行为日志,对用户行为进行分析和研究。我们主要考察了用户搜索行为中的查询长度、查询修改率、相关搜索点击率、首次/最后一次点击位置分布以及查询内点击数分布等信息。该文还基于不同类型的查询集合,考察用户在不同查询需求下的行为差异性。相关分析结果对搜索引擎算法优化和系统改进等都具有一定的参考意义。 相似文献
18.
19.
基于用户日志挖掘的搜索引擎广告效果分析 总被引:4,自引:2,他引:4
随着搜索引擎市场的飞速发展,竞价排名广告以其有效、低风险、灵活等特点逐渐受到中小企业用户的青睐,成为搜索引擎稳定的收益增长点。然而竞价排名广告是否会影响用户体验,从而削弱其宣传效果并且影响用户对于搜索引擎的忠实度成为了企业及搜索引擎所担忧的问题。该文从网络用户日志中挖掘出网络用户对于广告的实际交互行为,并给出了各大搜索引擎竞价排名广告方面的统计数据。对于企业用户如何更有效地利用竞价排名广告以及搜索引擎如何平衡广告的经济效益和用户体验之间的关系都有较高的指导意义。 相似文献