共查询到20条相似文献,搜索用时 625 毫秒
1.
2.
元搜索引擎结果生成技术研究 总被引:17,自引:0,他引:17
元Web搜索引擎是通过将搜索请求传送给它所引用的搜索引擎,然后将这些搜索引擎返回的结果按照一定的结果集成算法合并,并将合并后的结果返回给用户.所用结果集成算法的好坏将直接影响该元搜索引擎的查询精度、查询完全度和响应速度.本文在分析常用的几种结果集成方法的基础上,提出几个改进的算法来改进搜索结果的一致性. 相似文献
3.
目前大部分搜索引擎对于用户查询返回结果的差异依赖于查询词.而实际上,即便查询词相同,不同的用户潜在的信息需求可能不同.搜索引擎并不能针对用户的特点提供个性化的服务,大多数返回的文档都是与用户的需求不相关的.提出"搜索系统错误的目标定位是导致用户体验不佳的根本原因".因此,设计一个面向用户的排序算法来解决个性化服务的问题是十分必要的.提出的面向用户排序算法将概率排序原则返回的原始列表重新排序,将用户兴趣向量作为列表重排的参数之一,使之能够向用户提供特定服务,满足用户潜在信息需求.通过分析用户的查询和浏览的文档,为用户建立并维护一个用户兴趣向量,以此作为面向用户排序的基础.实验证明了该方法具有更优的性能. 相似文献
4.
利用粒子群算法优化多源检索融合结果的方法 总被引:1,自引:0,他引:1
对多个搜索引擎系统返回结果进行自动整合,是当前网络信息检索应用至今尚未较好解决的一个难点,也是影响元搜索引擎效果的关键技术环节。在实验多种处理多源搜索结果融合算法的基础上,文中提出一种可对多种其它融合排序算法输出结果做进一步优化的离散粒子群算法。该算法不仅能在整体效果上优于作为其预处理输入的其它融合排序算法,而且对不同查询有更好的适应性,不需考虑各独立源检索返回结果的质量权重及相互间重叠率等因素。与作为其输入处理的其它融合算法相比,该算法的相关文档识别准确率可提高约20%,而准确率随查询主题变化的标准差可降低约50%。 相似文献
5.
元搜索引擎结果集成算法 总被引:1,自引:0,他引:1
对于元搜索引擎的集成方法有很多,但是多数只考虑到客观因素,而没有考虑到用户因素。不管生成的结果在数据上有多么好,只有用户在最靠前的位置找到自己需要结果的集成方法,才是好的算法。本篇文章介绍了一种新算法,该算法在考虑到用户所查询条目同独立搜索引擎返回结果的相关性和搜索引擎数据库的影响因子的情况下,加入了用户反馈因素。用户反馈因素的加入使得该算法产生的结果更贴近用户的需要,可以根据用户对所搜索出来的结果的关注程度来调整结果的排序,使排序的结果更加优化。 相似文献
6.
7.
搜索引擎在多成员搜索引擎搜索结果的整合过程中,搜索结果的排序在很大程度上决定着元搜索引擎的服务质量。为了实现搜索结果的有效整合,目前技术主要结合查询请求、文档内容、初始排序或(和)赋予搜索成员搜索引擎权重等因素。其中采用赋予搜索引擎权重时,往往根据用户和技术人员经验,主观地进行赋值,不能体现真实的用户搜索偏好。为此,提出了通过挖掘用户搜索及遍历情况,动态地赋予各成员搜索引擎权重的方法。通过用户遍历及点击下载情况,得到了用户搜索遍历与返回结果的匹配度,论证了该方法的可行性和有效性。 相似文献
8.
随着生活节奏的加快,用户习惯将简短的查询提交给搜索引擎,并希望搜索引擎能体贴地将自己需要的结果返回在靠前的结果中。面对大量有歧义的或者意义广泛的查询,搜索引擎努力地识别用户意图,并试图用有限的结果取悦更多的用户。为了解决这个问题,搜索结果多样化技术应运而生,其任务是是对搜索结果进行重排序,在有限的搜索结果中满足尽可能多的用户意图。该文重点关注多样化算法中子话题的粒度问题。利用传统方法生成了不同粒度的子话题,并比较了使用不同粒度的子话题对搜索结果多样化算法的影响。实验结果表明,经典多样化算法使用细粒度的子话题时表现更好。 相似文献
9.
10.
聚类技术能将大规模数据按照数据的相似性划分成用户可迅速理解的簇.从而使用户更快地了解大量文档中所包含的内容。因此.聚类技术成为搜索引擎中不可或缺的部分和研究热点。Web上的AJAX应用和PowerPoint文件等弱链接文档由于缺乏足够的超链接信息,导致搜索该类文档时.排序结果不佳。针对该问题.给出一个弱链接文档的搜索引擎框架,并重点描述一个基于网页搜索结果的弱链接文档排序算法.基于聚类的弱链接文档排序算法利用聚类算法从高质量的网页搜索结果中提取与查询相关的主题.并根据主题的相关网页的排名确定该主题的重要性.根据识别的带权重的主题计算弱链接文档的排序值。实验结果表明该算法能够为弱链接文档产生较好的排序结果. 相似文献
11.
现有的搜索引擎排序算法大多根据网页之间的链接关系进行排序,没有考虑原创和转载文章之间的优先次序。该文提出一种适用于专业搜索引擎的新型排序算法,在排序时优先考虑原创文章,使原创文章的搜索排名得以提高,有助于新兴原创技术网站的发展,提高网络竞争的公平性。 相似文献
12.
随着Web技术的迅速发展,提供个性化服务的搜索引擎技术受到用户的广泛关注,网页排序是其中的关键技术之一。本文利用PageRank算法对原有的Lucene网页排序进行了改进,设计并实现了关于手机信息搜索的个性化搜索引擎。实验结果证明,改进后的排序算法能够较好地提高信息检索的准确度,为用户带来了优于Lucene自身排序的搜索体验。 相似文献
13.
文章分析了传统搜索引擎的缺点,提出了一种基于网页自动分类的分类查询搜索引擎新模型,重点阐述了利用粗糙集进行文本分类的方法,提出了一种基于特征矩阵的决策表约简算法,并以此实现了网页自动分类器。 相似文献
14.
15.
垂直搜索引擎的主题搜索策略有基于内容评价的搜索策略和基于Web链接分析的搜索策略,其中HITS算法是一种经典的基于Web链接分析的搜索策略,其主要的缺点是容易发生主题漂移。为了最大程度地避免主题漂移,提出了一种结合网页文本分析和扩散速率改进的F-HITS算法。实验结果表明,这些改进不仅节省了系统的开销,并且提高了页面搜索的准确率。 相似文献
16.
搜索引擎返回的结果太多且不能根据用户的兴趣提供检索结果是当前较受关注的问题。把用户兴趣模型和STC聚类算法相结合,提出了改进的STC算法,并提出个性化推荐的策略和兴趣描述更新的方法,实现了一个基于搜索结果的个性化推荐系统(SRPRS)。SRPRS基于改进的STC算法自动组织搜索结果,帮助用户利用主题的方式发现所需的资源。通过实验,分析了SRPRS系统的聚类特性和时间特性。针对搜索引擎的列表显示结果,SRPRS系统在快速查找用户感兴趣的文档上有较好的性能。 相似文献
17.
随着网络的普及,网上检索成为了人们获取信息的主要方式。目前的搜索引擎相对独立,覆盖范围比较有限。相比之下,元搜索能够更好地满足用户的检索需求。当用户在元搜索提供的统一界面中输入一个查询时,元搜索会将处理后的用户请求发送给相关的成员搜索引擎。但是一个重要的问题是如何识别出潜在的搜索引擎以便更好地处理用户的请求。鉴于此提出了一种基于遗传算法的选择机制,该方法将各个成员搜索引擎的权重考虑在内。实验结果表明,该方法确实能够提高引擎选择中的效率和精度。 相似文献
18.
搜索结果的可靠性是影响广大网民使用搜索引擎的一项重要指标。在开源 OPIC 算法的基础上,提出了TS 算法,该算法通过基于索引属性的改进,加入网页的创建时间和网页深度两个属性,使得网页的评分不仅仅局限于网页的链接,实现了网页评分因素的多元化。而网页最后的排序分值在原有OPIC算法的基础上与网页创建时间成正比,与网页深度成反比,有效改善了OPIC算法偏重历史网页的缺点,使搜索结果更加合理。最后,对TS算法进行效果演化,经过与传统搜索结果的分析对比,显示本算法返回的结果具有更高的可靠性。 相似文献
19.
基于搜索历史的用户兴趣模型的研究 总被引:3,自引:0,他引:3
提出了一种新的基于搜索历史的用户兴趣模型,目的是解决现有搜索引擎很难考虑用户兴趣来实现用户个性化搜索以及用户兴趣很难更新的问题。提出了基于搜索历史的用户兴趣的表达方法和自动隐式学习算法。全面地描述了用户兴趣模型的建立及通过自动隐式学习算法不断更新、优化模型的处理过程,并给出了对模型的评价标准。 相似文献
20.
针对目前通用搜索引擎对林业主题信息覆盖率和查准率较低的不足,提出了一种基于Shark-Search算法的林业主题爬虫设计方案。详细讨论了该主题爬虫的爬行策略、算法描述及实现,并通过实践构建了林业主题搜索引擎"搜林"。实验结果表明,相对于通用搜索引擎,"搜林"减少了搜索结果的信息量,提高了林业主题信息搜索的准确率。 相似文献