首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
针对Google PageRank算法中存在的“平均分配原则”及网络链接结构所造成的“旧网页问题”、“主题漂移问题”,提出一种改进的网页排序算法N-PageRank.该算法通过对搜索日志进行数据挖掘,捕捉用户与搜索引擎之间的交互过程,发现隐藏在用户搜索行为背后的用户兴趣和搜索规律,利用用户行为反馈模型,分析网络日志里用户的各项行为特点,改善了排序结果的准确率,保证了搜索引擎的返回结果正是用户所希望看到的网页.实验证明该算法有效地降低了网页排序时的客观因素的影响,充分考虑了用户对于网页质量的评价,所得到的排序结果更加能够满足用户的需求.  相似文献   

2.
目前大部分搜索引擎对于用户查询返回结果的差异依赖于查询词.而实际上,即便查询词相同,不同的用户潜在的信息需求可能不同.搜索引擎并不能针对用户的特点提供个性化的服务,大多数返回的文档都是与用户的需求不相关的.提出"搜索系统错误的目标定位是导致用户体验不佳的根本原因".因此,设计一个面向用户的排序算法来解决个性化服务的问题是十分必要的.提出的面向用户排序算法将概率排序原则返回的原始列表重新排序,将用户兴趣向量作为列表重排的参数之一,使之能够向用户提供特定服务,满足用户潜在信息需求.通过分析用户的查询和浏览的文档,为用户建立并维护一个用户兴趣向量,以此作为面向用户排序的基础.实验证明了该方法具有更优的性能.  相似文献   

3.
基于用户兴趣的元搜索结果合成算法研究   总被引:1,自引:0,他引:1  
元搜索引擎将为用户提供更全面的搜索结果信息,但在庞大的搜索结果中快速找到自己感兴趣的结果并非易事.针对查询结果合成问题,提出了一种基于用户兴趣的结果合成方法,在摘要法计算用户查询与查询结果相关度的基础上引入了词条等级和用户兴趣,实现了元搜索引擎的个性化.通过程序实现此算法,分别与单个搜索引擎以及其他几种结果合成算法比较,证明此算法保证了搜索结果的查全率,又提高了查准率,大大改善了用户检索效果和效率.  相似文献   

4.
vincent 《电脑》2005,(2):60-60
作为全球最大的网络搜索引擎.Google强大的搜索功能令我们折服。但Google并不满足于目前自身的搜索功能,于是再次推出了网页翻译、天气预报查询、中英文词典等五大新功能。为求打造无人匹敌的网络搜索引擎。令用户可以更方便、更快的搜索到所需要的信息。  相似文献   

5.
随着互联网海量信息的不断涌现,根据用户的兴趣提供相关查询结果,是现有搜索引擎要考虑的一个问题,PageRank算法是基于链接的排序算法,已在Google搜索引擎广泛应用,但其忽略了用户个性化需求。采用网页预分类技术,来表示用户查询的兴趣度,进一步提出改进传统的PageRank算法,从而能适当提高用户在使用搜索引擎方面的个性化需求。  相似文献   

6.
对查询词进行扩展是为了进一步理解用户的搜索意图,使得搜索引擎返回更加准确的信息。已有的方法主要研究如何寻找与查询词相似的词,然而相似的户的词并一定能真正反映用意图。从网络知识库中抽取查询词的待扩展词,并利用通用搜索引擎对待扩展词进行排序,这样的查询词扩展方法充分利用了网络群体智慧,使得扩展词更加贴近用户的搜索期望。通过进行实验对比发现,该方法有较好的结果。  相似文献   

7.
王忠民  霍艺伟  邓万宇 《计算机科学》2013,40(9):182-184,189
与传统搜索相比,移动搜索对位置、温度、速度等环境信息更为敏感.为了有效利用环境信息推断用户查询意图,提出了一种基于环境信息的查询扩展方法并应用在移动搜索系统Clever Search Engine(CSE)中.该方法利用专家系统对分词后的查询词和收集到的用户环境信息进行推理和融合,扩展查询词,实现个性化搜索.实验证明,基于环境信息的移动搜索个性化查询扩展方法能有效改善移动用户的搜索体验,比现有的公共搜索引擎(如Google)具有更高的查准率.  相似文献   

8.
个性化的社会标签查询扩展技术研究   总被引:1,自引:0,他引:1       下载免费PDF全文
随着互联网上的信息日益增长,个性化的搜索需求越来越迫切,由于用户兴趣的不同和行为的差异,如何为不同的用户提供不同的检索结果成为一个具有挑战性的问题。首先对现有搜索引擎的个性化信息检索和查询扩展技术进行了分类总结,分析了它们各自的优缺点。然后提出了基于社会化标签的个性化查询词扩展方法。这些方法通过从用户所收藏的社会化标签或标签所对应的网页中提取出和用户查询词相关的词,来对用户的初始查询进行扩展。最后利用Delicious网站上的用户数据,对比研究了这几种个性化查询扩展算法。通过与Google进行对比分析实验,结果表明所提出的社会化标签的个性化查询词扩展方法能够较好地满足用户的个性化需求,检索结果比Google的检索结果更接近用户需求。  相似文献   

9.
冯振明 《微机发展》2006,16(7):82-84
搜索引擎技术的发展是随着电子技术不断进步而形成的信息数字化和数据网络化的必然产物。一个出色的搜索引擎能够及时向用户提供所需要的信息,而要做到这点就需要一个快速、优质、高效的搜索算法予以支持。Google搜索引擎依靠其PageRank机制及收敛算法一直处于该领域的领先地位。文中介绍了这个搜索引擎的核心:PageRank算法。PageRank算法通过计算网页的重要性值———PageRank值来确定网页排序的优先级,而网页的PageRank值则是通过累加指向该网页的其他网页的PageRank值得到的。因此Google的搜索结果是高效的、客观正确的。  相似文献   

10.
基于用户兴趣的个性化搜索系统研究   总被引:1,自引:0,他引:1  
针对目前常用搜索引擎在查询时返回结果数量巨大且杂乱无章的现象,在Web客户端为实现对用户的个性化信息服务设计了一种基于用户兴趣的搜索系统。利用用户的兴趣对于用户提出的搜索条件进行处理,再通过常用的搜索引擎进行查询,并将得到的结果进行二次排序,同时通过反馈信息不断更新用户的兴趣,以满足用户不断变化的需求。实验证明这样在保证了查全率的基础上,提高了查准率,从而提高了搜索效率。  相似文献   

11.
搜索引擎的索引库内容更新存在一定周期,目前在提供Web页面搜索服务时,搜索结果的排序没有考虑其索引资源的实时质量特征,难以满足用户搜索的多层次要求。提出了用户搜索体验质量模型,并把该模型应用于开源搜索引擎Nutch中。在提供搜索服务时,Nutch结合影响搜索体验质量的因素实现搜索结果的排序。实验给出了用户搜索体验质量变化情况,反应了这些因素对于搜索结果排序及用户搜索体验质量的重要性。该实验为下一步提升用户搜索体验质量,减少搜索引擎及网络传输能耗,进而实现搜索服务整体优化工作奠定了基础。  相似文献   

12.
In this article we first explain the knowledge extraction (KE) process from the World Wide Web (WWW) using search engines. Then we explore the PageRank algorithm of Google search engine (a well-known link-based search engine) with its hidden Markov analysis. We also explore one of the problems of link-based ranking algorithms called hanging pages or dangling pages (pages without any forward links). The presence of these pages affects the ranking of Web pages. Some of the hanging pages may contain important information that cannot be neglected by the search engine during ranking. We propose methodologies to handle the hanging pages and compare the methodologies. We also introduce the TrustRank algorithm (an algorithm to handle the spamming problems in link-based search engines) and include it in our proposed methods so that our methods can combat Web spam. We implemented the PageRank algorithm and TrustRank algorithm and modified those algorithms to implement our proposed methodologies.  相似文献   

13.
以Web 2.0中用户行为作为研究对象,通过发掘用户反馈方式,提出用户反馈分值的概念,对用户反馈影响搜索结果排名的具体方法以及相应实现进行研究,提出了一种基于神经网络的网页排序算法。该算法引入BP神经网络模型,根据用户反馈分值选择样本训练神经网络。将传统搜索结果输入到经过训练的神经网络进行计算,根据计算出的结果所表示的网页相关性强弱判断后进行二次排序。该算法利用了神经网络具有的模式识别能力,有效地将用户反馈和搜索引擎结合起来,使得搜索结果更加符合用户的搜索要求。  相似文献   

14.
基于Hive的海量搜索日志分析系统研究   总被引:2,自引:0,他引:2  
赵龙  江荣安 《计算机应用研究》2013,30(11):3343-3345
针对传统分布式模型在海量日志并行处理时的可扩展性和并行程序编写困难的问题, 提出了基于Hive的Web海量搜索日志分析机制。利用HQL语言以及Hadoop分布式文件系统(HDFS)和MapReduce编程模式对海量搜索日志进行分析处理, 对用户搜索行为进行了分析研究。对用户搜索行为中的查询热点主题、用户点击数和URL排名、查询会话的分析结果对于搜索引擎的排序算法和系统优化都有一定的指导意义。  相似文献   

15.
为提高校园网搜索引擎的查准率,提出一种新的校园网搜索引擎排序方法。该方法基于用户查询主题、用户浏览时间和页面点击等用户行为特征,计算新的页面相关度得分,改进搜索引擎的排序结果,为用户提供更准确的查询服务。实验结果表明,在不降低查全率的情况下,应用该排序方法的查准率有明显提高。  相似文献   

16.
针对传统的搜索引擎人工评价方法效率低、成本大的问题,提出一种利用用户点击日志来评价搜索引擎用户满意度的方法。通过分析搜索引擎的用户点击日志,选择网页搜索结果排名、网页点击率、网页平均浏览时间作为用户满意度特征,分别运用多元线性回归分析、多元对数回归分析和BP神经网络方法,建立了基于用户点击日志的搜索引擎用户满意度评价模型。结合具体的实验数据集,通过实验对线性回归模型、对数回归模型和BP神经网络模型的结果进行了比较与分析,验证了模型的有效性。  相似文献   

17.
Cellary  W. Wiza  W. Walczak  K. 《Computer》2004,37(5):87-89
The exponential growth in Web sites is making it increasingly difficult to extract useful information on the Internet using existing search engines. Despite a wide range of sophisticated indexing and data retrieval features, search engines often deliver satisfactory results only when users know precisely what they are looking for. Traditional textual interfaces present results as a list of links to Web pages. Because most users are unwilling to explore an extensive list, search engines arbitrarily reduce the number of links returned, aiming also to provide quick response times. Moreover, their proprietary ranking algorithms often do not reflect individual user preferences. Those who need comprehensive general information about a topic or have vague initial requirements instead want a holistic presentation of data related to their queries. To address this need, we have developed Periscope, a 3D search result visualization system that displays all the Web pages found in a synthetic, yet comprehensible format.  相似文献   

18.
PageRank is an algorithm for computing a ranking for every Web page based on the graph of the Web. It plays an important role in Google’s search engine. The core of the PageRank algorithm involves computing the principal eigenvector of the Google matrix. Currently, we need to solve PageRank problems with high damping factors, which cost considerable time. A possible approach for accelerating the computation is the Arnoldi-type algorithm. However, this algorithm may not be satisfactory when the damping factor is high and the dimension of the Krylov subspace is low. Even worse, it may stagnate in practice. In this paper, we propose two strategies to improve the efficiency of the Arnoldi-type algorithm. Theoretical analysis shows that the new algorithms can accelerate the original Arnoldi-type algorithm considerably, and circumvent the drawback of stagnation. Numerical experiments illustrate that the accelerated Arnoldi-type algorithms usually outperform many state-of-the-art accelerating algorithms for PageRank. Applications of the new algorithms to function predicting of proteins are also discussed.  相似文献   

19.
Modern search engines record user interactions and use them to improve search quality. In particular, user click-through has been successfully used to improve clickthrough rate (CTR), Web search ranking, and query recommendations and suggestions. Although click-through logs can provide implicit feedback of users’ click preferences, deriving accurate absolute relevance judgments is difficult because of the existence of click noises and behavior biases. Previous studies showed that user clicking behaviors are biased toward many aspects such as “position” (user’s attention decreases from top to bottom) and “trust” (Web site reputations will affect user’s judgment). To address these problems, researchers have proposed several behavior models (usually referred to as click models) to describe users? practical browsing behaviors and to obtain an unbiased estimation of result relevance. In this study, we review recent efforts to construct click models for better search ranking and propose a novel convolutional neural network architecture for building click models. Compared to traditional click models, our model not only considers user behavior assumptions as input signals but also uses the content and context information of search engine result pages. In addition, our model uses parameters from traditional click models to restrict the meaning of some outputs in our model’s hidden layer. Experimental results show that the proposed model can achieve considerable improvement over state-of-the-art click models based on the evaluation metric of click perplexity.  相似文献   

20.
张祥  瞿裕忠 《计算机科学》2008,35(2):196-200
网页排序算法的好坏很大程度上影响了万维网搜索引擎的用户体验.语义网为万维网带来了机器可理解的资源描述信息,也为搜索引擎带来了更大的挑战:搜索引擎的检索和排序的对象将不再局限于网页,而是包括了任何可以由URI唯一标识的对象,比如本体、本体中的词汇等等.本文介绍了语义网中不同的排序问题和目前已有的一些算法,并展望了语义网未来面临的排序问题和可能的解决方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号