首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
针对某一主题或学科的垂直搜索引擎是搜索引擎的延伸和细分,面向特定用户提供垂直搜索。网页排序算法是搜索引擎好坏的关键,搜索引擎网页排序算法的目的是从海量搜索结果中将主题相关和权威的网页排在前列,帮助用户查找所需的资源。 Nutch搜索引擎只实现了一个基本的综合排序模型,为了使Nutch更好地满足专业用户的需求,该文设计一个综合考虑主题相关性和网页权威性的综合排序模型,将主题相关度因子和改进后的PageRank算法因子融入到Nutch网页评分计算公式中。实验表明,改进的排序算法可以提高信息的查准率,具有明显的主题倾向性,在实际应用中发挥作用。  相似文献   

2.
针对目前一般文本搜索引擎采用的关键词匹配方法导致搜索效率相对低下的问题,在分析语义相关性的度量方案基础上,利用Wikipedia丰富链接结构所蕴涵信息,提出基于链接结构分析的主题搜索策略.设计了词条相关性算法,用以描述词间距离,并对词条进行相关度的重新排序.实验中引入用户评价机制,并与传统策略搜索结果进行对比.结果证明,该策略在扩大主题覆盖度的同时保证了较高的用户意图识别度.  相似文献   

3.
基于用户行为分析的搜索引擎模型   总被引:4,自引:0,他引:4  
介绍了目前搜索引擎技术发展的进展和研究热点.给出一种从用户点击的反馈信息中提取用户智能的搜索引擎算法.此算法首先给页面设置不同的内容相关度,再实测网页在不同内容相关度下的用户点击率,根据这组相关度和相应的用户点击率数据,可以由差商法或拟合直线法求得最佳的网页内容相关度,这样就可求出最终的索引相关度.实验表明该算法对提高搜索的稳定性和搜索精度有明显作用.  相似文献   

4.
为了提高元搜索引擎排序结果的质量,提出了成员引擎特征的主题Hub值表示和基于主题Hub值的结果排序算法.特征学习算法利用一组主题关联词对成员引擎的特征进行学习,并表示为主题Hub值的形式.排序算法根据主题Hub值计算结果的全局相关度对结果进行排序.实验结果表明,该模型取得了更好的排序质量.  相似文献   

5.
基于词频统计的个性化信息过滤技术   总被引:8,自引:0,他引:8  
对Internet信息进行过滤,筛选出与用户兴趣最相符的文档,是智能搜索引擎要解决的一个重要问题。本文在介绍搜索引擎其本原理的基础上,提出了一种文档学习和用户个性词典构建的实现方法,其中包括内码转换、分词、摘词处理、用户个性词典的构建及词条权值调整等环节。然后提出了一种基于词频统计的个性化文档过滤算法,该算法对传统的向量空间模型法做了改进,使之能够更好地计算文档与用户个性词典之间的相关度,根据用户的兴趣爱好对进行相关度的过滤、排序,并给出了实验数据。实验结果表明该方法较好地解决了智能搜索引擎中Internet信息过滤、排序的问题。  相似文献   

6.
摘要:提出了一种对象级搜索中领域无关的对象排序模型.给定对象集合以及对象间的关系,根据用户输入的对象查询,该模型按照对象与查询的相关度输出一个对象的排序表.采用一个多平面的图表示对象级搜索的空间,并基于该图分别提出了对象流行度评估算法、根据查询计算相关度的算法,以及合并多个对象查询的算法.针对ACM数据集上的实验结果表明该算法是有效的,在论文推荐与合并多对象查询方面,均取得了比PaperRank更好的结果.  相似文献   

7.
专业搜索引擎是一种为用户提供比通用搜索引擎更多、更精准的专业信息的搜索引擎。根据搜索引擎的工作原理,提出了一种基于元搜索的专业搜索引擎的设计框架;详细介绍了信息采集、中文分词、结果处理的实现技术;将神经网络与遗传算法相结合,对元搜索结果进行过滤及排序,进一步提高了专业搜索引擎的查询效率。  相似文献   

8.
针对通用搜索引擎在专业检索方面查准率低的问题,设计了基于Lucene和Nutch组件的服装专业搜索引擎.该系统结合专业词库对抓取的网页进行分词和专业相关度计算并进行网页过滤,依据改进的网页排序算法对结果进行排序.  相似文献   

9.
专业搜索引擎是一种为用户提供比通用搜索引擎更多、更精准的专业信息的搜索引擎。根据搜索引 擎的工作原理,提出了一种基于元搜索的专业搜索引擎的设计框架;详细介绍了信息采集、中文分词、结果处理的实 现技术;将神经网络与遗传算法相结合,对元搜索结果进行过滤及排序,进一步提高了专业搜索引擎的查询效率。  相似文献   

10.
大数据时代的到来,数据格式呈现多样化,对Web数据的处理不仅仅局限在网页链接上,还需要处理无链接结构的文档。如何从海量的文档中获取所需的信息是搜索引擎亟待解决的问题,目前传统的根据索引分析并不能满足这一需求。为了从数百万个结果中选取价值最高的文档子集,提出了新的DocumentRank算法,通过构建衡量文档重要性矩阵来计算查询相关度得分对文档进行排序。最后通过对互联网文档数据集搜索的实验说明,DocumentRank 算法相比Lucene索引技术提高了文档检索的精确度和综合相关度。  相似文献   

11.
针对实时垂直搜索引擎搜索对象热门度多变和数据抓取由查询驱动等问题,提出一种全新的实时垂直搜索引擎对象缓存优化策略.基于对象及属性间的关联设计热门对象预测模型,预测热门对象的变化趋势;基于用户查询及对象变化符合泊松过程的特点,推导最大化数据新鲜度的计算方法,从理论上给出资源分配和动态平衡的最优策略.大量的对比实验验证了新的缓存优化策略在较少开销增长的前提下,用户查询结果平均新鲜度和准确率均明显优于传统固定频率的缓存策略.  相似文献   

12.
目前,搜索引擎技术发展迅速.但从用户的使用效果来看,传统的搜索引擎技术功能基本相似,在具体实现上仍有待提高.从提升用户体验角度出发,解决传统搜索引擎的搜索结果不能体现类别信息,并且搜索过程没有相应的智能提示的问题.研究基于Nutch的检索技术的特性和应用方法,实现了企业级搜索引擎中的搜索结果自动聚类和查询补全技术.实验结果表明,结果聚类和查询补全技术有效地提升了搜索引擎的搜索体验,增强了系统的使用价值和智能性,系统可靠性高.  相似文献   

13.
Several users use metasearch engines directly or indirectly to access and gather data from more than one data sources. The effectiveness of a metasearch engine is majorly determined by the quality of the results and it returns and in response to user queries. The rank aggregation methods which have been proposed until now exploits very limited set of parameters such as total number of used resources and the rankings they achieved from each individual resource. In this work, we use the neural network to merge the score computation module effectively. Initially, we give a query to different search engines and the top n list from each search engine is chosen for further processing our technique. We then merge the top n list based on unique links and we do some parameter calculations such as title based calculation, snippet based calculation, content based calculation, domain calculation, position calculation and co-occurrence calculation. We give the solutions of the calculations with user given ranking of links to the neural network to train the system. The system then rank and merge the links we obtain from different search engines for the query we give. Experimentation results reports a retrieval effectiveness of about 80%, precision of about 79% for user queries and about 72% for benchmark queries. The proposed technique also includes a response time of about 76 ms for 50 links and 144 ms for 100 links.  相似文献   

14.
为了解决微博检索面临的"用户查询"和"相关文档"都是极端短文本的情况,及由此造成的检索性能欠佳的难题,研究并实现了一种微博检索结果的二次重排算法,基于微博内容相似关系构建关系图模型,利用PageRank算法对微博检索结果进行二次排序.比较了基于余弦相似度、戴斯系数、单向戴斯系数等文本内容相似度计算方法.实验结果表明:二次排序算法能够有效提升微博检索性能,同时图模型迭代性能与相关主题比例存在依存关系.有鉴于此,讨论通过决策树重排算法去除非相关主题对微博排序的影响.  相似文献   

15.
搜索引擎给信息检索带来很大的帮助,但是信息的查准率和个性化却很难保证,针对这些问题,提出了一种基于元搜索引擎的个性化信息检索系统.采用Agent技术构建系统,利用用户知识库建立和更新用户模型,对检索结果的向量空间模型算法结合用户知识库进行了改进.实验表明:系统对于查准率有一定的提高,可以满足用户的个性化需求.  相似文献   

16.
针对元搜索引擎中返回大量重复冗余信息导致结果显示代理负担加大、系统查准率降低的缺陷,结合Agent技术建立基于多Agent的元搜索引擎系统模型,从成员Agent的爬行能力值、检索文档与查询主题的相关度和查询响应时间三个方面综合衡量成员搜索引擎对于查询的重要度,并按降序排序,优先选择重要度最佳的若干成员搜索引擎进行智能调度和智能结果合成。实验结果表明,与传统元搜索引擎相比,这种基于奖励机制的智能元搜索引擎提高了检索效率和查询性能。  相似文献   

17.
由于目前的图像检索技术没有考虑壁画的构图学特征,缺乏对复杂语义的处理能力,难以满足古代壁画研究工作对检索全面性和准确性的要求.为提高古代壁画图像语义检索的质量,提出基于构图分析的相关度模型,通过引入基于绘画构图学的理论和分析方法,从壁画内容的布局、主题和语义三方面用量化方法描述检索语义与壁画内容的相关度,较好地解决了用户的真实检索意图与壁画内容间的“语义鸿沟”问题.该相关度评价模型可嵌入基于语义查询扩展的框架中,以提高Top N结果的准确率,同时维持了较高的查全率.敦煌壁画资料检索的实际应用表明:以反映前n个结果准确率的R-Precision为评测指标,基于构图分析的相关度评价方法可比未采用相关度评价的基线方法平均高出36%.  相似文献   

18.
针对传统的搜索引擎对于自然语言理解方面存在的问题,文章研究了一种新的基于自然语言处理技术和相似度计算的智能搜索引擎的模型.其核心技术是基于自然语言处理的中文分词技术、语义相似度和对立度等理论,将这些概念理论结合起来,从用户习惯的思考角度,结合DotLucene开源全文搜索引擎建立一个智能的搜索引擎.研究表明,该模型在对已经收录的文档有着86.1%的查准率.该智能搜索引擎较好的对查询语句的实现了理解,能够对用户的提问做出正确的回答.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号