首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 781 毫秒
1.
为了满足搜索引擎系统日益增长的高质量检索需求,针对Nutch搜索引擎框架没有实现Google的PageR-ank网页排序算法,分析了PageRank算法,并通过实验验证了PageRank算法的有效性,成功搭建Hadoop分布式集群,在Nutch框架中基于MapReduce分布式编程模式编码实现PageRank算法。实验结果表明,在Nutch搜索引擎系统中实现了PageRank算法后,系统的检索具有更高的准确率,能够更好地为用户提供检索服务。  相似文献   

2.
在研究垂直搜索引擎的设计思想、相关技术的基础上,利用Nutch开源框架设计实现了节能减排垂直搜索引擎的设计,支持了对节能减排相关信息的检索服务。系统采用网页模板技术对网页信息进行提取,采用改进的TF-IDF算法提取特征词,利用基于特征词的向量空间模型进行主题相关性判定,利用朴素贝叶斯算法对网页信息进行分类。  相似文献   

3.
针对通用搜索引擎在专业检索方面查准率低的问题,设计了基于Lucene和Nutch组件的服装专业搜索引擎.该系统结合专业词库对抓取的网页进行分词和专业相关度计算并进行网页过滤,依据改进的网页排序算法对结果进行排序.  相似文献   

4.
为提高搜索引擎的查准率,提出了一种基于群用户兴趣模型的加权全局相关度查询排序算法。算法综合考虑了用户搜索意图与搜索结果的全局相关度,改进了搜索引擎的排序结果,为用户提供了准确的搜索服务。实验结果表明,与用户意图相关的搜索结果能够排在最前面,搜索准确率明显提高。  相似文献   

5.
目的 针对目前国内房产信息资源比较分散特点,研究房产信息垂直搜索引擎的建立模式与实现技术.方法 应用Lucene与Nutch平台以及垂直搜索引擎技术,开发具有市场应用价值的房产信息垂直搜索引擎.结果 设计建立了包含网页抓取模块、网页解析模块、数据库存储模块、索引建立模块、查询模块组成的房产信息垂直搜索引擎.结论 该房产信息垂直搜索引擎可为用户提供房源信息、房产新闻和数据的检索、查询与分析等服务.相比其他搜索引擎在搜索结果方面精度提高一倍,在运作成本方面仅为其他搜索引擎运作成本的1/2,搜索速度方面相比其他搜索引擎提高20%.  相似文献   

6.
为解决信息检索时不同用户对搜索结果有不同期望的问题,提出了一种基于向量空间模型的个性化网页搜索算法。针对用户不同兴趣,利用用户画像能够更加全面地表示用户兴趣的特点,通过向量空间模型建立用户画像来表达用户兴趣,结合传统的网页排序算法得出最终的网页排序结果。对于不同用户可得到不同的网页搜索结果,排序靠前的网页中符合用户兴趣的网页数量增多。通过对模拟网页搜索实验结果的分析,证明所提算法较传统PageRank算法在个性化网页搜索方面有所提高。  相似文献   

7.
目前,搜索引擎以整张网页作为最小处理单位进行排序处理,容易受到噪音信息的干扰.针对存在的问题,提出用网页分块对网页净化,进而利用净化结果改进传统的排序算法.首先,用基于视觉的网页分块算法VIPS将网页分成若干语义块,然后通过设定规则保留网页中与主题相关度高的语义块,最后用这些语义块代表整个网页参与检索,减少网页噪音对搜索引擎排序算法正确性的影响,实现了检索质量的改进.最后通过实验证明了改进算法的优越性.  相似文献   

8.
传统的PageRank算法容易导致主题漂移、偏重旧网页、用户对搜索结果的主观选择被忽略等问题。针对PageRank算法存在的上述缺陷,提出了一种基于用户兴趣度的网页排序算法——PRUI算法。该算法主要从网页自身的客观特性和用户兴趣的主观特性两方面对网页的PR值进行重新估算,并依据估算后的网页PR值对网页做重排序。相比传统的PageRank算法,改进的PRUI算法进一步提高了系统检索的准确率和首页命中率。  相似文献   

9.
主题搜索ROBOT综合爬行策略的研究   总被引:6,自引:0,他引:6  
在分析、评价常用主题搜索ROBOT爬行策略的基础上,将三重过滤技术与改进的Shark启发式搜索算法相结合,设计了自动主题搜索引擎ROBOT的综合爬行策略。由于综合爬行策略在爬行中兼顾了网页的相关性、主题精度和网页质量,因此应用综合爬行策略在Web上下载主题相关网页时,既可利用链接分析扩大某个主题的资源覆盖度,又可保证搜索结果与主题高度相关。  相似文献   

10.
基于概率的PageRank改进算法   总被引:1,自引:0,他引:1  
通过研究和分析传统的PageRank算法及其不足,在基于用户点击网页内的各个链接的概率是不均等的情况下,提出一种基于概率的PageRank改进算法,该算法可以用于领域搜索引擎的主题相关度预测,可以有效地避免主题漂移现象.  相似文献   

11.
为解决站内搜索引擎页面和用户之间的交互性,用公用网关接口技术CGI完成动态网页的制作。由Web浏览器提交搜索引擎页面的查询语句给web服务器后,Web服务器调用搜索程序,把检索到的相关结果再回传给web服务器和web浏览器,通过CGI技术成功实现了浏览器和可执行程序之间的动态交互性,达到用户快速获得查询信息的目标。系统介绍了用CGI程序实现搜索引擎页面的提交和编码转换处理的实施步骤。实验表明,用C语言编写的CGI脚本程序能够很好的实现用户和页面的交互性。  相似文献   

12.
由于网络资源的复杂性,通用搜索引擎已经不能满足用户信息检索的准确性需要;为了满足并针对特定领域或特定主题查询的特定用户群的要求,专业搜索引擎技术成为目前信息检索领域内一个具有实用价值的研究热点。针对专业搜索引擎,在分析了网页评测的基本问题和方法的前提下,提出了一种基于H ITS“综合价值”评价的改进算法。  相似文献   

13.
针对元搜索的重复网页问题,提出基于元搜索的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的结果网页的URL进行比较,然后对各结果网页的标题进行有关处理,提取出网页的主题信息,再对摘要进行分词,计算摘要的相似度,三者结合能很好的检测出重复网页,实现网页去重。该算法有效,并且比以往算法有明显的优势,更接近人工统计结果。  相似文献   

14.
目前,搜索引擎技术发展迅速.但从用户的使用效果来看,传统的搜索引擎技术功能基本相似,在具体实现上仍有待提高.从提升用户体验角度出发,解决传统搜索引擎的搜索结果不能体现类别信息,并且搜索过程没有相应的智能提示的问题.研究基于Nutch的检索技术的特性和应用方法,实现了企业级搜索引擎中的搜索结果自动聚类和查询补全技术.实验结果表明,结果聚类和查询补全技术有效地提升了搜索引擎的搜索体验,增强了系统的使用价值和智能性,系统可靠性高.  相似文献   

15.
为了在浩如烟海的Web信息中更快地找到用户关心的信息,提出了一种主题爬行方法——MatchLink,它通过文档向量模型来评估网页链接的主题相关度,通过朴素贝叶斯算法和多层分类的方法计算链接所在网页的主题相关度,并根据这2个相关度优先下载主题相关的页面,实验表明其结果好于BestFirst和BreadthFirst。  相似文献   

16.
基于分类语义的Web信息检索系统   总被引:2,自引:0,他引:2  
在海量数据空间中快速、准确地获取用户所需Web信息成为检索系统研究的焦点.将一种全新的网页自动分类技术引入WWW信息抽取领域来解决网上信息有效获取的问题。设计一个基于分类语义的搜索引擎系统——SESC系统.通过Web数据抽取机制以及Web信息分类技术实现检索结果的分类和层次化展示,使得用户快捷地从WWW上获取所需信息.  相似文献   

17.
针对传统网页分类中存在的准确率和查全率不高、分类效率低的情况,提出一种基于朴素贝叶斯分类的网页预分类算法.算法根据用户的网上活动情况提取相关网址,分析网页内容和网页关键词,利用朴素贝叶斯分类算法进行分类,根据用户对各类网页的浏览情况分析用户的行为特征.采用改进的文本权值计算方法,并引进网址预分类机制,提高数据的处理效率以及分类的准确率.结果表明,网址分类算法准确,能够充分发掘用户的兴趣喜好,可以作为用户行为分析的数据算法进行商业推广和司法取证.  相似文献   

18.
基于内容的名人网页褒贬性评价   总被引:1,自引:0,他引:1  
在已有基本褒贬义词典的基础上构建了一种可用于名人网页褒贬性评价的褒贬义词典,着重论述了网页褒贬性评价的模型、方法及工作流程,并提出了通过评价模板实现词典更新的初步构想。本系统基本实现了网页内褒贬词语的标注,并对部分名人网页进行褒贬性评价测试,取得了初步的成效。网页的褒贬评价可以嵌入到搜索引擎中,提供进一步的个性化服务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号