首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 188 毫秒
1.
莫倩  张树  王芳 《计算机工程与应用》2012,48(21):112-117,150
传统的主题搜索技术难以适应大范围垂直领域的智能搜索需求,通过将主题搜索与语义搜索相关技术分别应用到搜索引擎的数据采集与智能查询过程中,利用基于层次分类模型的领域数据采集机器人,完成对领域信息的精准采集,基于中文百科资源自动构建领域本体,将大规模领域本体库用于搜索引擎的语义扩展推理中,实现了一个面向领域的智能搜索引擎。实验结果表明,基于层次结构的领域分类具有较高的分类准确率和召回率,与其他搜索引擎相比较,该系统具有领域专业性强、领域易于移植、检索更加智能等特点。  相似文献   

2.
郑晓健 《软件》2014,(3):4-5,8
本文将概念检索扩展到面向领域主题检索的范畴,提出了面向领域主题的智能检索模型。给出了概念语义网络和面向领域主题的形式化描述,利用概念语义网络实现领域主题的同义词及其语义蕴含扩展,并实现一个基于建筑业的面向领域主题的智能搜索引擎。  相似文献   

3.
随着互联网信息化的快速发展,网络求职人数不断增多,主题搜索引擎正成为新一代的主流搜索引擎。本文就面向毕业生求职帮助信息为主题的搜索引擎进行了研究,通过提出主题搜索引擎的关键技术,提出了求职帮助信息的搜索引擎的设计方案。  相似文献   

4.
基于众包的社交网络数据采集模型设计与实现   总被引:1,自引:0,他引:1  
社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题Deep Web爬虫系统4个模块。通过主题Deep Web爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题Deep Web爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。  相似文献   

5.
主题搜索引擎中网络爬虫的搜索策略研究   总被引:2,自引:0,他引:2       下载免费PDF全文
本文对主题搜索引擎中的网络蜘蛛搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上提出了一个面向主题搜索的网络蜘蛛模型,对模型的组织结构进行了详细阐述。作为主题网络蜘蛛搜索策略的核心部分,主题相关性判断算法是网络蜘蛛能够围绕设定主题进行聚焦检索的关键。在URL的主题相关性判别过程中引入了链接文本及相关链接属性分析,提出了一种新颖的URL主题相关性算法--EPR算法。  相似文献   

6.
《电子技术应用》2017,(6):118-121
股票市场是国家宏观经济环境的晴雨表。网民对股市评论观点在很大程度上反映了股市行情,也影响着股市涨跌。因此,通过网络文本情感极性分析技术和搜索引擎技术来挖掘网络股评观点是当前信息和金融学科的交叉研究课题热点之一。设计了一种融合全文搜索和观点挖掘的面向网络股评的垂直搜索引擎系统结构,提出了一种面向网络股评主题数据采集的定点收割算法和爬虫结构,并建立了一种网络股评的多粒度模糊计算的无监督情感极性分类方法,能实现股评观点的在线分析。通过对实现的垂直搜索引擎的测试表明,其在情感极性分类精度、爬虫数据采集效率、搜索引擎响应时间等性能指标上都能满足实际应用要求。  相似文献   

7.
随着Internet的快速发展,越来越多的用户提出与主题或者领域相关的查询需求,而传统通用搜索引擎已经无法满足这一需求。为了克服传统通用搜索引擎的不足,研究者提出面向主题的爬虫。首先给出主题网络爬虫的定义,接着提出主题爬虫的三个关键技术:抓取目标、网页搜索策略和网页主题相关性算法,最后给出主题爬虫在今后的一些研究方向。  相似文献   

8.
迅速发展的Web给传统的搜索引擎带来了前所未有的挑战,面向特定主题或特定领域采集相关信息的垂直搜索引擎应运而生。在垂直搜索引擎中,网络蜘蛛的爬行策略和主题相关性判定算法是其核心。该文详细介绍了一种主题相关性判定算法-Hits算法,并在此基础上提出了一个改进的主题相关性判定算法,实验表明,改进的Hits算法提高了爬取网页的主题相关度,有助于网络蜘蛛爬取特定主题的信息。  相似文献   

9.
曹建芳  王鸿斌 《计算机工程与设计》2007,28(9):2138-2141,2202
随着网络的发展,以及用户应用的不断变化,通用的搜索引擎已不能应对各种不同的检索请求.面向主题的搜集系统是针对一个主题,一类网页的搜集系统,即只搜集整个网络的一个特定子集.对目前采用的各种搜集算法进行了研究和评估,确定了一套面向主题的搜集算法.该算法是基于原有搜索引擎实现的,能够有效、准确的进行同主题搜索,根据实现的结果说明基于SVM和统计的面向主题搜集系统的优势所在及其发展的可能性.  相似文献   

10.
首先对社交网络相关机制应用于搜索引擎的研究背景做简单陈述,然后对现有社交化搜索算法按照应用环境的不同进行分类综述与分析,总结其优势、不足以及影响因素。进而提出限制社交化搜索研究发展的主要原因,展望未来开展社交化搜索的相关研究时应当重点关注的方向,着重讨论利用个性化推荐系统连结社交网络与搜索引擎的思想,以及搜索引擎合法获取社交数据的可行的模式。  相似文献   

11.
P2P全文搜索引擎中的路由算法   总被引:1,自引:1,他引:0       下载免费PDF全文
针对P2P全文搜索网络效率低和搜索等待时间长的问题,提出基于k-高频词主题相关性的搜索路由算法,该算法采用k-高频词表示主题,在主题间建立连接,形成主题相关网络。在该网络中,优先将搜索请求路由到拥有较多资源的节点上,从而用较少的时间和网络通信量搜索到较多资源。结果表明,相对于“简单洪泛”算法,该算法在搜索等待时间、减少网络通信量方面表现更优,具有更高的效率。  相似文献   

12.
传统搜索引擎是基于关键字的检索,然而文档的关键字未必和文档有关,而相关的文档也未必显式地包含此关键字。基于语义Web的搜索引擎利用本体技术,可以很好地对关键字进行语义描述。当收到用户提交的搜索请求时,先在已经建立好的本体库的基础上对该请求进行概念推理,然后将推理结果提交给传统的搜索引擎,最终将搜索结果返回给用户。相对于传统的搜索引擎,基于语义Web的搜索引擎有效地提高了搜索的查全率和查准率。  相似文献   

13.
为了高效地获取与主题相关的资源,就垂直搜索引擎展开了研究。首先,在现有的PageRank算法基础上,提出一种改进的PageRank算法来测量网页的链接相似度;其次,从单个网页考虑,利用每个网页的url、title和正文,给出基于内容的相似度的计算方法;最后结合内容相似度和链接相似度,提出了一种基于链接和内容的BLCT主题爬行算法。实验结果表明,该算法在平均收获率和目标召回率上有显著提高,爬行的网页主题相关性也提高了。  相似文献   

14.
张柳松 《微计算机信息》2007,23(33):237-238,230
由于传统的搜索引擎是基于关键词的检索,检索结果无论是在召回率还是在精确度上都不能令人满意,然而基于本体的智能检索系统是以概念语义为核心来实现信息检索,能改善传统的搜索引擎在语义理解方面的不足。  相似文献   

15.
关键词的分析和优化是搜索引擎优化中两个最繁重的环节.首先利用K-means算法简化对关键词的分析,并在此基础上提出基于关键词效能和价值率的网站优化策略,最后给出应用实例.该方法能快速提升网站关键词的排名并带来一定的访问量,适用于各类企业网站.  相似文献   

16.
Abstract: Content analysis of search engine user queries is an important task, since successful exploitation of the content of queries can result in the design of efficient information retrieval algorithms for more efficient search engines. Identification of topic changes within a user search session is a key issue in content analysis of search engine user queries. This study proposes an artificial neural network application in the area of search engine research to automatically identify topic changes in a user session by using statistical characteristics of queries, such as time intervals and query reformulation patterns. Sample data logs from the FAST and Excite search engines are selected to train the neural network and then the neural network is used to identify topic changes in the data log. As a result, almost all the performance measures yielded favourable results.  相似文献   

17.
朱卫星  徐伟光  何红悦  李雯 《计算机科学》2017,44(Z11):411-413, 456
文本数据是存储和交换信息最自然的方式,文本挖掘技术可以发现海量文本数据中隐藏的潜在知识模式。研究了文本数据主题挖掘与关联搜索技术,首先通过文本解析提取、分词预处理和索引等进行文本信息处理,然后利用基于潜在语义关系的主题发现模型挖掘大量文本数据中隐藏的主题信息,最后利用主题模型计算关键词间的关联程度进行查询扩展,从而实现关联搜索。实现了一个文本数据挖掘与关联搜索的原型系统,对Tancorp数据集进行主题发现和关联搜索,并以视化和网页同步显示关联搜索的过程。  相似文献   

18.
Expertise Oriented Search (EOS) aims at providing comprehensive expertise analysis on data from distributed sources. It is useful in many application domains, for example, finding experts on a given topic, detecting the confliction of interest between researchers, and assigning reviewers to proposals. In this paper, we present the design and implementation of our expertise oriented search system, Arnetminer (). Arnetminer has gathered and integrated information about a half-million computer science researchers from the Web, including their profiles and publications. Moreover, Arnetminer constructs a social network among these researchers through their co-authorship, and utilizes this network information as well as the individual profiles to facilitate expertise oriented search tasks. In particular, the co-authorship information is used both in ranking the expertise of individual researchers for a given topic and in searching for associations between researchers. We have conducted initial experiments on Arnetminer. Our results demonstrate that the proposed relevancy propagation expert finding method outperforms the method that only uses person local information, and the proposed two-stage association search on a large-scale social network is order of magnitude faster than the baseline method.  相似文献   

19.
In this paper we address the issue of continuous keyword queries on multiple textual streams and explore techniques for extracting useful information from them. The paper represents, to our best knowledge, the first approach that performs keyword search on a multiplicity of textual streams. The scenario that we consider is quite intuitive; let’s assume that a research or financial analyst is searching for information on a topic, continuously polling data from multiple (and possibly heterogeneous) text streams, such as RSS feeds, blogs, etc. The topic of interest can be described with the aid of several keywords. Current filtering approaches would just identify single text streams containing some of the keywords. However, it would be more flexible and powerful to search across multiple streams, which may collectively answer the analyst’s question. We present such model that takes in consideration the continuous flow of text in streams and uses efficient pipelined algorithms such that results are output as soon as they are available. The proposed model is evaluated analytically and experimentally, where the Enron dataset and a variety of blog datasets are used for our experiments.  相似文献   

20.
随着云计算的发展,以密文检索为核心技术的安全搜索问题日益成为国内外研究的热点.为了提高密文检索方案的安全性,提出了基于倒排索引的可验证混淆关键字密文检索方案.首先,在构建陷门时插入混淆关键字抵抗恶意云服务器的关键字攻击,同时引入数据缓存区,利用Pailliar加密技术对包含混淆关键字搜索结果进行盲计算,过滤掉包含目标关键字以外的密文数据,减少通信开销;其次,利用双线性映射生成标签验证搜索结果,并对方案在正确性、安全性和可靠性这3个方面进行了验证.在真实数据集上进行反复实验,理论分析和实验结果表明,该方案在保证检索效率的同时,比现有的密文检索方案有效地提高了密文检索的安全性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号