共查询到20条相似文献,搜索用时 188 毫秒
1.
传统的主题搜索技术难以适应大范围垂直领域的智能搜索需求,通过将主题搜索与语义搜索相关技术分别应用到搜索引擎的数据采集与智能查询过程中,利用基于层次分类模型的领域数据采集机器人,完成对领域信息的精准采集,基于中文百科资源自动构建领域本体,将大规模领域本体库用于搜索引擎的语义扩展推理中,实现了一个面向领域的智能搜索引擎。实验结果表明,基于层次结构的领域分类具有较高的分类准确率和召回率,与其他搜索引擎相比较,该系统具有领域专业性强、领域易于移植、检索更加智能等特点。 相似文献
2.
本文将概念检索扩展到面向领域主题检索的范畴,提出了面向领域主题的智能检索模型。给出了概念语义网络和面向领域主题的形式化描述,利用概念语义网络实现领域主题的同义词及其语义蕴含扩展,并实现一个基于建筑业的面向领域主题的智能搜索引擎。 相似文献
3.
随着互联网信息化的快速发展,网络求职人数不断增多,主题搜索引擎正成为新一代的主流搜索引擎。本文就面向毕业生求职帮助信息为主题的搜索引擎进行了研究,通过提出主题搜索引擎的关键技术,提出了求职帮助信息的搜索引擎的设计方案。 相似文献
4.
基于众包的社交网络数据采集模型设计与实现 总被引:1,自引:0,他引:1
社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题Deep Web爬虫系统4个模块。通过主题Deep Web爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题Deep Web爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。 相似文献
5.
本文对主题搜索引擎中的网络蜘蛛搜索策略进行了详细的分析,在深入分析主题页面在Web上的分布特征与主题相关性判别算法的基础上提出了一个面向主题搜索的网络蜘蛛模型,对模型的组织结构进行了详细阐述。作为主题网络蜘蛛搜索策略的核心部分,主题相关性判断算法是网络蜘蛛能够围绕设定主题进行聚焦检索的关键。在URL的主题相关性判别过程中引入了链接文本及相关链接属性分析,提出了一种新颖的URL主题相关性算法--EPR算法。 相似文献
6.
《电子技术应用》2017,(6):118-121
股票市场是国家宏观经济环境的晴雨表。网民对股市评论观点在很大程度上反映了股市行情,也影响着股市涨跌。因此,通过网络文本情感极性分析技术和搜索引擎技术来挖掘网络股评观点是当前信息和金融学科的交叉研究课题热点之一。设计了一种融合全文搜索和观点挖掘的面向网络股评的垂直搜索引擎系统结构,提出了一种面向网络股评主题数据采集的定点收割算法和爬虫结构,并建立了一种网络股评的多粒度模糊计算的无监督情感极性分类方法,能实现股评观点的在线分析。通过对实现的垂直搜索引擎的测试表明,其在情感极性分类精度、爬虫数据采集效率、搜索引擎响应时间等性能指标上都能满足实际应用要求。 相似文献
7.
赵强 《电脑与微电子技术》2014,(2):19-22
随着Internet的快速发展,越来越多的用户提出与主题或者领域相关的查询需求,而传统通用搜索引擎已经无法满足这一需求。为了克服传统通用搜索引擎的不足,研究者提出面向主题的爬虫。首先给出主题网络爬虫的定义,接着提出主题爬虫的三个关键技术:抓取目标、网页搜索策略和网页主题相关性算法,最后给出主题爬虫在今后的一些研究方向。 相似文献
8.
陈丽萍 《数字社区&智能家居》2009,(29)
迅速发展的Web给传统的搜索引擎带来了前所未有的挑战,面向特定主题或特定领域采集相关信息的垂直搜索引擎应运而生。在垂直搜索引擎中,网络蜘蛛的爬行策略和主题相关性判定算法是其核心。该文详细介绍了一种主题相关性判定算法-Hits算法,并在此基础上提出了一个改进的主题相关性判定算法,实验表明,改进的Hits算法提高了爬取网页的主题相关度,有助于网络蜘蛛爬取特定主题的信息。 相似文献
9.
随着网络的发展,以及用户应用的不断变化,通用的搜索引擎已不能应对各种不同的检索请求.面向主题的搜集系统是针对一个主题,一类网页的搜集系统,即只搜集整个网络的一个特定子集.对目前采用的各种搜集算法进行了研究和评估,确定了一套面向主题的搜集算法.该算法是基于原有搜索引擎实现的,能够有效、准确的进行同主题搜索,根据实现的结果说明基于SVM和统计的面向主题搜集系统的优势所在及其发展的可能性. 相似文献
10.
首先对社交网络相关机制应用于搜索引擎的研究背景做简单陈述,然后对现有社交化搜索算法按照应用环境的不同进行分类综述与分析,总结其优势、不足以及影响因素。进而提出限制社交化搜索研究发展的主要原因,展望未来开展社交化搜索的相关研究时应当重点关注的方向,着重讨论利用个性化推荐系统连结社交网络与搜索引擎的思想,以及搜索引擎合法获取社交数据的可行的模式。 相似文献
11.
12.
传统搜索引擎是基于关键字的检索,然而文档的关键字未必和文档有关,而相关的文档也未必显式地包含此关键字。基于语义Web的搜索引擎利用本体技术,可以很好地对关键字进行语义描述。当收到用户提交的搜索请求时,先在已经建立好的本体库的基础上对该请求进行概念推理,然后将推理结果提交给传统的搜索引擎,最终将搜索结果返回给用户。相对于传统的搜索引擎,基于语义Web的搜索引擎有效地提高了搜索的查全率和查准率。 相似文献
13.
为了高效地获取与主题相关的资源,就垂直搜索引擎展开了研究。首先,在现有的PageRank算法基础上,提出一种改进的PageRank算法来测量网页的链接相似度;其次,从单个网页考虑,利用每个网页的url、title和正文,给出基于内容的相似度的计算方法;最后结合内容相似度和链接相似度,提出了一种基于链接和内容的BLCT主题爬行算法。实验结果表明,该算法在平均收获率和目标召回率上有显著提高,爬行的网页主题相关性也提高了。 相似文献
14.
由于传统的搜索引擎是基于关键词的检索,检索结果无论是在召回率还是在精确度上都不能令人满意,然而基于本体的智能检索系统是以概念语义为核心来实现信息检索,能改善传统的搜索引擎在语义理解方面的不足。 相似文献
15.
16.
Abstract: Content analysis of search engine user queries is an important task, since successful exploitation of the content of queries can result in the design of efficient information retrieval algorithms for more efficient search engines. Identification of topic changes within a user search session is a key issue in content analysis of search engine user queries. This study proposes an artificial neural network application in the area of search engine research to automatically identify topic changes in a user session by using statistical characteristics of queries, such as time intervals and query reformulation patterns. Sample data logs from the FAST and Excite search engines are selected to train the neural network and then the neural network is used to identify topic changes in the data log. As a result, almost all the performance measures yielded favourable results. 相似文献
17.
18.
Juanzi LI Jie TANG Jing ZHANG Qiong LUO Yunhao LIU Mingcai HONG 《Frontiers of Computer Science in China》2008,2(1):94-105
Expertise Oriented Search (EOS) aims at providing comprehensive expertise analysis on data from distributed sources. It is
useful in many application domains, for example, finding experts on a given topic, detecting the confliction of interest between
researchers, and assigning reviewers to proposals. In this paper, we present the design and implementation of our expertise
oriented search system, Arnetminer (). Arnetminer has gathered and integrated information about a half-million computer science researchers from the Web, including
their profiles and publications. Moreover, Arnetminer constructs a social network among these researchers through their co-authorship,
and utilizes this network information as well as the individual profiles to facilitate expertise oriented search tasks. In
particular, the co-authorship information is used both in ranking the expertise of individual researchers for a given topic
and in searching for associations between researchers. We have conducted initial experiments on Arnetminer. Our results demonstrate
that the proposed relevancy propagation expert finding method outperforms the method that only uses person local information,
and the proposed two-stage association search on a large-scale social network is order of magnitude faster than the baseline
method. 相似文献
19.
In this paper we address the issue of continuous keyword queries on multiple textual streams and explore techniques for extracting useful information from them. The paper represents, to our best knowledge, the first approach that performs keyword search on a multiplicity of textual streams. The scenario that we consider is quite intuitive; let’s assume that a research or financial analyst is searching for information on a topic, continuously polling data from multiple (and possibly heterogeneous) text streams, such as RSS feeds, blogs, etc. The topic of interest can be described with the aid of several keywords. Current filtering approaches would just identify single text streams containing some of the keywords. However, it would be more flexible and powerful to search across multiple streams, which may collectively answer the analyst’s question. We present such model that takes in consideration the continuous flow of text in streams and uses efficient pipelined algorithms such that results are output as soon as they are available. The proposed model is evaluated analytically and experimentally, where the Enron dataset and a variety of blog datasets are used for our experiments. 相似文献
20.
随着云计算的发展,以密文检索为核心技术的安全搜索问题日益成为国内外研究的热点.为了提高密文检索方案的安全性,提出了基于倒排索引的可验证混淆关键字密文检索方案.首先,在构建陷门时插入混淆关键字抵抗恶意云服务器的关键字攻击,同时引入数据缓存区,利用Pailliar加密技术对包含混淆关键字搜索结果进行盲计算,过滤掉包含目标关键字以外的密文数据,减少通信开销;其次,利用双线性映射生成标签验证搜索结果,并对方案在正确性、安全性和可靠性这3个方面进行了验证.在真实数据集上进行反复实验,理论分析和实验结果表明,该方案在保证检索效率的同时,比现有的密文检索方案有效地提高了密文检索的安全性. 相似文献