首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 182 毫秒
1.
针对通用搜索引擎存在搜索不够快速、不够深入、不够准确的缺点,本文设计并实现了旅游信息搜索网络蜘蛛,给出了该网络蜘蛛对旅游网页的主题相关度进行预测和判断的算法.该算法保证了网络蜘蛛只采集旅游主题相关的网页,使得垂直搜索引擎在查询的准确率和效率上都有显著地提高.最后通过实现一个旅游信息垂直搜索系统,给出了其信息搜集模块、信息处理模块和信息搜索模块的设计与实现.  相似文献   

2.
网络竞争情报主题采集技术研究   总被引:2,自引:0,他引:2  
文章设计与实现了一种网络竞争情报的主题采集系统。该系统在进行主题预测时采用的基于改进的朴素贝叶斯算法提高了主题判断准确率,在进行链接预测时采用的基于规则与锚文本主题相似度结合的算法,避免了URL锚文本较短和噪声的问题。与宽度优先的采集技术相比,通过实验验证该方法具有明显的优越性。  相似文献   

3.
多相关主题的主题文本资源相关度算法研究   总被引:1,自引:0,他引:1  
主题图作为一种新型的信息资源整合工具,在数字资源整合领域有着广泛的应用前景.主题图中资源与主题间的相关度在一定程度上反映了资源与用户查询需求间的相关程度.基于此,本文提出了一种主题文本资源间相关度算法,主要从资源本身及用户动态使用行为两方面深入分析.相关算例试验结果表明,该算法相对稳定,整体上对文本资源排序的效果较好.  相似文献   

4.
主要介绍了设计开发Web主题信息采集系统的一个核心算法——超链接主题预测算法。文章在已有理论的基础上,通过实验分析,发现超链接的主题主要取决于三个因素:父网页的主题相关度、锚文本的主题相关度和Web子图的链接结构特性,从而提出了基于Web页面内容和链接结构的超链接主题预测算法,系统评价结果显示该算法有很好的效果。  相似文献   

5.
本篇论文以去除网页噪声,整合网页内容为目标,提出了面向主题型网页,根据网页规划布局抽取网页内容的方法.算法首先分析原始网页的DOM结构生成标签树,再根据标签分类和对应节点的信息对标签树自底向上进行划分,并依据划分块的文字密度,链接密度及图片密度,分类信息块.进一步,提炼网页主题的文本特征向量,采用基于词条空间的文本相似度计算,获取划分块的主题相关度,以主题相关度为量化基准剔除噪声,识别网页主旨内容,重构页面描述.这一算法被应用于面向人才资讯的信息采集项目中,实验表明,算法适用于主题型网页的"去噪"及内容提取,具体应用中有较理想的表现.  相似文献   

6.
本文重点探讨基于编辑距离的网页相似度算法在Web 抽取系统中的应用与实现.通过结合基于URL 及编辑距离的网页结构相似度的计算方法,抽取系统在抽取过程中能够检测网页结构的变化,从而主动做出判断,选择适应规则进行抽取或通过主动学习自动扩展规则库.结构相似度计算赋予系统感知网页结构变化的能力,系统通过主动自我更新与调整,能更好地适应面向实际应用的异构资源的获取.算法的可行性和效率在原型系统中得以验证.  相似文献   

7.
专业搜索引擎的排序算法研究   总被引:5,自引:0,他引:5  
探讨影响搜索引擎排序的一般性因素:词频和词位置信息、用户行为信息、网页之间的链接信息等,在此基础上针对专业搜索引擎的排序算法,提出主题相关度并结合基础教育搜索引擎进行实验。实验结果表明,专业搜索引擎中主题相关度的适当应用能明显改善排序结果。  相似文献   

8.
个性化服务中基于支持向量机的用户兴趣挖掘分析   总被引:2,自引:1,他引:1  
用户兴趣的准确获取是保证个性化服务质量的关键;分析用户所浏览的网页集,捕获用户兴趣、建立用户兴趣挖掘模型是目前个性化服务研究的一个重要方向.本文首先比较支持向量机与其他分类算法的性能,分析了基于支持向量机进行用户兴趣挖掘的可行性;然后在介绍支持向量机分类原理和分析分类预测理论模型的基础上构建了用户兴趣挖掘模型;最后选取中文网页分类训练集和特定用户的网页浏览记录,主要从支持向量机分类器的构造和用户兴趣预测两个方面进行了模型的实现研究.  相似文献   

9.
[目的/意义]针对目前从开源网络信息中采集网络恐怖信息难、采集效率低的问题,提出一种回归分析法,以综合语义相关与网页重要性两个因素,从而提高网络恐怖信息的采集效率。[方法/过程]通过分析、比较主题爬虫的特性,结合网络恐怖信息的特点,找出PageRank算法和TF-IDF算法中适用于恐怖信息采集的优点,并结合回归分析法,将恐怖信息的采集策略进行相关度预测,用预测结果反馈调节信息的采集过程。[结果/结论]网络恐怖信息采集要兼顾采集的数量和质量,在传统主题爬虫算法的基础上进行改进,提出针对于开源网络恐怖信息采集的爬虫优化算法,可以提高信息采集效率。  相似文献   

10.
Web多媒体网页中多媒体资源的相关文本对于描述Web多媒体资源具有重要意义,利用Web多媒体网页搜集器搜集网络中包含多媒体资源的网页,对网页进行区域分析.根据多媒体资源所在网页中的嵌入形式,设计Web多媒体资源相关文本信息提取系统,准确提取Web页面中多媒体资源的相关文本.实验结果表明,该系统提取Web多媒体资源的相关文本准确率较高,有助于提高多媒体信息检索系统的查全率与查准率.  相似文献   

11.
肖强  钱晓东 《图书情报工作》2011,55(16):136-139
针对传统关联规则算法中事务扫描的重复性以及最小支持度设定的不确定性,导致关联规则挖掘算法扫描事务数据库运行效率低下的问题,提出一种基于K-means的Web访问用户关联规则挖掘算法,该算法利用K-means算法聚类的效果,将Web访问用户数据集聚类为不同的小数据集,采用不同的最小支持度,分别对Web访问用户聚类小数据集进行关联规则挖掘。分析和实验结果证明,该算法可有效提高传统关联规则挖掘算法的效率,同时也可有效避免传统关联算法中扫描中的重复性。  相似文献   

12.
吴瑞  史文武 《情报学报》2006,25(5):629-633
基于用户访问网页的不同序列反映了用户特定的兴趣,提出了Web日志中用户存取模式的聚类算法。利用传统的Leader算法只扫描数据集一遍的优点,以及粗糙理论在处理含有不确定信息问题上的优势,给出了结合粗糙理论的改进Leader算法对用户存取模式进行聚类方法,使得同一类中的用户存取模式尽可能的相近或相似,不同类中的模式尽可能的相异。实验结果表明,该算法在可承受的计算时间内可对Web日志中的用户存取模式进行有效聚类。  相似文献   

13.
On the heterogeneous web information spaces, users have been suffering from efficiently searching for relevant information. This paper proposes a mediator agent system to estimate the semantics of unknown web spaces by learning the fragments gathered during the users' focused crawling. This process is organized as the following three tasks; (i) gathering semantic information about web spaces from personal agents while focused crawling in unknown spaces, (ii) reorganizing the information by using ontology alignment algorithm, and (iii) providing relevant semantic information to personal agents right before focused crawling. It makes the personal agent possible to recognize the corresponding user's behaviors in semantically heterogeneous spaces and predict his searching contexts. For the experiments, we implemented comparison-shopping system with heterogeneous web spaces. As a result, our proposed method efficiently supported the users, and then, network traffic was also reduced. An erratum to this article can be found at  相似文献   

14.
简要介绍基于情景的知识库的概念及作用,通过调研分析当前数据库出版商与收录在线电子期刊的情况,以此设计基于情景的知识库,通过设计网络蜘蛛抓取数据,自动构建知识库,并实现知识库的实时更新,最后给出基于情景知识库的工作原理及工作流程.  相似文献   

15.
虚拟社区用户信息行为研究综述   总被引:1,自引:0,他引:1  
袁静 《图书情报工作》2011,55(16):91-94
指出Web2.0环境下的虚拟社区为用户提供全新的互动平台,成为用户生产、获取、交流、共享信息与知识的微观环境,受到广泛的研究和关注。从社会学和心理学视角、知识管理视角、商务视角、传播学视角四个方面,综合分析国内外关于虚拟社区用户信息行为研究在理论与实践上取得的成果,归纳现有研究存在的不足,提出将来需要推进的研究方向。  相似文献   

16.
阮光册 《图书情报工作》2011,55(11):121-124
网络用户行为研究大多采用Web用户日志挖掘,首先介绍Web关联规则应用的传统方法,并指出传统方法中忽略了用户兴趣这一因素研究,更多的是以网页高频出现为挖掘结果进行聚类。针对这一问题,提出一种基于Web关联规则挖掘、页面内容和会话相似度相结合的研究方法,聚类出用户频繁访问的页面组,以发现网络用户行为的规律。在案例应用中,以上海某高校学生网络行为研究为例,得出相关结论。  相似文献   

17.
[目的/意义] 微博转发是实现微博信息传播的重要方式,对用户转发行为进行研究可以更好地理解微博信息传播机制,对热点话题检测、舆情监控、微博营销等具有重要意义。针对以往研究中用户兴趣表示不够全面准确以及未考虑情感差异对用户转发行为的影响,提出一个融入情感差异和用户兴趣的微博转发预测模型。[方法/过程] 该模型首先从维基百科中提取概念语义关系构建维基知识库,将其作为语义知识源对微博文本进行语义扩展,解决语义稀疏问题;对语义扩展后的用户历史微博进行聚类,提取用户兴趣主题和主题对用户的影响力;然后计算微博中各类情感的情感强度,提取情感差异特征;最后结合用户行为特征、用户交互特征、微博特征、用户兴趣特征和情感差异特征,运用SVM实现微博转发预测。[结果/结论] 在新浪微博真实数据集上进行实验,验证了所提模型的有效性。  相似文献   

18.
为探讨网络用户探索式搜索行为的特点,设定一个提问-应答式搜索任务和两个复杂程度不同的探索式搜索任务,并根据受试者的检索能力分组,在实验环境下,记录受试者的浏览日志。日志分析结果表明,任务类型与搜索能力均对探索式搜索行为产生不同程度的影响。与提问-应答式搜索相比,探索式搜索需要的信息量大,受试者受自身知识背景影响程度高,且任务难度越大,探索结果越多、越分散;检索能力的强弱对受试者探索式搜索行为的影响较小。  相似文献   

19.
[目的/意义]信息茧房现象的存在,对用户使用移动知识服务具有一定影响,不利于用户对知识的学习与汲取。为探究信息茧房对用户使用移动知识服务的影响,以高校师生为研究对象,研究信息茧房效应下影响移动知识服务的因素,并提出相关建议,旨在为突破信息茧房、完善现有移动知识服务提供参考。[方法/过程]以信息茧房的主要成因为研究变量,构建信息茧房效应下用户使用移动知识服务的影响因素初始模型;利用问卷调查法收集相关数据,对初始模型进行分析检验并建立回归方程。[结果/结论]研究发现,用户特质(如心理动因和个人素养)、服务平台(如算法推荐技术)、信息内容(如内容权威性和有用性)和移动环境这4个方面均对用户使用移动知识服务产生影响。其中,用户特质对移动知识服务使用的影响最大;服务平台对移动知识服务使用也产生较大影响;此外,信息内容与移动环境也对移动知识服务具有一定影响。  相似文献   

20.
提出了一种基于数据挖掘技术的Web智能服务算法,它通过对Web数据模型的转换,发现并建立有关用户意向关联知识库,然后再利用知识库中的关联规则来预测用户行为,从而提高了用户浏览器访问速度。该研究内容属目前智能信息检索领域的重要研究课题,具有一定的理论和实践意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号