共查询到20条相似文献,搜索用时 182 毫秒
1.
2.
网络竞争情报主题采集技术研究 总被引:2,自引:0,他引:2
文章设计与实现了一种网络竞争情报的主题采集系统。该系统在进行主题预测时采用的基于改进的朴素贝叶斯算法提高了主题判断准确率,在进行链接预测时采用的基于规则与锚文本主题相似度结合的算法,避免了URL锚文本较短和噪声的问题。与宽度优先的采集技术相比,通过实验验证该方法具有明显的优越性。 相似文献
3.
4.
主要介绍了设计开发Web主题信息采集系统的一个核心算法——超链接主题预测算法。文章在已有理论的基础上,通过实验分析,发现超链接的主题主要取决于三个因素:父网页的主题相关度、锚文本的主题相关度和Web子图的链接结构特性,从而提出了基于Web页面内容和链接结构的超链接主题预测算法,系统评价结果显示该算法有很好的效果。 相似文献
5.
本篇论文以去除网页噪声,整合网页内容为目标,提出了面向主题型网页,根据网页规划布局抽取网页内容的方法.算法首先分析原始网页的DOM结构生成标签树,再根据标签分类和对应节点的信息对标签树自底向上进行划分,并依据划分块的文字密度,链接密度及图片密度,分类信息块.进一步,提炼网页主题的文本特征向量,采用基于词条空间的文本相似度计算,获取划分块的主题相关度,以主题相关度为量化基准剔除噪声,识别网页主旨内容,重构页面描述.这一算法被应用于面向人才资讯的信息采集项目中,实验表明,算法适用于主题型网页的"去噪"及内容提取,具体应用中有较理想的表现. 相似文献
6.
本文重点探讨基于编辑距离的网页相似度算法在Web 抽取系统中的应用与实现.通过结合基于URL 及编辑距离的网页结构相似度的计算方法,抽取系统在抽取过程中能够检测网页结构的变化,从而主动做出判断,选择适应规则进行抽取或通过主动学习自动扩展规则库.结构相似度计算赋予系统感知网页结构变化的能力,系统通过主动自我更新与调整,能更好地适应面向实际应用的异构资源的获取.算法的可行性和效率在原型系统中得以验证. 相似文献
7.
专业搜索引擎的排序算法研究 总被引:5,自引:0,他引:5
探讨影响搜索引擎排序的一般性因素:词频和词位置信息、用户行为信息、网页之间的链接信息等,在此基础上针对专业搜索引擎的排序算法,提出主题相关度并结合基础教育搜索引擎进行实验。实验结果表明,专业搜索引擎中主题相关度的适当应用能明显改善排序结果。 相似文献
8.
个性化服务中基于支持向量机的用户兴趣挖掘分析 总被引:2,自引:1,他引:1
用户兴趣的准确获取是保证个性化服务质量的关键;分析用户所浏览的网页集,捕获用户兴趣、建立用户兴趣挖掘模型是目前个性化服务研究的一个重要方向.本文首先比较支持向量机与其他分类算法的性能,分析了基于支持向量机进行用户兴趣挖掘的可行性;然后在介绍支持向量机分类原理和分析分类预测理论模型的基础上构建了用户兴趣挖掘模型;最后选取中文网页分类训练集和特定用户的网页浏览记录,主要从支持向量机分类器的构造和用户兴趣预测两个方面进行了模型的实现研究. 相似文献
9.
[目的/意义]针对目前从开源网络信息中采集网络恐怖信息难、采集效率低的问题,提出一种回归分析法,以综合语义相关与网页重要性两个因素,从而提高网络恐怖信息的采集效率。[方法/过程]通过分析、比较主题爬虫的特性,结合网络恐怖信息的特点,找出PageRank算法和TF-IDF算法中适用于恐怖信息采集的优点,并结合回归分析法,将恐怖信息的采集策略进行相关度预测,用预测结果反馈调节信息的采集过程。[结果/结论]网络恐怖信息采集要兼顾采集的数量和质量,在传统主题爬虫算法的基础上进行改进,提出针对于开源网络恐怖信息采集的爬虫优化算法,可以提高信息采集效率。 相似文献
10.
Web多媒体网页中多媒体资源的相关文本对于描述Web多媒体资源具有重要意义,利用Web多媒体网页搜集器搜集网络中包含多媒体资源的网页,对网页进行区域分析.根据多媒体资源所在网页中的嵌入形式,设计Web多媒体资源相关文本信息提取系统,准确提取Web页面中多媒体资源的相关文本.实验结果表明,该系统提取Web多媒体资源的相关文本准确率较高,有助于提高多媒体信息检索系统的查全率与查准率. 相似文献
11.
12.
基于用户访问网页的不同序列反映了用户特定的兴趣,提出了Web日志中用户存取模式的聚类算法。利用传统的Leader算法只扫描数据集一遍的优点,以及粗糙理论在处理含有不确定信息问题上的优势,给出了结合粗糙理论的改进Leader算法对用户存取模式进行聚类方法,使得同一类中的用户存取模式尽可能的相近或相似,不同类中的模式尽可能的相异。实验结果表明,该算法在可承受的计算时间内可对Web日志中的用户存取模式进行有效聚类。 相似文献
13.
Jason J. Jung 《Information Retrieval》2007,10(1):85-109
On the heterogeneous web information spaces, users have been suffering from efficiently searching for relevant information.
This paper proposes a mediator agent system to estimate the semantics of unknown web spaces by learning the fragments gathered
during the users' focused crawling. This process is organized as the following three tasks; (i) gathering semantic information
about web spaces from personal agents while focused crawling in unknown spaces, (ii) reorganizing the information by using
ontology alignment algorithm, and (iii) providing relevant semantic information to personal agents right before focused crawling.
It makes the personal agent possible to recognize the corresponding user's behaviors in semantically heterogeneous spaces
and predict his searching contexts. For the experiments, we implemented comparison-shopping system with heterogeneous web
spaces. As a result, our proposed method efficiently supported the users, and then, network traffic was also reduced.
An erratum to this article can be found at 相似文献
14.
简要介绍基于情景的知识库的概念及作用,通过调研分析当前数据库出版商与收录在线电子期刊的情况,以此设计基于情景的知识库,通过设计网络蜘蛛抓取数据,自动构建知识库,并实现知识库的实时更新,最后给出基于情景知识库的工作原理及工作流程. 相似文献
15.
虚拟社区用户信息行为研究综述 总被引:1,自引:0,他引:1
16.
17.
[目的/意义] 微博转发是实现微博信息传播的重要方式,对用户转发行为进行研究可以更好地理解微博信息传播机制,对热点话题检测、舆情监控、微博营销等具有重要意义。针对以往研究中用户兴趣表示不够全面准确以及未考虑情感差异对用户转发行为的影响,提出一个融入情感差异和用户兴趣的微博转发预测模型。[方法/过程] 该模型首先从维基百科中提取概念语义关系构建维基知识库,将其作为语义知识源对微博文本进行语义扩展,解决语义稀疏问题;对语义扩展后的用户历史微博进行聚类,提取用户兴趣主题和主题对用户的影响力;然后计算微博中各类情感的情感强度,提取情感差异特征;最后结合用户行为特征、用户交互特征、微博特征、用户兴趣特征和情感差异特征,运用SVM实现微博转发预测。[结果/结论] 在新浪微博真实数据集上进行实验,验证了所提模型的有效性。 相似文献
18.
为探讨网络用户探索式搜索行为的特点,设定一个提问-应答式搜索任务和两个复杂程度不同的探索式搜索任务,并根据受试者的检索能力分组,在实验环境下,记录受试者的浏览日志。日志分析结果表明,任务类型与搜索能力均对探索式搜索行为产生不同程度的影响。与提问-应答式搜索相比,探索式搜索需要的信息量大,受试者受自身知识背景影响程度高,且任务难度越大,探索结果越多、越分散;检索能力的强弱对受试者探索式搜索行为的影响较小。 相似文献
19.
[目的/意义]信息茧房现象的存在,对用户使用移动知识服务具有一定影响,不利于用户对知识的学习与汲取。为探究信息茧房对用户使用移动知识服务的影响,以高校师生为研究对象,研究信息茧房效应下影响移动知识服务的因素,并提出相关建议,旨在为突破信息茧房、完善现有移动知识服务提供参考。[方法/过程]以信息茧房的主要成因为研究变量,构建信息茧房效应下用户使用移动知识服务的影响因素初始模型;利用问卷调查法收集相关数据,对初始模型进行分析检验并建立回归方程。[结果/结论]研究发现,用户特质(如心理动因和个人素养)、服务平台(如算法推荐技术)、信息内容(如内容权威性和有用性)和移动环境这4个方面均对用户使用移动知识服务产生影响。其中,用户特质对移动知识服务使用的影响最大;服务平台对移动知识服务使用也产生较大影响;此外,信息内容与移动环境也对移动知识服务具有一定影响。 相似文献
20.
提出了一种基于数据挖掘技术的Web智能服务算法,它通过对Web数据模型的转换,发现并建立有关用户意向关联知识库,然后再利用知识库中的关联规则来预测用户行为,从而提高了用户浏览器访问速度。该研究内容属目前智能信息检索领域的重要研究课题,具有一定的理论和实践意义。 相似文献