首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 828 毫秒
1.
基于语义的Web用户会话识别算法   总被引:2,自引:0,他引:2  
研究一种基于语义进行Web用户会话识别的算法. 通过建立的语义化预处理模型对使用日志进行扩展,利用基于本体语义度量的Markov链模型识别用户请求所应归属的会话,提出用竞争激励算法判别会话的结束状态. 实验结果表明,基于语义的用户会话识别算法的平均识别率为69.8%,高于时间阈值、向前参考等算法.  相似文献   

2.
通过Web日志挖掘中的预处理对用户会话数据进行分析。采用基于URL迹的约减算法对基于用户会话的Web应用测试集进行约减,提出了一种对约减后的测试用例集的执行顺序进行优先排序再组合的测试方法。通过设计小型Web应用系统,证明执行经过优先排序的测试用例集,能较快发现错误,再考虑多用户的交互进行组合,减少了测试用例数目,提高了故障检测率,测试效率大大提高。  相似文献   

3.
Web日志挖掘中数据预处理技术研究   总被引:2,自引:0,他引:2  
Web日志挖掘的基本思想是将数据挖掘技术应用于Web日志数据源。在数据挖掘研究领域中,数据预处理起着至关重要的作用。Web日志挖掘的数据源最主要的是Web日志,根据Web日志的特点,在预处理过程中的会话识别阶段给出一种基于过滤框架网页与页面访问时间阈值相结合的会话识别方法,实验数据验证说明该方法可以显著地提高Web日志挖掘结果的兴趣性。  相似文献   

4.
许艳丹 《中国西部科技》2011,10(4):28-29,15
会话识别是Web日志挖掘的关键步骤,会话识别的质量直接影响后续挖掘的准确性。本文分析了Web日志挖掘的数据预处理过程中的三种会话识别算法,最终选用时间阈值法对安徽国防科技职业学院服务器日志文件进行会话识别。  相似文献   

5.
Web使用挖掘分析访问者日志,可以发现很多潜在的规律。利用会话之间的依赖关系,给出会话的依赖特征和数值度量,利用会话的动态特性给出会话动态聚类分析的算法和应用,并和模糊聚类算法方法进行比较研究。  相似文献   

6.
提出一种Web日志挖掘算法,该算法首先以Web站点的URL为行、以用户的UserID为列,建立URL- UserID关联矩阵,元素值为用户的访问次数;然后,对行向量进行相似性度量获得用户会话粗聚类,最后,利用层次结构对比聚类算法,对用户会话粗聚类进行进一步地处理得到更高精度的聚类,实验表明该算法在提高聚类精度方面卓有成效。  相似文献   

7.
通过分析用户的查询日志, 模拟用户与搜索引擎之间的交互过程, 提出一种基于查询加权的用户建模方法。首先, 对查询日志进行会话分割; 然后, 利用会话中用户查询出现的次数、持续时间及所点击的URL排名等行为信息, 计算查询权重; 最后, 采用兴趣投票的方式, 完成用户模型的构建。在AOL (美国在线)查询日志数据集上的测试结果表明, 基于查询加权的用户建模方法在用户兴趣预测上取得较好的效果。  相似文献   

8.
为了便于机器理解和提高网络资源的利用率提出了语义Web .基于二元关系讨论了语义Web的建立过程 ,具体给出语义Web中相关语义的形式化定义 ,并基于此给出了语义描述和挖掘方法 ,进行了集合相关语义的完备性的证明 .为了语义Web能应用于实际网络中 ,给出了语义拓展方式的定义 ,继而完成语义Web的形式化定义 ,给出语义Web的整体模型 .最后 ,给出了若干用于检验语义有效性的方法 ,以进一步提高语义Web的实用性 ,至此可创建相对完整的语义Web .  相似文献   

9.
分析了用户访问Web站点的浏览日志,度量用户的浏览行为.实验从实际获得的Web日志着手,进行Web日志的挖掘,提取用户浏览Web的行为特性数据.通过时间阈值进行会话的划分,选取合适的数据预处理,归一化后生成数据模式向量,引入人工神经网络中的自组织特征映射(SOM)模型,对用户访问倾向聚类,对用户浏览的偏爱度进行度量,为Web站点的进化提供依据.  相似文献   

10.
Web日志挖掘中的数据预处理技术   总被引:5,自引:0,他引:5  
用户访问网站,Web日志中会记录下大量的用户访问信息,通过挖掘这些日志数据可以获得相关页面、相似用户群体和用户访问模式等信息,Web日志挖掘对于优化网站结构、提供个性化服务和构建智能化网站具有重要作用.数据预处理是保证Web日志挖掘质量的重要基础,预处理主要包括数据清洗、用户识别、会话识别、路径补充和结果评价等工作.概述了数据预处理技术,重点介绍了目前常用的会话划分算法和评价标准,并实现了一个数据预处理系统.  相似文献   

11.
The task of clustering Web sessions is to group Web sessions based on similarity and consists of maximizing the intra-group similarity while minimizing the inter-group similarity. The first and foremost question needed to be considered in clustering Web sessions is how to measure the similarity between Web sessions. However, there are many shortcomings in traditional measurements. This paper introduces a new method for measuring similarities between Web pages that takes into account not only the URL but also the viewing time of the visited Web page. Then we give a new method to measure the similarity of Web sessions using sequence alignment and the similarity of Web page access in detail Experiments have proved that our method is valid and efficient.  相似文献   

12.
A semantic session analysis method partitioning Web usage logs is presented. Semantic Web usage log preparation model enhances usage logs with semantic. The Markov chain model based on ontology semantic measurement is used to identifying which active session a request should belong to. The competitive method is applied to determine the end of the sessions. Compared with other algorithms, more successful sessions are additionally detected by semantic outlier analysis.  相似文献   

13.
结合Web用户浏览行为的特点,提出了一种基于路径的Web页面相似度聚类算法,使用用户的浏览行为描述和用户对页面的访问次数建立Web站点的访问矩阵,并在此基础上对站点进行URL用户聚类。最后,使用标准数据集进行了试验,证明基于此种相似度计算方法的URL聚类算法对Web用户聚类是有效的。  相似文献   

14.
全面准确地标注Deep Web数据是实现Deep Web数据集成系统的关键问题,然而现有的DeepWeb数据语义标注方法还不能很好地解决这一问题.提出一种基于CPN网络的Deep Web数据语义标注方法,通过提取属性值的基本特征,采用CPN网络实现Deep Web数据语义标注.同时,采取了一种有效的方法准确获取Deep Web结果页面中的属性值,为语义标注奠定了良好的基础.与同类成果相比,基于CPN网络的Deep Web数据语义标注方法提高了语义标注的准确率及召回率.  相似文献   

15.
随着语义Web技术的出现,传统的Web挖掘面临新的挑战.文章讨论了语义Web的体系结构、Web挖掘和Agent技术的有关概念,提出了基于多Agent的语义Web挖掘系统模型,并对其进行了分析.实验结果表明,该系统模型具有较高的准确性和效率.  相似文献   

16.
基于XQuery的Deep Web搜索系统的设计与实现   总被引:2,自引:0,他引:2  
孙彬  王东  李娟 《科学技术与工程》2007,7(16):4080-4084
随着Web技术的发展,越来越多的信息需要通过Deep Web来获取,爬虫搜索系统是完成Deep Web搜索的重要技术手段。提出一种基于XPath的Web搜索系统的设计方法,它通过采集URL目标,分析目标URL的Web结构,维护URL本体知识库,达到深度积累页面的目的。  相似文献   

17.
为提高用户会话聚类的准确性,充分利用页面路径的相似性,提出了基于兴趣点的会话相似性测量方法IPB(interest-point based).该方法充分利用页面路径包含的网站层次结构所体现的分类信息,将同一目录中的页面定义为一个兴趣点.在计算会话相似性时,首先获取用户会话中的兴趣点,根据页面路径的相似性计算兴趣点的相似性,然后根据兴趣点求出会话之间的相似度.实验结果表明,该方法能够更准确地计算Web会话的相似性.  相似文献   

18.
谭榕 《科技信息》2009,(27):306-306
本文介绍了数据挖掘和网络信息挖掘的概念,特别介绍了搜索引擎以及网络地址URL的使用技巧,最后推荐了一些Web网上的检索与查询资源。  相似文献   

19.
为在Web日志数据中挖掘关联规则以指导信息无障碍网站的设计与开发, 针对大量用户对网站页面URL(Uniform Resoure Locator)的访问频率等信息, 通过Apriori算法实
现数据挖掘, 以寻找用户访问页面之间的关联规则。根据3次点击原则及网站结构设计的特点, 对Apriori 算法网页超链接挖掘的过程进行了改进, 频繁项集最多只需找出所有3
-项集即可。算法实现过程表明, 该方法可有效降低算法的时间复杂度, 能通过对关联规则的分析确定用户感兴趣的网页类型, 找出用户所访问网页之间的链接关系。  相似文献   

20.
给出了一种分布式Web日志挖掘模型DWLMS. 根据对挖掘过程及算法进行分析,提出了一种基于DWLMS的局部频繁路径的更新算法LFP和全局频繁路径的更新算法GFP,较好地解决了Web访问信息的异地存储、实时增长、分布式算法通讯量等因素给模式分析过程带来的困难. 在实验室对该方法进行了简单实现和实际日志数据的测试,结果表明了算法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号