首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 203 毫秒
1.
一种改进的Web日志会话识别方法   总被引:4,自引:0,他引:4  
会话识别是Web日志挖掘中的数据预处理中的一个重要步骤.文中提出了一种改进的会话识别方法.首先,在用户识别后,进行框架页面的过滤,从而大大地减少了实验产生的有效页面,然后为页面设置访问时间阈值,并根据页面内容及站点结构确定的页面重要程度对该阈值进行调整.通过实验证明,相对于传统的对所有页面使用单一的先验阈值进行会话识别的方法,该方法所得到的会话集更具有真实性.  相似文献   

2.
Web日志预处理中优化的会话识别方法   总被引:4,自引:0,他引:4       下载免费PDF全文
针对Web日志数据预处理中会话识别这一重要环节,提出一种优化的会话识别算法。在用户识别后,通过过滤框架页面大幅度减少实验产生的有效页面数,为每个页面设置访问时间阈值,并根据页面重要程度对该阈值进行调整,页面的重要性由页面内容及站点结构确定。实验数据显示,与对所有页面使用单一的先验阈值进行会话识别的方法相比较,该方法得到了真实性更强的会话集。  相似文献   

3.
Web日志会话的个性化识别方法的研究   总被引:2,自引:1,他引:1       下载免费PDF全文
会话识别是Web日志挖掘中的重要步骤。针对目前的各种会话识别方法,提出了一种改进的基于页面内容、下载时间等多个参数综合得到的针对每个用户的个性化识别方法。该方法通过使用访问时间间隔,判断是否在极大、极小两个阈值范围内来识别会话。根据页面内容、站点结构确定页面重要程度,通过页面的信息容量确定用户正常的阅读时间,通过Web日志中页面下载时间来确定起始阅读时间,对以上因素进行综合后对该阈值进行调整。实验结果表明,相对于目前的对所有用户页面使用单一先验阈值进行会话识别的方法及使用针对用户页面的阈值动态调整方法,提出的方法能更准确地个性化确定出页面访问时间阈值,更为合理有效。  相似文献   

4.
Web日志挖掘中的会话识别算法   总被引:7,自引:0,他引:7  
会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确.针对Web日志挖掘中的会话识别问题,在最常用的Timeout方法的基础上,提出了一种改进的基于平均时间阈值的识别方法.通过动态计算会话中请求记录间的平均时间间隔,个性化地调整页面的时间阈值,相对于传统的对所有用户页面使用单一的先验阈值,该方法能够更准确地识别出长对话.最后对生成的侯选会话集进行二次识别,使识别出的会话更为合理有效.实验结果表明,会话质量得到了提高.  相似文献   

5.
会话识别是Web日志预处理过程中的一个重要环节,针对传统会话识别的不足,提出一种改进的会话识别算法.在识别出具体的用户之后,过滤大量的框架网页;然后根据每个页面的内容及网站结构,构造出相对合理的页面访问时间阈值,并以此阈值来进行用户的会话识别.最后通过实验数据,与几种传统的会话识别方法进行了比较,表明该算法更为合理有效.  相似文献   

6.
网络日志预处理中优化的会话识别算法   总被引:1,自引:0,他引:1  
研究网络日志预处理中会话识别问题,会话识别是网络日志数据预处理中最蘑要的一个环节.为使用户准确快速地找到需要的资源,传统网络日志预处理方法采用固定阈值会话识别算法,不能适合网络日志的动态性和不能很好消除网络日志中的冗余信息,导致后继网络日志数据挖掘效率和挖掘精度低.为更好消除网络日志冗余信息,提高后继数据挖掘的效率和精度,提出一种改进的网络日志预处理会话识别算法.新算法可根据页面内容、站点结构确定页面重要程度,对阈值进行动态调整,克服传统固定阈值缺陷,根据用户对页面内容的兴趣度删除不感兴趣页面,消除冗余信息,并对该算法进行了仿真.结果表明,相对于传统网络预测的会话识别算法,新算法能更准确地确定页面访问时间阈值,消除了网络日志冗余信息,提高了网络日志预处理效率和数据挖掘精度.  相似文献   

7.
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法。在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整。然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面。实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合。  相似文献   

8.
Web日志挖掘中数据预处理技术的研究   总被引:2,自引:1,他引:1  
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果.详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法.在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整.然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面.实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合.  相似文献   

9.
曾令  肖如良 《计算机应用》2017,37(11):3335-3338
在大数据平台的异常检测分析中,为提高会话序列建模的效率,提出一种基于相邻请求的动态调整时间间隔阈值的会话识别算法——DAITS算法。首先同时结合站点页面因子和用户访问页面时间的平均因子;然后在两者间加入合适的权重因子对时间阈值进行动态调整;最后根据判断是否超过该时间阈值来划分会话。实验结果表明,DAITS算法比传统使用固定阈值的方法在会话识别的精确率和查全率上提高了14.8%和13.2%,比动态调整阈值的方法在精确率和查全率上提高了6.2%和3.2%。  相似文献   

10.
会话识别是Web日志挖掘的基础,提高会话的识别率能为后续模式的挖掘提供准确可靠的数据,已有许多研究集中于此.在常用的计算时间阈值识别方法的基础上,提出一种改进的基于URL页面类型、页面信息量和停留时间的平均阈值识别方法.针对不同的URL页面类型采用不同的阈值计算方法,并设置时间阈值.相对于已有的对所有用户访问页面使用单一的先验阈值和现有动态阈值计算,该方法能够更真实地反映用户会话的情况,且识别的准确率有了较大提高.  相似文献   

11.
改进的Web日志数据预处理技术   总被引:2,自引:0,他引:2       下载免费PDF全文
介绍Web日志挖掘预处理过程中一些特殊情况的处理方法,在会话识别阶段给出一种基于过滤框架网页与会话重组相结合的会话识别方法,在会话识别之前进行框架网页的过滤,根据传统的会话识别方法构造初始会话集,使用会话重组算法对初始会话集进行优化。实验结果显示,该方法提高了会话识别的质量。  相似文献   

12.
Web用户访问多是匿名访问,Web日志挖掘的主要目标是从Web访问记录中抽取用户行为模式,通过分析挖掘结果理解用户的行为,从而改进站点的结构.Web日志挖掘第一步是进行数据预处理.数据预处理是Web页面分析中最耗时的阶段,首先研究了数据预处理的过程,包括数据清洗、用户识别、会话识别、路径补充.提出了一种路径补充的算法,...  相似文献   

13.
数据预处理是Web使用挖掘的一个关键环节,其结果直接影响到后续的事务识别、路径分析、关联规则挖掘和序列模式挖掘的结果。提出了一种用户识别的通用算法、路径补充的启发式策略和基于主题规约的方法,并用实验证明了其高效性。  相似文献   

14.
网页在线实时推荐是网络个性化服务的重要内容,基于Web日志的网页实时推荐有助于提高检索效率、缓解网络拥塞,提高网站吸引力.该算法通过将用户会话处理成数字序列以体现用户访问路径的先后顺序,利用动态矩阵和滑动窗简化了路径相似度计算;算法只扫描一遍日志,可以进一步提高实时响应速度.该算法在考虑用户访问路径的先后顺序和简化推荐机制的基础上,提出了会话编码和动态矩阵的概念,利用其在推荐中可以兼顾满意度和实时性,同时实时性不受日志增加的影响.试验结果表明,该算法在兼顾满意度的基础上可以大幅提高推荐的实时性,具有实际应用价值.  相似文献   

15.
一种基于动态时间阈值的会话识别方法   总被引:3,自引:1,他引:2  
会话识别是Web日志挖掘的关键步骤,会话识别的质量直接影响后续挖掘的准确性。在Timeout方法固定时间阈值的基础上,提出动态时间阈值,通过对样本日志的分析,得到不同时段的时间阈值。在处理日志文件时,根据当前会话开始记录的访问时间选择时间阈值。实验表明,该方法识别会话的质量比Timeout方法有了明显提高。  相似文献   

16.
Web日志挖掘中的会话识别方法   总被引:3,自引:0,他引:3  
为更好地实现会话识别,从而为后续模式发现提供准确的挖掘数据,在分析现有常用的会话识别方法后,提出一种基于待挖掘站点首页的用户会话识别方法.该方法根据用户浏览站点的习惯,以站点首页作为用户新会话开始标识,并增强了用户会话的定义.最后利用数据库编程实现该方法,将识别出的会话存储在数据库中,便于后续数据挖掘使用.实验结果表明,该方法能识别出更多的用户会话,且识别会话的准确率也更高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号