首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 250 毫秒
1.
网站用户的浏览行为的不确定性导致从现有的Web日志文件挖掘出的事务模式来预测用户行为越来越困难.引入一种新的数据类型浏览行为数据(BAD)用于提高Web用法挖掘的质量,BAD是一种特殊的浏览数据,如"复制","滚动","另存为",并且没有被日志文件所记录,并给出了BAD的定义.为了象Web日志文件一样记录BAD,介绍并使用一种现有的在线数据收集模块来捕获用户BAD.通过一个电子商务程序的实例说明BAD能增加现有Web事务挖掘算法的有效性.  相似文献   

2.
Web日志信息的预处理是Web日志挖掘任务中的重要阶段,是整个Web日志挖掘过程的基础,在Web日志挖掘中起着重要的作用,数据预处理关系到Web日志挖掘的质量.对数据预处理的基本知识及Web日志数据预处理的四个阶段进行了综述和研究,并给出了一些算法的伪码以及经过预处理的事务在实际事务数据库中的存储形式.  相似文献   

3.
Web日志数据预处理   总被引:1,自引:0,他引:1  
Web日志信息的预处理是Web日志挖掘任务中的重要阶段,是整个Web日志挖掘过程的基础,在Web日志挖掘中起着重要的作用,数据预处理关系到Web日志挖掘的质量.对数据预处理的基本知识及Web日志数据预处理的四个阶段进行了综述和研究,并给出了一些算法的伪码以及经过预处理的事务在实际事务数据库中的存储形式.  相似文献   

4.
传统Web挖掘技术面向所有Web用户,而访问网站时活跃用户与非活跃用户表现特征不同.基于此,提出一种面向活跃用户的访问模式挖掘方法,包括活跃用户会话提取算法(AUSM)和树型访问模式挖掘算法(WAPBUM).AUSM扫描一遍日志数据即可挖掘Web活跃用户并提取会话信息,在提取的用户会话信息基础上,利用网站拓扑结构给出了一种基于树结构的频繁访问模式挖掘算法(WAPBUM).WAPBUM针对Web日志挖掘特点,通过对子树构造等价类,自下而上产生频繁子树.人工数据集和真实数据集上的实验都证明AUSM算法的运行时间与Web日志数据量成线性关系,且运行过程中内存保持稳定;WAPBUM在处理带根子树挖掘时明显快于FREQT算法,所挖掘结果可有效应用于网站结构分析.  相似文献   

5.
基于Web日志挖掘的智能站点体系   总被引:4,自引:0,他引:4  
Web日志挖掘是通过分析Web服务器的日志文件,以发现用户访问站点的浏览模式,为站点管理员提供各种利于Web站点改进或可以带来经济效益的信息。在分析了Web日志挖掘主要特点之后,提出了一个可行的面向Web日志挖掘的智能站点结构,并给出了一个架构于Apache服务器上的智能站点原型。  相似文献   

6.
提出了一种基于聚类分析的Web服务器浏览模式的挖掘方法,能从大量的用户浏览行为中挖掘出正常的浏览模式和噪声浏览模式,为提高Web服务器的工作效率和安全性提供了依据.  相似文献   

7.
对Web日志数据进行收集、预处理、划分事务并产生具备分类关联规则挖掘条件事务集,然后采用矩阵算法挖掘事务集中的关联规则,并利用关联规则构造分类器来对Web用户进行分类,同时对矩阵算法进行了改进.实验表明此方法是有效的.  相似文献   

8.
时间是事物本身固有的性质,挖掘关联规则的时候把时间因素考虑进去会更符合现实的情况,时态关联规则挖掘是一种考虑带时间约束的关联规则挖掘方法.研究如何对关联规则进行时间上的约束是一个有待解决的问题,运用时态因子对关联规则进行时间上的约束是解决问题的一个办法,在给出时态因子的相关定义后,提出基于时态因子的关联规则相关概念,并给出了一种基于时态因子约束的关联规则的算法.最后结合实验结果,给出了一种关联规则实验结果分析方法,这种分析方法使得所挖掘的实际结果更为直观.  相似文献   

9.
Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理,以发现相似客户群体、相关Web页面和频繁访问路径等,其目的在于从用户访问Web系统的行为中发现用户的访问模式.在对Web日志挖掘的原理和技术进行讨论的基础上,重点探讨了如何将Apriori改进算法应用于对Web日志的挖掘,提出了一种基于该算法的Web日志挖掘实现方法,实验结果表明了算法的有效性.  相似文献   

10.
分析了Web日志和用户查询行为之间存在的潜在语义关系,提出了一个能够有效反映用户查询行为的语义模型.提出了一个Web挖掘算法.由于Web日志是一个典型的稀疏矩阵,进一步给出了加速的Web挖掘算法.实验结果表明,基于语义模型的Web挖掘算法是可行、有效的.  相似文献   

11.
用户访问模式反映了用户浏览网站的规律,可从中发现用户的访问兴趣。常用的模式发现方法则是从用户的访问日志中挖掘用户的频繁遍历路径。由于基于Apriori算法的频繁遍历路径挖掘方法需频繁访问数据库和产生大量的候选项,提出了新型的遍历路径树的数据结构,用以挖掘用户的频繁遍历路径,通过与传统算法比较,提高了挖掘效率。  相似文献   

12.
Indirect association is a high level relationship between items and frequent item sets in data. There are many potential applications for indirect associations, such as database marketing, intelligent data analysis, web -log analysis, recommended system, etc. Existing indirect association mining algorithms are mostly based on the notion of post - processing of discovery of frequent item sets. In the mining process, all frequent item sets need to be generated first, and then they are fihered and joined to form indirect associations. We have presented an indirect association mining algorithm (NIA) based on anti -monotonicity of indirect associations whereas k candidate indirect associations can be generated directly from k - 1 candidate indirect associations, without all frequent item sets generated. We also use the frequent itempair support matrix to reduce the time and memory space needed by the algorithm. In this paper, a novel algorithm (NIA2) is introduced based on the generation of indirect association patterns between itempairs through one item mediator sets from frequent itempair support matrix. A notion of mediator set support threshold is also presented. NIA2 mines indirect association patterns directly from the dataset, without generating all frequent item sets. The frequent itempair support matrix and the notion of using tm as the support threshold for mediator sets can significantly reduce the cost of joint operations and the search process compared with existing algorithms. Results of experiments on a real - word web log dataset have proved NIA2 one order of magnitude faster than existing algorithms.  相似文献   

13.
基于Web日志挖掘的客户访问兴趣分析   总被引:4,自引:0,他引:4  
数据预处理是Web日志挖掘中的一项关键技术,如何分析客户访问兴趣是Web挖掘中的一个重要研究课题。概述了Web日志挖掘的概念、方法和步骤,重点分析了数据预处理的主要步骤及其实现技术,考虑客户访问路径和浏览时间长度等因素,给出并计算分析了网站用户的访问兴趣的方法。汽修之家网站日志的实际测试结果表明了该方法的有效性。  相似文献   

14.
行为模式挖掘技术是监控视频语义分析的重要组成,由于先验知识的缺乏与特征维数约束,难以准确定义参数化挖掘模型的结构复杂度,通过非参数化的无限高斯混合聚类运动特征得到原子行为模式,并估计其持续时间分布,使用局部特征维测试验证了挖掘模型的运动相似性假设。结果表明所得到的行为模式集准确刻画了场景的潜在运动语义,而通过行为中存在的时间多形态分布进一步发现了隐藏运动知识。  相似文献   

15.
应用时态关联规则模型和时态事件空间,提出了一种单事件周期时态关联规则挖掘算法,并对其进行了可行性分析和复杂性分析。该算法通过挖掘不同时间间隔下的时态关联规则,能较好地处理非拐点的邻接点的趋势分布特征的挖掘,完整地挖掘时态数据趋势分布特征。最后,将该算法应用到股票数据的趋势挖掘中,得到了满意的实验结果。  相似文献   

16.
为了高效准确地预测移动对象动态运动轨迹,提出了一种基于轨迹时间连续贝叶斯网络(CTBN)的不确定性轨迹预测算法,充分考虑了移动速度和方向对移动对象动态运动行为的影响,包含3个主要步骤:热点区域挖掘将轨迹数据集划分为不同的热点聚簇;轨迹时间连续贝叶斯网络的构建,其由3个变量(街区号、移动速度、移动方向)构成的状态组合;利用该网络预测移动对象动态运动行为计算可能运动轨迹。不同数据集上的实验结果表明该算法的预测精度优于朴素预测算法,并证明了热点区域挖掘的作用在于能够在保证较高预测准确性的前提下提高预测时间性能近60%。  相似文献   

17.
基于归纳逻辑程序设计的特异规则挖掘   总被引:3,自引:0,他引:3  
从关系数据挖掘的角度提出了挖掘特异规则的方法,该方法通过面向属性的方法来识别特异数据.借鉴Chi2算法的思想实现了特异数据的离散,并定性地描述了数据的特异程度,结合经典的归纳逻辑程序设计系统FDIL,自然地挖掘出了特异规则,突破了传统命题级数据挖掘的框架.试验结果表明利用该方法能够发现被传统的关联规则挖掘算法所忽略的有价值的知识.  相似文献   

18.
依据红外序列图像中弱小目标运动轨迹的连续性,提出一种空时域结合滤波的运动弱小目标检测算法.在分析弱小目标可能的运动轨迹的基础上,构造了一组滤波模板,利用这组模板对时域检测结果进行滤波,确定出弱小目标可能的运动轨迹.并进一步结合时域特征,对运动弱小目标进行累积增强.由于提出的方法充分考虑了序列图像中运动弱小目标的空时域特征,因此具有很好的检测性能.  相似文献   

19.
将时效网络引入虚假信息传播研究中,提出一种通过时效模体度刻画传播网络的方法来探究虚假信息的传播机制。该方法将传播网络的结构特性和信息的时间属性相融合,使用多个真实数据集检验了该方法在虚假信息检测中的普适性。数据结果表明,真假信息在不同的时间尺度下时效模体度的变化规律不同,在大时间尺度上虚假信息比真实信息的传播速度更快且传播深度更深,利用基于时效模体度的方法可以更准确地检测出虚假信息。该研究揭示了虚假信息的多时间尺度传播机制,可用于预防虚假信息的传播。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号