首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
有序概念格与WWW用户访问模式的增量控掘   总被引:4,自引:0,他引:4  
访问模式是用户沿URL超链寻找和浏览网页规律的总结,发现用户访问模式对于帮助用户快速到达目标页面,进而实现搜索引擎的个性化导航具有重要意义.目前虽有一些挖掘用户访问模式的工作,但尚未发现能够处理增量数据的系统化挖掘算法.用户访问模式挖掘可由如下3个步骤完成:①由日志库提取最大向前关联路径,②由最大向前关联路径发现频繁关联路径序列,③由频繁关联路径序列得到最大频繁关联路径序列,其中②是问题的核心.为得到系统化算法,对概念格模型加以顺序约束,提出了有序概念格,并将其用于Web访问模式的增量发掘.给出了增量式高效挖掘算法,并与相关工作进行了比较,对合成数据和实际数据的实验结果验证了算法的有效性.  相似文献   

2.
用户访问模式挖掘中数据预处理问题的研究   总被引:5,自引:0,他引:5  
首先给出了用户访问模式挖掘的概念,然后主要对用户访问模式挖掘中的数据预处理工作中碰到的一些问题及对这些问题的解决方法进行了较为详细的描述。  相似文献   

3.
电子商务网站用户访问模式挖掘中的预处理技术   总被引:6,自引:0,他引:6  
郭伟刚 《计算机应用》2005,25(3):691-694
对电子商务网站的用户访问模式挖掘中数据预处理阶段所采用的技术做了全面的研究,主要包括源数据的采集方法以及数据清理、用户识别、会话识别、事务识别、会话子序列生成等所采用的技术。并给出了框架网页过滤、识别搜索引擎Robot产生的访问记录,以及生成用户会话语义序列的方法。  相似文献   

4.
Web用户访问模式挖掘研究   总被引:5,自引:0,他引:5  
1 引言目前World Wide Web(WWW)已经发展成为拥有近亿个工作站、数十亿页面的分布式信息空间,在这个分布式信息空间中蕴涵着具有巨大潜在价值的知识,也带来了巨大的经济效益和社会效益。对于不同层次、不同使用目的和爱好的浏览者需要个性化的信息服务,希望网站能够根据自己的浏览习惯,动态定制  相似文献   

5.
基于概念格的Web日志路径挖掘算法   总被引:1,自引:0,他引:1  
杨飞 《计算机科学》2004,31(3):115-117
路径挖掘适用于探索用户沿超连接寻找和浏览网页的规律,而Web日志的完美结构使挖掘更加容易和有效。由二元关系导出的概念格作为一种非常有用的形式化工具,体现了概念内涵和外延的统一,反映了对象和特征间的联系以及概念的泛化与例化关系,因此非常适于发现数据中潜在的信息。本文通过概念格模型,提出了一种Web日志的路径挖掘算法,并进行了相关的分析与展望。  相似文献   

6.
挖掘用户偏爱的浏览模式就是从Web日志中发现多数用户偏爱的浏览路径.网页上的浏览时间被转换成一个模糊语言变量来体现网页上浏览时间的特征,最后从建立的包含所有用户浏览信息的FLaAT(Frequent Link and Access Tree)中挖掘增量式带有模糊语言变量的用户偏爱浏览模式.  相似文献   

7.
随着Internet的迅速发展,Web站点的访问用户越来越多样化,不同种类用户的访问模式有所不同.提出一种基于会话分类的Web用户访问模式挖掘方法.这套方法把用户会话划分为人类用户会话、网络爬虫会话和资源下载类用户会话三大类,在此基础上分别对3类用户的访问模式进行挖掘.通过会话分类可以提高挖掘的效率与准确性.其中重点研究了人类用户的访问模式挖掘,提出一种基于用户访问路径树的事务识别方法,并对PrefixSpan算法进行了改进.这套方法在实验中取得了很好的挖掘效果.  相似文献   

8.
一种新的Web频繁访问模式挖掘算法   总被引:1,自引:0,他引:1  
提出了一种基于有向图的从Web日志中挖掘用户频繁访问模式的新算法,与传统使用基于关联规则挖掘的序列模式挖掘技术相比,本算法采用有向图来记录Web访问序列和它的计数,在挖掘过程中只需要扫描数据库一次,不产生数量庞大的候选模式,即可直接挖掘出所有的Web频繁访问路径,大大提高了Web访问模式的发现效率。  相似文献   

9.
从Web日志挖掘存在的困难和不足出发,结合电子商务个性化服务的特点,引入用户访问记录进行Web挖掘,提出了一种Web挖掘中数据采集与预处理的新思路,指出了该思路的实现方法和特点。提出了引入用户访问记录后的Web挖掘体系结构。  相似文献   

10.
Web日志挖掘的一个主要任务是获得用户的浏览模式,这对Web站点的改进和为用户提供个性化服务提供了有价值的潜在信息.本文提出了一种改进算法--RD_Close.该算法对数据挖掘中的Close方法进行了改进,并引入了RD_Apriori方法中缩减数据库的思想.这种改进算法能有效发现用户频繁访问模式.最后,用实际数据对算法性能进行了充分验证和深入分析.  相似文献   

11.
多维概念格与多维序列模式的增量挖掘   总被引:1,自引:0,他引:1  
多维序列模式挖掘旨在将一个或多个背景维度信息中发现的关联模式与有序事务序列中发现的序列模式有机结合,从而为用户提供信息内容更加丰富、更具有直接应用价值的多维序列模式.目前虽有一些挖掘多维序列模式的工作,但其关联模式与序列模式的发现过程是基于不同的数据结构分开进行的.提出一种新的概念格结构——多维概念格,它是对概念格的延伸与泛化,其内涵更加丰富,不仅具有多个有序的任务内涵,而且具有多个无序的背景内涵.设计实现了基于该结构的增量式多维序列模式挖掘算法,该算法使用统一的数据模型实现关联模式与序列模式的高效同步挖掘.在合成数据集上的实验结果验证了算法的有效性.同时,算法在实际的银行数据集上的应用效果也说明了算法的实用性.  相似文献   

12.
由二元关系导出的概念格是一种非常有用的形式化工具,也很适合于发现数据中潜在的概念。概念格的算法一直是数据挖掘领域研究的热点。本文根据需要对概念格的结构进行一定的修改,采用一个带头、尾指针的链表作为整个算法的数据结构,提出概念格的渐进式维护算法,该算法中包含两个算法,即渐进式构造算法和渐进式删除算法。最后,通过将该算法和其他算法进行比较,得出较好的时间和空间效率。  相似文献   

13.
最近的一些研究提出将Web使用日志的挖掘技术应用于Web个人化系统中,用于克服传统个人化技术(如CF技术、基于内容的过滤技术)中存在的问题,如处理大数据量的能力较差,依赖于用户主观的登记信息,产生的用户描述是静态的,不能获取对象之间丰富的语义联系等。但是基于Web使用日志挖掘的个人化技术不能适用于用户的使用信息获取困难或者站点内容经常变化的情况。更有效的办法是将站点的内容特征和使用特征结合到一个Web挖掘结构中去,以备推荐引擎统一使用。提出了一个基于关联规则挖掘的个人化系统,它使用概念格作为存储频繁页面集的数据结构,并介绍了如何利用概念格实时地为当前活动用户产生推荐集。  相似文献   

14.
基于概念格和关联规则Web个人化系统   总被引:1,自引:1,他引:0  
最近的一些研究提出将Web使用日志的挖掘技术应用于Web个人化系统中,用于克服传统个人化技术(如CF技术、基于内容的过滤技术)中存在的问题,如处理大数据量的能力较差,依赖于用户主观的登记信息,产生的用户描述是静态的,不能获取对象之间丰富的语义联系等.但是基于Web使用日志挖掘的个人化技术不能适用于用户的使用信息获取困难或者站点内容经常变化的情况.更有效的办法是将站点的内容特征和使用特征结合到一个Web挖掘结构中去,以备推荐引擎统一使用.提出了一个基于关联规则挖掘的个人化系统,它使用概念格作为存储频繁页面集的数据结构,并介绍了如何利用概念格实时地为当前活动用户产生推荐集.  相似文献   

15.
李云  袁运浩  盛艳  陈崚 《计算机科学》2011,38(3):224-230
传统的序列模式挖掘主要是挖掘满足最小支持度的频繁序列,没有考虑序列在实际中的重要度。为了能够有效地挖掘重要的序列模式,提出了一种序列模糊概念格模型,对所有序列的项目引入了重要度权值,定义了序列的重要度及可以动态调整最小支持度minsup的自适应系数;扩展了模糊形式背景,使其能够方便地表示序列,定义了概念的Galois闭包连接、序列模糊概念及序列模糊格结构,并给出了序列模糊概念格的渐进式构造算法 ScqFuzCL。实验表明,序列模糊概念格模型可以方便有效地组织自适应序列模式,在时间与空间上都具有良好的性能,并为进一步挖掘自适应序列模式提供了理论支持。  相似文献   

16.
形式概念分析是德国的数学家Wille于1982年提出的,其核心数据结构概念格接近于自然语言,易于理解,在数据挖掘领域有巨大的潜在应用价值。构建概念格在概念格应用中有举足轻重的地位。建格算法分为两种:批处理算法和渐进式算法。着重研究渐进式算法,并介绍一种渐进式算法的优化算法,这种优化算法在一定程度上提高了原算法的运行速度。  相似文献   

17.
基于属性的概念格渐进式生成算法   总被引:18,自引:0,他引:18  
提出了一种新的基于属性的渐进式概念格生成算法 ,通过不断地渐增属性来构造概念格 .该算法不仅为概念格的构造提供了一种新的方法 ,还解决了在已构造好概念格的前提下 ,增加属性所带来的概念格更新问题 .给出了算法的实现方法 ,并结合实例说明了概念格的更新过程 .试验表明 ,在通常情况下 ,基于属性的渐进式概念格生成算法的性能往往更优越  相似文献   

18.
针对经典概念格基于完备形式背景,在缺值形式背景下不能很好的获取关联规则知识的问题,在偏小近似形式背景的基础上,提出了一种τ-近似概念格来解决信息不完备背景下的知识发现问题,利用它能够获取精度和可信度较高的关联规则知识。文章对τ-近似概念格的构建及其关联规则提取过程进行了详细描述,并将其与偏小近似概念格和偏大近似概念格这两种解决策略进行了案例分析对比,验证了它的可行性和有效性。  相似文献   

19.
王娜  李云松 《微机发展》2006,16(1):114-116
文本挖掘是从非结构化的文本中发现潜在的概念以及概念间的相互关系。作为从浩瀚的Web信息资源中发现潜在的、有价值知识的有效技术,Web文本挖掘已倍受关注。文中提出了利用概念格来抽取隐含在文本中潜在的概念关系,将文本挖掘中文档与关键词之间的关系通过概念格结构呈现出来。  相似文献   

20.
Discovery of Web Robot Sessions Based on their Navigational Patterns   总被引:11,自引:0,他引:11  
Web robots are software programs that automatically traverse the hyperlink structure of the World Wide Web in order to locate and retrieve information. There are many reasons why it is important to identify visits by Web robots and distinguish them from other users. First of all, e-commerce retailers are particularly concerned about the unauthorized deployment of robots for gathering business intelligence at their Web sites. In addition, Web robots tend to consume considerable network bandwidth at the expense of other users. Sessions due to Web robots also make it more difficult to perform clickstream analysis effectively on the Web data. Conventional techniques for detecting Web robots are often based on identifying the IP address and user agent of the Web clients. While these techniques are applicable to many well-known robots, they may not be sufficient to detect camouflaged and previously unknown robots. In this paper, we propose an alternative approach that uses the navigational patterns in the click-stream data to determine if it is due to a robot. Experimental results on our Computer Science department Web server logs show that highly accurate classification models can be built using this approach. We also show that these models are able to discover many camouflaged and previously unidentified robots.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号