首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 265 毫秒
1.
描述了Web日志数据预处理技术的一种改进技术——Frame过滤技术,对其关键部分与运作模式进行了研究与改进。讨论了Frame页面过滤预处理技术在Web页面挖掘中的效率问题,分析了决策树算法中最著名的算法——ID3算法,并用ID3算法对Frame过滤算法进行了改进,比较新旧算法的执行效率及算法结果质量,得出了新算法执行效率更高及质量更好的结论,从而搞高了对存在Frame页面的网站实施Web日志挖掘算法时挖掘结果的兴趣度。  相似文献   

2.
汪瑛 《福建电脑》2009,25(2):92-92
Web日志挖掘是目前Web挖掘研究的一个热点课题。本文针对其中的Frame页面过滤进行研究和分析,在此基础上对相关算法进行了设计与实现。  相似文献   

3.
在Web日志挖掘的过程中,数据预处理是整个Web日志挖掘过程的基础,其直接影响了日志挖掘的质量和结果.由于目前大多数网页都采用框架模式,而传统的预处理技术并没有针对frame页面进行过滤,即使过滤,也会导致页面结构的混乱,从而不能够为路径补充提供正确的信息.基于此,本文提出一种基于重构网站结构的Web日志挖掘数据预处理方法以及基于它的路径补充方法.  相似文献   

4.
Web日志是目前Web数据挖掘的重要研究方向。数据预处理是Web日志挖掘中的关键技术。详细的介绍了Web日志挖掘的预处理过程。数据预处理包括数据清理、识别用户、识别会话和框架页面清理、路径补充。用户识别后,框架页面降低了数据挖掘的效率,可以通过过滤框架页面大幅度减少产生的无效页面数。  相似文献   

5.
Web日志数据中保存有大量用户访问信息,而Web日志挖掘就是对系统日志信息以及用户的注册数据等进行挖掘,以发现有用的模式和知识。首先介绍了Web日志挖掘的基本流程,然后介绍了电子商务中的日志挖掘,并着重分析了在模式识别中如何利用改进的关联规则算法来挖掘出用户频繁访问的路径和页面兴趣度,为个性化推荐系统模型提供了依据,从而证实了对Web日志数据进行挖掘具有很重要的现实意义。  相似文献   

6.
基于兴趣度的Web用户访问模式分析   总被引:1,自引:0,他引:1  
吕佳 《计算机工程与设计》2007,28(10):2403-2404,2407
Web日志隐含了用户访问Web行为的动因和规律,如何有效地从中挖掘出用户访问模式是Web日志挖掘的重要研究内容.构造了User_ID-URL矩阵,矩阵元素为用户访问页面的兴趣度.应用经典的模糊C-均值聚类算法进行用户访问模式分析,通过在真实数据集上的实验,结果表明引入了用户兴趣度的日志挖掘算法是行之有效的.  相似文献   

7.
Web站点导航是Web数据挖掘的一个重要研究领域,是准确理解用户访问网站行为的关键;传统Web站点导航技术很难全面反映出用户对页面浏览的兴趣程度,找到用户感兴趣页面路径准确度比较低;为提高找到用户感兴趣页面路径准确度,提出一种基于蚁群算法的Web站点导航技术;将网络用户看作人工的蚂蚁,用户的浏览兴趣作蚂蚁的信息素,通过利用Web日志数据采用正负反馈机制和路径概率选择机制建立一个Web站点导航模型,挖掘用户感兴趣页面的导航路径;仿真实验结果表明,基于蚁群算法的Web站点导航技术提高了找到用户感兴趣页面路径准确度,更加能够准确反映出用户的浏览兴趣,用于Web站点导航是可行的。  相似文献   

8.
基于改进的模糊聚类算法的Web日志挖掘   总被引:1,自引:1,他引:0  
Web日志挖掘是Web数据挖掘领域中的一个重要研究方向,是通过对Web日志记录的挖掘发现用户访问Web页面的浏览模式用以改进Web站点的性能和组织结构。在介绍Web日志挖掘的原理和技术的基础上对Web日志挖掘中的聚类技术进行了分析研究,并重点讨论了有关模糊聚类算法的原理及计算过程,对这一算法进行了改进后的优化和应用,最后用实例对算法加以验证。  相似文献   

9.
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法。在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整。然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面。实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合。  相似文献   

10.
用户对Web网站访问兴趣可以通过页面的浏览顺序表现出来,Web站点的访问日志记录了用户访问页面的详细信息.介绍Web站点访问日志挖掘的相关知识,并定义新的兴趣度,相似度和聚类中心,提出了一种基于用户访问兴趣的路径聚类算法,最后通过实验来验证这种算法的有效性.  相似文献   

11.
自适应网站能够提高网站对用户的服务质量。本文首先给出自适应网站的总体框架,对框架中主要模块做详细的分析,包括数据预处理、数据挖掘、页面推荐和站点调整。在数据挖掘模块给出一种有效的识别用户访问模式的算法,该算法利用数据库查询简化频繁最大前向访问路径集的查找,并在此基础上形成频繁访问路径图,为页面推荐和站点调整做好准备。最后给出自适应网站的设计原则。  相似文献   

12.
Improving pattern quality in web usage mining by using semantic information   总被引:1,自引:1,他引:0  
Frequent Web navigation patterns generated by using Web usage mining techniques provide valuable information for several applications such as Web site restructuring and recommendation. In conventional Web usage mining, semantic information of the Web page content does not take part in the pattern generation process. In this work, we investigate the effect of semantic information on the patterns generated for Web usage mining in the form of frequent sequences. To this aim, we developed a technique and a framework for integrating semantic information into Web navigation pattern generation process, where frequent navigational patterns are composed of ontology instances instead of Web page addresses. The quality of the generated patterns is measured through an evaluation mechanism involving Web page recommendation. Experimental results show that more accurate recommendations can be obtained by including semantic information in navigation pattern generation, which indicates the increase in pattern quality.  相似文献   

13.
基于PageRank的Web挖掘改进算法   总被引:1,自引:0,他引:1       下载免费PDF全文
焦金涛 《计算机工程》2009,35(15):284-284
针对Google使用的PageRank算法,提出一种改进的Web挖掘算法。实现该算法时,将网页使用信息和网页添加日期信息做成点击向量和日期向量,2个向量加权后标准化得到的一个向量作为常数加入到改进的迭代算法。实验结果证明,改进算法可以提高网页重要性判断的准确度。  相似文献   

14.
孔德镛  张建军 《计算机工程》2010,36(19):203-204,207
针对元搜索引擎的查准率等问题,分析专业元搜索引擎返回结果的专业相关度问题,提出一种基于遗传算法的网页排序算法,讨论算法的原理及实现过程。在独立搜索引擎返回结果中,挖掘除位置信息以外的其他信息,利用遗传算法建立专业网页相关度模型,对网页的专业相关度进行计算。实验结果表明该算法效果较好。  相似文献   

15.
用页组拓扑平均距离改善页面聚类算法   总被引:1,自引:0,他引:1  
提出一种支持站点结构优化的页面聚类改进算法,通过引入图论中的拓扑平均距离,量化评估与挖掘站点结构中访问效率较低的内容文档集合为结构优化的兴趣页组,挖掘的页组具有更高的兴趣性,并将兴趣页组挖掘算法融入到拓扑优化算法中.实验结果表明改进算法能更好地优化站点结构,较一般算法收敛性好.  相似文献   

16.
在电子商务发展中,商家需要理解用户访问网站的行为,为用户提供个性化服务,从而吸引用户购买商品。挖掘用户访问网站的行为是商家一个急需解决的问题,通过对Web日志进行挖掘是解决该问题的重要研究方法。提出了网页兴趣信息素的新概念,它是由页面相对浏览时间和点击率构建而成,利用兴趣信息素设计了基于蚁群算法的群体用户访问路径挖掘算法,根据挖掘结果预测用户访问行为。实验结果表明,兴趣信息索可以有效地预测用户的兴趣变化,能准确地反映用户访问模式,提高了预测群体用户访问行为的准确率。  相似文献   

17.
基于页面内容和站点结构的页面聚类挖掘算法   总被引:16,自引:0,他引:16  
提出了结合站点拓扑结构和Web页面内容的页面聚类改进算法,改进算法引入Web页面的内容链接比和页组的组内链接度,并修改了频繁访问页组支持度的计算公式,以此来提高挖掘结果的兴趣性.通过实验数据的比较,改进算法较一般算法的收敛性好,发现的频繁访问页组的兴趣性高.  相似文献   

18.
Web使用挖掘是近年来Web数据挖掘中的研究热点。针对传统遗传算法在提取关联规则问题时常采用固定染色体交叉概率和染色体变异概率,容易出现早熟、收敛速度较慢的问题,提出了改进的遗传算法,并在关联规则的提取中增加了用户页面兴趣度这一阈值,成功地运用到某商业网站服务器日志挖掘。实验证明,这种改进的遗传算法能够有效避免早熟收敛现象,是一种有效的方法。  相似文献   

19.
双语平行网页挖掘系统的设计与实现   总被引:1,自引:0,他引:1       下载免费PDF全文
陈伟  黄蕾  刘峰  赵志宏 《计算机工程》2009,35(14):267-269
针对双语语料是开发统计机器翻译系统的重要资源,提出一种从网络中自动挖掘双语平行网页的方法。与传统从指定网站中挖掘平行网页的方法不同,该方法从整个互联网中自动挖掘平行网页,对新的语言对和内容领域有很强的适应能力,实现双语平行网页挖掘的系统。实验结果显示,该系统可以为统计机器翻译系统提供大量高质量的平行网页。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号