首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
有序概念格与WWW用户访问模式的增量挖掘   总被引:7,自引:1,他引:7  
访问模式是用户沿URL超链寻找和浏览网页规律的总结 ,发现用户访问模式对于帮助用户快速到达目标页面 ,进而实现搜索引擎的个性化导航具有重要意义 目前虽有一些挖掘用户访问模式的工作 ,但尚未发现能够处理增量数据的系统化挖掘算法 用户访问模式挖掘可由如下 3个步骤完成 :①由日志库提取最大向前关联路径 ,②由最大向前关联路径发现频繁关联路径序列 ,③由频繁关联路径序列得到最大频繁关联路径序列 ,其中②是问题的核心 为得到系统化算法 ,对概念格模型加以顺序约束 ,提出了有序概念格 ,并将其用于Web访问模式的增量发掘 给出了增量式高效挖掘算法 ,并与相关工作进行了比较 ,对合成数据和实际数据的实验结果验证了算法的有效性  相似文献   

2.
当今网络中通过网页来种植木马的现象已很普遍。利用网页来传播木马技术就是将木马的域名隐藏在网页里,用户在浏览网页时,隐藏在网页中的木马就会被种植到用户的系统中。因此如果被访问的网页嵌入了木马的域名,那么当网络用户发出链接请求响应时,网络的响应将变得异常。基于上述原因,本文从链接请求响应次数的角度,来判断网页中是否藏有木马域名。首先简介木马技术,网页挂马技术和中介的基本概念,然后给出检测函数y=f(x)以及MMTD在检测木马上的应用,最后给出具体检测算法。  相似文献   

3.
汤亚玲  崔志明 《计算机工程》2012,38(20):179-183
现有网页分类技术忽略用户个性行为的差异.为此,提出一种结合用户行为特征分析的网页分类技术.运用知识规则发现、页面特征提取等方法,分析Web用户的访问历史和个性化定制信息,学习并掌握用户的行为和兴趣.针对用户的认知特征,提供合适的Web页面分类模式,能在一定程度上改进单纯统计学网页分类方法在自然语言理解上的不足.实验数据表明,该分类方法与多种统计学方法相结合实施网页分类均能有效地提高分类准确率,使网页分类结果更接近分类的真实情形和要求.  相似文献   

4.
有序概念格与WWW用户访问模式的增量控掘   总被引:4,自引:0,他引:4  
访问模式是用户沿URL超链寻找和浏览网页规律的总结,发现用户访问模式对于帮助用户快速到达目标页面,进而实现搜索引擎的个性化导航具有重要意义.目前虽有一些挖掘用户访问模式的工作,但尚未发现能够处理增量数据的系统化挖掘算法.用户访问模式挖掘可由如下3个步骤完成:①由日志库提取最大向前关联路径,②由最大向前关联路径发现频繁关联路径序列,③由频繁关联路径序列得到最大频繁关联路径序列,其中②是问题的核心.为得到系统化算法,对概念格模型加以顺序约束,提出了有序概念格,并将其用于Web访问模式的增量发掘.给出了增量式高效挖掘算法,并与相关工作进行了比较,对合成数据和实际数据的实验结果验证了算法的有效性.  相似文献   

5.
近年来,Web使用挖掘成为数据挖掘领域中一个新的研究热点,Web使用挖掘是从记录了大量网络用户行为信息的Web日志中发现用户访问行为特征和潜在规律.本文结合某高校主页的真实运行数据,通过Web使用挖掘对于网站的运行日志文件进行全面的挖掘分析,分析用户对信息内容的兴趣度,并通过用户对网页的访问数据推算出各个页面受众的兴趣度高低,借此改良网站的内容和布局.  相似文献   

6.
挖掘Web日志中的分类关联规则   总被引:1,自引:0,他引:1       下载免费PDF全文
用户分类是Web访问模式挖掘研究的一个重要任务。提出一种应用关联分类技术对Web用户进行分类的方法:首先通过对Web日志文件预处理得到训练事务数据集,然后从该事务集中挖掘分类关联规则,并利用所挖掘的规则集构建了一个分类器,从而实现了根据用户访问历史对用户进行分类。  相似文献   

7.
针对用户域名分类识别精度较低,且过程较为复杂的问题,提出一种基于FIT AP的智慧网络网多标签用户域名分类识别方法,在无线网络的集中构架管理内,利用LWAPP协议构建数据与管理通道,并在AP与AC二者之间连接控制器,采用隧道管理方法,完成接入点服务配置、监控以及管理,利用接入控制器为无线接入用户的提供网络接入服务;经过条件熵、信息熵以及联合熵获取用户域名特征集合信息增益,进行智慧校园网络用户特征分类识别,完成用户域名与标签二者之间的关系区分,实现对用户域名特征的多标签分类识别.实验表明,提出的方法识别精度较高、过程简单,可应用于校园网络当中,实现校园网络优化.  相似文献   

8.
在传统的Web网站中,网页的布局往往由网页制作人员安排并很少变化.为了更好的为网络用户提供服务,提出通过对Web日志的数据清洗,识别出每个用户在一个会话期内访问的页面,依据网页内客在逻辑上的关系和用户经常访问的页面,得到用户对网页内容的兴趣度矩阵及各子项目的兴趣度矩阵.对网络用户根据兴趣度短阵进行层次化的分类,得到每个...  相似文献   

9.
电子商务网站用户访问模式挖掘中的预处理技术   总被引:6,自引:0,他引:6  
郭伟刚 《计算机应用》2005,25(3):691-694
对电子商务网站的用户访问模式挖掘中数据预处理阶段所采用的技术做了全面的研究,主要包括源数据的采集方法以及数据清理、用户识别、会话识别、事务识别、会话子序列生成等所采用的技术。并给出了框架网页过滤、识别搜索引擎Robot产生的访问记录,以及生成用户会话语义序列的方法。  相似文献   

10.
一种基于最大频繁项目集的挖掘事务间关联规则方法   总被引:1,自引:0,他引:1  
任永功  张琰渝 《计算机科学》2008,35(11):185-188
Web事务间关联规则挖掘是通过发现网页之间的关联关系来预测用户的兴趣。提出一种新的事务间关联规则挖掘方法,通过对MAFIA算法改进,得到最大频繁项目集的同时得到对应的共有用户集,通过对事务内到事务间最大频繁项目集的转换,分析不同用户之间的关系,分析用户对网站上不同网页的访问数据,直接发现不同用户之间的关联关系来预测用户的兴趣。该方法经试验证明能够更加全面的预测用户感兴趣的网页,更好地为用户提供个性化服务。  相似文献   

11.
为了降低网站分类处理的计算量和使分类结果能够反映用户的行为规律,将URL前缀相同的网页合并为一个处理单位,并从用户的HTTP访问行为中提取用于网站分类的特征,最后针对省级区域性网络数据规模大的特点,采用可伸缩性决策树算法,从河南省教育科研计算机网用户访问的网站中提取出新闻类网站、资源共享类网站和通讯类网站.该方法与传统的网站分类方法相比,不需要逐个分析网页内容,适合处理大规模数据.  相似文献   

12.
《电脑时空》2008,(2):62-62
大家肯定都知道谷歌公司推出的个性化搜索功能——记录用户访问的网页历史,该服务能记录用户访问过的网页并进行排序、编制索引、分类。谷歌公司推出这项功能已经很长时间了,但谷歌并没有大张旗鼓地进行宣传,这似乎与谷歌一贯的风格不符。这个功能是可选的,如果用户愿意的话,可以用此工具将搜索数据永久保存。  相似文献   

13.
在电子商务发展中,商家需要理解用户访问网站的行为,为用户提供个性化服务,从而吸引用户购买商品。挖掘用户访问网站的行为是商家一个急需解决的问题,通过对Web日志进行挖掘是解决该问题的重要研究方法。提出了网页兴趣信息素的新概念,它是由页面相对浏览时间和点击率构建而成,利用兴趣信息素设计了基于蚁群算法的群体用户访问路径挖掘算法,根据挖掘结果预测用户访问行为。实验结果表明,兴趣信息索可以有效地预测用户的兴趣变化,能准确地反映用户访问模式,提高了预测群体用户访问行为的准确率。  相似文献   

14.
随着Internet的迅速发展,Web站点的访问用户越来越多样化,不同种类用户的访问模式有所不同.提出一种基于会话分类的Web用户访问模式挖掘方法.这套方法把用户会话划分为人类用户会话、网络爬虫会话和资源下载类用户会话三大类,在此基础上分别对3类用户的访问模式进行挖掘.通过会话分类可以提高挖掘的效率与准确性.其中重点研究了人类用户的访问模式挖掘,提出一种基于用户访问路径树的事务识别方法,并对PrefixSpan算法进行了改进.这套方法在实验中取得了很好的挖掘效果.  相似文献   

15.
前段时间银行开了个客户体验区,本来是想让大家体验一下网银系统,可是很多用户却通过客户体验区的电脑上百度、微博等其他网页。有没有什么简单的办法在Winows7下只能访问指定的网页呢?其实只要借助“Windowssystem32driversetc”目录下的Hosts文件就能轻松解决控制域名访问的问题。  相似文献   

16.
目前对网页挂马攻击的检测手段主要有网页代码特征匹配与高交互虚拟蜜罐技术,前者难以对抗代码加密与混淆变形技术,后者资源消耗较大难以在客户端直接部署.提出一种新型的基于HTTP会话过程跟踪的网页挂马攻击检测方法.首先跟踪用户访问正常网页与挂马网页的HTTP会话过程,并分析比较两者统计特征,包括会话链接树特征与所引用域名的特征等.进一步,基于会话过程统计特征及采用有监督的机器学习技术,建立了能有效识别挂马网页会话过程的分类模型.实验证明,该模型能够达到91.7%的网页挂马攻击检测率以及0.1%误检率.  相似文献   

17.
网页代理提供了一种快捷的中继服务,与其它类型的代理服务相比,如隐匿网络/VPN服务/Socks代理等,用户可以不需要安装任何软件就免费使用。因此,网页代理在绕过访问限制、隐藏身份等方面的便利性上有其不可比拟的优势。然而,网页代理在获取个人隐私信息、推送垃圾广告、隐匿行踪等方面也给人们的网络生活带来严重的安全威胁。所以,如何快速有效地将它们与大量正常网页区分开来成为网络空间安全面临的一个重要挑战。针对这一问题,本文提出了一种基于多维特征分析的网页代理发现方法——ProxyMiner。在主动发现方面,引入了网页代理特有的结构特征和内容特征,通过机器学习的方法进行预测发现。在被动发现方面,基于用户访问网页代理特有的访问模式,通过构建二分图对代理用户进行谱聚类分析,获取代理用户群体访问的顶级域名,从而发现网页代理。此方法仅基于客户端IP地址和目标URL,不需要任何有关HTTP头(经常会被恶意修改)或数据包(通常是加密的或不可用的)的信息。实验结果表明,在相同数据集上,相比于传统检测方法,ProxyMiner可以显著提高网页代理检测效果,降低平均检测时间。  相似文献   

18.
从Web日志中挖掘用户兴趣路径算法改进   总被引:3,自引:1,他引:2       下载免费PDF全文
引入一种挖掘用户兴趣路径的算法,并对其进行有意义的改进。算法的主要思想是:首先利用Web日志建立以引用网页URL为行、浏览网页URL为列的两个网站访问矩阵,分别采用访问次数和平均到网页中字符数的访问时间为元素值。然后,通过对矩阵进行路径兴趣度计算得到兴趣子路径,最后进行合并生成用户兴趣路径集。  相似文献   

19.
曹易  张宁 《计算机系统应用》2012,21(7):65-68,109
通过挖掘网页的浏览记录来对用户群体兴趣进行分析。对访问网站的兴趣类别、时间、用户数进行统计,得到规律性的结论。其次提出一种改进的基于HAC和k-means的算法对用户根据兴趣进行聚类,挖掘用户的访问模式。最后验证了主导兴趣的稳定性即随着日志的增加,用户的最大兴趣是趋于稳定的。  相似文献   

20.
基于用户访问路径分析的网页预取模型   总被引:15,自引:0,他引:15       下载免费PDF全文
许欢庆  王永成 《软件学报》2003,14(6):1142-1147
随着网络信息的飞速增长,互联网已成为人们获取信息的重要来源.但是,受限于网络带宽,用户往往需要忍受较长的访问延时.为了缓解这种情况,人们提出了网页预取技术,用于降低用户的访问延迟,提高Web服务器的服务质量.提出一种基于用户访问路径分析的服务器端网页预取模型.模型通过对用户访问序列进行语义分析,提取路径中蕴含的信息需求,依此进行网页预取决策.为了实现用户访问序列中潜在意图的挖掘,模型还引入了隐马尔可夫模型.性能测试实验的结果表明,该模型具有较好的整体性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号