首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 20 毫秒
1.
基于网页时间权值的PageRank算法改进   总被引:1,自引:0,他引:1  
针对PageRank搜索算法采用传统文献引文分析方法导致先后更新的网页没有有效给予权值的不足,提出一种改进的N-step PageRank搜索算法。新算法在原有网页优先级别的计算方法上加入网页时间权值,使对页面级别的计算更为合理。实验结果表明,新算法能够加强最新发布网页的重要性,优化网页的搜索排序。  相似文献   

2.
针对传统网页分类中存在的准确率和查全率不高、分类效率低的情况,提出一种基于朴素贝叶斯分类的网页预分类算法.算法根据用户的网上活动情况提取相关网址,分析网页内容和网页关键词,利用朴素贝叶斯分类算法进行分类,根据用户对各类网页的浏览情况分析用户的行为特征.采用改进的文本权值计算方法,并引进网址预分类机制,提高数据的处理效率以及分类的准确率.结果表明,网址分类算法准确,能够充分发掘用户的兴趣喜好,可以作为用户行为分析的数据算法进行商业推广和司法取证.  相似文献   

3.
具有时间反馈的PageRank改进算法   总被引:12,自引:0,他引:12  
针对某一类网页(比如新闻网页)在互联网上发布时间越长,其信息的重要性将随之下降这一事实,在传统的PageRank算法中加入时间反馈因子,实现网页因发布时间的长短,其PageRank值也随之上下浮动.并采用Seidel迭代算法加速迭代收敛过程.实验结果表明,改进后的算法在计算这类与发布时间相关的网页的PageRank值时,符合人们的一般期望,是有效的.Seidel迭代算法有利于提高算法效率.  相似文献   

4.
在对现有主流网页消重技术分析的基础上,提出一种基于网页内容的改进的网页消重高效检测算法.该算法通过利用网页的标签树结构选取最大的多个文本块,将这些文本块连接在一起生成一个代表该网页的MD5指纹,对指纹进行比较,确认近似网页实现消重,实验证明该方法对近似网页能进行准确的检测.  相似文献   

5.
为了提高网站访问效率并得到有价值的个性化网页推荐,针对Web日志的新特性,提出了一种新的基于竞争凝聚的聚类算法.新算法对K-paths聚类算法进行了扩展和改进,按照路径的相似性进行聚类,采用竞争凝聚的思想,自动确定最佳的聚类数目.由于算法考虑了用户的访问兴趣,个性化网页推荐不打扰用户且不需要用户注册信息.利用关联规则得到个性化网页推荐集.用户推荐集和页面推荐集的结合大大提高了推荐效果,具有较好的扩展性.实验结果表明,与其他聚类方法相比该算法具有更高的推荐精度.  相似文献   

6.
为解决信息检索时不同用户对搜索结果有不同期望的问题,提出了一种基于向量空间模型的个性化网页搜索算法。针对用户不同兴趣,利用用户画像能够更加全面地表示用户兴趣的特点,通过向量空间模型建立用户画像来表达用户兴趣,结合传统的网页排序算法得出最终的网页排序结果。对于不同用户可得到不同的网页搜索结果,排序靠前的网页中符合用户兴趣的网页数量增多。通过对模拟网页搜索实验结果的分析,证明所提算法较传统PageRank算法在个性化网页搜索方面有所提高。  相似文献   

7.
针对已有Web事务识别模型的缺点,提出一种识别Web事务的新模型———IPRC模型.该模型根据主索引页上的引用以及文档目录结构将网页分类,并以此作为识别Web事务的依据.在此基础上提出了一种挖掘频繁访问模式的算法WDHP,该算法继承了DHP算法使用hash树过滤候选集以及裁剪数据库的基本方法,并以访问路径树的方式将数据库存储于内存,在内存中完成后继的挖掘,不仅减少了扫描数据库的次数,而且大大降低了算法的时间复杂性.实验表明WDHP算法不仅优于DHP算法,而且也优于典型的基于内存的WAP算法.  相似文献   

8.
Ajax页面的生成和页面导航需要执行客户端的JavaScript代码, 传统网络爬行算法无法获取Ajax页面全部内容. 分析了Ajax的工作方式, 阐述了爬行Ajax网页所面临的主要问题, 提出并实现了一种有效爬行Ajax页面的网络爬行算法. 该算法可控制客户端浏览器动态生成页面内容和完成页面导航, 为爬行过的页面分配标识编号并生成相应静态页面. 实验结果表明, 提出的算法所爬行的Ajax页面数量明显多于传统方法, 同时, 采用的双重消重策略可有效减少算法的时间耗费.  相似文献   

9.
提出了一种基于传递闭包的模糊聚类方法,并应用于Web日志聚类中,实验结果表明,该算法能够有效实现Web用户聚类,并且能够避免陷入局部最优解。最后与模糊C均值算法进行比较,并讨论了算法的运行时间和错分率。  相似文献   

10.
提出一种新的新闻网页内容提取方法。与已有的研究相比,它自动判别网页是否含有主内容,并且回避了模板和DOM-Tree方法所带来的局限。主要工作包括:①提出了一种网页分块方法,通过一趟遍历将网页主内容和噪声划分到不同的块中;②提出网页块分布的概念并研究了块分布的属性,根据块分布可以有效地使用分类方法来判别网页是否有主内容,采用孤立点分析的方法从网页块分布中提取主内容。本文通过理论和实验证明了该方法的有效性。  相似文献   

11.
在HITS算法的基础上应用蚁群算法的主要思想,对网页按关键字搜索后被点击的次数进行统计,结合相关内容提出了一种新的搜索算法—基于蚁群算法的改进HITS算法.实验表明,该算法在使得返回结果中相关度较高的网页通过人们的自主选择获得了不同程度的加权,使得其在查准率及解决HITS算法的主题漂移方面都优于传统HITS算法.  相似文献   

12.
在HITS算法的基础上应用蚁群算法的主要思想,对网页按关键字搜索后被点击的次数进行统计,结合相关内容提出了一种新的搜索算法—基于蚁群算法的改进HITS算法.实验表明,该算法在使得返回结果中相关度较高的网页通过人们的自主选择获得了不同程度的加权,使得其在查准率及解决HITS算法的主题漂移方面都优于传统HITS算法.  相似文献   

13.
针对绝大多数Web应用都在使用动态网页以及数据库技术,频繁访问后台数据库并动态生成内容会给服务器带来沉重负荷,从而降低页面响应速度,甚至造成服务器崩溃;为解决这一问题,提出了动态网页静态化的方案.结合某网上商城系统的设计,提出了网页静态化的原则和策略;针对商城首页和商品详情页面,分别介绍了定时静态化以及访问时静态化的方法.实验结果表明:经过静态化处理,网页的响应速度明显提升,而系统能够处理的并发请求数量也大幅度提升.  相似文献   

14.
分析色障人群辨别色彩的特点,提出具体的面向色障人群的网页色彩设计方法.在选用网页色彩的过程中,可以通过色彩方案、色彩肌理、色彩易见度的合理设计和选择,以及提供相关改善选项,不但为设计师进行网页色彩设计提供了一种较好的辅助方式,而且有助于更好地满足视觉障碍者网页阅读的需求.  相似文献   

15.
介绍了网页设计技术的产生和现状,提出了网页设计的一些 关键技术并给出了网页设计的方法。  相似文献   

16.
传统粒子群算法的优点较为明显,但是随着环境复杂度的增高,传统算法的聚类中心敏感度升高,空聚类过多,类标号对聚类结果的影响不足等问题日趋严重.为此,提出了一种改进算法,以半监督K均值聚类为目标,以自适应K值的方式,随机地计算初始化聚类中心,并根据均值聚类算法的需要编码成粒子,同时引入软性约束概念重新构造目标函数;最后使用改进后的算法进行寻优.所提出的粒子群算法改进了自适应参数,引入了免疫扰动和混沌扰动2种扰动方式,同时应用了退火策略和动态聚类策略.实验结果表明,该算法在很大程度上解决了上述问题.  相似文献   

17.
介绍了一种新颖的Web存取模式的聚类算法,该算法是一种结合粗糙理论和模糊理论的改进Leader算法,既体现了粗糙理论和模糊理论在处理含有不确定信息问题上的优势,同时使用了Leader算法进行聚类以提高算法的时间复杂度,从而在Web存取模式的聚类中的聚类的时间花费是令人接受的而且聚类结果是相对满意的。通过实例分析及实验结果,该算法是行之有效的。  相似文献   

18.
网页去重是从给定的大量的数据集合中检测出冗余的网页,然后将冗余的网页从该数据集合中去除的过程,其中基于同源网页的URL去重的研究已经取得了很大的发展,但是针对海量网页去重问题,目前还没有很好的解决方案,文章在基于MD5指纹库网页去重算法的基础上,结合Counting Bloom Filter算法的特性,提出了一种快速去重算法IMP-CBFilter。该算法通过减少I/O频繁操作,来提高海量网页去重的效率。实验表明,IMP-CBFilter算法的有效性。  相似文献   

19.
Web日志挖掘就是通过一定的方法分析Web日志数据,发现用户的访问习惯,帮助管理人员改进Web站点的性能和结构,提高用户获取知识的质量和速度.笔者首先在Web日志挖掘的背景下分析了模糊C均值聚类算法的缺陷,针对其的不足,在粗糙集理论的支持下,介绍属性信息量的概念,并通过计算待聚类对象的属性权值,区分重要性属性和噪音属性...  相似文献   

20.
Web日志挖掘中模糊C均值聚类研究   总被引:1,自引:0,他引:1  
Web日志挖掘就是通过一定的方法分析Web日志数据,发现用户的访问习惯,帮助管理人员改进Web站点的性能和结构,提高用户获取知识的质量和速度。笔者首先在Web日志挖掘的背景下分析了模糊C均值聚类算法的缺陷,针对其的不足,在粗糙集理论的支持下,介绍属性信息量的概念,并通过计算待聚类对象的属性权值,区分重要性属性和噪音属性对聚类结果的影响,实验证明该方法提高了模糊C均值聚类算法的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号