首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
基于Web使用挖掘技术的聚类算法改进   总被引:1,自引:0,他引:1  
Web使用挖掘中的聚类算法可以聚集相似特性的用户和页面,以便从中提取有用的感兴趣的信息.通过深入分析基于Hamming距离的聚类算法,指出其中存在的不合理性和低效性,然后根据这些不足引入了加权的bipartite图来表示整个数据集,修改了Hamming距离计算公式以便更准确地描述两对象间的相似度,并对算法进行了改进.实验结果表明,改进的算法是准确且高效的.  相似文献   

2.
基于相对距离的密度聚类算法*   总被引:1,自引:0,他引:1  
首先介绍传统距离计算方法在聚类应用中的不足,并针对这点提出一种基于权重向量的相对距离计算方法。在应用DBSCAN算法的基础上,融入相对距离的计算及k-d树的范围查找的应用。该算法不仅能得到很好的聚类效果,而且消除了数据的度量单位对聚类结果的影响。  相似文献   

3.
基于页面聚类的推荐算法常被应用在个性化推荐系统中,但是很少考虑页面访问的顺序性.针对这种弊端,提出了一种新的路径相似度系数,同时在推荐算法中运用了关联规则,提高了推荐结果的准确性.  相似文献   

4.
用于Web文档聚类的基于相似度的软聚类算法   总被引:3,自引:1,他引:3  
提出了一种基于相似度的软聚类算法用于文本聚类,这是一种基于相似性度量的有效的软聚类算法,实验表明通过比较SISC和诸如K-mcans的硬聚类算法,SISC的聚类速度快、效率高。最后展望了文本挖掘在信息技术中的发展前景。  相似文献   

5.
Web文本聚类算法的分析比较   总被引:2,自引:0,他引:2  
随着计算机网络的发展,各种文本资源以惊人的速度增长,导致信息搜寻困难和信息利用率低下。而快速高质量的Web文本聚类技术可以满足用户方便快捷地从互联网获得所需要的信息资源。文章对Web文本聚类如网页采集、去噪、分词、特征表示等关键技术进行研究,对常用的Web文本聚类算法进行了分析比较,所给出的分析比较结果对文本聚类算法的应用有现实意义。  相似文献   

6.
中文Web检索中聚类算法的改进   总被引:8,自引:7,他引:1  
对基于混合相似度的HTFC算法进行改进,要做的预处理是:建立向量空间模型,计算文档和链接的混合相似度。算法过程是:首先随机选取、√kn个文档进行层次聚类,直到剩k个聚簇为止;对这k个聚簇不断迭代直到集合元素不再变化为止;然后表示出每类;最后通过用户对结果的反馈使得新生成的簇继续迭代,最终满足用户需求。算法第1步采用的是改进的k-means算法,可提高运行效率。反馈机制对原有模型进一步修正,从而提高精度。  相似文献   

7.
一种用于Web搜索的高效聚类算法   总被引:1,自引:0,他引:1  
李新叶  苑津莎 《计算机工程》2006,32(20):38-39,7
根据搜索引擎的用户查询日志库信息对用户访问模式聚类算法进行了研究,说明了用雅可比系数及加权相似性度量公式实现用户访问模式聚类的不足,提出了一种改进的Hamming距离公式,运用距离测度法实现用户访问模式聚类,给出了聚类算法。对算法的分析表明,基于偶图和改进Hamming距离公式的算法是准确和高效的。  相似文献   

8.
Web日志挖掘是Web数据挖掘领域中的一个重要研究方向,是通过对Web日志记录的挖掘发现用户访问Web页面的浏览模式用以改进Web站点的性能和组织结构。在介绍Web日志挖掘的原理和技术的基础上对Web日志挖掘中的聚类技术进行了分析研究,并重点讨论了有关模糊聚类算法的原理及计算过程,对这一算法进行了改进后的优化和应用,最后用实例对算法加以验证。  相似文献   

9.
基于一种相对Hamming距离的入侵检测方法--RHDID   总被引:12,自引:1,他引:12  
首先分析了传统入侵检测方法的不足,即误用入侵检测方法难于检测新形式的入侵,异常入侵检测方法难于建立合理有效的正常行为特征和检测方法。然后,通过对特权进程的系统调用和参数序列的研究,提出了一种相对Hamming距离入检测方法(RHDID)。应用RHDID检测入侵不仅能有效降低漏报率和误报率,而且使实时入侵检测成为可能。最后,原型系统证实了该方法的可行性,获得了在实时环境中检测入侵的技术效果。  相似文献   

10.
基于用户浏览行为聚类Web用户   总被引:3,自引:0,他引:3  
本文结合Web用户浏览行为的特点,提出了一种新的路径相似度的计算方法,在计算相似度时不仅把用户的浏览模式仅作为一种序列模式来考虑,还充分考虑了用户在网上浏览的时间因素.然后,把粗糙度的概念引入Leader聚类算法中,提出粗糙Leader聚类算法.最后,使用标准数据集进行了试验,证明基于此种相似度计算方法,应用粗糙Leader算法聚类Web用户的有效性.  相似文献   

11.
针对传统K-均值算法对初始聚类中心选择较为敏感的问题,提出了一种基于融合集群度与距离均衡优化选择的K-均值聚类(K-MCD)算法。首先,基于"集群度"思想选取初始簇中心;然后,遵循所有聚类中心距离总和均衡优化的选择策略,获得最终初始簇中心;最后,对文本集进行向量化处理,并根据优化算法重新选取文本簇中心及聚类效果评价标准进行文本聚类分析。对文本数据集从准确性与稳定性两方面进行仿真实验分析,与K-均值算法相比,K-MCD算法在4个文本集上的聚类精确度分别提高了18.6、17.5、24.3与24.6个百分点;在平均进化代数方差方面,K-MCD算法比K-均值算法降低了36.99个百分点。仿真结果表明K-MCD算法能有效提高文本聚类精确度,并具有较好的稳定性。  相似文献   

12.
提出一个基于Web日志的web用户群体和站点URL聚类算法.使用用户浏览行为描述和用户浏览时间离散化方法建立了Web站点的用户事务矩阵,并在此基础上对Web用户群体和站点URL进行聚类.由于在聚类过程中同时考虑了用户对URL的浏览时间和访问次数,使算法的精度和效率都大大提高.同时,该算法能较好地处理类间重叠问题,使算法具有较好的实用性.最后对算法的有效性和可伸缩性进行了研究.  相似文献   

13.
为了解决传统聚类算法难以获得较好的Web用户聚类结果、使用的指标无法全面反映用户行为特征的问题,提出一种基于粒度原理的Web用户聚类算法。首先对离散化数据给出稀疏相似度和初始等价关系的定义,进行初次聚类;然后设计可变精度的二次聚类模型对初始聚类结果进行修正;最后结合应用领域定义一种新的聚类质量评价模型。算法中面向Web用户引入多指标体系,各种指标既可独立考核,也可灵活组合,并同时兼顾决策者对指标的偏好。实验证明,该算法适用于Web用户的高维稀疏数据,不依赖样本的顺序,具有更广应用性,可提供多粒度分析结果,得到的聚类结果能真实反映数据的特征。  相似文献   

14.
Web使用挖掘是近年来Web数据挖掘中的研究热点。针对传统遗传算法在提取关联规则问题时常采用固定染色体交叉概率和染色体变异概率,容易出现早熟、收敛速度较慢的问题,提出了改进的遗传算法,并在关联规则的提取中增加了用户页面兴趣度这一阈值,成功地运用到某商业网站服务器日志挖掘。实验证明,这种改进的遗传算法能够有效避免早熟收敛现象,是一种有效的方法。  相似文献   

15.
Web服务组合中基于 QoS的改进型遗传算法 *   总被引:2,自引:2,他引:0  
提出了一种在 Web服务组合中基于 QoS的改进型遗传算法。该算法通过计算个体间服务质量的海明距离提高了服务组合的质量 ;通过指定用户总时间限制和实施优良解保留策略解决了算法运行时间对服务质量的影响问题。实验结果表明了算法的有效性。  相似文献   

16.
基于树编辑距离的层次聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为了识别犯罪嫌疑人伪造和篡改的虚假身份,利用树编辑距离计算个体属性相似性,证明了树编辑距离的相关数学性质,对属性应用层次编码方法,提出了一种新的基于树编辑距离的层次聚类算法HCTED(Hi-erarchical Clustering Algorithm Based on Tree Edit Distance)。新算法通过树编辑操作使用最少的代价计算属性相似性,克服了传统聚类算法标称型计算的缺陷,提高了聚类精度,通过设定阈值对给定样本聚类。实验证明了新方法在身份识别上的准确性和有效性,讨论了不同参数对实验结果的影响,对比传统聚类算法,HCTED算法性能明显提高。新算法已经应用到警用流动人口分析中,取得了良好效果。  相似文献   

17.
章曼  张正军  冯俊淇  严涛 《计算机应用》2022,42(6):1914-1921
针对基于快速搜索和发现密度峰值的聚类(CFSFDP)算法中截断距离需要人工选取,以及最近邻分配带来的误差导致的在具有不同密度簇的复杂数据集上的聚类效果不佳的问题,提出了一种基于自适应可达距离的密度峰值聚类(ARD-DPC)算法。该算法利用非参数核密度估计方法计算点的局部密度,根据决策图选取聚类中心,并利用自适应可达距离分配数据点,从而得到最终的聚类结果。在4个合成数据集和6个UCI数据集上进行了仿真实验,将所提算法ARD-DPC与基于快速搜索和发现密度峰值的聚类(CFSFDP)、基于密度的噪声应用空间聚类(DBSCAN)、基于密度自适应距离的密度峰聚类(DADPC)算法进行了比较,实验结果表明,相比其他三种算法,ARD-DPC算法在7个数据集上的标准化互信息(NMI)、兰德指数(RI)和F1-measure取得了最大值,在2个数据集分别取得F1-measure和NMI的最大值,只对模糊度较高、聚类特征不明显的Pima数据集聚类效果不佳;同时,ARD-DPC算法在合成数据集上能准确地识别出聚类数目和具有复杂密度的簇。  相似文献   

18.
张瑞丽  张继福 《计算机应用》2012,32(7):1978-1982
针对模糊C-均值(FCM)算法易陷入局部最优值以及对聚类中心和噪声数据敏感问题,提出了一种基于w-距离均值的模糊聚类算法。首先根据数据自身的分布规律,依据样本间距离均值思想确定初始聚类中心,并引入了调衡因子w来调节距离均值阈值;其次为每个样本赋予权值,并利用样本权值修改了聚类中心公式和目标函数公式,提高了算法的抗噪性;最后实验结果验证了所提算法可以有效地解决聚类效果往往受初始聚类中心的影响的问题,避免了局部收敛,增强了抗噪性,准确率和效率较高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号