首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
根据科技文献的结构特点,搭建了一个四层挖掘模式,提出了一种应用于科技文献分类的文本特征选择方法。该方法首先依据科技文献的结构将其分为四个层次,然后采用K-means聚类对前三层逐层实现特征词提取,最后再使用Aprori算法找出第四层的最大频繁项集,并作为第四层的特征词集合。在该方法中,针对K-means算法受初始中心点的影响较大的问题,首先采用信息熵对聚类对象赋权的方式来修正对象间的距离函数,然后再利用初始聚类的赋权函数值选出较合适的初始聚类中心点。同时,通过为K-means算法的终止条件设定标准值,来减少算法迭代次数,以减少学习时间;通过删除由信息动态变化而产生的冗余信息,来减少动态聚类过程中的干扰,从而使算法达到更准确更高效的聚类效果。上述措施使得该文本特征选择方法能够在文献语料库中更加准确地找到特征词,较之以前的方法有很大提升,尤其是在科技文献方面更为适用。实验结果表明,当数据量较大时,该方法结合改进后的K-means算法在科技文献分类方面有较高的性能。  相似文献   

2.
张文宇  刘嘉  杨媛  朱钰婷  于瑞 《计算机与数字工程》2021,49(9):1731-1736,1817
为了提高科技创新人才培养过程中人才层次分类的效果,提出了一种结合主成分的改进K近邻优化的密度峰值聚类算法(IKDPC).首先,论文将主成分分析思想及流程融入到K近邻优化的密度峰值聚类算法(KNN-DPC)中来提高对高维数据的处理能力;进而,为了克服复杂数据集和噪声点对KNN-DPC算法的影响,对局部密度度量方法进行了改进,并设计了全新的两种样本数据点的分配策略,从而有效提高了聚类效率和聚类质量;最后,将IKDPC算法针对科技创新人才样本指标数据进行实例研究,实证结果表明该算法能有效地对科技创新人才进行分类,并为科学合理地探究科技创新人才培养过程中的分类问题提供科学量化参考.  相似文献   

3.
k中心点聚类算法在层次数据的应用   总被引:2,自引:0,他引:2  
探讨了近年来提出的聚类概念与聚类过程、k中心点聚类的算法,在此基础上提出了一种基于层次数据模型的k中心聚类的改进算法.该算法一方面针对层次变量提出了相关的中值点概念;另一方面对传统k中心点算法进行了改进.最后对改进算法的复杂度进行了分析,由分析结果得出改进算法要比传统k中心点算法每次迭代耗费时间略少,但在总耗费时间上远远小于k中心点算法,大幅度提高了算法的整体性能.  相似文献   

4.
黄琳  陈耀文 《微计算机信息》2007,23(27):255-257
本文在克隆选择免疫算法和层次聚类的基础上,提出一种动态聚类算法。该算法无需先验知识,首先初始化与抗原相同规模的抗体,然后根据亲和力进行抗原识别、抗体抑制和合并,完成一轮聚类;再利用aiNET免疫网络模型动态确定聚类后的抗体的变异方向,实施强目的性变异,变异率反比例于进化代数动态调节,使变异后相似的抗体进一步合并,如此反复直到满足终止条件。仿真的实验结果表明,该算法比传统的聚类方法具有更好的聚类结果和更高的性能。  相似文献   

5.
在传统的K-means算法中,聚类结果很大程度依赖于随机选择的初始聚类中心点以及人工指定的k值.为了提高聚类精度,本文提出了利用最小距离与平均聚集度来对初始聚类中心点进行选取,将层次聚类CURE算法得到的聚簇数作为k值,从而使聚类精度得到提高.最后,将改进后的K-means算法应用到微博话题发现中,通过对实验结果分析,证明该算法提高了聚类结果精度.  相似文献   

6.
李晓飞 《计算机应用与软件》2009,26(10):262-264,272
连续属性离散化问题是机器学习的重要方面,是数据预处理问题之一.提供的基于动态层次聚类的离散化算法是层次聚类算法的一种改进.对该算法进行定性分析-对随机采集数据根据相似度进行聚类分析,得到论域的一种划分.通过实验表明,基于动态层次聚类的离散化算法对连续属性的划分更加合理,更加有效.  相似文献   

7.
为了提高网页目录的构建效率、增加其灵活性,提出了一种改进的文本聚类算法.改进的CBC算法用于快速确定文本的聚类中心,根据网页目录的特点,该算法增加了层次聚类方法,以形成文本类别的层次结构,考虑到网页文本的快速增长,采用增量方式对新网页进行聚类.把该算法应用于网页文本集,产生了有意义的聚类结果,对比K-Means算法,获得了更高的精度,并具有较高的时间性能,实验结果表明了该算法的有效性.  相似文献   

8.
提出一种新的选取初始聚类中心的算法,该算法结合了凝聚层次聚类算法AGNES,利用该算法选出初始聚类中心,再应用到K-means算法中进行聚类。实验表明,改进的算法聚类效果更好,准确率得到了提高,迭代次数也明显减少,还能够发现异常点。  相似文献   

9.
针对K-means算法所存在的问题进行了深入的研究,提出了基于密度和聚类对象方向的改进算法(KADD算法).该算法采取聚类对象分布密度方法来确定初始聚类中心,然后根据对象的聚类方向来发现任意形状的簇.理论分析与实验结果表明,改进算法在不改变时间、空间复杂度的情况下能取得更好的聚类结果.  相似文献   

10.
周晨曦  梁循  齐金山 《自动化学报》2015,41(7):1253-1263
提出了一种基于约束动态更新的半监督层次聚类算法. 与现存的半监督层次聚类算法类似, 该算法也使用了必连和不连约束. 但不同的是, 该算法并不是在对满足必连约束的数据样本点进行预先划分的基础上依据不连约束进行聚合操作, 而是首先将约束扩展为一个闭包, 然后在这此基础上直接依据不连约束进行聚合操作, 并在聚合的过程中依据聚类结果动态地更新必连和不连约束, 以保证最终的聚类结果同时满足必连和不连约束. 该算法的优势在于省略了对必连约束的数据样本点进行预先划分的步骤, 这一改进能够保证数据样本点获得更为合理的聚合顺序, 从而得到更为准确的聚类结果. 本文具体给出了该算法基于Ward 层次聚类算法的实现, 提出了C-Ward算法.实验表明, 与其他同类算法相比, 无论是在人工模拟数据集还是在现实数据集上, 本文提出的算法都表现出了更高的准确性和更强的稳定性.  相似文献   

11.
改进的离群核模糊聚类算法   总被引:2,自引:1,他引:1       下载免费PDF全文
针对离群点数据的发现问题,提出一种改进的离群核模糊聚类算法,利用先验知识,选择聚类目标函数,并将聚类中心作为初始化参数,有效提高算法的收敛速度,减少其整体运行时间,仿真实验结果表现,该算法是有效的。  相似文献   

12.
李乐  王斐 《计算机应用研究》2021,38(5):1387-1392
针对现有基于K-means的半监督聚类算法存在的共同问题,即对离群点敏感、在非凸数据集与不平衡数据集上表现差,提出了一种基于层次策略的散布种子半监督中心聚类算法。首先通过基于影响空间的样本边缘因子将数据集分为核心层与边缘层,然后应用一种改进的K-medoids算法完成核心层聚类,最后采用一种递进半监督分配策略对边缘层进行分配得到最终聚类结果。算法通过层次策略解决了离群点干扰问题、半监督子簇聚类及合并策略实现了在不同分布数据集上有效聚类。通过与几种半监督聚类方法在人工数据集以及真实数据集上进行的对比实验证明,该算法能够解决现存问题,提升了聚类性能与鲁棒性。  相似文献   

13.
Speed-density relationships are used by mesoscopic traffic simulators to represent traffic dynamics. While classical speed-density relationships provide useful insights into the traffic dynamics problem, they may be restrictive for such applications. This paper addresses the problem of calibrating speed-density relationship parameters using data mining techniques, and proposes a novel hierarchical clustering algorithm based on K-means clustering. By combining K-means with agglomerative hierarchical clustering, the proposed new algorithm is able to reduce early-stage errors inherent in agglomerative hierarchical clustering resulted in improved clustering performance. Moreover, in order to improve the precision of parametric calibration, densities and flows are utilized as variables. The proposed approach is tested against sensor data captured from the 3rd Ring Road of Beijing. The testing results show that the performance of our algorithm is better than existing solutions.  相似文献   

14.
为了深入挖掘校园无线网络轨迹行为数据信息,采用基于密度的聚类方法对校园内用户的轨迹行为进行特征聚类。由于基于密度的聚类算法通常采用距离作为相似性度量方式,为了有效衔接此类聚类算法,先将用户相似度矩阵通过转换函数转变为距离矩阵。引入离群点检测算法,将离群点检测算法与聚类算法相结合,减少参数的输入个数,增加聚类的聚合程度。改进后的聚类算法可以有效检测出数据轨迹的异常,帮助高校通过对学生上网记录的处理找到浏览信息与大部分同学不一致的人,缩小目标范围,进行有针对性的处理。通过定性分析和实验对比验证,确定两种基于离群点检测的共享最近邻的快速搜索密度峰值聚类适用于校园无线网络行为轨迹相似度矩阵的处理,邓恩指数等聚类内部指标及整体性能优于同类算法。  相似文献   

15.
说话人聚类是说话人分离中的一个重要过程,然而传统的以贝叶斯信息准则作为距离测度的层次聚类方式,会出现聚类误差向上传递的情况。本文提出了一种逐级算法增强处理机制。当片段之间的最小贝叶斯信息准则距离超过设定的门限值时,或者类别个数到达一定程度时,将当前聚类结果作为初始类中心,通过变分贝叶斯迭代法重新对每个类别中的片段调优,最后再依据概率线性判别分析得分门限确定说话人个数。实验表明,本文方法在美国国家标准技术署08 summed测试集上,使得“类纯度”和“说话人纯度”比传统算法都有了一定提升,且使得说话人分离整体性能相对提升了27.6%。  相似文献   

16.
离群点检测问题中的数据可被看作是正常点与异常点在空间中的高度混合,在减少正常点损失的前提下,离群点通常包含在离聚类中心最远的样本集中。受这种思想启发,提出一种针对高维稀疏数据的基于插值的离群点检测方法,该方法在K-means基础上应用遗传算法对原始数据进行插值处理,解决了K-means聚类中稀疏数据容易被合并的问题。实验结果表明,对比基于传统K-means聚类的离群点检测方法以及几种典型的基于改进K-means的检测方法,本文 方法损失的正常点更少,提高了检测的准确率和精确率。  相似文献   

17.
由于实际问题中用户的行为模式存在多样性和不可预知性,传统异常检测方法采用提前设定正常模式或异常模式进行学习变得非常困难。针对这个问题,本文提出一种基于k-均值聚类的自适应异常检测方法,称为OD_KC方法。该方法设置不同的聚类个数对无标签的样本集进行k-均值聚类,通过构造测度函数,以衡量聚类结果的抱团性和分离性,从而获得最佳的聚类结果,同时自动得到那些被划分为很小规模的类的样本作为异常模式样本。基于k-均值的异常检测方法具有很强的自主性和自适应性,特别地,当样本分布模式复杂时,也能得到较为优秀的检测结果,具有较好的异常检测能力。实验结果表明,基于k-均值聚类的异常检测技术能够得到较好的检测结果。  相似文献   

18.
孤立数据的存在使数据挖掘结果不准确,甚至错误。现有的孤立点检测算法在通用性、有效性、用户友好性及处理高维大数据集的性能还不完善,为此,提出一种有效的全局孤立点检测方法,该方法进行凝聚层次聚类,根据聚类树和距离矩阵来可视化判断数据孤立程度,确定孤立点数目。从聚类树自顶向下,无监督地去除离群数据点。在多个数据集上的仿真实验结果表明,该方法能有效识别孤立程度最大的前n个全局孤立点,适用于不同形状的数据集,算法效率高,用户友好,且适用于大型高维数据集的孤立点检测。  相似文献   

19.
一种改进的K-means聚类算法   总被引:1,自引:0,他引:1  
本文提出了一种带离群点数据过滤的K-means改进算法。该算法根据离群点数据特征制定了离群点数据的发现规则,并在原算法中加入了离群点数据的发现和处理步骤。通过对给定的具有普遍意义的数据实验表明,改进后算法能较为稳定的发现数据集中存在的离群点数据,这些离群点数据符合离群点数据特征;同时在剔除这些极少数离群点数据后,显著提高了聚类结果簇的凝聚度,从而有效克服了离群点数据对K-means算法的影响,使聚类效果得以显著提高。  相似文献   

20.
针对基于距离的离群点检测算法受全局阈值的限制, 只能检测全局离群点, 提出了基于聚类划分的两阶段离群点检测算法挖掘局部离群点。首先基于凝聚层次聚类迭代出K-means所需的k值, 然后再利用K-means的方法将数据集划分成若干个微聚类; 其次为了提高挖掘效率, 提出基于信息熵的聚类过滤机制, 判定微聚类中是否包含离群点; 最后从包含离群点的微聚类中利用基于距离的方法挖掘出相应的局部离群点。实验结果表明, 该算法效率高、检测精度高、时间复杂度低。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号