首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 555 毫秒
1.
针对负例类别很难获得训练样本的情况,提出了一种基于正例和未标文档的半监督分类方法.已知仅有正例文本的情况下,引入k-means 聚类算法对未标样本集进行聚类,从未标样本集中选出最为可靠的负例样本信息,初始化分类器.基于EM的极大似然估计理论,在每步迭代的E-step中,将中间分类器最有把握对其类别进行预测的未标注样本进行分类,并应用到M-step中修正分类器的参数值,迭代选择最优分类器.实验结果表明,该方法取得了较好的分类效果.  相似文献   

2.
应用分类方法进行聚类评价*   总被引:1,自引:1,他引:0  
针对现有基于几何结构的聚类有效性指标不能有效解决不同结构数据的聚类结果评价问题,提出了一种使用分类对聚类结果进行评价的方法。该方法把聚类得到的对象类标志作为分类问题的已知类标志,使用交叉验证法对数据集重新分类,通过对比聚类结果与分类结果之间的差异来衡量聚类有效性。一个易于聚类的数据集的结构意味着也容易进行分类,对模拟数据和真实数据的实验和分析验证了该方法的可行性和有效性。  相似文献   

3.
随着分类数据规模的快速增长,关于分类数据聚类方法的研究日趋重要。在现有的算法中,CLOPE在运行速度、内存开销和聚类结果方面要优于同类算法,但是它的聚类质量并没有达到最优,而且受到输入数据顺序的影响,显现出不稳定性。基于此原因,提出一种处理分类数据的层次聚类算法HCLOPE,采用自底向上的凝聚法生成稳定的聚类结果。此外,还定义了聚簇间全局最大的收益差值作为聚类的合并准则,并引入无向图的结构优化聚类合并迭代过程。在蘑菇数据集上运行的实验结果显示HCLOPE的聚类质量更优。  相似文献   

4.
一种基于聚类的有指导的入侵检测方法   总被引:6,自引:0,他引:6  
提出了一种新的距离定义和基于聚类的有指导的入侵检测方法CBSID(Clustering-based and Supervised Interusion Detection).该方法在带标记的训练集上进行聚类.以聚类结果作为分类模型对未见数据进行分类.该方法对于参数和数据输入顺序具有稳健性.可增量更新分类模型.不同于一般的有指导的入侵检测方法.该方法对未知入侵有一定的检测能力.在KDDCUP99数据集上的测试结果表明,CBSID有理想的性能(高的检测率和低的误报率).  相似文献   

5.
研究现有的迭代优化聚类的初始化方法:即采样法,距离优化法以及密度估计法,分析它们的优缺点。提出一种新的基于距离的初始化方法,它不需要设定门限,不受数据集的顺序影响,它使得聚类过程有良好的速度和迭代次数,且初始化运算时间较短,对孤立点和噪声有较强的抑制作用,它适用于较大规模数据的聚类初始化。  相似文献   

6.
针对互联网流量标注困难以及单个聚类器的泛化能力较弱,提出一种基于互信息(MI)理论的选择聚类集成方法,以提高流量分类的精度。首先计算不同初始簇个数K的K均值聚类结果与训练集中流量协议的真实分布之间的规范化互信息(NMI);然后基于NMI的值来选择用于聚类集成的K均值基聚类器的K值序列;最后采用二次互信息(QMI)的一致函数生成一致聚类结果,并使用一种半监督方法对聚类簇进行标注。通过实验比较了聚类集成方法与单个聚类算法在4个不同测试集上总体分类精度。实验结果表明,聚类集成方法的流量分类总体精度能达到90%。所提方法将聚类集成模型应用到网络流量分类中,提高了流量分类的精度和在不同数据集上的分类稳定性。  相似文献   

7.
为了提高蚁群聚类LF算法的聚类效果,在对基本LF算法改进的基础上,算法迭代过程中又进一步采用邻域线性增大和线性减小两种不同的方法,通过UCI数据集Iris和Wine数据的验证,使用FM作为聚类效果的评判标准,发现采用邻域线性递减的方法在两种数据集上运行的结果都优于邻域递增和邻域保持不变的情形.邻域递减策略使算法在运行初期能够对待聚类数据粗略的分类,随着邻域的减小,蚁群对数据分类的粒度逐渐细化,算法迭代结束,达到最佳的聚类结果.  相似文献   

8.
提出了一种以迭代增强和空间划分为基础的模糊C均值聚类方法,利用弱学习理论在每次迭代之后将产生的训练集合重新归并,在原有划分集的基础上通过分布质量权重选举方法更新产生最优假设划分集,克服了传统的简单重复训练方法的聚类效果不理想的缺点。通过形状分类实验和聚类量化指标对比,证明了该方法具有分类质量高、形状分割彻底的优点。  相似文献   

9.
针对分类变量相似度定义存在的不足, 提出一种新的相似度定义. 利用新的相似度定义, 将数据集抽象为无向图, 将聚类过程转化为求无向图连通分量的过程, 进而提出一种基于连通分量的分类变量聚类算法. 为了定量地分析该算法的聚类效果, 针对类别归属已知的数据集, 提出一种新的聚类结果评价指标. 实验结果表明, 所提出的算法具有较高的聚类精度和聚类效率.  相似文献   

10.
半监督的仿射传播聚类   总被引:4,自引:0,他引:4       下载免费PDF全文
仿射传播聚类算法快速、有效,可以解决大数据集的聚类问题,但当数据的聚类结构比较松散时,聚类准确性不高。该文提出了半监督的仿射传播聚类算法,在迭代过程中嵌入了有效性指标以监督和引导算法向最优聚类结果的方向运行。实验结果表明,该方法对于聚类结构比较紧密和松散的数据集,均可以给出较为准确的聚类结果。  相似文献   

11.
基于模拟退火的最大似然聚类图像分割算法   总被引:12,自引:0,他引:12  
张引  潘云鹤 《软件学报》2001,12(2):212-218
图像分割可视为两类模式分类问题.将最大似然聚类方法应用于图像分割,并采用模拟退火技术求解最大似然聚类,解决了用迭代方法求解最大似然聚类只能得到局部最优解的问题.获得的图像分割效果优于迭代方法和著名的Otsu方法,且分类误差小于迭代方法.  相似文献   

12.
不平衡数据集的应用领域日益广泛,需求也越来越高,为提升整体数据集的分类准确率,以谱聚类欠取样为前提条件,构建一种自编码网络不平衡数据挖掘方法.把聚类问题转换成无向图多路径划分问题,通过无向图与标准化处理完成谱聚类,经过有选择地欠取样处理多数类数据集,获取分类边界偏移量,利用学习过程是无监督学习的自编码网络,升、降维数据,获取各维度隐藏特征,实现各层面的数据高效表示学习,根据最大均值差异与预设阈值的对比结果,调整自编码网络,基于得到的分类界面,完成不平衡数据挖掘.选用具有不同实际应用背景的UCI数据集,从中抽取10组数据作为测试集,经谱聚类欠取样处理与模拟实验,发现所提方法大幅提升少数类分类精度与整体挖掘性能,具有较好的适用性与可行性.  相似文献   

13.
Abstract: In this paper, a partial supervision strategy for a recently developed clustering algorithm, the nearest neighbour clustering algorithm (NNCA), is proposed. The proposed method (NNCA-PS) offers classification capability with a smaller amount of a priori knowledge, where a small number of data objects from the entire data set are used as labelled objects to guide the clustering process towards a better search space. Experimental results show that NNCA-PS gives promising results of 89% sensitivity at 95% specificity when used to segment retinal blood vessels, and a maximum classification accuracy of 99.5% with 97.2% average accuracy when applied to a breast cancer data set. Comparisons with other methods indicate the robustness of the proposed method in classification. Additionally, experiments on parallel environments indicate the suitability and scalability of NNCA-PS in handling larger data sets.  相似文献   

14.
传统聚类算法由于单机内存和运算能力的限制已经不能满足当前大数据处理的要求,因而迫切需要寻找新的解决方法。针对单机内存运算问题,结合聚类算法的迭代计算特点,提出并实现了一种基于Spark平台的聚类系统。针对稀疏集和密集集两种不同类型的数据集,系统首先采用不同策略实现数据预处理;其次分析比较了不同聚类算法在Spark平台下的聚类性能,并给出最佳方案;最后利用数据持久化技术提高了计算速度。实验结果表明,所提系统能够有效满足海量数据聚类分析的任务要求。  相似文献   

15.
从加权广义欧氏权距离平方和最小概念出发,在循环迭代模糊聚类算法的基础上提出一种数据集指标值残缺的模糊聚类模型,示例分析了不同数据集在不同残缺程度下的聚类效果,拓展了模糊聚类算法应用领域。  相似文献   

16.
基于聚类和遗传交叉的少数类样本生成方法   总被引:1,自引:1,他引:0       下载免费PDF全文
杜娟  衣治安  周颖 《计算机工程》2009,35(22):182-184
传统的分类算法在处理不均衡样本数据时,分类器预测倾向于多数类,样本数量少的类别分类误差大。针对该问题,提出一种基于聚类和遗传交叉的少数类样本上采样方法,通过K-means算法将少数类样本聚类分组,在每个聚类内使用遗传交叉获取新样本,并进行有效性验证。基于K-最近邻及支持向量机分类器的实验结果证明了该方法的有效性。  相似文献   

17.
This paper describes a clustering method for unsupervised classification of objects in large data sets. The new methodology combines the mixture likelihood approach with a sampling and subsampling strategy in order to cluster large data sets efficiently. This sampling strategy can be applied to a large variety of data mining methods to allow them to be used on very large data sets. The method is applied to the problem of automated star/galaxy classification for digital sky data and is tested using a sample from the Digitized Palomar Sky Survey (DPOSS) data. The method is quick and reliable and produces classifications comparable to previous work on these data using supervised clustering.  相似文献   

18.
一种无监督网络入侵检测算法   总被引:1,自引:1,他引:0       下载免费PDF全文
郑洪英  倪霖 《计算机工程》2008,34(18):184-185
多数入侵检测方法对训练数据集存在依赖,带标识的训练数据集在现实环境中难以被获取,无法保证所得标签数据能覆盖所有可能出现的攻击。该文提出基于无人监督聚类和混沌模拟退火算法的网络入侵检测方法,混沌模拟退火算法实现对聚类结果的优化,求得聚类的全局最优解,提高了数据分类的准确性和检测效率。在KDD CUP 1999上的仿真实验结果表明,该算法可实现预期效果。  相似文献   

19.
A novel fuzzy clustering technique, called iterative Bayesian fuzzy clustering (IBFC), is presented and applied for grouping and recommendation of icons associated with assistive software meant for the physically disabled. The algorithm incorporates a modified fuzzy competitive learning structure with a Bayesian decision rule. In order to ignore unintended behavior of the user, a Bayesian minimum risk classification rule with two loss coefficients is built into the algorithm. This provides a rational basis for outlier detection in noisy data. In addition, we show that the inclusion of a unique control parameter of IBFC allows for establishment of a strong relationship between learning region and cluster congestion. This interpretation leads to an agglomerative iterative Bayesian fuzzy clustering (AIBFC) framework capable of clustering data of complex structure. The proposed AIBFC framework is applied to design a flexible interface for the icon-based assistive software for the disabled. The latter is utilized in grouping and recommendation of icons. Additionally, the proposed algorithm is shown to outperform several well-known methods for both IRIS and Wisconsin benchmark data sets. Finally, it is shown, using a questionnaire survey of real end-users, that the software designed using AIBFC framework meets users’ needs.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号