首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
李亚娥  汪西莉 《微机发展》2013,(2):112-114,118
基于局部和全局一致性算法本身带有一定数量的参数,而参数delta的选取对算法迭代过程的迭代次数和分类结果很敏感,通常是通过实验手动设置,这种做法相对比较耗时。为了解决该问题,提高算法分类效率,文中针对该问题将算法应用到图像分类中提出了一种自适应的参数设置方法,确定参数delta的最佳取值范围。通过实验结果可以看出,确定的参数范围的取值能使算法的分类正确率最高、迭代过程所用的时间最短。因此本方法能有效地提高算法的分类效率。  相似文献   

2.
分层特征计算和错误控制的层次分类方法   总被引:1,自引:0,他引:1  
吴碧军  李涓子  金鑫 《计算机科学》2010,37(10):165-168,180
中文新闻信息分类标准中,类别数量大。在将其应用于新闻分类时,会出现训练模型大、训练时间长,尤其是当部分类别改变时需要全部重新训练等问题。由于分类标准中类别之间存在层次关系,因此层次分类方法可以作为解决方案。研究层次化的中文新闻分类方法,并从以下两方面改善层次化分类方法的效果:1)分层的新闻特征计算,解决了层次分类中新闻在分类类别下的特征向量的不同表示的问题;2)错误控制,解决了在上一层分类错误的情况下新闻不会分到正确的类别上的情况。实验结果表明,层次分类方法的效果比平面分类的准确度提高了约4%,进行多次特征权重计算的层次分类方法比普通的层次分类的准确度提高了约3%,同时进行错误控制的分类效果比普通层次的分类效果提高了大概3%。  相似文献   

3.
基于目标分解与支持向量机的极化SAR图像分类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
为了有效地对极化SAR图像进行分类,基于目标分解和支持向量机,提出了一种极化SAR图像非监督分类法。该方法首先利用目标分解理论获得极化熵和平均散射角,并在熵-平均散射角平面对图像进行初分类,以确定类中心;然后利用Wishart分布定义的距离函数寻找训练样本,同时选择一定的极化参数组成特征矢量,并利用训练样本和特征矢量训练支持向量机;最后用训练好的分类器对极化SAR图像进行分类。通过对ESAR图像进行分类,比较了多种参数组合的分类结果,并与Wishart方法进行了比较,结果表明,该方法特征选择非常灵活,不仅结果类内离散度更小,且不需要太多的迭代次数。  相似文献   

4.
针对垃圾邮件过滤过程中分类模型难以个性化、难以适应用户兴趣动态变化的问题,提出了一种基于用户行为的邮件分类算法。通过分析朴素贝叶(NB)斯分类算法的原理,改造朴素贝叶斯算法,使其具有动态调整能力。邮件服务器接收到新邮件后自动进行分类判别,用户浏览邮件的过程中对邮件进行操作,根据用户对错分邮件的处理自动将该邮件加入训练数据集,并动态更新相应特征的统计概率,使邮件分类算法能够依据用户对不同邮件的操作行为动态调整分类模型,以达到有效过滤垃圾邮件的目的。与常用的贝叶斯分类算法的实验比较表明在给定小样本集合进行训练的情况下,新算法对于垃圾邮件的识别率比传统的朴素贝叶斯方法、基于风险敏感的朴素贝叶斯方法等提高了10%,获得了较好的分类性能。  相似文献   

5.
基于向量空间模型的中文文本层次分类方法研究   总被引:8,自引:0,他引:8  
肖雪  何中市 《计算机应用》2006,26(5):1125-1126
在文本分类的类别数量庞大的情况下,层次分类是一种有效的分类途径。针对层次分类的结构特点,考虑到不同的层次对特征选择和分类方法有不同的要求,提出了新的基于向量空间模型的二重特征选择方法FDS以及层次分类算法HTC。二重特征选择方法对每一层均进行一次特征选择,并逐层改变特征数量和权重计算方法;HTC算法把分别对粗分和细分更有效的类中心向量法与SVM方法相结合。实验表明,该方法相对于平面分类和一般的层次分类方法,有较高的准确率。  相似文献   

6.
在邮件挖掘理论研究、社会安保等很多特定应用中,大量无关邮件数据严重干扰了目标处理的效果.针对此问题,设计了多策略集成筛选方法,结合传统垃圾邮件过滤技术,综合利用多种无关邮件结构特征进行初筛选,进而依据主题字段与正文部分对邮件类别贡献不同,改进朴素贝叶斯分类算法进行再筛选.实验结果表明,该方法弥补了仅依据内容筛选资源耗费过大的缺陷,提高了准确率且降低了虚报率.  相似文献   

7.
情感分类是一项具有实用价值的分类技术。目前英语和汉语的情感分类的研究比较多,而针对维吾尔语的研究较少。以n-gram模型作为不同的文本表示特征,以互信息、信息增益、CHI统计量和文档频率作为不同的特征选择方法,选择不同的特征数量,以Naǐve Bayes、ME(最大熵)和SVM(支持向量机)作为不同的文本分类方法,分别进行了维吾尔语情感分类实验,并对实验结果进行了比较,结果表明:采用UniGrams特征表示方法、在5 000个特征数量和合适的特征选择函数,ME和SVM对维吾尔语情感分类能取得较好的效果。  相似文献   

8.
电子邮件是互联网的最重要应用之一,尽管给人们日常工作和生活带来很大便利,但也带来了一种令人讨厌的副产品一一垃圾邮件。对邮件进行分类已成为当前的一个研究热点,而如何进行邮件特征选择,是邮件分类中一个基本也是很重要的问题。本文在分析比较几种用于邮件分类的典型特征选择方法基础上,提出一种新的结合了Mitra's算法和顺序前进搜索法优点的邮件特征选择方法。实验结果表明该方法能够改进邮件分类的准确率,验证了本文方法的有效性和可行性。  相似文献   

9.
目前各种基于规则的分类方法在电子邮件过滤中起到了良好的效果,在邮件过滤器的训练中,训练集中会存在部分邮件具有邮件类别模糊的现象,如何将训练集中的此类类别界限模糊的邮件提取出来将会对邮件的分类效果有明显提高的作用。提出一种基于聚类的过滤方法,根据界限模糊邮件数据之间的共性特征,对邮件训练集进行聚类。实验表明,与单纯的进行基于规则的分类算法相比,这种方法在各项评价指标上具有优越性。  相似文献   

10.
随着邮件分类技术的不断发展,为了对邮件进行更加有效的组织和管理,需要对不断变化的邮件进行动态特征提取,根据其动态特征对邮件进行分类。从邮件的动态特征方面入手,通过编写邮件客户端程序,利用中科院的ICTCLAS分词工具实现中文邮件的准确分词,利用改进的TF-IDF算法对邮件的特征权重进行计算,并利用WEKA挖掘工具进行结果的仿真实验。实验结果表明,利用邮件的动态特征来对邮件进行分类是切实可行的,且在一定程度上能够对邮件进行合理有效的分类。  相似文献   

11.
Phishing attacks continue to pose serious risks for consumers and businesses as well as threatening global security and the economy. Therefore, developing countermeasures against such attacks is an important step towards defending critical infrastructures such as banking. Although different types of classification algorithms for filtering phishing have been proposed in the literature, the scale and sophistication of phishing attacks have continued to increase steadily. In this paper, we propose a new approach called multi-tier classification model for phishing email filtering. We also propose an innovative method for extracting the features of phishing email based on weighting of message content and message header and select the features according to priority ranking. We will also examine the impact of rescheduling the classifier algorithms in a multi-tier classification process to find out the optimum scheduling. A detailed empirical performance and analysis of the proposed algorithm is present. The results of the experiments show that the proposed algorithm reduces the false positive problems substantially with lower complexity.  相似文献   

12.
Email is one of the most popular forms of communication nowadays, mainly due to its efficiency, low cost, and compatibility of diversified types of information. In order to facilitate better usage of emails and explore business potentials in emailing, various data mining techniques have been applied on email data. In this paper, we present a brief survey of the major research efforts on email mining. To emphasize the differences between email mining and general text mining, we organize our survey on five major email mining tasks, namely spam detection, email categorization, contact analysis, email network property analysis and email visualization. Those tasks are inherently incorporated into various usages of emails. We systematically review the commonly used techniques and also discuss the related software tools available.  相似文献   

13.
首先分析了现阶段邮件过滤的主要技术和邮件语料库建设的现状,并提出了建设中文邮件语料库的相关问题,建议在邮件建设过程中保留邮件信头信息、不排斥邮件副本.然后给出了邮件语料库系统的实现框架,分为邮件源代码的解析与预处理、邮件的初次标注、词分类和邮件的二次标注四个步骤,并通过提供一个管理工具来管理邮件语料.最后,介绍了目前已经建设的一个邮件语料库的情况.  相似文献   

14.
原始邮件松散的结构和过于灵活的定义给应用程序分析带来了困难,为了给基于邮件的应用程序开发提供统一的结构化表示和统一管理各种消息,可以选择XML来标准化邮件.在对邮件的语法结构进行简要分析的基础上,分别给出了XML表示邮件头和邮件体的方法,该方法解决了复杂邮件实体结构的表示问题.还对这种表示方法的性能进行了分析.  相似文献   

15.
基于词频的特征表示方法难以准确表示Email的主要内容,从而导致分类的综合性能(F—score)较差,为了解决这个问题,将领域知识引入了Email的特征表示,并在此基础上提出了一种综合领域知识和词频的特征表示方法,用于Email分类.本方法在词频特征的基础上加入人工总结出的领域特征,从而更加准确地表示Email的主要内容,以提高Email分类的平均F—score.基于1080篇Email的分类测试结果表明,与基于词频的特征表示方法和基于领域知识的特征表示方法相比,本方法在针对Email标题实现的Email分类中将平均F—score分别提高了12.28%和23.08%,从而达到69.33%的分类平均F—score.  相似文献   

16.
提出一种新的邮件过滤模型——基于分布式并行过滤的通用前置武邮件过滤模型PDPF,由此构造的邮件过滤系统,其运行不依赖于特定的邮件服务器而在网关提供过滤服务,对到达的邮件进行并行过滤处理,其分布式并行过滤矩阵通过“并行与”操作,能够加快过滤速度。在真实环境下的实验表明,在日均邮件流量高达10万封的情况下,每封邮件的处理时间不超过50ms。  相似文献   

17.
Bo Yu  Dong-hua Zhu 《Knowledge》2009,22(5):376-381
Email is one of the most ubiquitous and pervasive applications used on a daily basis by millions of people worldwide, individuals and organizations more and more rely on the emails to communicate and share information and knowledge. However, the increase in email users has resulted in a dramatic increase in spam emails during the past few years. It is becoming a big challenge to process and manage the emails efficiently for and individuals and organizations. This paper proposes new email classification models using a linear neural network trained by perceptron learning algorithm and a nonlinear neural network trained by back-propagation learning algorithm. An efficient semantic feature space (SFS) method is introduced in these classification models. The traditional back-propagation neural network (BPNN) has slow learning speed and is prone to trap into a local minimum, so the modified back-propagation neural network (MBPNN) is presented to overcome these limitations. The vector space model based email classification system suffers from a large number of features and ambiguity in the meaning of terms, which will lead to sparse and noisy feature space. So we use the SFS to convert the original sparse and noisy feature space to a semantically richer feature space, which will helps to accelerate the learning speed. The experiments are conducted based on different training set size and extracted feature size. Experimental results show that the models using MBPNN outperform the traditional BPNN, and the use of SFS can greatly reduce the feature dimensionality and improve email classification performance.  相似文献   

18.
Email自动分类已成为半结构化文本信息自动处理的研究热点。本文在时已有Email自动分类方法深入研究的基础上,提出了一种基于SVM和领域综合特征的Email自动分类方法。主要包括:一是将SVM引入到Email自动分类研究中,并对SVM学习算法中的核函数和参数选择进行了探讨;二是鉴于词频的特征表示方法难以准确表示Email主要内容,因此将领域知识引入Email特征表示中,并在此基础上提出了一种综合领域知识和词频的特征表示方法,用于Email分类。该方法是在词频特征的基础上加入人工总结出的领域特征,从而更能准确地表示Email的主要内容,以提高Email分类的平均F-score。通过实验,验证了基于SVM和领域综合特征的Email自动分类方法能有效地提高Email自动分类处理的准确性。  相似文献   

19.
文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。对于基于词袋模型(BOW)的维吾尔文文本分类效果不理想的问题,提出了一种基于统计方法的维吾尔语短语抽取算法并将抽取到的短语作为文本特征项,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,短语作为文本特征能够提高维吾尔文文本分类的准确率和召回率。  相似文献   

20.
针对区分服务网络特点,利用IPv6报文结构,提出网络服务质量测量模型。模型通过构造特定结构IPv6测试报文组成一定的分布序列的业务流,测量单路延迟、带宽等重要性能指标。仿真证明模型设计合理,具有可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号