首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
文本分类中特征提取对分类效果有较大的影响,传统的特征提取方法在特征分布信息的量化方面存在不足。为此,提出一种基于特征词类内、类外平均词频的特征提取算法。算法通过特征词的平均词频类间集中度和文档频类间集中度来计算特征词的权重,能够更准确地反映特征词的分布情况。通过实验结果比较,可以证明,该算法有效地提高了分类效果。  相似文献   

2.
一个基于关联规则的多层文档聚类算法   总被引:3,自引:0,他引:3  
提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高;使用新的文档特征抽取方法还解决了由于文档关键字过多而导致文档特征向量的维数过高的问题。  相似文献   

3.
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果.分析了词频法和文档频法并总结了其缺陷,给出了一个改进的文档频方法;引进粗糙集理论,提出了一个属性约简算法;最后提出了一个新的特征选择方法.该特征选择方法使用改进的文档频初选特征并用所提属性约简算法消除冗余.仿真结果表明该特征选择方法性能较好.  相似文献   

4.
PCCS部分聚类分类:一种快速的Web文档聚类方法   总被引:16,自引:1,他引:15  
PCCS是为了帮助Web用户从搜索引擎所返回的大量文档片中筛选出自已所需要的文档,而使用的一种对Web文档进行快速聚类的部分聚类分法,首先对一部分文档进行聚类,然后根据聚类结果形成类模型对其余的文档进行分类,采用交互式的一次改进一个聚类摘选的聚类方法快速地创建一个聚类摘选集,将其余的文档使用Naive-Bayes分类器进行划分,为了提高聚类与分类的效率,提出了一种混合特征选取方法以减少文档表示的维数,重新计算文档中各特征的熵,从中选取具有最大熵值的前若干个特征,或者基于持久分类模型中的特征集来进行特征选取,实验证明,部分聚类方法能够快速,准确地根据文档主题内容组织Web文档,使用户在更高的术题层次上来查看搜索引擎返回的结果,从以主题相似的文档所形成的集簇中选取相关文档。  相似文献   

5.
特征选择是维吾尔语文本分类的关键技术,对分类结果将产生直接的影响。为了提高传统信息增益在维吾尔文特征选择中的效果,在深度分析维吾尔文语种特点的基础上,提出了一种新的信息增益特征选择方法。该方法结合类词频和特征分布系数以及倒逆文档频率,对传统信息增益进行修正;引入一个备选特征分布系数来平衡类间选取的特征个数;在维吾尔文数据集上实验验证。实验结果表明,改进的算法对维吾尔文分类效果有明显的提高。  相似文献   

6.
文中研究的是文档聚类的方法,即将给定文档集合中的文档进行分类,以达到准确聚类的目的.提出了一种将模糊C均值(FCM)和改进的LSA(Latent Semantic Analysis)相结合进行文档聚类的方法.采用改进的词语特征提取方法构建词-文档矩阵,对该词-文档矩阵进行奇异值分解,从传统的VSM向量空间中提取文本的潜在语义空间,进而将高维的文档向量映射为低维空间的语义向量,文档之间相似度的计算采用文档语义向量的余弦表示.然后采用模糊C均值根据上述计算文档相似度的结果对文档进行聚类.针对校园论坛中的文档数据进行聚类,该方法降低了处理的复杂度同时提高了相似度计算的准确性.实验结果表明该方法对目标文档的聚类有较好的效果,聚类准确性较高.  相似文献   

7.
基于kNN的快速WEB文档分类   总被引:4,自引:0,他引:4  
根据测试文档在各个样本类中的分布情况,发现了基于kNN分类的两个有助于减少大量计算的重要性质,在此基础上提出了两个重要算法:排类算法和归类算法,从而构建了一个基于kNN的快速Web文档分类方法.理论与实验表明,这种方法可以在不影响原有准确率的条件下,可提高文档的分类速度.  相似文献   

8.
XML文档聚类在众多数据应用领域都具有重要作用。基于特征偏好的XML文档聚类算法是对XML文档进行特征选择,将XML文档描述为[n]维特征向量,再结合CFP(Clustering with Feature order Preference)算法,根据特征偏好为其赋予权重,每次迭代聚类过程中进行权重的更新。实验结果表明当CFP算法中的特征偏好权重和XML文档向量化时所用的层次权重设定相结合时,可弥补XML文档向量化时的弊端,提高了XML文档聚类的精度。  相似文献   

9.
一种基于群体智能的Web文档聚类算法   总被引:31,自引:0,他引:31  
将群体智能聚类模型运用于文档聚类,提出了一种基于群体智能的Web文档聚类算法,首先运用向量空间模型表示Web文档信息,采用常规方法如消除无用词和特征词条约简法则得到文本特征集,然后将文档的向量随机分布到一个平面上,运用基于群体智能的聚类方法进行文档聚类,最后从平面上采用递归算法收集聚类结果,为了改善算法的实用性,将原算法与k均值算法结合提出一种混合聚类算法,通过实验比较,结果表明基于群体智能的Web文档聚类算法具有较好的聚类特性,它能将与一个主题相关的Web文档较完全而准确地聚成一类。  相似文献   

10.
面对海量数据的管理和分析,文本自动分类技术必不可少。特征权重计算是文本分类过程的基础,一个好的特征权重算法能够明显提升文本分类的性能。本文对比了多种不同的特征权重算法,并针对前人算法的不足,提出了基于文档类密度的特征权重算法(tf-idcd)。该算法不仅包括传统的词频度量,还提出了一个新的概念,文档类密度,它通过计算类内包含特征的文档数和类内总文档数的比值来度量。最后,本文在两个中文常见数据集上对五种算法进行实验对比。实验结果显示,本文提出的算法相比较其他特征权重算法在F1宏平均和F1微平均上都有较大的提升。  相似文献   

11.
为降低特征空间维数,提出了一种基于分布距离的文本特征聚类方法,通过将特征空间中分布距离相近的特征聚合,来实现降维。在TanCorpusV1.0语料库上实验表明,当将特征空间维数降低至原空间的近10%时,用SVM作为分类器,获得了比特征提取方法高的分类精度。  相似文献   

12.
为提高Android恶意软件检测准确率,提出一种基于特征贡献度的特征选择算法。针对现有Android应用数据集特征的分布特点,通过计算特征的类内以及类间贡献度,设定阈值筛选出贡献度高的特征数据,用于恶意应用检测分类。实验结果表明,所提算法能有效且可靠地检测恶意应用,其准确率和召回率十分接近,适用于恶意应用检测;与传统特征选择算法相比,该算法可以在较少特征数量的情况下达到理想的检测效果。  相似文献   

13.
非线性局部寻优时间弯曲校正及签名特征空间稳定性研究   总被引:7,自引:1,他引:7  
根据签名动态信息进行签名认证可以提高认证系统的安全性,它是在由签名动态信息的特征值张成的特征空间上的分类问题,然而,签名动态信息时间序列的时间弯曲现象使得特征值分离,不容易在特征空间上确定出真签名的特征值稳定的子空间,在签名样本数量小时尤为如此,因此提出一种非线性局部寻优时间弯曲校正方法,这具有较好的校正效果和较低的计算复要度,利用它对签名样本的动态信息时间序列进行校正,可以提高签名特征向量在特征空间上分布的聚扰性,拉开真,伪签名特征向量在特征空间上的距离,综合利用非线性局部寻优时间弯曲校正方法和线性时间弯曲校正方法对有限数量的标准签名样本进行处理,可在特征空间划分出不同置信度的特征稳定的子空间,以此满足不同安全程度认证的需要。  相似文献   

14.
HOG特征对行人轮廓有很好的描述能力,但基于HOG特征的行人检测存在检测速度慢、漏检率较高的问题,使得该算法的实践应用范围受限。本文针对检测速度慢、漏检率较高的问题,提出了一种基于PHOG特征的行人检测算法。首先,提出了PHOG特征,该特征对cell内的梯度特征进行强化,增大了目标与背景的梯度分布区别,从而使目标更容易被分类器学习和识别。然后提出了构建特征金字塔的方法,并对PHOG特征进行有效地降维,大幅度减少了检测时间。试验结果表明,本文提出的PHOG-PCA特征将漏检率从35%降到了22%,检测速度也比一些流行算法快。  相似文献   

15.
面向非平衡文本情感分类的TSF特征选择方法   总被引:1,自引:1,他引:0  
王杰  李德玉  王素格 《计算机科学》2016,43(10):206-210, 224
非平衡数据中样本数量的不平衡分布往往伴随着特征分布的不平衡,在多数类文本中经常出现的特征,在少数类中却很少出现。针对非平衡数据特征分布的特点,提出了一种新的双边fisher特征选择算法TSF。该方法通过显式地组合正相关和负相关特征,缓解了特征层面的非平衡性,较好地表示了文本的信息。TSF方法在图书评论和COAE2014微博非平衡数据上进行实验,结果验证了该方法是可行的。  相似文献   

16.
本文提出了三维模型表面特征点分布与质心向量夹角分布相结合的检索技术,将模型预处理之后,统计模型表面特征点的分布规律,再统计模型质心到特征点向量所构成夹角的分布规律,将两者的相似度乘以适当的权值得出最终三维模型的相似度。实验表明,该检索技术性能较单用一种特征的检索技术性能有所提高。  相似文献   

17.
一种结合肤色及类人脸特征的人脸检测   总被引:1,自引:0,他引:1  
人脸特征提取是人脸检测的关键环节,有效的人脸特征将使得人脸检测更精确。Haar-Like特征作为一种矩形特征,虽然简单、计算迅速,但只能描述特定方向的图形结构。提出的类人脸特征是一种反映人脸灰度分布模型的矩形特征,更加有效地描述了人脸的特征。所提出的人脸检测算法,应用BP神经网络算法训练肤色区域,进行肤色分割。应用类人脸特征的AdaBoost算法进行人脸检测。实验结果表明,该算法可以提高人脸检测的检测率。  相似文献   

18.
为提高案例推(case-based reasoning,CBR)分类器的分类准确率并降低时间复杂度,本文提出了一种基于权重阈值寻优的特征约简策略.首先通过基于数据驱动的方法对特征权重进行分配,得到每个特征的权重结果;其次,设计特征权重重要度阈值的适应度函数,并利用遗传算法对该重要度阈值进行优化搜索,最后根据得到的优化阈值与特征的权重分配情况,删除权重小于该阈值的特征从而完成特征的约简过程.通过对比实验,本文所提策略能够有效提高CBR分类器的分类准确率并降低时间复杂度,表明了权重阈值寻优约简策略的可行性与优越性.验证了本文方法不仅可以降低CBR分类器的时间复杂度,而且能够提高CBR的决策与学习能力.  相似文献   

19.
基于信息增益的文本特征权重改进算法   总被引:2,自引:0,他引:2       下载免费PDF全文
传统tf.idf算法中的idf函数只能从宏观上评价特征区分不同文档的能力,无法反映特征在训练集各文档以及各类别中分布比例上的差异对特征权重计算结果的影响,降低文本表示的准确性。针对以上问题,提出一种改进的特征权重计算方法tf.igt.igC。该方法从考察特征分布入手,通过引入信息论中信息增益的概念,实现对上述特征分布具体维度的综合考虑,克服传统公式存在的不足。实验结果表明,与tf.idf.ig和tf.idf.igc 2种特征权重计算方法相比,tf.igt.igC在计算特征权重时更加有效。  相似文献   

20.
特征提取是基于特征的人脸检测的关键。提出了一种利用眼睛和鼻子的灰度特征和几何特征的人脸检测方法。选取眼睛和鼻子作为特征点,构造一个三角的特征模型。另外,此方法对候选特征图像采用逐步改变分块大小的方法进行搜索,得到独立的特征点,并利用人脸结构特点的先验知识建立模型的搜索策略。实验证明,此方法能迅速准确的从复杂背景中检测出人脸,而且对多人脸同样有效。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号