共查询到17条相似文献,搜索用时 140 毫秒
1.
2.
3.
统计模式识别中的维数削减与低损降维 总被引:31,自引:0,他引:31
较为全面地回顾了统计模式识别中常用的一些特征选择、特征提取等主流特征降维方法,介绍了它们各自的特点及其适用范围,在此基础上,提出了一种新的基于最优分类器——贝叶斯分类器的可用于自动文本分类及其它大样本模式分类的特征选择方法——低损降维.在标准数据集Reuters-21578上进行的仿真实验结果表明,与互信息、χ^2统计量以及文档频率这三种主流文本特征选择方法相比,低损降维的降维效果与互信息、χ^2统计量相当,而优于文档频率. 相似文献
4.
分析了特征选择与特征抽取的特点与不足,针对Fisher线性鉴别准则存在问题,在一种加权散度差线性鉴别准则的基础上提出了一种基于散度差与SVD相结合的文本特征抽取方法.在解决了类内散布矩阵Sw的奇异性问题困扰同时,通过对低阶矩阵的奇异值分解取代了对高阶矩阵的特征值求解,计算量大大减少.在最低限度减少信息损失的前提下实现了特征维数的大幅度减缩.试验结果表明,这种方法在文本分类上的准确性较好. 相似文献
5.
文本分类中一种基于正交变换的特征降维方法 总被引:1,自引:1,他引:0
本文讨论了一种基于正交变换的文本特征降维方法.分析了基于特征选择和特征抽取的特征降维方法各自特点,借助矩阵的分解论证了基于Fisher准则函数的特征降维模式的原理与理论基础,讨论了PCA与SVD两种模式的相互关系.实验结果表明这种特征降维模式在文本分类的准确性方面效果较好. 相似文献
6.
一种改进的KNN文本分类 总被引:2,自引:0,他引:2
在文本分类中,文本特征空间维数巨大以及训练样本分布不均衡等问题影响分类性能。针对这个问题,提出一种改进的KNN分类方法。利用隐含语义分析方法对特征样本空间进行降维处理;利用基于样本密度的改进的KNN分类器进行分类。实验结果表明提出的方法能够收到较好的分类效果。 相似文献
7.
8.
基于模糊最大散度差判别准则的聚类方法 总被引:2,自引:0,他引:2
基于最大散度差判别准则提出了一种模糊最大散度差准则,并根据模糊最大散度差准则提出一种聚类方法(fuzzy maximum scatter difference discriminant criterion based clustering algorithm,简称FMSDC).该方法通过迭代优化方法实现聚类的同时还可以实现特征降维.该方法首先在最大散度差判别准则中引入模糊概念;然后通过具体原则设定模糊最大散度差判别准则中的参数η,从而在一定程度上降低了由参数η引起的敏感性;最后分别根据模糊隶属度μik、最优鉴别矢量ω进行聚类和特征降维.实验结果表明,FMSDC方法不但具有基本的聚类功能,而且具有较好的鲁棒性和较强的特征降维能力. 相似文献
9.
为降低特征空间维数,提出了一种基于分布距离的文本特征聚类方法,通过将特征空间中分布距离相近的特征聚合,来实现降维。在TanCorpusV1.0语料库上实验表明,当将特征空间维数降低至原空间的近10%时,用SVM作为分类器,获得了比特征提取方法高的分类精度。 相似文献
10.
11.
针对文本分类中传统特征选择方法卡方统计量和信息增益的不足进行了分析,得出文本分类中的特征选择关键在于选择出集中分布于某类文档并在该类文档中均匀分布且频繁出现的特征词。因此,综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,提出一种基于类内类间文档频和词频统计的特征选择评估函数,并利用该特征选择评估函数在训练集每个类别中选取一定比例的特征词组成该类别的特征词库,而训练集的特征词库则为各类别特征词库的并集。通过基于SVM的中文文本分类实验表明,该方法与传统的卡方统计量和信息增益相比,在一定程度上提高了文本分类的效果。 相似文献
12.
13.
为提高专利文本自动分类的效率和准确度,提出一种基于双通道特征融合的WPOS-GRU(word2vec and part of speech gated recurrent unit)专利文本自动分类方法。首先获取专利摘要文本,并进行清洗和预处理;然后对专利文本进行词向量表示和词性标注,并将专利文本分别映射为word2vec词向量序列和POS词性序列;最后使用两种特征通道训练WPOS-GRU模型,并对模型效果进行实验分析。通过对比传统专利分类方法和单通道专利分类方法,双通道特征融合的WPOS-GRU专利分类方法提高了分类效果。提出的方法节省了大量的人力成本,提高了专利文本分类的准确度,更能满足大量专利文本分类任务自动化高效率的需要。 相似文献
14.
针对同类文本中提取的关键词形式多样,且在相似性与相关性上具有模糊关系,提出一种对词语进行分层聚类的文本特征提取方法。该方法在考虑文本间相同词贡献文本相似度的前提下,结合词语相似性与相关性作为语义距离,并根据该语义距离的不同,引入分层聚类并赋予不同聚类权值的方法,最终得到以词和簇共同作为特征单元的带有聚类权值的向量空间模型。引入了word2vec训练词向量得到文本相似度,并根据Skip-Gram+Huffman Softmax模型的算法特点,运用点互信息公式准确获取词语间的相关度。通过文本的分类实验表明,所提出的方法较目前常用的仅使用相似度单层聚类后再统计的方法,能更有效地提高文本特征提取的准确性。 相似文献
15.
线性判别分析(LDA)是一种常用的特征提取方法,其目标是提取特征后样本的类间离散度和类内离散度的比值最大,即各类样本在特征空间中有最佳的可分离性.该方法利用同一个准则将所有类的样本投影到同一个特征空间中,忽略了各类样本分布特征的差异.本文提出类依赖的线性判别方法(Class-Specific LDA,CSLDA),对每一类样本寻找最优的投影矩阵,使得投影后能够更好地把该类样本与所有其他类的样本尽可能分开,并将该方法与经验核相结合,得到经验核空间中类依赖的线性判别分析.在人工数据集和UCI数据集上的实验结果表明,在输入空间和经验核空间里均有CSLDA特征提取后的识别率高于LDA. 相似文献
16.
17.
文本自动分类是指将文本按照一定的策略归于一个或多个类别中的应用技术。文本分类是文本挖掘的基础,而特征选择又是文本分类中的核心。论文分析了以前特征选择方法中由于特征数目过多而造成分类时间和精度不高的缺点,提出了一种基于粗糙集的特征选择方法,其特点是以特征在文本分类中的重要性对特征进行选择。最后通过实验验证了该算法,证明该方法是可行的。 相似文献