期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

陈伏虎宫先仪《信号处理》1997,(3)

特征选择是目标分类的一项重要步骤，直接影响到分类器的设计和性能。本文利用实际水声目标辐射噪声数据，对遗传算法和互信息算法两种特征选择方法分别作了分析。在特征维数较大的情况下，两种方法都需要很长的计算时间，为此，提出一种遗传与互信息混合算法，旨在降低计算时间。最后，分类器用三种选择后的特征子集作为输入进行分类，并与任意选择的特征子集作为输入的分类结果作了比较。相似文献

2.

中文文本分类中的特征选择算法研究 总被引：34，自引：0，他引：34

胡佳妮徐蔚然郭军邓伟洪《光通信研究》2005,(3):44-46

比较了文档频率、信息增益、互信息、X^2统计量、期望交叉熵、文本证据权以及几率比等7种常用于文本分类的特征选择算法。实验采用国家“八六三计划”中文文文本语料库和Rocchio分类器对以上的特征选择算法分别进行评估，测评结果表明，几率比法的性能优于其它特征选择算法。相似文献

3.

基于CHI与遗传算法的特征选择 总被引：1，自引：0，他引：1

王美方刘培玉《信息技术与信息化》2007,(1):43-44

在基于Web文本信息过滤系统中通过特征选择找到的最优特征子集直接影响到分类的速度及精度。针对此问题，提出了综合CHI及遗传算法的特征选择方法。首先针对原始特征集，采用CHI统计法进行初始筛选，去除冗余特征及噪声后，对得到的特征子集再采用遗传算法进行第二次特征选择，从而得出代表问题空间的最优特征子集，实现降维并提高了分类精度。相似文献

4.

一种基于改进互信息和信息熵的文本特征选择方法

成卫青唐旋《南京邮电学院学报(自然科学版)》2013,(5):63-68

互信息是一种常用的特征选择评价函数,但研究表明它会导致分类精度相对较低.文中针对互信息倾向选择低频词的不足,提出了一种新的特征评价函数TFMIIE,将信息熵和改进互信息相结合,其中改进互信息能够避免偏向低频的生僻词,而特征熵有利于去除类别不确定的特征词.实验结果表明,采用TFMIIE进行特征选择,用得到的特征子集表示文本和构建分类器,文本分类的准确率与召回率比采用互信息的方法提高了约40％,验证了所提出的基于改进互信息和信息熵的文本特征选择方法是有效的. 相似文献

5.

Chinese text classification for small sample set

Lei LI Yu-guang HUANG Zhong-wan LIU 《中国邮电高校学报(英文版)》2011

Text classification is one of the most important topics in the fields of Internet information management and natural language processing. Machine learning based text classification methods are currently most popular ones with better performance than rule based ones. But they always need lots of training samples, which not only brings heavy work for previous manual classification, but also puts forward a higher request for storage and computing resources during the computer post-processing. Naïve Bayes algorithm is one of the most effective methods for text classification with the same problem. Only in the large training sample set can it get a more accurate result. This paper mainly studies Naïve Bayes classification algorithm for Chinese text based on Poisson distribution model and feature selection. The experimental results have shown that this method keeps high classification accuracy even in a small sample set. 相似文献

6.

基于条件随机场的中文分词算法改进

下载免费PDF全文

顾佼佼杨志宏姜文志胡文萱《太赫兹科学与电子信息学报》2012,10(2):184-187

在中文分词领域,基于字标注的方法得到广泛应用,通过字标注分词问题可转换为序列标注问题,现在分词效果最好的是基于条件随机场(CRFs)的标注模型。作战命令的分词是进行作战指令自动生成的基础,在将CRFs模型应用到作战命令分词时,时间和空间复杂度非常高。为提高效率,对模型进行分析,根据特征选择算法选取特征子集,有效降低分词的时间与空间开销。利用CRFs置信度对分词结果进行后处理,进一步提高分词精确度。实验结果表明,特征选择算法及分词后处理方法可提高中文分词识别性能。相似文献

7.

非完备信息系统的启发式特征选择遗传算法

下载免费PDF全文

戴大蒙慕德俊《电子学报》2013,41(3):451-455

为了获取非完备信息系统的相对最小特征子集,提出一种基于非完备信息系统的启发式特征选择遗传算法.本文首先构造了适应度函数,并以特征重要度为启发式信息融入特征选择;同时利用特征的相对核对种群初始化,引导染色体的进化,缩小了算法的搜索空间;且在染色体的交叉和变异过程中,对满足条件的染色体及时删除,加快算法的收敛性;实验结果验证了算法的有效性. 相似文献

8.

基于多级特征选择的自然场景文本识别算法

李利荣张开张云良乐玲周蕾巩朋成《光电子．激光》2022,33(5):479-487

针对现有场景文本识别方法只关注局部序列字符分类,而忽略了整个单词全局信息的问题,提出了一种多级特征选择的场景文本识别(multilevel feature selection scene text recogn ition,MFSSTR)算法。该算法使用堆叠块体系结构,利用多级特征选择模块在视觉特征中分别捕获上下文特征和语义特征。在字符预测过程中提出一种新颖的多级注意力选择解码器(multilevel attention sele ction decoder, MASD),将视觉特征、上下文特征和语义特征拼接成一个新的特征空间,通过自注意力机制将新的特征空间重新加权,在关注特征序列的内部联系的同时,选择更有价值的特征并参与解码预测, 同时在训练过程中引入中间监督,逐渐细化文本预测。实验结果表明,本文算法在多个公共场景文本数据集上识别准确率能达到较高水平,特别是在不规则文本数据集SVTP上准确率能达到87.1%,相比于当前热门算法提升了约2%。相似文献

9.

双向特征融合的快速精确任意形状文本检测

边亮屈亚东周宇《电子与信息学报》2022,43(4):931-938

现有的基于分割的场景文本检测方法仍较难区分相邻文本区域,同时网络得到分割图后后处理阶段步骤复杂导致模型检测效率较低.为了解决此问题,该文提出一种新颖的基于全卷积网络的场景文本检测模型.首先,该文构造特征提取器对输入图像提取多尺度特征图.其次,使用双向特征融合模块融合两个平行分支特征的语义信息并促进两个分支共同优化.之后,该文通过并行地预测缩小的文本区域图和完整的文本区域图来有效地区分相邻文本.其中前者可以保证不同的文本实例之间具有区分性,而后者能有效地指导网络优化.最后,为了提升文本检测的速度,该文提出一个快速且有效的后处理算法来生成文本边界框.实验结果表明:在相关数据集上,该文所提出的方法均实现了最好的效果,且比目前最好的方法在F-measure指标上最多提升了1.0％,并且可以实现将近实时的速度,充分证明了该方法的有效性和高效性. 相似文献

10.

双向特征融合的快速精确任意形状文本检测

边亮屈亚东周宇《电子与信息学报》2021,43(4):931-938

现有的基于分割的场景文本检测方法仍较难区分相邻文本区域,同时网络得到分割图后后处理阶段步骤复杂导致模型检测效率较低。为了解决此问题,该文提出一种新颖的基于全卷积网络的场景文本检测模型。首先,该文构造特征提取器对输入图像提取多尺度特征图。其次,使用双向特征融合模块融合两个平行分支特征的语义信息并促进两个分支共同优化。之后,该文通过并行地预测缩小的文本区域图和完整的文本区域图来有效地区分相邻文本。其中前者可以保证不同的文本实例之间具有区分性,而后者能有效地指导网络优化。最后,为了提升文本检测的速度,该文提出一个快速且有效的后处理算法来生成文本边界框。实验结果表明:在相关数据集上,该文所提出的方法均实现了最好的效果,且比目前最好的方法在F-measure指标上最多提升了1.0%,并且可以实现将近实时的速度,充分证明了该方法的有效性和高效性。相似文献

11.

网络流量特征选择方法中的分治投票策略研究 总被引：1，自引：0，他引：1

下载免费PDF全文

高文钱亚冠吴春明郭晔朱凯陈双喜《电子学报》2015,43(4):795-799

特征选择作为机器学习过程中的预处理步骤,是影响分类性能的关键因素.网络流量具有数据量大,特征维度高的特点,如何快速提取特征子集,并提高分类效率对于基于机器学习的流量分类方法具有重要意义.本文提出基于分治与投票策略的特征提取方法,将数据集分裂为多个子集,分别执行特征提取算法,利用投票方法获得最后的特征子集.实验表明可有效提高特征提取的时间效率,同时使分类器取得良好的分类准确率. 相似文献

12.

动态加权条件互信息的特征选择算法

张俐陈小波《电子与信息学报》2021,43(10):3028-3034

特征选择是机器学习、自然语言处理和数据挖掘等领域中数据预处理阶段必不可少的步骤。在一些基于信息论的特征选择算法中,存在着选择不同参数就是选择不同特征选择算法的问题。如何确定动态的非先验权重并规避预设先验参数就成为一个急需解决的问题。该文提出动态加权的最大相关性和最大独立性(WMRI)的特征选择算法。首先该算法分别计算新分类信息和保留类别信息的平均值。其次,利用标准差动态调整这两种分类信息的参数权重。最后,WMRI与其他5个特征选择算法在3个分类器上,使用10个不同数据集,进行分类准确率指标(fmi)验证。实验结果表明,WMRI方法能够改善特征子集的质量并提高分类精度。相似文献

13.

利用SVM的极化SAR图像特征选择与分类 总被引：1，自引：0，他引：1

吴永辉计科峰李禹郁文贤《电子与信息学报》2008,30(10):2347-2351

该文提出一种新的利用SVM的特征选择算法,并将其融入到极化SAR图像分类过程中,构成一种新的基于SVM的分类方法。其中,特征选择算法利用支持向量个数作为特征评估指标,并以顺序后退法作为搜索策略。真实数据的实验结果表明,该分类方法能有效降低SVM分类器对自身参数的敏感性,与利用原始特征集和经典的RELIEF-F的分类方法相比,该方法能以更少(或相当)的特征个数,在更广泛的SVM参数取值范围内获得更高的分类精度。相似文献

14.

基于类别分布差异和VPRS特征选择的文本分类方法 总被引：3，自引：0，他引：3

吴迪张亚平殷福亮李明《电子与信息学报》2007,29(12):2880-2884

权值计算和特征降维是影响文本分类的精度和效率的两个重要步骤。该文首先根据特征词的类别分布差异进行特征过滤;然后,分析传统的权值公式TF-IDF的缺点,采用改进的权值计算公式简记为TF-CDF,依据TF-CDF公式计算每个特征词的权值,生成文档集的向量空间模型VSM;接着,提出了一种基于可变精度粗糙理论(VPRS)的特征选择进一步选择对分类贡献度大的特征,并用SQL实现。最后利用支持向量机LibSVM分类器进行实验,实验结果表明特征过滤和选择方法及TF-CDF权值公式有助于提高分类精度和分类效率。相似文献

15.

基于遗传算法的图像分割的研究

陈杰阜艳《现代电子技术》2010,33(14):42-44

遗传算法是对生物进化论中自然选择和遗传学机理中生物进化过程的模拟来计算最优解的方法。遗传算法具有众多的优点,如鲁棒性、并行性、自适应性和快速收敛,可以应用在图像处理技术领域中图像分割技术来确定分割阈值。图像分割是图像处理技术的研究对象之一,它对于图像特征提取、图像识别等图像处理技术等有着重要意义。主要研究基于遗传算法的图像分割效果,采用Matlab软件进行仿真实验,对不同图像分割算法的效果进行比较。实验表明,遗传算法是处理图像分割的优秀算法,图像分割效果相比于传统的图像分割算法更加优秀。相似文献

16.

入侵检测中基于SVM的两级特征选择方法 总被引：2，自引：0，他引：2

武小年彭小金杨宇洋方堃《通信学报》2015,36(4):19-26

针对入侵检测中的特征优化选择问题,提出基于支持向量机的两级特征选择方法。该方法将基于检测率与误报率比值的特征评测值作为特征筛选的评价指标,先采用过滤模式中的Fisher分和信息增益分别过滤噪声和无关特征,降低特征维数;再基于筛选出来的交叉特征子集,采用封装模式中的序列后向搜索算法,结合支持向量机选取最优特征子集。仿真测试结果表明,采用该方法筛选出来的特征子集具有更好的分类性能,并有效降低了系统的建模时间和测试时间。相似文献

17.

Unsupervised Quick Reduct Algorithm Using Rough Set Theory

C. Velayutham K. Thangavel 《电子科学学刊(英文版)》2011,(3):193-201

Feature selection (FS) is a process to select features which are more informative.It is one of the important steps in knowledge discovery.The problem is that not all features are important.Some of the features may be redundant,and others may be irrelevant and noisy.The conventional supervised FS methods evaluate various feature subsets using an evaluation function or metric to select only those features which are related to the decision classes of the data under consideration.However,for many data mining applications,decision class labels are often unknown or incomplete,thus indicating the significance of unsupervised feature selection.However,in unsupervised learning,decision class labels are not provided.In this paper,we propose a new unsupervised quick reduct (QR) algorithm using rough set theory.The quality of the reduced data is measured by the classification performance and it is evaluated using WEKA classifier tool.The method is compared with existing supervised methods and the result demonstrates the efficiency of the proposed algorithm. 相似文献

18.

带约束小生境二进制粒子群优化的生物组学数据集成特征选择

下载免费PDF全文

杨峻山周家锐朱泽轩纪震《信号处理》2016,32(7):757-763

针对生物组学数据高维小样本的特点而引起的分类误差较大的问题,提出了一种带约束小生境二进制粒子群优化的集成特征选择方法。该方法利用二进制粒子群优化算法搜索分类准确率最高的特征子集,通过约束粒子编码的置位个数以限制选择特征个数,并加入多模优化中的小生境技术使算法能够一次获得多个差异度较大的特征子集,最后采用集成学习技术将基于多特征子集建立的基分类器集成为强分类器并对数据进行分类学习。实验结果表明,该特征选择方法在生物组学数据上能够稳定选择较少特征并获得较好分类性能。相似文献

19.

基于SVM的网络文本分类

李倩《电子技术》2014,(10):8-11

文章首先介绍文本分类预处理的几种方法及其不足之处,并提出一种改进的特征提取方法。然后,介绍几种文本分类算法,并指出其缺点。最后本文介绍支持向量机算法,结合改进后的文本预处理方法对网络文本进行分类,并通过与KNN对比分析说明了该算法的高效性能。相似文献

20.

Bayesian class discovery in microarray datasets 总被引：1，自引：0，他引：1

Roth V Lange T 《IEEE transactions on bio-medical engineering》2004,51(5):707-718

A novel approach to class discovery in gene expression datasets is presented. In the context of clinical diagnosis, the central goal of class discovery algorithms is to simultaneously find putative (sub-)types of diseases and to identify informative subsets of genes with disease-type specific expression profile. Contrary to many other approaches in the literature, the method presented implements a wrapper strategy for feature selection, in the sense that the features are directly selected by optimizing the discriminative power of the used partitioning algorithm. The usual combinatorial problems associated with wrapper approaches are overcome by a Bayesian inference mechanism. On the technical side, we present an efficient optimization algorithm with guaranteed local convergence property. The only free parameter of the optimization method is selected by a resampling-based stability analysis. Experiments with Leukemia and Lymphoma datasets demonstrate that our method is able to correctly infer partitions and corresponding subsets of genes which both are relevant in a biological sense. Moreover, the frequently observed problem of ambiguities caused by different but equally high-scoring partitions is successfully overcome by the model selection method proposed. 相似文献