首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
基于KNN的不良文本过滤方法   总被引:3,自引:2,他引:1       下载免费PDF全文
不良文本过滤是当前的一个研究热点。通过对χ2统计量的具体分析,证明χ2统计量在2类文本特征项提取过程中特有的优势。提出正面文本阈值δ,并从理论上推断出该值的大小。在此基础上改进KNN算法,消除了KNN算法中N的不确定性,彻底实现了无参性,大幅减少了分类所用的时间。实验证明,该算法符合Web实时在线分类的要求。  相似文献   

2.
特征选择在文本分类中是非常必要的,这是由于它可以使分类更加有效与准确。本文根据特征选择方法χ2统计方法的不足,对χ2统计进行改进,并在支持向量机分类算法上进行实验。实验结果表明改进的方法可以提高分类的准确度。  相似文献   

3.
为提高对数据量较少的短文本分类效果,有效降低特征空间的特征维度,本文针对传统CHI统计方法和TF-IDF权重计算方法的缺点,提出一种新的类词因子改进特征选择方法,用来提高分类准确性。对于传统CHI统计方法对低频词敏感、TF-IDF权重计算方法忽略特征项在类别间和类别内分布情况,通过引入类词因子来改进传统CHI统计方法和TF-IDF权重计算方法,并将两者结合使用,减少低频词带来的干扰。同时考虑类内和类间特征词分布的特殊情况,使用XGBoost分类算法将提出方法用在数据量少且文本短的话题文本分类实验中,实验结果表明,与传统的CHI和TF-IDF方法相比,加入类词因子的特征选择方法提高了在平衡和非平衡语料集上的分类准确性,大幅度降低了对内存的占用。  相似文献   

4.
结合同义向量聚合和特征多类别的KNN分类算法   总被引:1,自引:0,他引:1  
特征选择是文本分类的关键阶段,其选择过程将影响文本分类速度与精度。χ2统计量能很好地体现词和类别之间的关系,是文本分类领域特征提取阶段的重要方法之一。分析了χ2统计量在文本分类中的应用,发现CHI向量所表达的与各类别关系的特征词无法全面表达出此类的概念含义,依赖于训练集中出现的特征情况,且该向量仅用于特征选择阶段;针对χ2统计量特征词的表达局限及其向量没有得到充分利用的问题,提出结合同义向量聚合和特征多类别的改进KNN分类算法,该方法能够综合考虑特征所表达的含义,且通过特征集多类别矩阵使CHI向量也能在分类阶段起到提高整个算法效率的作用。实验结果与分析表明,该改进算法明显提高了文本分类效率,并且提高了分类的精度。  相似文献   

5.
文本分类领域中,TF-IDF特征权重是一种常用的分类算法。本文介绍了TF-IDF特征权重算法,对于能够表征文本特征的文本特征词,常常按某一方法赋予相应的权重,表示它们对于区分文本类别的重要程度。但是在该算法中将训练集的文档看成一个整体来考虑,不能表示特征项与类别之间的关联特性。针对该弊端本文引进了x2统计量函数计算权重。实验结果表明改进的TF-IDF权重算法是可行的,同时也比较好地提高了分类器的性能。  相似文献   

6.
基于改进TFIDF算法的文本分类研究   总被引:1,自引:0,他引:1  
由于文本分类在信息检索、邮件过滤、网页分类、个性化推荐等领域有着广泛的应用价值,所以自文本分类的概念提出以来,受到了学者们的广泛关注。在文本分类的研究中,学者们运用了很多方法,其中TFIDF是文档特征权重计算的最常用算法之一,但是传统的TFID算法忽略了特征项在类内和类间的分布,导致很多区分度不大的特征项被赋予了较大的权重。针对传统TFIDF算法的不足,本文在IDF的计算过程中,用词条在类内与类间的文档占比来考虑词条在类内与类间的分布。在实验中,用改进的权重算法表示文本向量,通过考察分类的效果,验证了改进算法的有效性。  相似文献   

7.
基于卡方统计的文本分类特征选择方法的研究   总被引:4,自引:0,他引:4  
特征提取是文本分类过程中的一个重要环节,它的好坏将直接影响文本分类的准确率。在全面研究文本分类特征提取方法的基础上,分析了卡方统计的不足并提出了将频度、集中度、分散度应用到卡方统计方法上,对卡方统计进行改进,并通过实验对比改进前后的方法对文本分类效果的影响。在实验中,改进方法的分类效果要好于传统的方法,从而验证了改进方法的有效性和可行性。  相似文献   

8.
Deep Web自动分类是建立深网数据集成系统的前提和基础。提出了一种基于领域特征文本的Deep Web分类方法。首先借助本体知识对表达同一语义的不同词汇进行了概念抽象,进而给出了领域相关度的定义,并将其作为特征文本选择的量化标准,避免了人为选取的主观性和不确定性;在接口向量模型构建中,考虑了不同特征文本对于分类作用的差异,提出了一种改进的W-TFIDF权重计算方法;最后采用KNN算法对接口向量进行了分类。对比实验证明,利用所提方法选择的特征文本是准确有效的,新的特征文本权重计算方法能显著地提高分类精度,且在KNN算法中表现出较好的稳定性。  相似文献   

9.
文本分类的特征提取方法比较与改进   总被引:12,自引:0,他引:12  
文本的特征提取是文本分类过程中的一个重要环节,它的好坏将直接影响文本分类的准确率。该文介绍了词条的χ2统计方法(CHI)、词条与类别的互信息(MI)、信息增益(IG)、词条的期望交叉熵(CE)等文本特征提取方法,并对其取词策略进行了改进。为了对这些特征提取方法进行系统地比较,选择了三种代表性的分类器对《读卖新闻》文本数据库进行了分类实验。实验结果表明χ2统计方法具有最好的准确率,各种改进的特征提取方法都能提高文本分类的准确率。  相似文献   

10.
随着文本分类技术的发展与成熟,越来越多的企业将其应用到客户投诉分类系统中,并获得了一定的效果.针对传统卡方统计方法偏向于选择出负相关低频噪音词,将改进的CHI统计方法运用到文本特征选择,通过降低负相关低频词在特征选择算法中的权重,减小其对模型的影响.最后,对某省通信公司的业务投诉文本进行实验,结果表明该模型和方法是有效的,能更准确地对业务投诉工单进行分类,从而为后续问题的分析提供数据支持.  相似文献   

11.
m,p1)约束规范的动态调度算法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
m,p1)有效解决了µ-pattern中第一个数字为0时部分约束规范失效的问题。在弱硬实时调度算法研究的基础上,针对(m,p1)约束规范,提出了一个动态弱硬实时调度算法,分析与仿真结果表明,算法效果良好。  相似文献   

12.
在椭圆曲线密码系统的实现中,选择适当的优化技术对椭圆曲线密码系统的运算性能影响巨大。针对F2m域椭圆曲线密码系统的关键操作,讨论了点加、倍点和标量乘法等基本运算的优化实现技术,论证了综合使用各种优化技术可以大大提高整个椭圆曲线密码系统的运算性能。  相似文献   

13.
基于仿生模式识别的医学图像分割方法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出了一种基于仿生模式识别的医学图像分割算法。该算法首先根据训练样本矢量确定Ψ3神经元的权值,并在此基础上构建多权值神经元网络;然后利用神经元网络完成样本在高维特征空间的最佳覆盖;最后根据覆盖结果进行识别、分割。实验结果表明,与传统医学图像分割方法相比,该算法具有更高的准确性和可靠性,更好的泛化能力。此外,该算法从“认识”的角度出发,可以有效融合先验知识,能快速准确地从医学图像中分割出感兴趣的区域,具有较高的智能性。  相似文献   

14.
提出了基于蕴涵算子族L-λ-R0的模糊推理的思想,这将有助于提高推理结果的可靠性。针对蕴涵算子族L-λ-R0已给出的FMP模型[1]的三Ⅰ支持算法、α-三Ⅰ支持算法进一步给出了模糊推理的FMT模型的三Ⅰ支持算法、α-三Ⅰ支持算法。  相似文献   

15.
首先在多类(many-sorted)一阶形式系统Lukms、Gödms,∏msL*ms中通过引入多类一阶模糊语言Lms的解释模型类及基于解释模型类的α-逻辑有效公式的概念,建立了多类一阶模糊语言的解释模型类理论;然后,基于上述理论探讨了模糊推理算法(CRI及三I算法)与其理论Г-推理的关系,从而进一步奠定了模糊推理的理论基础,同时得到一种新型的模糊推理算法,称为极小三I算法。  相似文献   

16.
sinc-1模型作为逆系统能较好地改善LCD运动图像模糊现象, 但其在极点处无法正确还原运动模糊的图像, 且难以硬件实现. 因此, 本文从系统辨识的角度出发, 提出了一种采用基于变步长最小均方误差(Least mean square, LMS)的低阶Volterra非线性系统拟合sinc-1模型的LCD运动图像去模糊的方法. 仿真结果表明, 该方法能消除sinc-1模型的极点问题, 较好地改善了LCD运动图像模糊现象, 简单且易于硬件实现.  相似文献   

17.
研究给定的n次三角Bézier曲面在L2范数下的一次降多阶的逼近问题,给出了在无约束条件下的三角Bézier曲面降阶求解的详细过程,将降阶问题转化为非线性最优化问题求解,并将降阶过程与曲面的几何连续拼接结合在一起,给出了降阶同时满足GC^1拼接的实现过程。实验结果表明,该方法简单实用,降阶逼近效果好。  相似文献   

18.
多核学习方法(Multiple kernel learning, MKL)在视觉语义概念检测中有广泛应用, 但传统多核学习大都采用线性平稳的核组合方式而无法准确刻画复杂的数据分布. 本文将精确欧氏空间位置敏感哈希(Exact Euclidean locality sensitive Hashing, E2LSH)算法用于聚类, 结合非线性多核组合方法的优势, 提出一种非线性非平稳的多核组合方法—E2LSH-MKL. 该方法利用Hadamard内积实现对不同核函数的非线性加权,充分利用了不同核函数之间交互得到的信息; 同时利用基于E2LSH哈希原理的聚类算法,先将原始图像数据集哈希聚类为若干图像子集, 再根据不同核函数对各图像子集的相对贡献大小赋予各自不同的核权重, 从而实现多核的非平稳加权以提高学习器性能; 最后,把E2LSH-MKL应用于视觉语义概念检测. 在Caltech-256和TRECVID 2005数据集上的实验结果表明,新方法性能优于现有的几种多核学习方法.  相似文献   

19.
研究了Vague值的(α,β) 扩展的性质,提出一类基于这种扩展的Vague集间的相似度量。在模式识别中的应用实例表明这类公式是实用的。  相似文献   

20.
通过分析经典的Qλ)学习算法所存在的经验利用率低、收敛速度慢的问题,根据当前和多步的经验知识样本建立了状态-动作对值函数的最小二乘逼近模型,推导了该逼近函数在一组基底上的权向量所满足的一组线性方程,从而提出了快速而实用的最小二乘Qλ)算法及改进的递推算法。倒立摆实验表明,该算法可以提高经验利用率,有效加快收敛速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号