共查询到20条相似文献,搜索用时 780 毫秒
1.
针对基于链接关系的网页分类算法中存在噪声邻域网页干扰分类结果的问题,提出利用网页间的相似度进行优化的方法。为不同关系的满足相似度阈值的邻域网页分别设置不同的权值,同时结合支持向量机对网页的分类结果,计算得到网页的类别。实验表明,本文算法准确率、召回率和F1值均有所提高。
相似文献
2.
直推式支持向量机是一种直接从已知样本出发对特定的未知样本进行识别的分类技术。在分析直推式支持向量机分类原理的基础上,提出一种基于直推式支持向量机的Web信息抽取方法,直接从分类的角度抽取Web信息。只需要提供少量标记样本就可以实现对大量未标注样本的分类标注,从而以分类的方式完成Web数据抽取任务。实验结果表明,使用这种方法进行Web信息抽取是有效性。 相似文献
3.
为了提高控制图模式识别的精度, 将控制图模式的原始特征与形状特征相融合得到分类特征, 并采用支持向量机进行模式分类的控制图模式识别。融合所得特征既保持了控制图模式的原始特征所蕴涵的模式全局特性信息, 又通过引入形状特征对部分易混淆模式的局部几何特性进行强化, 使不同模式间的区分度得到有效提高; 而以支持向量机作为模式分类器保证方法在高维度特征和小样本条件下也能获得较好的识别性能。仿真实验结果表明所提方法的识别精度相比其他几种基于形状特征的控制图模式识别方法有明显提高。 相似文献
4.
针对突发事件新闻网页语料处理问题,提出了一种基于此类新闻特点与网页标记信息的抽取和定位新闻内容的方法。该方法将网页标记与文本相似度作为机器学习的特征项,利用贝叶斯分类方法提取新闻标题。利用事件新闻的用词稳定性与网页标记的嵌套特点,减少了文本处理数量,降低了文本向量维数,在此基础上计算向量相似度以定位新闻篇首与篇尾。实验结果表明,该方法抽取标题的准确率达到86.5%,抽取正文的平均准确率在78%以上,能有效抽取新闻内容,且易于实现,对其他网页文本处理中挖掘标记信息与文本自身信息具有一定的借鉴意义。 相似文献
5.
中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势.提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取和多分类算法等关键技术的介绍.实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率. 相似文献
6.
构建了关于Web表格特征信息知识的领域本体,提出并设计了一种用于Web文本分类的二次分类模型。该模型使用支持向量机方法对测试样本进行第一次分类;由于设定了较高的分类阈值,一次分类后部分测试样本未确定所属类别,对于这些测试样本,抽取样本中的Web表格特征信息,与基于领域本体的分类模板进行相似度匹配,进行第二次分类。最后通过实验验证了该方法的可行性。 相似文献
7.
针对传统模糊支持向量机(FSVM)对于不确定性信息处理的局限性,提出一种基于模糊相似测量和高维空间模糊映射的改进模糊支持向量机方法。首先,构建不确定信息集的模糊相似测量函数, 从不确定性信息本质出发,利用Gregson相似度,构建具有模糊特征的相似测量函数;然后,根据空间映射理论,将模糊相似测量函数应用于FSVM,构建满足Mercer理论的FSVM相似内核;最后,利用该方法对旋转超声加工中材料切屑率(MRR)中的不确信性信息进行建模。对比具有传统内核的FSVM,所提方法能够利用较少的运算步骤完成较好的不确定性信息处理,有效提高不确定信息处理的准确性,且计算复杂度低。 相似文献
8.
9.
实体间语义关系抽取是信息抽取中的重要环节,其目的是从文本中找出实体对之间的语义关系并对它们进行分类。本文主要通过发掘有效的词汇特征、实体特征、基本短语块特征等基本语言学特征,采用基于支持向量机的学习方法,来提高中文实体间语义关系抽取的性能,使得关系抽取的准确率和召回率得到提高,最终提高关系探测、大类抽取和子类抽取的F值。 相似文献
10.
提出基于主动学习支持向量机的文本分类方法,首先采用向量空间模型(VSM)对文本特征进行提取,使用互信息对文本特征进行降维,然后提出主动学习算法对支持向量机进行训练,使用训练后的分类器对新的文本进行分类,实验结果表明该方法具有良好的分类性能。 相似文献
11.
二次损失函数支持向量机性能的研究 总被引:7,自引:0,他引:7
通过比较二次损失函数支持向量机和标准支持向量机在模式识别问题上的表现,分析了二次损失函数支持向量机的性能.实验表明这两种支持向量机对平衡数据有相似的分类能力,但二次损失函数支持向量机的优化参数更小,支持向量更多;对不平衡数据,二次损失函数支持向量机的分类准确率随不平衡度的增加而急剧下降.研究同时表明基于RM界的梯度方法对某些数据无效.文中定性分析了导致上述各种现象的原因.最后提出了一种利用黄金分割原理缩减二次损失函数支持向量机支持向量的方法,该方法冗余的支持向量数不超过一个. 相似文献
12.
网页分类算法中,KNN算法的缺陷之一是分类效率较低,分类的效果很大程度上依赖于相似度函数和参敷K的选择.同时,基于支持向量机(SVM)网页分类器的限制在于要求处理的向量是数值型向量,而网页特征向量往往是词条特征向量.利用KNN算法生成训练样本,进而将词务特征向量数值化,再利用支持向量机分类器对测试网页进行分类,构建了一种新的分类器--KNN-SVM分类器. 相似文献
13.
14.
15.
将多特征多分类器的模式识别看作信息融合问题,提出了一种基于支持向量机理论的决策级信息融合模型,并讨论了基于该模型的识别精度以及学习样本数之间的关系.通过对ORL人脸图像库、CENPAMI手写体数字数据库这两类不同样本问题的识别实验表明,基于信息融合的模式识别方法可以取得较高的整体识别性能. 相似文献
16.
在网页自动分类优化数据管理的研究,网页分类技术是数据挖掘研究中的一个热点领域,针对当前网页分类方法的精度低、速度慢等难题,为提高网页分类准确率,提出一种将支持向量机和最近邻相结合的网页分类方法(KNN-SVM).KNN-SVM在分类阶段计算待识别样本和最优分类超平面的距离,如果距离差大于给定阈值直接应用支持向量机分类,否则代入以每类的所有的支持向量作为代表点的K近邻分类并进行仿真.仿真结果表明,使用支持向量机结合最近邻分类的分类器分类比单独使用支持向量机分类具有更高的分类准确率,较好地解决应用支持向量机分类时核函数参数的选择问题. 相似文献
17.
真实数据集中存在的对抗样本易导致分类器取得较差的分类性能,但如果其能够被合理利用,分类器的泛化能力将得到显著提高。针对现有大部分分类器并没有涉及对抗样本信息的问题,提出一种攻击标签信息的堆栈式支持向量机。该方法从给定的初始数据集中选取一定比例的样本,并攻击所选取样本的标签,使之成为对抗样本,即将样本标签替换成其他不同类型的标签,利用支持向量机训练包含对抗样本的数据集,从而生成对抗支持向量机。计算对抗支持向量机的输出误差相对于输入样本的一阶梯度信息,并将其嵌入到输入样本特征中以更新输入样本。将更新后的样本输入到下一个对抗支持向量机中,并重新训练。以堆栈方式级联一定数目的对抗支持向量机,直至取得最好的分类性能。原理分析与实验结果表明,基于对抗样本的一阶梯度信息不仅提供了分类器输出与输入之间的一种正相关关系,而且为堆栈式支持向量机中的子分类器提供了一种新的堆栈方式,并提高了分类器的整体性能。 相似文献
18.
提出基于改进PSO优化支持向量机的文本分类方法,首先采用向量空间模型对文本特征进行提取,使用互信息对文本特征进行降维,然后提出改进PSO算法,该算法可实现对SVM参数的精确、稳定、快速优化选择,对支持向量机进行训练,使用训练后的分类器对新的文本进行分类,实验结果表明该方法具有良好的分类性能。 相似文献
19.
《计算机应用与软件》2016,(9)
为了提高文本情感分类准确率,提出基于多约简Fisher向量空间模型和支持向量机的文本情感分类算法。该算法首先采用Fisher判别准则提取TF-IDF特征向量,然后依据低维文档向量空间模型间的相似度对文档进行聚类,减少文档的数目。该算法从维度和数量两个方面对文档的向量空间模型进行约简,以期提高支持向量机的训练速度和分类性能。仿真实验结果表明,该算法具有良好的召回率和分类准确率。 相似文献
20.
本文提出了一种新的结合纹理特征的支持向量机图象分割方法,将纹理特征和灰度特征一起组成训练特征向量,利用支持向量机分类方法进行图象分割.该算法结合了纹理特征在图象描述中的重要意义和支持向量机方法在模式识别领域已表现出的优越性能,实验证明其在图象分割中取得了良好的效果.同时,当需要处理一批内容相似,感兴趣区域具有相同纹理、灰度特征的同类图象时,只需对其中一幅代表性的图象进行SVM训练,所产生的分类模型适用于所有该类图象,无需逐幅进行处理,大大简化了运算过程. 相似文献