首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
文本分类是文本数据挖掘的基础和核心,为解决在文本分类中二值支持向量机不能进行多类分类的问题,论文提出采用二叉树对多个二值支持向量机(SVM)子分类器进行组合,并运用聚类分析中类距离方法规范二叉树生成过程的基于二叉树的多类支持向量机(MSVM)分类算法。实验数据表明,相对于KNN 算法和朴素贝叶斯算法,基于二叉树的MSVM 算法在文本分类上更具优越性。该算法已应用于科技奖励信息检索系统中,取得了良好的效果。  相似文献   

2.
生物命名实体识别,就是从生物医学文本中识别出指定类型的名称。目前,面向生物医学领域的实体识别研究不断出现,从海量生物医学文本自动提取生物实体信息的技术变得尤为重要。该文介绍了一个面向生物医学领域的多实体识别系统MBNER(Multiple Biomedical Named Entity Recognizer)。该系统可以在生物医学文本中同时识别出基因(蛋白质)、药物、疾病实体,其对基因(蛋白质)、药物、疾病实体识别在各自数据集上分别得到了89.05%,76.73%,90.12%的综合分类率(F-score)。该系统以可视化的形式给出对三种命名实体的识别结果。  相似文献   

3.
SVM在文本分类中的应用是近年来文本分类领域重要的进展之一。许多实验表明,SVM在文本分类中比其他的机器学习算法表现出更高的分类精度,但在大规模数据上的收敛速度较慢,成为SVM在实际应用中的一大缺点。球向量机是一种比SVM更快的机器学习方法。本文将BVM应用于文本分类。实验表明,BVM在文本分类中的应用具有与SVM相当的精 度,而且比SVM有更少的训练时间。  相似文献   

4.
一种改进的支持向量机的文本分类算法   总被引:16,自引:11,他引:5  
在文本分类中,应用支持向量机(SVM)算法能使分类在小样本的条件下具有良好的泛化能力.但支持向量机的参数取值决定了其学习性能和泛化能力.为提高支持向量机算法的性能,提出了一种采用免疫算法对支持向量机参数进行优化的文本分类算法(IA-SVM).算法减少了对支持向量机参数选择的盲目性,提高了SVM的预测精度.实验表明,IA-SVM算法在文本分类问题上明显提高了分类正确牢,学习速度也有提高.  相似文献   

5.
封二英  牛耘  魏欧 《计算机应用》2012,32(Z1):147-150
针对目前蛋白质交互(PPI)关系提取方法仅以单句中的信息为主要依据的问题,提出一种基于大规模文本的蛋白质交互关系自动提取的方法.首先通过对大规模生物医学文本的自动搜索建立目标蛋白质对的签名档,将蛋白质交互关系抽取转化为文本自动分类问题;然后提取签名档中的重要特征,建立蛋白质对的向量空间模型(VSM);最后采用支持向量机(SVM)对签名档进行分类.比较了四种对向量的特征进行加权和特征选择的方案.实验表明,基于大规模文本的蛋白质交互关系识别取得了最高达94.8%的精确度和65.1%的召回率;并且此方法充分利用已有的交互信息,免除了额外的人工标注的负担.  相似文献   

6.
一种文本分类的在线SVM学习算法   总被引:5,自引:4,他引:5  
本文提出了一种用于文本分类的RBF 支持向量机在线学习算法。利用RBF 核函数的局部性,该算法仅对新训练样本的某一大小邻域内且位于“可能带”中的训练样本集进行重新训练,以实现对现有SVM的更新。为高效的实现该邻域大小的自适应确定,使用ξa 泛化错误估计在所有现有训练样本集上对当前SVM的泛化错误进行定性估计。同时引入泛化能力进化因子,使得结果SVM在分类效果上具有自动调整能力,并防止分类能力的退化。在TREC - 5 真实语料上的对比测试结果表明,该算法显著地加速了增量学习的过程而同时保证结果SVM的分类效果。  相似文献   

7.
分析了简单向量距离文本分类算法的不足,提出了相应的改进算法.把反馈思想引入简单向量距离分类模型,使文本分类系统具备了不断学习的能力.实验证明,改进后的文本分类模型适合于文本分类的需要,改善了原有分类器的性能.  相似文献   

8.
在优化分类技术的研究中,文本特征化后通常具有高维性和不平衡性的特点,导致传统的分类算法准确率不高的问题.针对文本分类器的性能容易受到核函数和参数的影响的问题,为提高文本分类器的准确性.采用支持向量机(SVM)的理论在文本分类技术同时将根据优化的粒子群算法(PSO)引入SVM分类算法中进行优化文本分类器的参数,将分类器的准确率作为PSO算法适应度函数通过粒子移动操作找出最佳参数并用SVM算法进行分类.在文本数据集上的仿真结果表明,与传统的算法相比,经PSO算法优化后的SVM文本分类器的准确性更高,PSO算法是一种有效的优化方法,能广泛应用于文本分类问题.  相似文献   

9.
支持向量机(Support Vector Machines,简称SVM)根据有限的样本信息在对文本分类的精度和学习能力之间,相比其他的文本分类算法寻求了最佳折中,从而获得了较好的推广能力。而SVM是从线性可分情况下的最优分类面发展而来的,因此对于线性可分文本具有更好的分类效果。给出了一种效率较高的线性可分文本的SVM算法,它在训练的时间复杂度上具有明显的改进,从而可以提高训练效率。结果表明:改进后的SVM算法相比以前的算法大大提高了运行效率。  相似文献   

10.
提出基于改进PSO优化支持向量机的文本分类方法,首先采用向量空间模型对文本特征进行提取,使用互信息对文本特征进行降维,然后提出改进PSO算法,该算法可实现对SVM参数的精确、稳定、快速优化选择,对支持向量机进行训练,使用训练后的分类器对新的文本进行分类,实验结果表明该方法具有良好的分类性能。  相似文献   

11.
基于KL散度的支持向量机方法及应用研究   总被引:1,自引:0,他引:1  
针对ICA提取的说话人语音特征,导出以库尔贝克—莱布勒(KL)散度作为距离测度的KL核函数用来设计支持向量机,实现了一个高分辨率的ICA/SVM说话人确认系统.说话人确认的仿真实验结果表明,使用ICA特征基函数系数比直接使用语音数据训练SVM得到的分类间隔大,支持向量少,而且使用KL核函数的ICA/SVM系统确认的等差率也低于其它传统SVM方法,证明了基于KL散度的支持向量机方法在实现分类和判决上具有高效性能.  相似文献   

12.
提出一种基于支持向量机(SVM)的大鱼际掌纹图像二分类法。采用高频强调滤波,对分割得到的大鱼际掌纹图像进行图像增强,提取其灰度共生矩阵4个方向的8个特征量作为分类特征向量。对比不同核函数下的分类准确率,结果表明,组合特征向量的SVM方法对大鱼际掌纹的初步二分类效果较好。  相似文献   

13.
基于核变换的高性能支持向量机分类算法   总被引:1,自引:1,他引:0       下载免费PDF全文
由于传统的支持向量机(SVM)算法的核函数没有考虑训练数据自身的特点,因而相对于具体的问题来说,往往不是最优的。为了获得最优的分类结果,提出了一种基于核变换思想的支持向量机分类方法。该方法首先根据训练样本的类属信息,通过对初始核进行线性变换来间接地达到改进输入空间到输出空间的映射函数的目的,同时利用变换后的核函数来求解分类数据特征空间的超平面方程。仿真和实验结果表明,采用此方法,不仅可以提高系统的分类性能和降低噪声的干扰,而且可以增强分类结果的鲁棒性。  相似文献   

14.
This paper presents the implementation of a new text document classification framework that uses the Support Vector Machine (SVM) approach in the training phase and the Euclidean distance function in the classification phase, coined as Euclidean-SVM. The SVM constructs a classifier by generating a decision surface, namely the optimal separating hyper-plane, to partition different categories of data points in the vector space. The concept of the optimal separating hyper-plane can be generalized for the non-linearly separable cases by introducing kernel functions to map the data points from the input space into a high dimensional feature space so that they could be separated by a linear hyper-plane. This characteristic causes the implementation of different kernel functions to have a high impact on the classification accuracy of the SVM. Other than the kernel functions, the value of soft margin parameter, C is another critical component in determining the performance of the SVM classifier. Hence, one of the critical problems of the conventional SVM classification framework is the necessity of determining the appropriate kernel function and the appropriate value of parameter C for different datasets of varying characteristics, in order to guarantee high accuracy of the classifier. In this paper, we introduce a distance measurement technique, using the Euclidean distance function to replace the optimal separating hyper-plane as the classification decision making function in the SVM. In our approach, the support vectors for each category are identified from the training data points during training phase using the SVM. In the classification phase, when a new data point is mapped into the original vector space, the average distances between the new data point and the support vectors from different categories are measured using the Euclidean distance function. The classification decision is made based on the category of support vectors which has the lowest average distance with the new data point, and this makes the classification decision irrespective of the efficacy of hyper-plane formed by applying the particular kernel function and soft margin parameter. We tested our proposed framework using several text datasets. The experimental results show that this approach makes the accuracy of the Euclidean-SVM text classifier to have a low impact on the implementation of kernel functions and soft margin parameter C.  相似文献   

15.
在多分类问题中,分类算法的优劣直接影响到最终分类结果的好坏。现有的多分类算法中,基于支持向量机的多分类算法在综合性能方面要优于其他算法,但是,这些较优算法同样面临一些多分类中常见的问题,如不可分问题和效率低问题。针对这些问题,文中提出了一种改进的二叉树支持向量机多分类算法,该算法综合考虑了两个类之间的距离和分布情况对可分离性的影响,并采用最容易分离的类最先分割出来的策略来建立树的结构。通过在不同的数据集上进行测试,表明该方法不仅解决了多分类的不可分问题,还能提高分类的效率和准确度,可更好地解决现实中的多分类问题。  相似文献   

16.
基于复数小波能量特征和支持向量机的图像匹配算法   总被引:4,自引:0,他引:4  
为了对图像中发生平移、伸缩及旋转等形变的目标进行有效检测和跟踪,提出了基于复数小波能量特征和支持向量机的图像匹配算法,以便把图像匹配问题转化为图像分类问题。该算法首先利用复数小波的方向选择性、多尺度特性及近似平移不变性来抽取图像能量的均值、均方差及偏度等统计特征,并将其作为支持向量机的输入参数,用于训练模板样本集合,以获得支持向量,然后对由输入图像构成的与模板大小相同的所有子图像进行测试。这是一个粗精结合的两步算法,即先运用支持向量机筛选出侯选目标集合,再运用非线性距离判优准则来确定检测出的候选目标图像集合中的最优匹配。实验结果表明,该算法克服了传统图像匹配方法搜索目标时存在的置信度问题,通过与基于径向基的神经网络学习方法和基于灰度相关的匹配方法比较可见,该算法在性能上优于这两个方法,并能得到满意的匹配结果。  相似文献   

17.
在机器学习及其分类问题时经常会遇到非平衡数据集,为了提高非平衡数据集分类的有效性,提出了基于商空间理论的过采样分类算法,即QMSVM算法。对训练集中多数类样本进行聚类结构划分,所得划分结果和少数类样本合并进行线性支持向量机(SVM)学习,从而获取多数类样本的支持向量和错分的样本粒;另一方面,获取少数类样本的支持向量和错分的样本,进行SMOTE采样,最后把上述得到的两类样本合并进行SVM学习,这样来实现学习数据集的再平衡处理,从而得到更加合理的分类超平面。实验结果表明,和其他几种算法相比,所提算法虽在正确分类率上有所降低,但较大改善了g_means值和acc+值,且对非平衡率较大的数据集效果会更好。  相似文献   

18.
传统文本分类中的文档表示方法一般基于全文本(Bag-Of-Words)的分析,由于忽略了领域相关的语义特征,无法很好地应用于面向特定领域的文本分类任务.本文提出了一种基于语料库对比领域相关词汇提取的特征选择方法,结合SVM分类器实现了适用于特定领域的文本分类系统,能轻松应用到各个领域.该系统在2005年文本检索会议(TREC,Text REtrieval Conference)的基因领域文本分类任务(Genomics Track Categorization Task)的评测中取得第一名.  相似文献   

19.
A novel training method has been proposed for increasing efficiency and generalization of support vector machine (SVM). The efficiency of SVM in classification is directly determined by the number of the support vectors used, which is often huge in the complicated classification problem in order to represent a highly convoluted separation hypersurface for better nonlinear classification. However, the separation hypersurface of SVM might be unnecessarily over-convoluted around extreme outliers, as these outliers can easily dominate the objective function of SVM. This situation eventually affects the efficiency and generalization of SVM in classifying unseen testing samples. To avoid this problem, we propose a novel objective function for SVM, i.e., an adaptive penalty term is designed to suppress the effects of extreme outliers, thus simplifying the separation hypersurface and increasing the classification efficiency. Since maximization of the margin distance of hypersurface is no longer dominated by those extreme outliers, our generated SVM tends to have a wider margin, i.e., better generalization ability. Importantly, as our designed objective function can be reformulated as a dual problem, similar to that of standard SVM, any existing SVM training algorithm can be borrowed for the training of our proposed SVM. The performances of our method have been extensively tested on the UCI machine learning repository, as well as a real clinical problem, i.e., tissue classification in prostate ultrasound images. Experimental results show that our method is able to simultaneously increase the classification efficiency and the generalization ability of the SVM.  相似文献   

20.
This paper presents a novel over-sampling method based on document content to handle the class imbalance problem in text classification. The new technique, COS-HMM (Content-based Over-Sampling HMM), includes an HMM that is trained with a corpus in order to create new samples according to current documents. The HMM is treated as a document generator which can produce synthetical instances formed on what it was trained with.To demonstrate its achievement, COS-HMM is tested with a Support Vector Machine (SVM) in two medical documental corpora (OHSUMED and TREC Genomics), and is then compared with the Random Over-Sampling (ROS) and SMOTE techniques. Results suggest that the application of over-sampling strategies increases the global performance of the SVM to classify documents. Based on the empirical and statistical studies, the new method clearly outperforms the baseline method (ROS), and offers a greater performance than SMOTE in the majority of tested cases.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号