共查询到19条相似文献,搜索用时 46 毫秒
1.
一种半监督局部线性嵌入算法的文本分类方法* 总被引:3,自引:0,他引:3
针对局部线性嵌入算法(LLE)应用于非监督机器学习中的缺陷,将该算法与半监督思想相结合,提出了一种基于半监督局部线性嵌入算法的文本分类方法。通过使用文本数据的流形结构和少量的标签样本,将LLE中的距离矩阵采用分段形式进行调整;使用调整后的矩阵进行线性重建从而实现数据降维;针对半监督LLE中使用欧氏距离的缺点,采用高斯核函数将欧氏距离进行变换,并用新的核距离取代欧氏距离,提出了基于核的半监督局部线性嵌入算法;最后通过仿真实验验证了改进算法的有效性。 相似文献
2.
主要研究半监督局部线性嵌入算法(Semi-Supervised Locally Linear Embedding,简称SSLLE)对于噪声的敏感性,提出一种具有鲁棒性的半监督局部线性嵌入算法(Robust Semi-Supervised Locally Linear Embedding,简称RSSLLE).RSSLLE在对数据进行离群点检测的基础上,从两方面增加算法对离群点的鲁棒性.对于光滑点集,直接对其采用SSLLE算法进行降维,以避免离群点对光滑点的影响;对于离群点集,利用其局部投影坐标计算局部重构权,从而真正反映离群点的局部线性关系.再将光滑点集作为训练点集,结合SSLLE方法计算离群点集的低维坐标.模拟实验和实际例子表明RSSLLE对噪声有很好的鲁棒性. 相似文献
3.
4.
《计算机应用与软件》2013,(4)
为了提高人脸识别算法的识别率,提出一种基于监督局部线性嵌入SLLE(Supervised Locally Linear Embedding)的人脸图像识别方法。对局部线性嵌入LLE(Locally Linear Embedding)算法进行改进:①计算低维嵌入时,给稀疏矩阵M先加上一个单位阵,然后再计算它的特征值和特征向量,较好地解决了矩阵奇异问题;②针对LLE算法非监督的缺陷,在构造邻域的时候,增加数据的类别信息,根据其所属类别来判断样本的近邻。在Yale和ORL人脸库上的实验结果表明,该算法能够有效地提高人脸识别的性能。 相似文献
5.
为了更加准确地对图像进行聚类与分类,提出一种基于局部样条嵌入的正交半监督子空间学习算法.通过学习一个正交投影矩阵,使得训练样本中的标注数据经过投影矩阵降维后类间离散度尽量大,类内离散度尽量小;采用局部样条回归将局部低维嵌入坐标映射成全局低维嵌入坐标,使得被投影数据保持原有流形结构,并有效地利用有标注训练样本和未标注训练样本得到优化的图像表达方式.图像聚类与分类实验的结果表明了文中算法的有效性. 相似文献
6.
基于局部和全局一致性算法本身带有一定数量的参数,而参数delta的选取对算法迭代过程的迭代次数和分类结果很敏感,通常是通过实验手动设置,这种做法相对比较耗时。为了解决该问题,提高算法分类效率,文中针对该问题将算法应用到图像分类中提出了一种自适应的参数设置方法,确定参数delta的最佳取值范围。通过实验结果可以看出,确定的参数范围的取值能使算法的分类正确率最高、迭代过程所用的时间最短。因此本方法能有效地提高算法的分类效率。 相似文献
7.
《计算机应用与软件》2013,(4)
局部线性重构(LLR)是局部线性嵌入算法(LLE)的一个基本步骤,其目的是用线性重构的方法来表达向量数据之间的局部邻域关系。提出一种快速的监督分类算法,它采用训练集中的向量数据重构测试数据,能够最好地重构给定测试数据的类别被判定为待求标签。与相关算法的实验比较表明,该算法在分类准确性和计算时间上均有明显的优势。 相似文献
8.
9.
分类是机器学习领域的重要分支,利用少量的标签数据进行分类和高维数据的分类是近期研究的热点问题。传统的半监督方法能够有效利用标签样本数据或非标签样本数据,但忽略了相关的非样本数据,即Universum。利用Universum的半监督分类算法,基于线性回归和子空间学习模型,结合了传统半监督方法和利用Universum方法两者的优点,在不增加标签数据的条件下显著地提高了高维数据的分类效果。仿真实验和真实数据上的分类结果都验证了算法的有效性。 相似文献
10.
将鉴别信息引入到距离测度中,利用这个新的局部距离测度代替欧氏距离构建k-近邻,提出一种新的局部线性近邻扩展算法.将此用于图像检索的相关反馈机制,产生基于局部自适应逼近的半监督反馈算法FLANNP(feedback locally adaptive nearest neighbor propagation).该方法首先由支持向量机构建的判别函数来确定最优判别方向,基于此方向产生一个局部自适应距离算法,进而确定数据点间的权重.最后,标签信息由全局一致性假设,通过局部最近邻,从有标签数据点开始进行全局扩散标注.该方法使用有鉴别信息的距离测度,提高了图像检索的准确度. 相似文献
11.
Neural Processing Letters - In practical application, the data are imbalanced, it is difficult to find the balanced, rather skewed data is the common occurrence. This poses a severe challenge to... 相似文献
12.
13.
半监督学习过程中,由于无标记样本的随机选择造成分类器性能降低及不稳定性的情况经常发生;同时,面对仅包含少量有标记样本的高维数据的分类问题,传统的半监督学习算法效果不是很理想.为了解决这些问题,本文从探索数据样本空间和特征空间两个角度出发,提出一种结合随机子空间技术和集成技术的安全半监督学习算法(A safe semi-supervised learning algorithm combining stochastic subspace technology and ensemble technology,S3LSE),处理仅包含极少量有标记样本的高维数据分类问题.首先,S3LSE采用随机子空间技术将高维数据集分解为B个特征子集,并根据样本间的隐含信息对每个特征子集优化,形成B个最优特征子集;接着,将每个最优特征子集抽样形成G个样本子集,在每个样本子集中使用安全的样本标记方法扩充有标记样本,生成G个分类器,并对G个分类器进行集成;然后,对B个最优特征子集生成的B个集成分类器再次进行集成,实现高维数据的分类.最后,使用高维数据集模拟半监督学习过程进行实验,实验结果表明S3LSE具有较好的性能. 相似文献
14.
在实际应用中,容易获取大量的未标记样本数据,而样本数据是有限的,因此,半监督分类算法成为研究者关注的热点.文中在协同训练Tri-Training算法的基础上,提出了采用两个不同的训练分类器的Simple-Tri-Training方法和对标记数据进行编辑的Edit-Tri-Training方法,给出了这三种分类方法与监督分类SVM的分类实验结果的比较和分析.实验表明,无标记数据的引入,在一定程度上提高了分类的性能;初始训练集和分类器的选取以及标记过程中数据编辑技术,都是影响半监督分类稳定性和性能的关键点. 相似文献
15.
概念分解(CF)算法是一种有效的图像表示算法,目前已经广泛应用于维数约简、特征提取、数据挖掘等机器学习领域中.然而,传统CF算法不能利用有效的标签信息,也不能学习数据的稀疏表示.为此,将局部坐标约束和数据有限的标签信息融入到CF模型中,提出了一种带有局部坐标约束的半监督的概念分解(SLCF)算法.SLCF算法利用局部坐... 相似文献
16.
提出了一种半监督线性近邻传递的相关反馈方法FSLNP(feedback semi-supervised linear neighborhood propagation).该算法不仅能够保持正、负例约束信息,而且能够保持图的局部以及全局相关性结构信息.采用相关反馈的有标签和未知标签图像点,找到比较好的表示图像相关性的一个... 相似文献
17.
18.
Semi-supervised classification methods can perform even worse than the supervised counterparts in some cases. It undoubtedly reduces their confidence in real applications, and it is desired to improve the safety of semi-supervised classification such that it never performs worse than the supervised counterpart. Considering that the cluster assumption may not well reflect the real data distribution, which can be one possible cause of unsafe learning, we develop a safe semi-supervised support vector machine method in this paper by adjusting the cluster assumption (ACA-S3VM for short). Specifically, when samples from different classes are seriously overlapped, the real boundary actually lies not in the low density region, which will not be found by the cluster assumption. However, an unsupervised clustering method is able to detect the real boundary in this case. As a result, we design ACA-S3VM by adjusting the cluster assumption with the help of clustering, which considers the distances of individual unlabeled instances to the distribution boundary in learning. Empirical results show the competition of ACA-S3VM compared with the off-the-shelf safe semi-supervised classification methods. 相似文献