首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
对于建立动态贝叶斯网络(DBN)分类模型时,带有类标注样本数据集获得困难的问题,提出一种基于EM和分类损失的半监督主动DBN学习算法.半监督学习中的EM算法可以有效利用未标注样本数据来学习DBN分类模型,但是由于迭代过程中易于加入错误的样本分类信息而影响模型的准确性.基于分类损失的主动学习借鉴到EM学习中,可以自主选择有用的未标注样本来请求用户标注,当把这些样本加入训练集后能够最大程度减少模型对未标注样本分类的不确定性.实验表明,该算法能够显著提高DBN学习器的效率和性能,并快速收敛于预定的分类精度.  相似文献   

2.
微博作为目前国内外最活跃的信息分享平台之一,其中却充斥着大量的垃圾内容。因此,如何从给定话题的微博数据中,过滤掉与话题不相关的垃圾微博、保留话题相关微博,成为迫切需要解决的问题。该文提出了一种半监督的中文微博过滤方法,基于朴素贝叶斯分类模型和最大期望算法,实现了利用少量标注数据的垃圾微博过滤算法,其优势是仅仅利用少量标注数据就可以获得较为理想的过滤性能。分别对十个话题140 000余条新浪微博数据进行过滤,该文提出的模型准确度和F值优于朴素贝叶斯和支持向量机模型。
  相似文献   

3.
王娇  罗四维 《计算机科学》2012,39(7):215-218
半监督学习是机器学习领域的研究热点。协同训练研究数据有多个特征集时的半监督学习问题。从正则化角度研究协同训练,利用假设空间的度量结构定义学习函数的光滑性和一致性,在每个视图内的学习过程中以函数光滑性为约束条件,在多个视图的协同学习过程中以函数一致性为约束条件,创新性地提出一种两个层次的正则化算法,同时使用函数的光滑性和一致性进行正则化。实验表明,该算法较仅使用光滑性或仅使用一致性的正则化方法在预测性能上有显著提高。  相似文献   

4.
基于相关反馈算法的图像检索经迭代后查询点会陷入局部最优。针对该问题,提出一种基于自适应相关反馈算法的图像检索方法。如果当前查询点达到局部最优,则采用EM裂项算法将该点分解为2个子查询点,通过移动查询点使其各自达到局部最优。如果用户对当前查询不满意,再将这2个子查询点分解为4个子查询点进行处理,以此类推,直到用户满意为止。实验结果表明,与自适应的相关反馈算法、混合反馈算法以及不对称的贝叶斯相关反馈算法相比,该方法的查准率较高。  相似文献   

5.
针对半监督软件缺陷预测中的类不平衡以及特征中含有过多无关特征和冗余特征的问题,提出一种改进的半监督集成软件缺陷预测方法FeSSTri(semi-supervised software prediction using Feature Selecting and Sample and Tri-training).首先使用...  相似文献   

6.
一种半监督局部线性嵌入算法的文本分类方法*   总被引:3,自引:0,他引:3  
针对局部线性嵌入算法(LLE)应用于非监督机器学习中的缺陷,将该算法与半监督思想相结合,提出了一种基于半监督局部线性嵌入算法的文本分类方法。通过使用文本数据的流形结构和少量的标签样本,将LLE中的距离矩阵采用分段形式进行调整;使用调整后的矩阵进行线性重建从而实现数据降维;针对半监督LLE中使用欧氏距离的缺点,采用高斯核函数将欧氏距离进行变换,并用新的核距离取代欧氏距离,提出了基于核的半监督局部线性嵌入算法;最后通过仿真实验验证了改进算法的有效性。  相似文献   

7.
张德喜  黄浩 《计算机应用》2006,26(8):1884-1887
EM算法的计算强度较大,且当数据集较大时,计算效率较低。为此,提出了基于部分E步的混合EM算法,降低了算法的计算强度,提高了算法对数据集大小的适应能力,并且保持了EM算法的收敛特性。最后通过将算法应用于大的数据集,验证了该算法能减少计算强度。  相似文献   

8.
Tri-Training算法是半监督算法的一种,在学习过程中容易错误标注无标记样本,从而降低分类性能,为此提出一种ADP-Tri-Training(Adaptive Tri-Training)算法,改进协同工作方式,根据几何中心设置分类器组成,然后应用模糊数学理论将多个独立的分类器组合,使得算法可以在多因素下综合评价样本,并在此基础上引入遗传算法动态设置组合权重以适应于具体的样本集,从而尽可能降低样本标注的错误率,多个实验结果表明ADP-Tri-Training算法具有更好的分类性能.  相似文献   

9.
王娇  罗四维  王立 《计算机科学》2012,39(103):635-539
半监督学习是机器学习领域的研究热点。协同训练研究数据有多个特征集时的半监督学习问题。将图表示法引入协同训练,使用多个图结构表示多关系数据。在每个图上进行半监督学习,在多个图之间进行协同学习,使多个图上的学习器对数据的预测一致。创新性地提出一种针对多关系数据的半监督协同训练算法,并从概率角度分析学习过程。在真实数据集上的实验表明,提出的算法处理多关系数据时具有较好的性能。  相似文献   

10.
文本的情感分类问题是近年来数据挖掘领域的一个研究热点。传统做法常用监督分类方法对文本进行情感分类时,其前提是假设训练集与测试集的数据分布相同,然而在实际情况下已标注数据与测试数据常常不属于同一个领域,这种数据分布差异导致文本情感分类准确率下降。为了解决以上问题,本文提出了一种基于EM算法的跨领域情感分类方法,首先从多个源领域结合目标领域生成一个情感倾向参考表,其次利用改进的EM算法参考该表迭代调节目标领域分类器的分类结果直到该结果可以与参考表匹配。实验结果表明,本文提出的方法在一定程度上提高了跨领域情感分类的准确性。  相似文献   

11.
基于EM的启动子序列半监督学习   总被引:1,自引:0,他引:1  
启动子的预测对于基因的定位有重要意义.已有多种对启动子进行预测的算法,涉及到信号搜索、内容搜索和CpG岛搜索等多种策略.基于马尔可夫模型的启动子分类方法也有研究,其中的转移概率都是直接通过统计已标号训练样本序列得来的.将半监督学习思想引入启动子序列分析中,推导出转移概率等参数的最大似然估计公式.实验中将待测试基因序列片段同已标号训练样本混合,利用得出的参数值对基因序列片段进行识别,使用少量的已标号的样本数据能得出较好的启动子识别结果.  相似文献   

12.
提出了推导密度函数的基本假设,对密度函数进行了推导,通过密度函数实现了密度区域的划分;对同一密度范围内的未标签值标记的估计给出了具体的处理方法;最后介绍了基于密度分布的半监督回归算法的具体实现步骤。该算法实现了对未标签点的标记,能够减小对未标签点标签值的估计误差,提高估计的准确度。  相似文献   

13.
A Greedy EM Algorithm for Gaussian Mixture Learning   总被引:7,自引:0,他引:7  
Learning a Gaussian mixture with a local algorithm like EM can be difficult because (i) the true number of mixing components is usually unknown, (ii) there is no generally accepted method for parameter initialization, and (iii) the algorithm can get trapped in one of the many local maxima of the likelihood function. In this paper we propose a greedy algorithm for learning a Gaussian mixture which tries to overcome these limitations. In particular, starting with a single component and adding components sequentially until a maximum number k, the algorithm is capable of achieving solutions superior to EM with k components in terms of the likelihood of a test set. The algorithm is based on recent theoretical results on incremental mixture density estimation, and uses a combination of global and local search each time a new component is added to the mixture. This revised version was published online in August 2006 with corrections to the Cover Date.  相似文献   

14.
基于分歧的半监督学习   总被引:9,自引:0,他引:9  
周志华 《自动化学报》2013,39(11):1871-1878
传统监督学习通常需使用大量有标记的数据样本作为训练例,而在很多现实问题中,人们虽能容易地获得大批数据样本,但为数据 提供标记却需耗费很多人力物力.那么,在仅有少量有标记数据时,可否通过对大量未标记数据进行利用来提升学习性能呢?为此,半监督学习 成为近十多年来机器学习的一大研究热点.基于分歧的半监督学习是该领域的主流范型之一,它通过使用多个学习器来对未标记数据进行利用, 而学习器间的"分歧"对学习成效至关重要.本文将综述简介这方面的一些研究进展.  相似文献   

15.
半监督软件缺陷挖掘研究综述   总被引:3,自引:0,他引:3  
软件质量是计算机系统安全可靠运行的保障,而软件缺陷是导致软件质量低下的重要诱因。软件缺陷挖掘技术凭借其能够通过对软件代码及其相关数据进行分析建模,发现软件系统潜在的缺陷,已得到了软件质量保障领域的广泛关注。要准确发现软件模块中潜在的缺陷,需要利用大量带有缺陷情况标注的模块进行学习。然而,缺陷情况标注往往需要通过详细测试或人工代码检查获取,要消耗大量测试和人工资源,在实际应用中难以满足,这严重制约了软件缺陷挖掘的性能。针对这一问题,半监督学习技术被引入软件 缺陷挖掘,通过对大量缺少标注的模块进行利用,辅助提升软件缺陷挖掘的性能。本文对半监督缺陷挖掘技术的研究现状进行综述。首先综述了软件缺陷挖掘研究现状,然后简要介绍了半监督学习的4种学习范式;最后系统梳理了基于半监督学习进行软件缺陷挖掘的多种方法与技术。  相似文献   

16.
一种基于贪心EM算法学习GMM的聚类算法   总被引:2,自引:0,他引:2  
传统的聚类算法如k-means算法需要一些先验知识来确定初始参数,初始参数的选择通常会对聚类结果生产很大的影响.提出一种新的基于模型的聚类算法,通过优化给定的数据和数学模型之间的适应性发现数据对模型的最好匹配.由于高斯混合模型可以看作是一种"软分配聚类"方法,该算法结合一种贪心的EM算法来学习高斯混合模型(GMM),由贪心EM算法实现高斯混合模型结构和参数的自动学习,而不需要先验知识.这种聚类算法可以克服k-means等算法的缺点,实验结果表明该算法具有更好的聚类效果.  相似文献   

17.
针对计量装置运行异常在供电企业经济效益稳定增长和社会稳定发展等方面造成的负面影响且电网数据标识不全的现状,提出一种应用半监督学习的计量装置运行状态辨识方法。通过对电网数据进行分析,实现在标识不全的情况下判断计量装置运行状态。  相似文献   

18.
张勇  支小莉 《计算机工程》2010,36(17):277-279
收集带有位置信息的经验样本即标定样本是一个花费昂贵的工作,限制了基于机器学习方法的实际应用。针对该问题,提出一种基于流形正则化的室内定位算法LocMR,该算法使用少量的标定样本和充足的未标定样本学习得出信号空间到位置空间的映射关系。在实际IEEE 802.11Wi-Fi环境中采集的数据集上进行验证,结果表明,LocMR在达到较高定位精确度的同时,能大幅减少定位系统的工作量,增强了其实际应用能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号