首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 390 毫秒
1.
问题分类旨在对问题的类型进行自动分类,该任务是问答系统研究的一项基本任务。该文提出了一种基于问题和答案联合表示学习的问题分类方法。该方法的特色在于利用问题及其答案作为共同的上下文环境,学习词的分布式表示,从而充分利用未标注样本中问题和答案隐含的分类信息。具体而言,首先,我们引入神经网络语言模型,利用问题与答案联合学习词向量表示,增加问题词向量的信息量;其次,加入大量未标注的问题与答案样本参与词向量学习,进一步增强问题词向量表示能力;最后,将已标注的问题样本以词向量形式表示作为训练样本,采用卷积神经网络建立问题分类模型。实验结果表明,该文提出的基于半监督问题分类方法能够充分利用词向量表示和大量未标注样本来提升性能,明显优于其他基准半监督分类方法。  相似文献   

2.
基于集成学习的半监督情感分类方法研究   总被引:1,自引:0,他引:1  
情感分类旨在对文本所表达的情感色彩类别进行分类的任务。该文研究基于半监督学习的情感分类方法,即在很少规模的标注样本的基础上,借助非标注样本提高情感分类性能。为了提高半监督学习能力,该文提出了一种基于一致性标签的集成方法,用于融合两种主流的半监督情感分类方法:基于随机特征子空间的协同训练方法和标签传播方法。首先,使用这两种半监督学习方法训练出的分类器对未标注样本进行标注;其次,选取出标注一致的未标注样本;最后,使用这些挑选出的样本更新训练模型。实验结果表明,该方法能够有效降低对未标注样本的误标注率,从而获得比任一种半监督学习方法更好的分类效果。  相似文献   

3.
情感分类是目前自然语言处理领域的一个热点研究问题。该文关注情感分类中的半监督学习方法(即基于少量标注样本和大量未标注样本进行学习的方式),提出了一种新的基于动态随机特征子空间的半监督学习方法。首先,动态生成多个随机特征子空间;然后,基于协同训练(Co-training)在每个特征子空间中挑选置信度高的未标注样本;最后使用这些挑选出的样本更新训练模型。实验结果表明我们的方法明显优于传统的静态产生方式及其他现有的半监督方法。此外该文还探索了特征子空间的划分数目问题。  相似文献   

4.
当标注样本匮乏时,半监督学习利用大量未标注样本解决标注瓶颈的问题,但由于未标注样本和标注样本来自不同领域,可能造成未标注样本存在质量问题,使得模型的泛化能力变差,导致分类精度下降.为此,基于wordMixup方法,提出针对未标注样本进行数据增强的u-wordMixup方法,结合一致性训练框架和Mean Teacher模型,提出一种基于u-wordMixup的半监督深度学习模型(semi-supervised deep learning model based on u-wordMixup,SD-uwM).该模型利用u-wordMixup方法对未标注样本进行数据增强,在有监督交叉熵和无监督一致性损失的约束下,能够提高未标注样本质量,减少过度拟合.在AGNews、THUCNews和20 Newsgroups数据集上的对比实验结果表明,所提出方法能够提高模型的泛化能力,同时有效提高时间性能.  相似文献   

5.
目前基于PU问题的时间序列分类常采用半监督学习对未标注数据集[U]中数据进行自动标注并构建分类器,但在这种方法中,边界数据样本类别的自动标注难以保证正确性,从而导致构建分类器的效果不佳。针对以上问题,提出一种采用主动学习对未标注数据集[U]中数据进行人工标注从而构建分类器的方法OAL(Only Active Learning),基于投票委员会(QBC)对标注数据集构建多个分类器进行投票,以计算未标注数据样本的类别不一致性,并综合考虑数据样本的分布密度,计算数据样本的信息量,作为主动学习的数据选择策略。鉴于人工标注数据量有限,在上述OAL方法的基础上,将主动学习与半监督学习相结合,即在主动学习迭代过程中,将类别一致性高的部分数据样本自动标注,以增加训练数据中标注数据量,保证构建分类器的训练数据量。实验表明了该方法通过部分人工标注,相比半监督学习,能够为PU数据集构建更高准确率的分类器。  相似文献   

6.
半监督学习中当未标注样本与标注样本分布不同时,将导致分类器偏离目标数据的主题,降低分类器的正确性.文中采用迁移学习技术,提出一种TranCo-Training分类模型.每次迭代,根据每个未标注样本与其近邻标注样本的分类一致性计算其迁移能力,并根据迁移能力从辅助数据集向目标数据集迁移实例.理论分析表明,辅助样本的迁移能力与其训练错误损失成反比,该方法能将训练错误损失最小化,避免负迁移,从而解决半监督学习中的主题偏离问题.实验表明,TranCo-Training优于随机选择未标注样本的RdCo-Training算法,尤其是给定少量的标注目标样本和大量的辅助未标注样本时.  相似文献   

7.
一种利用近邻和信息熵的主动文本标注方法   总被引:1,自引:0,他引:1  
由于大规模标注文本数据费时费力,利用少量标注样本和大量未标注样本的半监督文本分类发展迅速.在半监督文本分类中,少量标注样本主要用来初始化分类模型,其合理性将影响最终分类模型的性能.为了使标注样本尽可能吻合原始数据的分布,提出一种避开选择已标注样本的K近邻来抽取下一组候选标注样本的方法,使得分布在不同区域的样本有更多的标注机会.在此基础上,为了获得更多的类别信息,在候选标注样本中选择信息熵最大的样本作为最终的标注样本.真实文本数据上的实验表明了提出方法的有效性.  相似文献   

8.
摘 要: 针对生物文献库中人工标注样本数量缺乏的问题,提出一种半监督类型的基于联合训练的方法。在样本预处理的基础上,基于词特征的机器学习方法和基于模式学习的方法选择样本的不同特征子集,并被合成到联合训练方法中。在训练过程中每种方法能够利用少量初始标注样本和大量未标注样本进行学习,并用另一方法的学习结果扩充标注样本集。该方法在AIMED语料库中获得了63.9%的F1值,比较实验结果表明,该方法性能优于监督方法,且能有效利用未标注样本以适应实际抽取任务。  相似文献   

9.
基于朴素贝叶斯的半监督学习遥感影像分类   总被引:1,自引:0,他引:1       下载免费PDF全文
杨伟  方涛  许刚 《计算机工程》2010,36(20):167-169
为提高分类器识别率,减少标注样本使用数量,提出一种基于朴素贝叶斯的半监督学习方法。研究基于该方法的分类器分类效果,采用遥感影像数据作为训练和测试集,与基于朴素贝叶斯的全监督学习分类器分类效果作比较。实验结果表明,当标注样本与非标注样本比例在1:2~1:9时,半监督学习可以利用比全监督学习更少的标注样本,达到更高的分类精度。  相似文献   

10.
图像分类的随机半监督采样方法   总被引:1,自引:1,他引:0  
为更好地利用大量未标注图像样本信息来提高分类器性能,提出一种半监督学习的图像分类算法--随机半监督采样(RSSS).该算法采用迭代随机采样方法,每次采样中通过谱聚类估计未标注样本的类别值,使用SVM进行模型学习,逐步优化模型;同时,使用图像的局部空间直方图特征可以有效地结合图像的统计和空间信息,以提高分类准确度.实验结果表明,RSSS算法可以充分利用未标注样本信息提高分类器的性能,并且可以有效地消除几何变换带来的影响.  相似文献   

11.
问句分类在问答系统领域有着重要的研究意义和应用价值。为了提高自动问句分类识别效率,本文提出了基于藏文疑问虚词的问句分类方法。该方法首先提取问句中的藏文虚词;然后根据所得的虚词进行问句分类;其次,进一步将问句细分为问题大类和小类;最后,给问题贴上分类标签。这种方法,既缩小了检索空间又提高了答案的准确性。最后对各种藏文问句分类的准确性进行了测试。结果表明基于藏文虚词问句的分类方法具有可行性和实用性。  相似文献   

12.
基于语义扩展的短问题分类   总被引:1,自引:0,他引:1  
问题分类是问答系统任务之一。特别是语音交互方式中,用户的提问较短,具有口语化特征,利用传统文本分类方法对问题进行分类的效果不佳。为此提出一种基于语义扩展的短问题分类方法,该方法使用搜索引擎对问题进行知识扩展;然后,使用主题模型进行特征词选择;最后,利用词语相似度计算获取问题的类别。实验结果表明,所提方法在1365条真实问题集上平均F-measure值达到0.713,其值高于支持向量机(SVM)、K近邻(KNN)算法和最大熵方法。因此,该方法在问答系统中可以帮助系统提升问题分类的准确率。  相似文献   

13.
蒋竞  苗萌  赵丽娴  张莉 《软件学报》2022,33(5):1699-1710
Stack Overflow是最受欢迎的软件问答社区之一, 用户可以在该网站发布问题并得到其他用户的回答. 为了保证问题质量, 网站需要尽快发现并删除低质量或者不符合社区主题的问题. 当前, Stack Overflow主要采用人工检查的方式发现需要被删除的问题. 然而这种方式往往不能保证问题被及时发现、删除, 而且加...  相似文献   

14.
自动问答系统对用户自然语言方式提出的问题,给出快速准确的答案,引起了学术界与工业界的广泛关注。问题分类任务通过自动判断问题类型,对提高问答系统回答问题的准确率具有重要意义。本文利用问题和答案的上下文信息,结合卷积神经网络和循环神经网络各自的优势,提出一种混合深度学习模型。除此之外,为了增强问题特征的表达能力,该模型引入注意力机制,提升模型的泛化能力。在360问答数据集进行对比实验验证,实验表明,本文模型相比于传统方法提升了1.6%~5.6%。  相似文献   

15.
基于Chunk-CRF的情感问答研究   总被引:1,自引:0,他引:1  
相对于事实性问答系统而言,观点或情感问答系统的研究除了需要考虑观点持有者及情感倾向性等与情感相关问题以外,其难点还在于答案形式更复杂更分散.从百度知道人工搜集了大量的情感问题,并根据情感问题的特征,统计并归纳了五大情感问题类型.问题分类模式与传统事实性问答系统不同,不能仅仅根据疑问词对其进行分类,还需要考虑到观点以及受众的反应.问题分类使用基于Chunk的CRF模型与规则相结合的情感问题分类方法.在答案抽取时结合组块识别的结果和情感的倾向性,并根据情感问题类型的不同采取不同的方法以获取答案.实验结果表明了评价体系的有效性.  相似文献   

16.
基于汉语框架网的中文问题分类   总被引:3,自引:0,他引:3       下载免费PDF全文
问题分类是问答系统中重要的组成部分,问题分类结果的准确性直接影响到问答系统的质量。基于汉语框架网(Chinese FrameNet,CFN)提出了一种用于中文问题分类的新方法。该方法通过构建一系列汉语框架语义特征来表达每个问句的语义信息,进而使用最大熵模型进行中文问题的自动分类,与传统的问题分类技术相比,汉语框架语义信息的加入使得中文问题分类的精度得到了显著提高。实验结果进一步验证了该方法的有效性,大类和小类的分类精度分别达到了91.38%和83.20%。  相似文献   

17.
董才正  刘柏嵩 《计算机应用》2016,36(4):1060-1065
传统的问题分类体系大都基于事实类问题,传统的问题分类方法也比较依赖于疑问词这一分类特征,但问答社区(CQA)中非事实类问题居多,且许多问题并不包含疑问词,为此,提出一种面向问答社区的粗粒度分类体系,并在此基础上提出一种基于疑问词的层次化结构问题分类方法。该方法首先自动识别问题中的疑问词,若疑问词存在,则用支持向量机(SVM)模型进行分类;而对没有疑问词的问题,则用所构造的基于焦点词的分类器进行分类。通过在从中文问答社区知乎中所爬取的问题数据集上进行实验,与传统的基于SVM模型的分类方法相比,该方法的分类准确率提高了4.7个百分点。实验结果表明,这种根据问题是否含有疑问词而选择不同分类器的方法,减轻了分类方法对疑问词的依赖,能有效提高问答社区中问题分类的准确率。  相似文献   

18.
嵇宇  王荣波  谌志群 《计算机应用》2012,32(6):1685-1687
针对受限域的特殊性,提出了一种基于句法分析和二次贝叶斯模型的问题分类的新方法。该方法首先利用浅层句法分析的结果,抽取问题的主干部分和疑问词及其附属成分作为分类的特征,大大减少了噪声;然后,提出一种适用于受限域问题分类的改进的二次贝叶斯分类模型,并利用这一模型进行了大量的实验。实验结果表明了这一方法在受限域内的有效性,大类与小类问题的平均分类精度分别达到了89.66%和84.13%。  相似文献   

19.
模式学习在QA系统中的有效实现   总被引:6,自引:1,他引:6  
开放领域的问题回(question answering)是自然语言处理领域中具有挑战性的研究方向.提出了一种基于模式学习实现问题回答的方法,核心思想是利用机器学习方法得到的答案模式获取问题答案.该方法优势在于:①模式学习完全自动化实现;②解决了目前普遍存在的模式约束性弱及答案缺乏语义类型限制等缺陷.在TREC测试集上的实验结果表明,它不但解决了简单模式所覆盖的问题集,同时也解决了需要较强约束性模式进行答案抽取的问题集,而后者的问题数目在TREC测试问题集中占约80%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号