首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
情感分析是指通过提取文本特征对基于文本的情感倾向进行分类,是自然语言处理领域中的一项重要任务。为了提高文本情感分析的性能,该文将分类任务定义为一个比较问题,并提出了基于比较学习(Comparing to Learn, C2L)的分类模型。C2L的目标是通过与已标注的样本进行比较来对句子进行评分,实际上,通过比较方法进行分类比训练一个过于复杂的模型更加有效。在两个常用数据集上的实验结果表明,C2L的性能优于现有的许多模型;通过调整C2L的内部结构,可以在不同的任务和数据集上取得好的表现。  相似文献   

2.
古印章文本因图像退化与超多分类等特点导致识别难度大,部分字符的标注数据不足造成基于深度学习的模型识别准确率不高,泛化能力差。针对上述问题,提出基于深度残差网络(ResNet)和迁移学习的古印章文本识别方法。使用深度残差网络作为特征提取网络,利用人工合成字符样本作为源域进行预训练。将自建古印章文本识别数据集作为目标域,引入迁移学习并结合数据增强和标签平滑策略建立分类模型。最后,对比多种网络下的识别结果并验证迁移学习有效性。结果表明,该方法可以有效提升识别准确率。  相似文献   

3.
随着移动互联网的迅猛发展,社交网络平台充斥着大量带有情绪色彩的文本数据,对此类文本中的情绪进行分析研究不仅有助于了解网民的态度和情感,而且对科研机构和政府掌握社会的情绪变化及走向有着重要作用。传统的情感分析主要对情感倾向进行分析,无法精确、多维度地描述出文本的情绪,为了解决这个问题,文中对文本的情绪分析进行研究。首先针对不同领域文本数据集中情绪标签缺乏的问题,提出了一个基于深度学习的可迁移情绪分类的情感分析模型FMRo-BLA,该模型对通用领域文本进行预训练,然后通过基于参数的迁移学习、特征融合和FGM对抗学习,将预训练模型应用于特定领域的下游情感分析任务中,最后在微博的公开数据集上进行对比实验。结果表明,该方法相比于目前性能最好的RoBERTa预训练语言模型,在目标领域数据集上F1值有5.93%的提升,进一步加入迁移学习后F1值有12.38%的提升。  相似文献   

4.
深度学习的成功依赖于海量的训练数据,然而获取大规模有标注的数据并不容易,成本昂贵且耗时;同时由于数据在不同场景下的分布有所不同,利用某一特定场景的数据集所训练出的模型往往在其他场景表现不佳。迁移学习作为一种将知识从一个领域转移到另一个领域的方法,可以解决上述问题。深度迁移学习则是在深度学习框架下实现迁移学习的方法。提出一种基于伪标签的深度迁移学习算法,该算法以ResNet-50为骨干,通过一种兼顾置信度和类别平衡的样本筛选机制为目标域样本提供伪标签,然后进行自训练,最终实现对目标域样本准确分类,在Office-31数据集上的三组迁移学习任务中,平均准确率较传统算法提升5.0%。该算法没有引入任何额外网络参数,且注重源域数据隐私,可移植性强,具有一定的实用价值。  相似文献   

5.
医疗文本专业术语复杂,垂直领域训练样本不足,传统的分类方法不能满足现实需求,提出一种基于元学习的小样本文本分类模型提高医疗文本分类效率。该模型基于迁移学习思想,加入注意力机制赋予句子中的词语不同的权重,利用两个相互竞争的神经网络分别扮演领域识别者和元知识生成者的角色,通过自适应性网络加强元学习对新数据集的适应性,最后使用岭回归获得数据集的分类。实验对比分析结果验证了该模型对一些公开文本数据集和医疗文本数据具有很好的分类效果。基于元学习的小样本文本分类模型可以成功地应用在医疗文本分类领域。  相似文献   

6.
《微型机与应用》2017,(22):62-65
针对文本分类领域中的迁移学习方法,提出了一种基于LDA(Latent Dirichlet Allocation)主题生成模型相似度的支持向量机(SVM)迁移学习新思路。基于此思想,提出了迁移学习算法LDA-TSVM。本算法通过对目标域的主题进行分类,依据主题分类信息熵对训练数据进行筛选,分别计算每个训练样本的权重,使得训练集与目标集有很高的相似度,从而达到迁移学习的目的。本算法不仅未引入辅助集,而且还考虑了样本本身的差异,有效地提高了源域数据集与目标域数据集的相似性。实验结果表明了新迁移算法的有效性。  相似文献   

7.
传统的生物医学命名实体识别方法需要大量目标领域的标注数据,但是标注数据代价高昂。为了降低生物医学文本中命名实体识别对目标领域标注数据的需求,将生物医学文本中的命名实体识别问题化为基于迁移学习的隐马尔可夫模型问题。对要进行命名实体识别的目标领域数据集无须进行大量数据标注,通过迁移学习的方法实现对目标领域的识别分类。以相关领域数据为辅助数据集,利用数据引力的方法评估辅助数据集的样本在目标领域学习中的贡献程度,在辅助数据集和目标领域数据集上计算权值进行迁移学习。基于权值学习模型,构建基于迁移学习的隐马尔可夫模型算法BioTrHMM。在GENIA语料库的数据集上的实验表明,BioTrHMM算法比传统的隐马尔可夫模型算法具有更好的性能;仅需要少量的目标领域标注数据,即可具有较好的命名实体识别性能。  相似文献   

8.
基于集成学习的半监督情感分类方法研究   总被引:1,自引:0,他引:1  
情感分类旨在对文本所表达的情感色彩类别进行分类的任务。该文研究基于半监督学习的情感分类方法,即在很少规模的标注样本的基础上,借助非标注样本提高情感分类性能。为了提高半监督学习能力,该文提出了一种基于一致性标签的集成方法,用于融合两种主流的半监督情感分类方法:基于随机特征子空间的协同训练方法和标签传播方法。首先,使用这两种半监督学习方法训练出的分类器对未标注样本进行标注;其次,选取出标注一致的未标注样本;最后,使用这些挑选出的样本更新训练模型。实验结果表明,该方法能够有效降低对未标注样本的误标注率,从而获得比任一种半监督学习方法更好的分类效果。  相似文献   

9.
方面级情感分类是自然语言处理研究领域的一个热点问题,旨在分类出文本中不同方面的情感.目前,大多数深度神经网络情感分类模型都采用均值注意力机制,这导致情感词不能有效获得相应权重的问题.为此,提出一种基于对抗学习的自适应加权方面级情感分类模型AWSCM(Adaptive Weighted aspect-level Sentiment Classification Model based on adversarial learning),旨在自适应地学习文本权重.首先,将训练文本预处理成方面词、句子、句子对形式的输入,通过BERT对输入编码.然后,通过对抗学习算法和训练文本计算扰动生成对抗样本.最后,通过注意力机制提取训练文本和对抗样本编码后的深层文本特征和自适应权重,再进行联合学习.实验结果表明,和大多数深度神经网络情感分类模型相比,AWSCM能提升情感分类的准确性.同时,通过消融实验,证明了AWSCM结构设计的合理性.  相似文献   

10.
在实际应用场景中,情感分析技术为自动判别文本情感极性提供了有效的决策及解决方案,但是文本情感分析技术依赖于大量的标定样本.为了减小对人工标注的依赖,有研究者提出了基于领域自适应的跨领域情感分析技术.该技术面向跨领域文本情感分析任务,将经由标定样本训练的源领域模型,迁移至无标定的目标领域.然而目前的领域自适应技术仅从单个角度进行迁移,即减小领域专有特征差异或提取领域不变特征.因此考虑到跨领域文本数据同时包含领域专有特征和领域不变特征的特点,提出了一种领域对齐对抗的无监督跨领域文本情感分析算法.该算法通过渐进式的迁移策略,逐层减小不同语义层的领域差异,并在高层语义子空间通过协同优化的领域自适应算法,实现跨领域文本数据的领域知识迁移.在2个公开跨领域文本情感数据集上的24组跨领域文本情感分类实验结果表明,与4类领域自适应算法中代表性的和当前表现最优的方法相比,领域对齐对抗的无监督跨领域文本情感分析算法在24组实验中取得了最高的平均分类准确率,同时结合迁移性能分析结果和特征分布可视化结果,证明该算法一定程度上提升了现有无监督跨领域文本情感分析算法的分类性能和迁移性能.  相似文献   

11.
短文本情感倾向分析是自然语言处理领域的关键研究问题之一。情感倾向分析是用于检测语言所蕴含主观倾向语义的一系列方法、技术和工具,是对文本深层语义理解的关键。短文本数据的随意性、高歧义性以及简短性使得传统基于特征工程和机器学习分类技术的情感倾向分析任务性能有限。随着深度学习技术在自然语言处理中的广泛应用,基于深度学习的短文本情感倾向分析模型取得了新的突破。通过对相关文献的梳理,首先概述和对比了传统方法和深度学习方法,介绍和剖析了近年基于深度学习的短文本情感倾向分析模型,并阐述了模型的联系、区别与优势;其次归纳了深度学习在短文本情感倾向分析中的研究热点和进展思路,介绍了情感倾向分析常用的公开数据集以及评价指标;最后结合深度学习技术特点和任务难点,对深度学习在短文本情感倾向分析方向的应用前景进行预测。  相似文献   

12.
当前基于深度卷积神经网络的人脸表示学习方法需要利用海量的有标注的人脸数据。在实际应用中,精确标注人脸的身份非常困难。因此,提出了一种基于前向无监督卷积神经网络的人脸表示学习方法。其中,基于K-means聚类获取训练样本虚拟标签,再利用线性判别分析进行卷积核学习。提出的网络结构简单有效,训练阶段不需要反向传递,训练速度显著优于有监督的深度卷积神经网络。实验结果表明,提出的方法在真实条件下的人脸数据集LFW和经典的Feret数据集上取得了优于当前主流的无监督特征学习方法和局部特征描述子的性能。  相似文献   

13.
目前深度学习在医学图像分析领域取得的良好表现大多取决于高质量带标注的数据集, 但是医学图像由于其专业性和复杂性, 数据集的标注工作往往需要耗费巨大的成本. 本文针对这一问题设计了一种基于深度主动学习的半自动标注系统, 该系统通过主动学习算法减少训练深度学习标注模型所需的标注样本数量, 训练完成后的标注模型可以用于剩余数据集的标注工作. 系统基于Web应用构建, 无需安装且能跨平台访问, 便于用户完成标注工作.  相似文献   

14.
学习样本的质量和数量对于智能数据分类系统至关重要,但在数据分类系统中没有一个通用的良好方法用于发现有意义的样本。以此为动机,提出数据集合凸边界的概念,给出了快速发现有意义样本集合的方法。首先,利用箱型函数对学习样本集合中的异常和特征不全样本进行清洗;接着,提出数据锥的概念,对归一化的学习样本进行锥形分割;最后,对每个锥形样本子集进行中心化,以凸边界为基础提取距离凸边界差异极小的样本构成凸边界样本集合。实验在12个UCI数据集上进行,并与高斯朴素贝叶斯(GNB)、决策树(CART)、线性判别分析(LDA)、提升算法(AdaBoost)、随机森林(RF)和逻辑回归(LR)这六种经典的数据分类算法进行对比。结果表明,各个算法在凸边界样本集合的训练时间显著缩短,同时保持了分类性能。特别地,对包含噪声数据较多的数据集,如剖腹产、电网稳定性、汽车评估等数据集,凸边界样本集合能使分类性能得到提升。为了更好地评价凸边界样本集合的效率,以样本变化率和分类性能变化率的比值定义了样本清洗效率,并用该指标来客观评价凸边界样本的意义。清洗效率大于1时说明方法有效,且数值越高效果越好。在脉冲星数据集合上,所提方法对GNB算法的清洗效率超过68,说明所提方法性能优越。  相似文献   

15.
深度学习是机器学习研究中的一个重要领域,它具有强大的特征提取能力,且在许多应用中表现出先进的性能,因此在工业界中被广泛应用.然而,由于训练数据标注和模型设计存在偏见,现有的研究表明深度学习在某些应用中可能会强化人类的偏见和歧视,导致决策过程中的不公平现象产生,从而对个人和社会产生潜在的负面影响.为提高深度学习的应用可靠性、推动其在公平领域的发展,针对已有的研究工作,从数据和模型2方面出发,综述了深度学习应用中的偏见来源、针对不同类型偏见的去偏方法、评估去偏效果的公平性评价指标、以及目前主流的去偏平台,最后总结现有公平性研究领域存在的开放问题以及未来的发展趋势.  相似文献   

16.
基于边际Fisher准则和迁移学习的小样本集分类器设计算法   总被引:1,自引:0,他引:1  
如何利用大量已有的同构标记数据(源域)设计小样本训练数据(目标域)的分类器是一个具有很强应用意义的研究问题. 由于不同域的数据特征分布有差异,直接使用源域数据对目标域样本进行分类的效果并不理想. 针对上述问题,本文提出了一种基于迁移学习的分类器设计算法. 首先,本文利用内积度量的边际Fisher准则对源域进行特征映射,提高源域中类内紧凑性和类间区分性. 其次,为了筛选合理的训练样本对,本文提出一种去除边界奇异点的算法来选择源域密集区域样本点,与目标域中的标记样本点组成训练样本对. 在核化空间上,本文学习了目标域特征到源域特征的非线性转换,将目标域映射到源域. 最后,利用邻近算法(k-nearest neighbor,kNN)分类器对映射后的目标域样本进行分类. 本文不仅改进了边际Fisher准则方法,并且将基于自适应样本对 筛选的迁移学习应用到小样本数据的分类器设计中,提高域间适应性. 在通用数据集上的实验结果表明,本文提出的方法能够有效提高小样本训练域的分类器性能.  相似文献   

17.
区块链具有不可篡改性和去中心化的特点,其与联邦学习的结合成为人工智能领域的热门主题。目前去中心化联邦学习存在训练数据非独立同分布导致的性能下降问题,为了解决这个问题,提出一种模型相似度的计算方法,然后设计一种基于该模型相似度的去中心化联邦学习策略,并使用五个联邦学习任务进行测试,分别是CNN模型训练fashion-mnist数据集、alexnet模型训练cifar10数据集、TextRnn模型训练THUsnews数据集、Resnet18模型训练SVHN数据集和LSTM模型训练sentiment140数据集。实验结果表明,设计的策略在五个任务非独立同分布的数据下进行去中心化联邦学习,准确率分别提升了2.51、5.16、17.58、2.46和5.23个百分点。  相似文献   

18.
疾病风险预测能够筛查易患人群, 并在早期进行预防干预措施以降低疾病的发生率及死亡率. 随着机器学习技术的快速发展, 基于机器学习的疾病风险预测得到了广泛应用. 然而, 机器学习十分依赖于高质量的标注信息, 医疗数据中存在的标签噪声会给构建高性能的疾病风险预测算法带来严峻挑战. 针对这一问题, 本文提出了一种基于深度神经网络和动态截断损失函数的噪声鲁棒学习方法用于疾病风险预测. 该方法引入动态截断损失函数, 融合了传统交叉熵函数的隐式加权特性和均方差损失函数的标签噪声鲁棒性; 通过构造训练损失下界, 并引入样本动态加权机制减小可疑样本的梯度, 限制可能的带噪样本在训练过程中的权重, 进一步增强模型的鲁棒性. 以脑卒中筛查数据集为例进行实验, 结果表明本文算法在各个标签噪声比例下均能取得良好的预测性能, 可降低疾病风险预测中标签噪声的负面影响, 实现了带有标签噪声数据的鲁棒学习.  相似文献   

19.
利用BERT预训练模型的优势,将句法特征与BERT词嵌入模型融入到深度学习网络中,实现细粒度的商品评价分析。提出一种基于深度学习的两阶段细粒度商品评价情感分析模型,利用融合句法特征与BERT词嵌入的BILSTM-CRF注意力机制模型提取用户评论中的商品实体、属性与情感词;运用BILSTM模型对提取的结果进行情感分析。在SemEval-2016 Task 5和COAE Task3商品评价数据集上的特征提取F1值达到88.2%,分别高出BILSTM模型、BILSTM-CRF模型4.8个百分点、2.3个百分点;情感分类精度达到88.5%,比普通的RNN高出8个百分点,比支持向量机、朴素贝叶斯等传统机器学习方法高出15个百分点。通过模型的复杂度分析,进一步证明融合句法特征与BERT词嵌入后的深度学习模型,在细粒度商品评价情感分析上的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号