首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
文本分类是自然语言处理领域中一项基本任务,但目前的文本分类任务往往是领域独立的,且需要丰富的标注数据。该文通过利用不同领域的数据蕴含的相似信息,在一定程度上缓解标签训练数据不足的问题。该文提出了一种多任务学习模型来解决跨领域文本分类任务,通过每个领域的私有编码器和所有领域的共享编码器来分别提取私有特征和共享特征,从而利用不同层面的领域知识来表示文本,并帮助文本分类。另外,该文还利用正交投影将共享特征和领域私有特征进一步异化,从而强化共享特征的纯度,同时使用门控机制将共享特征和私有特征进行重组融合。我们在两个常用的多领域文本分类数据集(Amazon和FDU-MTL)上对所提模型进行了验证。实验结果表明,该模型在Amazon和FDU-MTL数据集上的平均分类准确率分别达到了86.04%和89.2%,较之前多个基线模型有明显提升。  相似文献   

2.
对象级情感分类旨在判断句子中特定对象的情感极性类别。在现有基于卷积神经网络的研究中,常在模型的池化层采用最大池化操作提取文本特征作为句子表示,该操作未考虑由对象所划分的上下文,因此无法得到更细粒度的对象上下文特征。针对该问题,该文提出一种融合多特征的分段卷积神经网络(multi-feature piecewise convolution neural network,MP-CNN)模型,根据对象将句子划分为两个部分作为上下文,并在池化层采用分段最大池化操作提取上下文特征。此外,该模型还将有助于情感分类的多个辅助特征融入其中,如词的相对位置、词性以及词在情感词典中的情感得分,并通过卷积操作计算词的注意力得分,有效判断对象的情感极性类别。最后在SemEval 2014数据集和Twitter数据集的实验中,取得了较基于传统机器学习、基于循环神经网络以及基于单一最大池化的卷积神经网络分类模型更好的分类效果。  相似文献   

3.
多源适应学习是一种旨在提升目标学习性能的有效机器学习方法。针对多标签视觉分类问题,基于现有的研究进展,研究提出一种新颖的联合特征选择和共享特征子空间学习的多源适应多标签分类框架,在现有的图Laplacian正则化半监督学习范式中充分考虑目标视觉特征的优化处理,多标签相关信息在共享特征子空间的嵌入,以及多个相关领域的判别信息桥接利用等多个方面,并将其融为一个统一的学习模型,理论证明了其局部最优解只需通过求解一个广义特征分解问题便可分别获得,并给出了算法实现及其收敛性定理。在两个实际的多标签视觉数据分类上分别进行深入实验分析,证实了所提框架的鲁棒有效性和优于现有相关方法的分类性能。  相似文献   

4.
在传统的文本分类中,文本向量空间矩阵存在“维数灾难”和极度稀疏等问题,而提取与类别最相关的关键词作为文本分类的特征有助于解决以上两个问题。针对以上结论进行研究,提出了一种基于关键词相似度的短文本分类框架。该框架首先通过大量语料训练得到word2vec词向量模型;然后通过TextRank获得每一类文本的关键词,在关键词集合中进行去重操作作为特征集合。对于任意特征,通过词向量模型计算短文本中每个词与该特征的相似度,选择最大相似度作为该特征的权重。最后选择K近邻(KNN)和支持向量机(SVM)作为分类器训练算法。实验基于中文新闻标题数据集,与传统的短文本分类方法相比,分类效果约平均提升了6%,从而验证了该框架的有效性。  相似文献   

5.
一种基于跨领域典型相关性分析的迁移学习方法   总被引:4,自引:0,他引:4  
作为迁移学习的一个重要研究方向,基于特征映射的方法学习各领域特有特征与领域共享特征之间的相关性,通过一些相关特征减少领域之间的差异,已经获得了广泛的关注和研究。典型相关性分析是一种用来分析两组随机变量之间相关性的统计分析工具。将典型相关性分析引入迁移学习,结合基于特征映射迁移学习的思路,提出了一种跨领域典型相关性分析算法。该算法在保持各领域特有特征与领域共享特征相关性的基础上,通过选择合适的基向量组合训练分类器,使降维后的相关特征在领域间具有相似的判别性。在20Newsgroups 上864个分类问题以及多领域情感分析数据集上12个分类问题的实验结果表明,跨领域典型相关性分析算法可以有效地提高跨领域迁移分类准确率。  相似文献   

6.
针对目前大多数方面级情感分析方法存在着没有重点关注局部上下文中关键词特征的问题.本文提出了一种基于局部上下文关键词特征提取及增强的方面级情感分析模型LCPM (local context pos mask).首先提出了局部上下文词性掩码机制,提取方面词周围重要词的特征,减少噪声词的干扰.其次对损失函数进行修改,让模型重点关注与方面词有关的局部上下文关键词特征,提升模型情感分类的表现.最后设计了一种门控机制,模型可以动态学习权重系数,给局部上下文关键词特征和全局上下文特征分配不同的权重系数.在4个公开数据集上的实验结果表明,与现有的方面级情感分析模型相比,准确率和MF1值都有提高,验证了局部上下文关键词提取及增强的有效性,在方面级情感分析任务上有较大的应用价值.  相似文献   

7.
基于增量模式的文档层次分类研究   总被引:1,自引:0,他引:1  
在文档层次分类中,分类器的自适应调整和阻滞会影响层次分类的精度。为解决上述问题,提出一种基于类别上下文特征的层次分类模型及增量学习算法。根据分类体系,渐进地为每个判决节点建立并维护一个类别相关的上下文特征集,依据文档在上下文特征集中的支持度,找到最可能的层次分类路径和类别。考虑到增量学习的特殊性,将语义相似度引入到路径置信度计算中,以缓解上下文特征集不完备的问题。实验结果表明,相对层次Bayes、层次SVM模型,该算法不仅具有自适应的特性,而且在测试文档集中能提升近8%的分类精度。  相似文献   

8.
跨领域情感分类任务旨在利用富含情感标签的源域数据对缺乏标签的目标域数据进行情感极性分析.由此,文中提出基于对抗式分布对齐的跨域方面级情感分类模型,利用方面词与上下文的交互注意力学习语义关联,基于梯度反转层的领域分类器学习共享的特征表示.利用对抗式训练扩大领域分布的对齐边界,有效缓解模糊特征导致错误分类的问题.在Semeval-2014、Twitter数据集上的实验表明,文中模型性能较优.消融实验进一步表明捕获决策边界的模糊特征并扩大样本与决策边界间距离的策略可提高分类性能.  相似文献   

9.
深度学习模型可以从原始数据中自动学习到数据的纹理特征和形态特征, 使得其在安全验证、识别分类、语音人脸识别等不同领域取得远远超过人工特征方法的性能。虽然深度学习在图像分类和目标检测等方向上取得了较好成效, 但是通过在输入上添加难以察觉的微小扰动形成的对抗样本导致深度学习模型在实际使用中存在巨大的风险。因此, 提高单个模型的鲁棒性是重要的研究方向。前人在时序数据分类模型的鲁棒性研究中, 对抗样本的解释性研究较为欠缺。目前较为常见的防御对抗样本的方法是对抗训练, 但是对抗训练有着非常高的训练代价。本文以时序数据分类模型为研究对象, 定义了时序数据的纹理特征和形态特征, 并基于理论证明和可视化特征层方式, 说明了纹理特征是被攻击的关键因素。同时, 提出了一种基于特征约束的模型鲁棒性提升方法。该方法结合多任务学习, 通过在误差函数中增加特征的平滑约束项, 引导模型在分类的同时尽可能学习到原始数据的形态特征。在保证分类精度的同时, 降低对抗样本存在的空间, 从而训练出更加鲁棒的模型。算法在经典分类模型和多个时序数据集进行了大量的实验, 实验结果表明了本文方法的有效性, 在多种对抗攻击下, 能较好的提高单个模型的鲁棒性。  相似文献   

10.
评价对象抽取是对象级情感分析的关键任务之一,评价对象抽取结果会直接影响对象级情感分类的准确率.在评价对象抽取任务中,借助手工特征加强模型性能的方式既消耗时间又耗费人力.针对数据规模小、特征信息不充分等问题,提出一种基于交互特征表示的评价对象抽取模型(aspect extraction model based on interactive feature representation,AEMIFR).相比其他模型,AEMIFR模型结合字符级嵌入与单词嵌入,捕获单词的语义特征、字符的形态特征以及字符与词语之间的内在联系.而且,AEMIFR模型获取文本的局部特征表示和上下文依赖特征表示,并学习2种特征表示之间的交互关系,增强2种特征之间的相似特征的重要性,减少无用特征对模型的消极影响,以及学习更高质量的特征表示.最后在SemEval 2014,SemEval 2015,SemEval 2016中的数据集L-14,R-14,R-15,R-16上进行实验,取得具有竞争力的效果.  相似文献   

11.
讽刺是日常交际中一种常见的语用现象,能够丰富说话者的观点并间接地表达说话者的深层含义。讽刺检测任务的研究目标是挖掘目标语句的讽刺倾向。针对讽刺语境表达变化多样以及不同用户、不同主题下的讽刺含义各不相同等特征,构建融合用户嵌入与论坛主题嵌入的上下文语境讽刺检测模型。该模型借助ParagraphVector方法的序列学习能力对用户评论文档与论坛主题文档进行编码,从而获取目标分类句的用户讽刺特征与主题特征,并利用一个双向门控循环单元神经网络得到目标句的语句编码。在标准讽刺检测数据集上进行的实验结果表明,与传统Bag-of-Words、CNN等模型相比,该模型能够有效提取语句的上下文语境信息,具有较高的讽刺检测分类准确率。  相似文献   

12.
融合异构特征的子空间迁移学习算法   总被引:2,自引:0,他引:2  
特征迁移重在领域共有特征间学习,然而其忽略领域特有特征的判别信息,使算法的适应性受到一定的局限. 针对此问题,提出了一种融合异构特征的子空间迁移学习(The subspace transfer learning algorithm integrating with heterogeneous features,STL-IHF)算法.该算法将数据的特征空间看成共享和特有两个特征子空间的组合,同时基于经验风险最 小框架将共享特征和特有特征共同嵌入到支持向量机(Support vector machine,SVM)的训练过程中.其在共享特征子空间上实现知识迁移的 同时兼顾了领域特有的异构信息,增强了算法的适应性.模拟和真实数据集上的实验结果表明了所提方法的有效性.  相似文献   

13.
随着互联网技术的发展,个性化的推荐系统得到了广泛应用。但用户数据稀疏与冷启动仍是推荐系统普遍面临的难题。将深度学习与注意力机制相结合,提出基于用户-项目交叉注意力机制的迁移推荐模型。该模型能够充分学习源域数据中用户、物品及评分间的潜在关系,然后初始化目标域神经网络,迁移应用到目标域。为验证算法模型的有效性,在公开数据集上进行实验,结果表明该模型可以更好地预测实际评分。  相似文献   

14.
In the general machine learning domain, solutions based on the integration of deep learning models with knowledge-based approaches are emerging. Indeed, such hybrid systems have the advantage of improving the recognition rate and the model’s interpretability. At the same time, they require a significantly reduced amount of labeled data to reliably train the model. However, these techniques have been poorly explored in the sensor-based Human Activity Recognition (HAR) domain. The common-sense knowledge about activity execution can potentially improve purely data-driven approaches. While a few knowledge infusion approaches have been proposed for HAR, they rely on rigid logic formalisms that do not take into account uncertainty. In this paper, we propose P-NIMBUS, a novel knowledge infusion approach for sensor-based HAR that relies on probabilistic reasoning. A probabilistic ontology is in charge of computing symbolic features that are combined with the features automatically extracted by a CNN model from raw sensor data and high-level context data. In particular, the symbolic features encode probabilistic common-sense knowledge about the activities consistent with the user’s surrounding context. These features are infused within the model before the classification layer. We experimentally evaluated P-NIMBUS on a HAR dataset of mobile devices sensor data that includes 14 different activities performed by 25 users. Our results show that P-NIMBUS outperforms state-of-the-art neuro-symbolic approaches, with the advantage of requiring a limited amount of training data to reach satisfying recognition rates (i.e., more than 80% of F1-score with only 20% of labeled data).  相似文献   

15.
目的 当前的大型数据集,例如ImageNet,以及一些主流的网络模型,如ResNet等能直接高效地应用于正常场景的分类,但在雾天场景下则会出现较大的精度损失。雾天场景复杂多样,大量标注雾天数据成本过高,在现有条件下,高效地利用大量已有场景的标注数据和网络模型完成雾天场景下的分类识别任务至关重要。方法 本文使用了一种低成本的数据增强方法,有效减小图像在像素域上的差异。基于特征多样性和特征对抗的思想,提出多尺度特征多对抗网络,通过提取数据的多尺度特征,增强特征在特征域分布的代表性,利用对抗机制,在多个特征上减少特征域上的分布差异。通过缩小像素域和特征域分布差异,进一步减小领域偏移,提升雾天场景的分类识别精度。结果 在真实的多样性雾天场景数据上,通过消融实验,使用像素域数据增强方法后,带有标签的清晰图像数据在风格上更趋向于带雾图像,总的分类精度提升了8.2%,相比其他的数据增强方法,至少提升了6.3%,同时在特征域上使用多尺度特征多对抗网络,相比其他的网络,准确率至少提升了8.0%。结论 像素域数据增强以及多尺度特征多对抗网络结合的雾天图像识别方法,综合考虑了像素域和特征域的领域分布差异,结合了多尺度的丰富特征信息,同时使用多对抗来缩小雾天数据的领域偏移,在真实多样性雾天数据集上获得了更好的图像分类识别效果。  相似文献   

16.
目的 在高分辨率遥感图像场景识别问题中,经典的监督机器学习算法大多需要充足的标记样本训练模型,而获取遥感图像的标注费时费力。为解决遥感图像场景识别中标记样本缺乏且不同数据集无法共享标记样本问题,提出一种结合对抗学习与变分自动编码机的迁移学习网络。方法 利用变分自动编码机(variational auto-encoders,VAE)在源域数据集上进行训练,分别获得编码器和分类器网络参数,并用源域编码器网络参数初始化目标域编码器。采用对抗学习的思想,引入判别网络,交替训练并更新目标域编码器与判别网络参数,使目标域与源域编码器提取的特征尽量相似,从而实现遥感图像源域到目标域的特征迁移。结果 利用两个遥感场景识别数据集进行实验,验证特征迁移算法的有效性,同时尝试利用SUN397自然场景数据集与遥感场景间的迁移识别,采用相关性对齐以及均衡分布适应两种迁移学习方法作为对比。两组遥感场景数据集间的实验中,相比于仅利用源域样本训练的网络,经过迁移学习后的网络场景识别精度提升约10%,利用少量目标域标记样本后提升更为明显;与对照实验结果相比,利用少量目标域标记样本时提出方法的识别精度提升均在3%之上,仅利用源域标记样本时提出方法场景识别精度提升了10%~40%;利用自然场景数据集时,方法仍能在一定程度上提升场景识别精度。结论 本文提出的对抗迁移学习网络可以在目标域样本缺乏的条件下,充分利用其他数据集中的样本信息,实现不同场景图像数据集间的特征迁移及场景识别,有效提升遥感图像的场景识别精度。  相似文献   

17.
在跨领域情感分析任务中,目标领域带标签样本严重不足,并且不同领域间的特征分布差异较大,特征所表达的情感极性也有很大差别,这些问题都导致了分类准确率较低。针对以上问题,提出一种基于胶囊网络的方面级跨领域情感分析方法。首先,通过BERT预训练模型获取文本的特征表示;其次,针对细粒度的方面级情感特征,采用循环神经网络(RNN)将上下文特征与方面特征进行融合;然后,使用胶囊网络配合动态路由来区分重叠特征,并构建基于胶囊网络的情感分类模型;最后,利用目标领域的少量数据对模型进行微调来实现跨领域迁移学习。所提方法在中文数据集上的最优的F1值达到95.7%,英文数据集上的最优的F1值达到了91.8%,有效解决了训练样本不足造成的准确率低的问题。  相似文献   

18.
Cross-media heterogeneous transfer learning aims to transfer knowledge from the source media domain to the target media domain, which promotes the performance of the learned model for the target media domain. Existing cross-media heterogeneous transfer learning methods usually attempt to learn the latent feature space with a large amount of co-occurrence data. However, there is a significant challenge: domain over-adaption. In this paper, we propose a Cross-Media Heterogeneous Transfer Learning for Preventing Over-adaption (CMHTL-PO) to address this challenge. The divergence between the different media feature spaces is very large. Each media space has some weak correlation features which have no semantic corresponding features in other media. When the co-occurrence data are not enough, if the weak correlation features are compulsively mapped into the common features in the latent space, it will lead to over-adaption. CMHTL-PO divides the features into the strong correlation features and the weak correlation features, which are respectively mapped into the common features and the peculiar features in the latent space. Extensive experiments are conducted on two benchmark datasets widely adopted in transfer learning to verify the superiority of our proposed CMHTL-PO over existing state-of-the-art Heterogeneous Transfer Learning methods.  相似文献   

19.
安迪  王姝  关展旭  刘尧  张林 《控制与决策》2023,38(9):2597-2605
针对浮选过程的故障工况信息不足难以建立准确识别模型,导致调整浮选生产工况不及时,从而无法正常稳定运行的问题,提出一种基于跨域流形正则化特征域适应方法.该方法将已有相似完备浮选过程积累的丰富工况信息作为源域迁移至未建模的不完备浮选过程的目标域中,首先,通过最大域内类密度和局部流形正则化约束分别保留原始判别信息和维持域内邻域结构信息不变,从而提取完备工况与不完备工况域间的特征并投影至公共子空间;然后,由最大均值差异缩小源域与目标域间分布差异,建立分类识别模型,再结合D-S证据理论,融合浮选过程泡沫的静态特征与动态特征信息,提高对不完备浮选过程工况识别的泛化能力,保证得到较好的识别分类效果;最后,通过仿真实验验证所提出方法的有效性.  相似文献   

20.
神经网络在软件工程中的应用极大程度上缓解了传统的人工提取代码特征的压力。已有的研究往往将代码简化为自然语言或者依赖专家的领域知识来提取代码特征,简化为自然语言的处理方法过于简单,容易造成信息丢失,而引入专家制定启发式规则的模型往往过于复杂,可拓展性以及普适性不强。鉴于以上问题,提出了一种基于卷积和循环神经网络的自动代码特征提取模型,该模型借助代码的抽象语法树(AST)来提取代码特征。为了缓解因AST过于庞大而带来的梯度消失问题,对AST进行切割,转换成一个AST序列再作为模型的输入。该模型利用卷积网络提取代码中的结构信息,利用双向循环神经网络提取代码中的序列信息。整个流程不需要专家的领域知识来指导模型的训练,只需要将标注类别的代码作为模型的输入就可以让模型自动地学习如何提取代码特征。应用训练好的分类编码器,在相似代码搜索任务上进行测试,Top1、NDCG、MRR的值分别能达到0.560、0.679和0.638,对比当下前沿的用于代码特征提取的深度学习模型以及业界常用的代码相似检测工具有显著的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号