首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
源领域和目标领域特征空间的不一致导致迁移学习准确率下降。为此,提出一种基于Word2Vec的不同领域特征对齐算法。只选取形容词、副词、名词、动词作为特征,针对每种词性,选择源领域和目标领域的枢纽特征,分别在源领域和目标领域为该枢纽特征计算出与之语义相似度最大的非枢纽特征,将其作为相似枢纽特征,从而为每个枢纽特征构成一个相似枢纽特征对。将出现在这些领域中的每一个相似枢纽特征按照枢纽特征对进行特征替换,从而将不同领域语义相似的特征进行对齐,并在特征替换后的源领域和目标领域数据上进行机器学习。实验结果表明,该算法的平均分类精度达到88.2%,高于Baseline算法。  相似文献   

2.
在实际应用场景中,情感分析技术为自动判别文本情感极性提供了有效的决策及解决方案,但是文本情感分析技术依赖于大量的标定样本.为了减小对人工标注的依赖,有研究者提出了基于领域自适应的跨领域情感分析技术.该技术面向跨领域文本情感分析任务,将经由标定样本训练的源领域模型,迁移至无标定的目标领域.然而目前的领域自适应技术仅从单个角度进行迁移,即减小领域专有特征差异或提取领域不变特征.因此考虑到跨领域文本数据同时包含领域专有特征和领域不变特征的特点,提出了一种领域对齐对抗的无监督跨领域文本情感分析算法.该算法通过渐进式的迁移策略,逐层减小不同语义层的领域差异,并在高层语义子空间通过协同优化的领域自适应算法,实现跨领域文本数据的领域知识迁移.在2个公开跨领域文本情感数据集上的24组跨领域文本情感分类实验结果表明,与4类领域自适应算法中代表性的和当前表现最优的方法相比,领域对齐对抗的无监督跨领域文本情感分析算法在24组实验中取得了最高的平均分类准确率,同时结合迁移性能分析结果和特征分布可视化结果,证明该算法一定程度上提升了现有无监督跨领域文本情感分析算法的分类性能和迁移性能.  相似文献   

3.
神经网络模型可以有效地处理通用领域命名实体识别,然而在标注语料匮乏和包含大量噪声的特定领域,其性能通常会下降。针对这一问题,提出一种迁移学习神经网络模型TL-BiLSTM-CRF。利用双向长短时记忆网络提取具有字符级别形态特征的字符向量,结合具有语义、语序等特征信息的词向量作为输入,构建基本模型;在基本模型中引入词适应层,通过典型相关性分析算法弥合源域和目标域词向量特征空间的差异,对基本模型进行迁移。在社交媒体文本中的实验结果表明,该算法在Twitter数据集上F1值为64.87%,优于目前最好的模型。  相似文献   

4.
传统机器学习面临一个难题,即当训练数据与测试数据不再服从相同分布时,由训练集得到的分类器无法对测试集文本准确分类。针对该问题,根据迁移学习原理,在源领域和目标领域的交集特征中,依据改进的特征分布相似度进行特征加权;在非交集特征中,引入语义近似度和新提出的逆文本类别指数(TF-ICF),对特征在源领域内进行加权计算,充分利用大量已标记的源领域数据和少量已标记的目标领域数据获得所需特征,以便快速构建分类器。在文本数据集20Newsgroups和非文本数据集UCI中的实验结果表明,基于分布和逆文本类别指数的特征迁移加权算法能够在保证精度的前提下对特征快速迁移并加权。  相似文献   

5.
单词的统计特征在自然语言处理中具有广泛的应用。针对统计特征对关键词抽取和文本分类精确度的影响,分析了八种常见的统计特征,通过情感词抽取和商品评论分类,研究统计特征在情感分析领域中的作用。情感词提取实验的结果表明,通过结合统计特征与词性,情感词提取的准确率能够达到76.4%,显著高于基于统计特征或单词词性的情感词提取算法。商品评论分类的测试结果表明,与传统的基于单词的文本情感分类相比,基于统计特征的商品评论分类的准确率提高了10.8%。利用八种统计特征构造文本向量空间模型,替代基于单词构造文本向量空间模型的方法,能够降低文本向量的维度,具有隐形语义空间(LSA/SVD)的压缩效果,在保证分类结果准确率的前提下有效降低了算法的复杂度,能够替代传统的向量空间模型。  相似文献   

6.
文本分类有着广泛的应用,对其分类算法的研究也一直备受关注。但是,传统文本分类算法普遍存在文本特征向量化维度过高、没有考虑关键词之间语义关系、训练参数过多等问题,这些都将影响到分类准确率等性能。针对这些问题,提出了一种结合词向量化与GRU的文本分类算法。对文本进行预处理操作;通过GloVe进行词向量化,尽可能多地蕴含文本语义和语法信息,同时降低向量空间维度;再利用GRU神经网络模型进行训练,最大程度保留长文本中长距离词之间的语义关联。实验结果证明,该算法对提高文本分类性能有较明显的作用。  相似文献   

7.
杨青  张亚文  朱丽  吴涛 《计算机科学》2021,48(11):307-311
针对简单的神经网络缺乏捕获文本上下文语义和提取文本内重要信息的能力,设计了一种注意力机制和门控单元(GRU)融合的情感分析模型FFA-BiAGRU.首先,对文本进行预处理,通过GloVe进行词向量化,降低向量空间维度;然后,将注意力机制与门控单元的更新门融合以形成混合模型,使其能提取文本特征中的重要信息;最后,通过强制向前注意力机制进一步提取文本特征,再由softmax分类器进行分类.在公开数据集上进行实验,结果证明该算法能有效提高情感分析的性能.  相似文献   

8.
杨青  张亚文  朱丽  吴涛 《计算机科学》2021,48(11):307-311
针对简单的神经网络缺乏捕获文本上下文语义和提取文本内重要信息的能力,设计了一种注意力机制和门控单元(GRU)融合的情感分析模型FFA-BiAGRU.首先,对文本进行预处理,通过GloVe进行词向量化,降低向量空间维度;然后,将注意力机制与门控单元的更新门融合以形成混合模型,使其能提取文本特征中的重要信息;最后,通过强制向前注意力机制进一步提取文本特征,再由softmax分类器进行分类.在公开数据集上进行实验,结果证明该算法能有效提高情感分析的性能.  相似文献   

9.
深度学习算法的有效性依赖于大量的带有标签的数据,迁移学习的目的是利用已知标签的数据集(源域)来对未知标签的数据集(目标域)进行分类,因此深度迁移学习的研究成为了热门。针对训练数据标签不足的问题,提出了一种基于多尺度特征融合的领域对抗网络(Multi-scale domain adversarial network, MSDAN)模型,该方法利用生成对抗网络以及多尺度特征融合的思想,得到了源域数据和目标域数据在高维特征空间中的特征表示,该特征表示提取到了源域数据和目标域数据的公共几何特征和公共语义特征。将源域数据的特征表示和源域标签输入到分类器中进行分类,最终在目标域数据集的测试上得到了较为先进的效果。  相似文献   

10.
针对目标域训练样本数量较少无法建立优质分类模型的问题,提出一种在迁移框架下基于集成bagging算法的跨领域分类方法。引入源域的数据并对其进行筛选,对混合数据集进行学习,建立基于集成bagging算法的分类模型,投票得出预测结果。仿真对比结果表明,采用基于贝叶斯个体分类器的集成bagging算法能够优化源域的迁移,提升目标域的分类准确率及泛化性能。分析源域的噪音数据数量,其结果表明,该算法可以部分规避负迁移。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号