首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
余立  李哲  高飞  袁向阳  杨永 《电信科学》2021,37(10):136-142
质差用户识别是降低用户投诉率、提升用户满意度的重要环节。针对当前电信网络系统中业务感知相关的大量结构化及非结构化数据难以有效标注、质差用户标签不完备、现有监督学习模型训练样本不均衡而导致质差识别率低的问题,采用改进自训练半监督学习模型,利用少量满意度低分和投诉用户作为质差用户标签对网络数据进行标注,并通过标签迁移对大量未标注数据进行训练识别质差用户。实验表明,相比于识别准确率高但是训练成本高的全监督学习和识别准确率低的无监督学习,半监督学习可以充分利用无标签样本数据进行有效训练,保证较低训练成本的同时显著提升质差用户识别准确率。  相似文献   

2.
从医疗文本中抽取知识对构建医疗辅助诊断系统等应用具有重要意义.实体识别是其中的核心步骤.现有的实体识别模型大都是基于标注数据的深度学习模型,非常依赖高质量大规模的标注数据.为了充分利用已有的医疗领域词典和预训练语言模型,本文提出了融合知识的中文医疗实体识别模型.一方面基于领域词典提取领域知识,另一方面,引入预训练语言模型BERT作为通用知识,然后将领域知识和通用知识融入到模型中.此外,本文引入了卷积神经网络来提高模型的上下文建模能力.本文在多个数据集上进行实验,实验结果表明,将知识融合到模型中能够有效提高中文医疗实体识别的效果.  相似文献   

3.
中文临床电子病历命名实体识别是实现智慧医疗的基本任务之一.本文针对传统的词向量模型文本语义表示不充分,以及循环神经网络(RNN)模型无法解决长时间依赖等问题,提出一个基于XLNet的中文临床电子病历命名实体识别模型XLNet-BiLSTM-MHA-CRF,将XLNet预训练语言模型作为嵌入层,对病历文本进行向量化表示,解决一词多义等问题;利用双向长短时记忆网络(BiLSTM)门控制单元获取句子的前向和后向语义特征信息,将特征序列输入到多头注意力层(multi-head attention,MHA);利用MHA获得特征序列不同子空间表示的信息,增强上下文语义的关联性,同时剔除噪声;最后输入条件随机场CRF识别全局最优序列.实验结果表明,XLNet-BiLSTM-Attention-CRF模型在CCKS-2017命名实体识别数据集上取得了良好的效果.  相似文献   

4.
凌广明  徐爱萍  王伟 《电子学报》2000,48(11):2081-2091
文本序列的自动标注能够解决深度学习普遍面临的人工标注成本过高的问题.本文针对地址信息的实体表述特征,构建基于实体边界矩阵(Entity Boundary Matrix,EBM)的表示模型,在此基础上提出了一种基于深度学习和KNN标签修正算法(K-Nearest Neighbours Correction Algorithm,KNN-CA)的不需要任何人工标注训练集的自动标注算法.首先获取预置小区数据集并构建离线特征库和初始化在线特征库;接着通过匹配算法求解EBM并利用KNN-CA进行优化,再通过数据增广得到自动标注的训练集;然后训练BiLSTM-CRF深度学习模型并预测所有未曾标注的地址信息的序列标注;最后再次利用KNN-CA优化可求解EBM的序列标注,由此构建适用于中文地理命名实体(Chinese Geospatial Named Entities,CGSNE)识别及相关研究的序列标注语料库.实验表明,标注数据的F1值达到了95.35%.  相似文献   

5.
电子病历中包含大量有用的医疗知识,抽取这些知识对于构建临床决策支持系统和个性化医疗健康信息服务具有重要意义。自动分词是分析和挖掘中文电子病历的关键基础。为了克服获取标注语料的困难,提出了一种基于无监督学习的中文电子病历分词方法。首先,使用通用领域的词典对电子病历进行初步的切分,为了更好地解决歧义问题,引入概率模型,并通过EM算法从生语料中估计词的出现概率。然后,利用字串的左右分支信息熵构建良度,将未登录词识别转化为最优化问题,并使用动态规划算法进行求解。最后,在3 000来自神经内科的中文电子病历上进行实验,证明了该方法的有效性。  相似文献   

6.
基于单分类支持向量机和主动学习的网络异常检测研究   总被引:1,自引:0,他引:1  
刘敬  谷利泽  钮心忻  杨义先 《通信学报》2015,36(11):136-146
对基于支持向量机和主动学习的异常检测方法进行了研究,首先利用原始数据采用无监督方式建立单分类支持向量机模型,然后结合主动学习找出对提高异常检测性能最有价值的样本进行人工标记,利用标记数据和无标记数据以半监督方式对基于单分类支持向量机的异常检测模型进行扩展。实验结果表明,所提方法能够利用少量标记数据获取性能提升,并能够通过主动学习减小人工标记代价,更适用于实际网络环境。  相似文献   

7.
李维鹏  杨小冈  李传祥  卢瑞涛  黄攀 《红外与激光工程》2021,50(3):20200511-1-20200511-8
针对红外数据集规模小,标记样本少的特点,提出了一种红外目标检测网络的半监督迁移学习方法,主要用于提高目标检测网络在小样本红外数据集上的训练效率和泛化能力,提高深度学习模型在训练样本较少的红外目标检测等场景当中的适应性。文中首先阐述了在标注样本较少时无标注样本对提高模型泛化能力、抑制过拟合方面的作用。然后提出了红外目标检测网络的半监督迁移学习流程:在大量的RGB图像数据集中训练预训练模型,后使用少量的有标注红外图像和无标注红外图像对网络进行半监督学习调优。另外,文中提出了一种特征相似度加权的伪监督损失函数,使用同一批次样本的预测结果相互作为标注,以充分利用无标注图像内相似目标的特征分布信息;为降低半监督训练的计算量,在伪监督损失函数的计算中,各目标仅将其特征向量邻域范围内的预测目标作为伪标注。实验结果表明,文中方法所训练的目标检测网络的测试准确率高于监督迁移学习所获得的网络,其在Faster R-CNN上实现了1.1%的提升,而在YOLO-v3上实现了4.8%的显著提升,验证了所提出方法的有效性。  相似文献   

8.
情感识别是实现自然人机交互的必要过程。然而,情感数据高昂的采集和标注成本成为了限制情感识别研究发展的一大瓶颈。在无标注或有限标注的场景下,利用知识的跨领域或跨任务迁移提升情感识别效果的问题值得探索。本文对情感识别中的迁移学习问题进行了梳理和分析。首先,将迁移学习问题划分为针对领域差异和针对任务差异的两大部分,并进一步将每部分问题细分为多种不同的情况。随后,基于情感识别领域的研究现状,分别总结不同情况下的现有工作。在目标领域训练资源匮乏的情况下,可以利用其他带标注的数据集作为源领域训练模型,并对齐不同领域下的特征分布,或将特征映射到域间共享的空间。考虑到情感标签所提供的监督信息往往较为有限,为了进一步提升模型的识别效果,可以引入其他相关任务进行联合训练,或将预训练模型、外部知识库提供的先验语义知识迁移到情感识别任务中。最后,讨论了情感识别领域中未来需要得到更多关注和探索的迁移学习问题,旨在为研究者带来新的启发。  相似文献   

9.
自然语言处理技术在快速发展中,为人们的生活带来了一定的便捷。监督学习方法在自然语言处理技术发展过程中起到了推动型作用,但是监督学习方法在落实过程中对于有关资料的依赖性较高,非常容易出现标注预料缺乏的问题。在这种情况下,半监督学习就是一种最为的选择。半监督学习主要是对于标记数据与无标记数据同时进行应用,这样能够充分利用标记数据,进而推动自然语言处理技术的发展。  相似文献   

10.
图像分类作为计算机视觉领域中的重要研究方向之一,应用领域非常广泛.基于深度学习的图像分类技术取得的成功,依赖大量的已标注数据,然而数据的标注成本往往是昂贵的.主动学习作为一种机器学习方法,旨在以尽可能少的高质量标注数据达到期望的模型性能,缓解监督学习任务中存在的标注成本高、标注信息难以大量获取的问题.主动学习图像分类算法根据样本选择策略,从未标记样本数据集合中选择出信息量丰富,对分类模型训练贡献更高的样本进行标注,以更新已标注训练数据池,如此循环直至满足给定的停止条件或模型标注预算耗尽.本文对近年来提出的主动学习图像分类算法进行了详细综述,并根据所用样本数据处理及模型优化方案,将现有算法分为三类:基于数据增强的算法,包括利用图像增广来扩充训练数据,或者根据图像特征插值后的差异性来选择高质量的训练数据;基于数据分布信息的算法,根据数据分布的特点来优化样本选择策略;优化模型预测的算法,包括优化获取和利用深度模型预测信息的方法、基于生成对抗网络和强化学习来优化预测模型的结构,以及基于Transformer结构提升模型预测性能,以确保模型预测结果的可靠性.此外,本文还对各类主动学习图像分类算法...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号