首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 181 毫秒
1.
罪名预测是人工智能技术应用于司法领域的代表性任务. 该任务根据案情描述和事实预测被告人被判的罪名. 由于各类罪名样本数量高度不平衡, 分类模型训练时分类器易偏向高频罪名类别, 从而导致低频罪名预测性能不佳. 针对罪名预测类别不平衡问题, 提出融合类别先验Mixup数据增强策略的罪名预测模型, 改进低频罪名预测效果. 该模型利用双向长短期记忆网络与结构化自注意力机制学习文本向量表示, 在此基础上, 通过Mixup数据增强策略在向量表示空间中合成伪样本, 并利用类别先验使合成样本的标签偏向低频罪名类别, 以此来扩增低频罪名训练样本. 实验结果表明, 与现有方法相比, 该方法在准确率、宏精确率、宏召回率和宏F1值上都获得了大幅提升, 低频罪名预测的宏F1值提升达到13.5%.  相似文献   

2.
疾病风险预测能够筛查易患人群, 并在早期进行预防干预措施以降低疾病的发生率及死亡率. 随着机器学习技术的快速发展, 基于机器学习的疾病风险预测得到了广泛应用. 然而, 机器学习十分依赖于高质量的标注信息, 医疗数据中存在的标签噪声会给构建高性能的疾病风险预测算法带来严峻挑战. 针对这一问题, 本文提出了一种基于深度神经网络和动态截断损失函数的噪声鲁棒学习方法用于疾病风险预测. 该方法引入动态截断损失函数, 融合了传统交叉熵函数的隐式加权特性和均方差损失函数的标签噪声鲁棒性; 通过构造训练损失下界, 并引入样本动态加权机制减小可疑样本的梯度, 限制可能的带噪样本在训练过程中的权重, 进一步增强模型的鲁棒性. 以脑卒中筛查数据集为例进行实验, 结果表明本文算法在各个标签噪声比例下均能取得良好的预测性能, 可降低疾病风险预测中标签噪声的负面影响, 实现了带有标签噪声数据的鲁棒学习.  相似文献   

3.
针对目标检测网络单阶改进目标检测器(RefineDet)对类间不平衡数据集中小样本类别检测性能差的问题,提出一种部分加权损失函数SWLoss。首先,以每个训练批量中不同类别样本数量的倒数作为启发式的类间样本平衡因子,对分类损失中的不同类别进行加权,从而提高对小样本类别学习的关注程度;然后引入多任务平衡因子对分类损失和回归损失进行加权,缩小两个任务学习速率的差异;最后,在目标类别样本数量存在大幅差异的Pascal VOC 2007数据集和点阵字符数据集上进行实验。结果表明,与原始RefineDet相比,基于SWLoss的RefineDet明显提高了小样本类别的检测精度,它在两个数据集上的平均精度均值(mAP)分别提高了1.01、9.86个百分点;与基于损失平衡函数和加权成对损失的RefineDet相比,基于SWLoss的RefineDet在两个数据集上的mAP分别提高了0.68、4.73和0.49、1.48个百分点。  相似文献   

4.
现代目标检测算法仍然存在由现有目标检测架构引起的正负样本不平衡和训练数据引起的难易样本不平衡。现有方法一般采用基于类别频率的重采样或基于类别预测概率的重新加权,虽然减轻了类别的不平衡问题,但是引入了新的超参数,为每个训练任务需要进行大量的手动调整超参数。为此在现有Focal Loss损失函数基础上提出了一个新的损失函数自适应聚焦损失(Adaptive Focal Loss),使模型聚焦于对训练过程贡献更大的困难样本,并且可自适应地调整超参数。根据训练过程中每批图像标签中的正负样本数量计算出自适应的加权因子来实现对正负样本的动态平衡。根据训练过程中不同阶段各类真实标签的期望概率计算出自适应的调制因子来自适应地平衡难易样本。为验证方法的有效性,在PASCAL VOC2007测试数据集中平均精度均值达到80.75%,相比较于原算法提高了3.45个百分点。在PASCAL VOC2012测试数据集中平均精度均值达到77.17%,相比较于原算法提高了1.87个百分点。实验结果表明,把Adaptive Focal Loss作为网络的损失函数,相比于原始的Focal Loss损失函数检测精度有所提升,并具有较大的实用价值。  相似文献   

5.
郭军军  刘真丞  余正涛  黄于欣  相艳 《软件学报》2021,32(10):3139-3150
由于低频罪名数据量较少和易混淆罪名案情描述相似等原因,导致低频和易混淆罪名预测效果不佳.为了解决此类问题,通过构建案件辅助句,提出一种基于双向互注意力机制的案件辅助句融合方法,实现罪名预测.主要包括以下3部分:首先,基于司法领域知识构建案件辅助句,将案件辅助句作为案情描述和罪名之间的映射知识;然后,基于词级和字符级表征分别提取案情描述与案件辅助句多粒度特征;同时,借助案件辅助句与案情描述双向注意机制,获得具有辅助句倾向性的案情描述表征,并最终实现低频和易混淆罪名的预测.基于中国刑事案件公共数据集的实验结果表明:所提方法在F1值最大提升13.2%,准确率最大提升4.5%,低频罪名预测F1值提升4.3%,易混淆罪名预测F1值提升8.2%,所提算法显著地提升了低频和易混淆罪名的预测性能.  相似文献   

6.
蔡强  李晶  郝佳云 《计算机工程》2019,45(12):166-170
基于卷积神经网络的远程监督关系抽取方法提取的特征单一,且标准交叉熵损失函数未能较好处理数据集中正负样本比例不均衡的情况。为此,提出一种基于深度残差神经网络的远程监督关系抽取模型,通过改进交叉熵聚焦损失函数,提取句子中的深层语义特征,同时降低损失函数中负样本的权重,避免在NYT-Freebase标准数据集中引入NA关系类别的噪音。实验结果表明,该模型能增强深度残差神经网络对含噪音数据的表示学习能力,有效提高远程监督关系抽取任务的分类准确率。  相似文献   

7.
基于集成的非均衡数据分类主动学习算法   总被引:1,自引:0,他引:1  
当前,处理类别非均衡数据采用的主要方法之一就是预处理,将数据均衡化之后采取传统的方法加以训练.预处理的方法主要有过取样和欠取样,然而过取样和欠取样都有自己的不足,提出拆分提升主动学习算法SBAL( Split-Boost Active Learning),该算法将大类样本集根据非均衡比例分成多个子集,子集与小类样本集合并,对其采用AdaBoost算法训练子分类器,然后集成一个总分类器,并基于QBC( Query-by-committee)主动学习算法主动选取有效样本进行训练,基本避免了由于增加样本或者减少样本所带来的不足.实验表明,提出的算法对于非均衡数据具有更高的分类精度.  相似文献   

8.
针对电力开关设备分/合闸X射线图像呈现设备种类多、数据量少、类别不平衡问题,提出一种基于域泛化的非均衡电力设备分/合闸X射线图像识别方法.首先以AlexNet和改进的ResNet作为骨干网络设计识别算法;然后利用最大熵对抗数据增强(MEADA)训练算法对训练集进行样本扩充,以模拟未知类型分/合闸图像的域分布;最后通过将Focal Loss损失函数引入到识别算法中解决分/合闸数据类别不平衡问题.实验结果表明,使用所提方法AlexNet和简化ResNet(ResNet-F)模型的平均准确率相比其基线方法分别提升5.31个和6.52个百分点,且ResNet-F的识别精度比AlexNet高出3.54个百分点.类激活图、受试者工作特征(ROC)曲线和t-随机嵌入(t-SNE)等可视化分析结果进一步验证了所提方法的有效性,为多域非均衡电力设备分/合闸X射线图像识别提供了新思路.  相似文献   

9.
朱鹏飞  张琬迎  王煜  胡清华 《软件学报》2022,33(4):1156-1169
深度神经网络在分类任务上不断取得性能突破,但在测试中面对未知类样本时,会错误地给出一个已知类预测结果.开放集识别任务旨在解决该问题,要求模型不仅精确地分类已知类,同时对未知类样本进行准确判别.现有方法虽然取得了不错的效果,但由于未对开放集识别任务的影响因素进行分析,因而大多基于某种假设启发式地设计模型,难以保证对于实际场景的适应性.分析了现有方法的共性,通过设计一个新的决策变量实验,发现模型对已知类的表示学习能力是其中的一个关键影响因素.基于该结论,提出了一种基于模型表示学习能力增强的开放集识别方法.首先,由于对比式学习已展示出的强大表示学习能力以及开放集识别任务所包含的标签信息,引入了监督对比式学习方法,提高模型对已知类的建模能力;其次,考虑到类别间的相关性是在类别层次上的表示,且类别之间往往呈现分层结构关系,设计了一种多粒度类相关性的损失函数,通过在标签语义空间构建分层结构并度量多粒度类相关性的方式,约束模型学习不同已知类间的相关关系,进一步提高其表示学习能力;最后,在多个标准数据集上进行了实验验证,证明了所提出方法在开放集识别任务上的有效性.  相似文献   

10.
《电子技术应用》2016,(9):95-98
针对训练集中出现未知网络应用样本的识别问题,提出一种基于改进的直推式支持向量机的未知网络应用识别算法,引入增类损失函数刻画在训练过程中新增的未知应用样本的损失代价,建立TSVM的优化问题并推导其求解过程,使得构造的分类模型能够实现对未知类别样本的识别。通过实际网络数据集进行仿真分析,结果表明所提出的算法在识别未知网络应用的可行性和有效性方面均有良好表现。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号