首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 593 毫秒
1.
陈志  李歆  林丽燕  钟婧  时鹏 《计算机应用》2023,(4):1269-1277
在苏木精-伊红(HE)染色病理图像中,细胞染色分布的不均匀和各类组织形态的多样性给自动化分割带来了极大挑战。针对传统卷积无法捕获大邻域范围内像素间的关联特征,导致分割效果难以进一步提升的问题,提出引入门控轴向自注意力的多通道分割网络(MCSegNet)模型,以实现病理图像细胞核的精准分割。所提模型采用双编码器和解码器结构,在其中使用轴向自注意力编码通道捕获全局特征,并使用基于残差结构的卷积编码通道获取局部精细特征;在编码通道末端,通过特征融合增强特征表示,从而为解码器提供良好的信息基础;而解码器通过级联多个上采样模块逐步生成分割结果。此外,使用改进的混合损失函数有效解决了病理图像中普遍存在的样本不均衡问题。在MoNuSeg2020公开数据集上的实验结果表明,改进的分割方法比U-Net在F1、交并比(IoU)指标上分别提升了2.66个百分点、2.77个百分点,有效改善了病理图像的分割效果,提高了临床诊断的可靠性。  相似文献   

2.
张显杰  张之明 《计算机应用》2022,42(8):2394-2400
手写体文本识别技术可以将手写文档转录成可编辑的数字文档。但由于手写的书写风格迥异、文档结构千变万化和字符分割识别精度不高等问题,基于神经网络的手写体英文文本识别仍面临着许多挑战。针对上述问题,提出基于卷积神经网络(CNN)和Transformer的手写体英文文本识别模型。首先利用CNN从输入图像中提取特征,而后将特征输入到Transformer编码器中得到特征序列每一帧的预测,最后经过链接时序分类(CTC)解码器获得最终的预测结果。在公开的IAM(Institut für Angewandte Mathematik)手写体英文单词数据集上进行了大量的实验结果表明,该模型获得了3.60%的字符错误率(CER)和12.70%的单词错误率(WER),验证了所提模型的可行性。  相似文献   

3.
针对提高不同笔体下的手写识别准确率进行了研究,将深度卷积神经网络与自动编码器相结合,设计卷积自编码器网络层数,形成深度卷积自编码神经网络。首先采用双线性插值方法分别对MNIST数据集与一万幅自制中国大学生手写数字图片进行图像预处理,然后先使用单一MNIST数据集对深度卷积自编码神经网络进行训练与测试;最后使用MNIST与自制数据集中5 000幅混合,再次训练该网络,对另外5 000幅进行测试。实验数据表明,所提深度卷积自编码神经网络在MNIST测试集正确率达到99.37%,有效提高了准确率;且5 000幅自制数据集模型测试正确率达99.33%,表明该算法实用性较强,在不同笔体数字上得到了较高的识别准确率,模型准确有效。  相似文献   

4.
杨有  陈立志  方小龙  潘龙越 《计算机应用》2022,42(12):3900-3905
针对传统的图像描述模型不能充分利用图像信息且融合特征方式单一的问题,提出了一种融合自适应常识门(ACG)的图像描述生成模型。首先,使用基于视觉常识区域的卷积神经网络(VC R-CNN)提取视觉常识特征,并将常识特征分层输入到Transformer编码器中;然后,在编码器的每一分层中设计了ACG,从而对视觉常识特征和编码特征进行自适应融合操作;最后,将融合常识信息的编码特征送入Transformer解码器中完成训练。使用MSCOCO数据集进行训练和测试,结果表明所提模型在评价指标BLEU?4、CIDEr和SPICE上分别达到了39.2、129.6和22.7,相较于词性堆叠交叉注意网络(POS-SCAN)模型分别提升了3.2%、2.9%和2.3%。所提模型的效果明显优于使用单一显著区域特征的Transformer模型,能够对图像内容进行准确的描述。  相似文献   

5.
李康康  张静 《计算机应用》2021,41(9):2504-2509
图像描述任务是图像理解的一个重要分支,它不仅要求能够正确识别图像的内容,还要求能够生成在语法和语义上正确的句子。传统的基于编码器-解码器的模型不能充分利用图像特征并且解码方式单一。针对这些问题,提出一种基于注意力机制的多层次编码和解码的图像描述模型。首先使用Faster R-CNN(Faster Region-based Convolutional Neural Network)提取图像特征,然后采用Transformer提取图像的3种高层次特征,并利用金字塔型的融合方式对特征进行有效融合,最后构建3个长短期记忆(LSTM)网络对不同层次特征进行层次化解码。在解码部分,利用软注意力机制使得模型能够关注当前步骤所需要的重要信息。在MSCOCO大型数据集上进行实验,利用多种指标(BLEU、METEOR、ROUGE-L、CIDEr)对模型进行评价,该模型在指标BLEU-4、METEOR和CIDEr上相较于Recall(Recall what you see)模型分别提升了2.5个百分点、2.6个百分点和8.8个百分点;相较于HAF(Hierarchical Attention-based Fusion)模型分别提升了1.2个百分点、0.5个百分点和3.5个百分点。此外,通过可视化生成的描述语句可以看出,所提出模型所生成的描述语句能够准确反映图像内容。  相似文献   

6.
针对卷积神经网络对手写数字识别训练在卷积核随机初始化情况下收敛速度慢和识别率低的问题,提出一种主成分分析(PCA)初始化卷积核的卷积神经网络(CNN)手写数字识别算法。算法首先选取训练样本集并将其送入CNN,在相应层对Feature Map进行全覆盖取图像块处理,然后进行分层PCA学习,将学习到的特征向量做为对应卷积层的卷积核参数进行初始化,最后再用这些卷积核对原始图像进行卷积操作。实验结果表明,与随机初始化卷积核的CNN手写数字识别算法相比,改进的算法在应用MNIST数据库训练时不仅收敛,而且在产生相同均方误差的情况下迭代次数少,识别率高。  相似文献   

7.
胡嵽  冯子亮 《计算机应用》2021,41(5):1326-1331
针对深度学习中道路图像语义分割模型参数量巨大以及计算复杂,不适合于部署在移动端进行实时分割的问题,提出了一种使用深度可分离卷积构建的轻量级对称U型编码器-解码器式的图像语义分割网络MUNet。首先设计出U型编码器-解码器式网络;其次,在卷积块之间设计稀疏短连接;最后,引入了注意力机制与组归一化(GN)方法,从而在减少模型参数量以及计算量的同时提升分割精度。针对道路图像CamVid数据集,在1 000轮训练后,MUNet模型分割结果在测试图像裁剪为720×720大小时的平均交并比(MIoU)为61.92%。实验结果表明,和常见的图像语义分割网络如金字塔场景分析网络(PSPNet)、RefineNet、全局卷积网络(GCN)和DeepLabv3+相比较,MUNet的参数量以及计算量更少,同时网络分割性能更好。  相似文献   

8.
基于编码器解码器的序列到序列模型广泛应用于生成式自动文摘,但传统Seq2Seq模型会产生重复、偏离主题等问题。该文提出两点优化:一是全局信息编码,通过卷积和自注意力机制获取原文全局信息并将其传递到解码器;二是主题信息解码,从原文中提取重要实体并将其编码为主题向量,帮助解码器获取值得聚焦的信息,提升文本摘要的真实性和可靠性。在LCSTS上的实验表明,全局编码和主题解码相较之前的模型在各项Rouge指标上均有提升,融合二者的模型提升效果更为明显。  相似文献   

9.
图像标题生成是指通过计算机将图像翻译成描述该图像的标题语句。针对现有图像标题生成任务中,未充分利用图像的局部和全局特征以及时间复杂度较高的问题,本文提出一种基于卷积神经网络(Convolution Neural Networks,CNN)和Transformer的混合结构图像标题生成模型。考虑卷积网络所具有的空间和通道特性,首先将轻量化高精度的注意力ECA与卷积网络CNN进行融合构成注意力残差块,用于从输入图像中提取视觉特征;然后将特征输入到序列模型Transformer中,在编码器端借助自注意学习来获得所参与的视觉表示,在语言解码器中捕获标题中的细粒度信息以及学习标题序列间的相互作用,进而结合视觉特征逐步得到图像所对应的标题描述。将模型在MSCOCO数据集上进行实验,BLEU-1、BLEU-3、BLEU-4、Meteor和CIDEr指标分别提高了0.3、0.5、0.7、0.4、1.6个百分点。  相似文献   

10.
侯旭东  滕飞  张艺 《计算机应用》2022,42(9):2686-2692
针对在医疗命名实体识别(MNER)问题中随着网络加深,基于深度学习的识别模型出现的识别精度与算力要求不平衡的问题,提出一种基于深度自编码的医疗命名实体识别模型CasSAttMNER。首先,使用编码与解码间深度差平衡策略,以经过蒸馏的Transformer语言模型RBT6作为编码器以减小编码深度以及降低对训练和应用上的算力要求;然后,使用双向长短期记忆(BiLSTM)网络和条件随机场(CRF)提出了级联式多任务双解码器,从而完成实体提及序列标注与实体类别判断;最后,基于自注意力机制在实体类别中增加实体提及过程抽取的隐解码信息,以此来优化模型设计。实验结果表明,CasSAttMNER在两个中文医疗实体数据集上的F值度量可分别达到0.943 9和0.945 7,较基线模型分别提高了3个百分点和8个百分点,验证了该模型更进一步地提升了解码器性能。  相似文献   

11.
杨坚伟  严群  姚剑敏  林志贤 《计算机应用》2005,40(12):3644-3650
针对现有的人像分割算法大多忽略移动设备的硬件限制,盲目追求效果,以致无法满足移动端对于分割速度要求的问题,提出了一种可在移动设备上高效运行的人像分割网络。首先,基于编码器-解码器的轻量级U型架构来构建网络;其次,为了克服全卷积网络(FCN)受制于较小的感受域,无法充分捕获长距离信息的缺陷,引入期望最大化注意力块(EMAU)置于编码器之后、解码器之前;然后,在训练阶段添加多层边界辅助损失,有助于提高人物边界轮廓的准确度;最后,对模型进行量化和压缩。在Veer数据集上将所提网络与PortraitFCN+、ENet和BiSeNet等网络进行对比实验。实验结果表明,所提网络可以提高图像推理速度和分割效果,并能够以95.57%的准确率处理分辨率为224×224的RGB图像。  相似文献   

12.
增强语义信息与多通道特征融合的裂缝检测   总被引:1,自引:0,他引:1       下载免费PDF全文
路面裂缝检测是用以判断道路安全与否的关键技术,由于裂缝的背景复杂多样,传统的裂缝检测算法难以准确检测裂缝。提出了一种增强语义信息与多通道特征融合的裂缝自动检测算法。网络整体为编码器-解码器结构,在编码器部分引入扩张卷积模块,扩大特征图有效感受野,整合图像上下文信息,增强特征语义表达能力,提高像素分类精度。在解码器部分搭建了一个基于注意力机制的多通道特征融合模块,利用高层全局注意力信息指导高层语义特征与低层细节特征的逐级融合,有利于恢复图像细节信息,进一步提升对裂缝的像素级检测精度。实验结果表明,在CRACK500公开数据集上训练的模型在测试集上取得72.5%的平均交并比(Intersection over Union,IoU)和96.8%的F1score,该模型直接用于CrackForest数据集测试,平均IoU和F1score分别提升2.0个百分点和1.1个百分点,表明模型具有很好的泛化性能,可用于复杂道路场景下的裂缝检测与质量评估。  相似文献   

13.
杨坚伟  严群  姚剑敏  林志贤 《计算机应用》2020,40(12):3644-3650
针对现有的人像分割算法大多忽略移动设备的硬件限制,盲目追求效果,以致无法满足移动端对于分割速度要求的问题,提出了一种可在移动设备上高效运行的人像分割网络。首先,基于编码器-解码器的轻量级U型架构来构建网络;其次,为了克服全卷积网络(FCN)受制于较小的感受域,无法充分捕获长距离信息的缺陷,引入期望最大化注意力块(EMAU)置于编码器之后、解码器之前;然后,在训练阶段添加多层边界辅助损失,有助于提高人物边界轮廓的准确度;最后,对模型进行量化和压缩。在Veer数据集上将所提网络与PortraitFCN+、ENet和BiSeNet等网络进行对比实验。实验结果表明,所提网络可以提高图像推理速度和分割效果,并能够以95.57%的准确率处理分辨率为224×224的RGB图像。  相似文献   

14.
谢永华  韩丽萍 《计算机应用》2018,38(6):1765-1770
受显微传感器和不规则收集方法的影响,花粉图像常受到不同程度的噪声干扰且有着不同角度的旋转变化,识别精度普遍不高,为此提出了基于主梯度编码的局部二进制模式(DGLBP)描述子,并应用于花粉图像的分类识别。首先,计算图像块在主梯度方向上的梯度幅值;其次,分别计算图像块的径向、角向,以及复合梯度差;然后,根据各图像块的梯度差进行二进制编码,参照各局部区域的纹理分布情况为二进制编码自适应分配权重,并提取花粉图像在3个方向上的纹理特征直方图;最后,对不同尺度下的纹理特征直方图进行融合,采用欧氏距离计算各图像的相似度。DGLBP方法在Confocal和Pollenmonitor数据集上的平均正确识别率分别为94.33%和92.02%,与其他花粉识别方法相比平均提高了8.9个百分点和8.6个百分点,与LBP改进方法相比平均提高了18个百分点和18.5个百分点。实验结果表明,DGLBP描述子对花粉图像的噪声干扰和旋转变化具有较好的鲁棒性,且具有较优的识别效果。  相似文献   

15.
娄梦莹  王天景  刘娅琴  杨丰  黄靖 《计算机应用》2005,40(12):3673-3678
针对手掌静脉图像数量少且质量参差不齐,进而导致掌脉识别系统的性能降低的现象,提出一种基于侧链连接卷积神经网络的手掌静脉图像识别方法。首先,在ResNet模型的基础上,用卷积层和池化层提取掌脉特征。然后,采用指数线性单元(ELU)激活函数、批归一化(BN)和Dropout技术来改进和优化模型,以缓解梯度消失、防止过拟合、加快收敛及增强模型泛化能力。最后,引入稠密连接网络(DenseNet),使提取到的手掌静脉特征更具丰富性和有效性。在两个公开库和一个自建库上分别进行实验,结果表明所提方法在三个数据库上的识别率分别为99.98%、97.95%、97.96%。可见该方法能有效提高掌脉识别系统的性能,且更适用于掌脉识别的实际应用。  相似文献   

16.
目前大多数图像标题生成模型都是由一个基于卷积神经网络(Convolutional Neural Network,CNN)的图像编码器和一个基于循环神经网络(Recurrent Neural Network,RNN)的标题解码器组成。其中图像编码器用于提取图像的视觉特征,标题解码器基于视觉特征通过注意力机制来生成标题。然而,使用基于注意力机制的RNN的问题在于,解码端虽然可以对图像特征和标题交互的部分进行注意力建模,但是却忽略了标题内部交互作用的自我注意。因此,针对图像标题生成任务,文中提出了一种能同时结合循环网络和自注意力网络优点的模型。该模型一方面能够通过自注意力模型在统一的注意力区域内同时捕获模态内和模态间的相互作用,另一方面又保持了循环网络固有的优点。在MSCOCO数据集上的实验结果表明,CIDEr值从1.135提高到了1.166,所提方法能够有效提升图像标题生成的性能。  相似文献   

17.
人脸表情是人类内心情绪最真实最直观的表达方式之一,不同的表情之间具有细微的类间差异信息。因此,提取表征能力较强的特征成为表情识别的关键问题。为提取较为高级的语义特征,在残差网络(ResNet)的基础上提出一种注意力金字塔卷积残差网络模型(APRNET50)。该模型融合金字塔卷积模块、通道注意力和空间注意力。首先用金字塔卷积提取图像的细节特征信息,然后对所提特征在通道和空间维度上分配权重,按权重大小定位显著区域,最后通过全连接层构建分类器对表情进行分类。以端到端的方式进行训练,使得所提网络模型更适合于精细的面部表情分类。实验结果表明,在FER2013和CK+数据集上识别准确率可以达到73.001%和94.949%,与现有的方法相比识别准确率分别提高了2.091个百分点和0.279个百分点,达到了具有相对竞争力的效果。  相似文献   

18.
针对现有的卷积神经网络模型算法对人脸表情特征表达能力不足、识别精度不高、模型参数量大的问题,提出一种融入注意力的残差网络人脸表情识别方法。该方法在特征提取部分利用卷积块注意力模块(Convolutional Block Attention Module, CBAM)增强对判别性特征的表示;通过残差结构的卷积层提取表情特征;利用Softmax进行表情分类。实验结果表明,与原ResNet模型方法相比,以较小参数量的增加取得更好的识别效果,在FER2013、JAFFE和CK+数据集上的识别率分别提升了2.68百分点、6.40百分点和6.06百分点,与其他相关方法的对比也证明了其有效性。  相似文献   

19.
交通标志识别技术正在被逐步应用到汽车辅助驾驶领域。但是,遮挡、污损、天气环境变化等因素会严重影响交通标志识别的准确性和稳定性。针对该问题,提出了一种基于孪生神经网络的交通标志编码识别模型。该模型将交通标志的识别问题视为交通标志的卷积特征编码识别问题。通过卷积神经网络对交通标志训练样本和基准样本进行特征提取与编码。再利用孪生神经网络进行编码对比,结合对比损失函数对编码器训练调整。通过全连接层对输入通路的标志卷积编码进行重新组合与分类,从而实现交通标识的识别。实验结果表明,所提的基于改进孪生神经网络的编码器模型对存在运动模糊与遮挡的标志图像能生成有效、鲁棒的特征编码,相较于其他先进算法,具有更高的识别准确率。  相似文献   

20.
王萍  庞文浩 《计算机应用》2019,39(7):2081-2086
针对原始空时双通道卷积神经网络(CNN)模型对长时段复杂视频中行为识别率低的问题,提出了一种基于视频分段的空时双通道卷积神经网络的行为识别方法。首先将视频分成多个等长不重叠的分段,对每个分段随机采样得到代表视频静态特征的帧图像和代表运动特征的堆叠光流图像;然后将这两种图像分别输入到空域和时域卷积神经网络进行特征提取,再在两个通道分别融合各视频分段特征得到空域和时域的类别预测特征;最后集成双通道的预测特征得到视频行为识别结果。通过实验讨论了多种数据增强方法和迁移学习方案以解决训练样本不足导致的过拟合问题,分析了不同分段数、预训练网络、分段特征融合方案和双通道集成策略对行为识别性能的影响。实验结果显示所提模型在UCF101数据集上的行为识别准确率达到91.80%,比原始的双通道模型提高了3.8个百分点;同时在HMDB51数据集上的行为识别准确率也比原模型提高,达到61.39%,这表明所提模型能够更好地学习和表达长时段复杂视频中人体行为特征。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号