期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

徐健郭湛澎刘秀平陈博闫焕营《光电子．激光》2023,34(2):166-173

针对多方向排列的文本因其尺度变化大、复杂背景干扰而导致检测效果仍不甚理想的问题,本文提出了一种基于注意力机制的多方向文本检测方法。首先,考虑到自然场景下干扰信息多,构建文本特征提取网络(text feature information ResNet50,TF-ResNet),对图像中的文本特征信息进行提取;其次,在特征融合模型中加入文本注意模块(text attention module, TAM),抑制无关信息的同时突出显示文本信息,以增强文本特征之间的潜在联系;最后,采用渐进扩展模块,逐步融合扩展前部分得到的多个不同尺度的分割结果,以获得精确检测结果。本文方法在数据集CTW1500、ICDAR2015上进行实验验证和分析,其F值分别达到80.4%和83.0%,比次优方法分别提升了2.0%和2.4%,表明该方法在多方向文本检测上与其他方法相比具备一定的竞争力。相似文献

2.

基于深度学习的街景下的文本检测

朱志颖程艳云《微电子学与计算机》2023,(2):79-86

针对自然街景文本角度倾斜、形状弯曲、长度不定等特点,提出一种基于注意力机制的自然街景文本检测方法,通过利用注意力机制的优势,对主干网络提取的特征进行加权融合,从而提升整体网络的检测性能.首先,针对特征金字塔（FPN）横向连接中特征信息丢失的问题,引入注意力融合模块AFFM(Attention Feature Fusion Module),通过计算高维和低维特征的融合权重,来改进原FPN中简单直接相加的特征融合方式,从而减少FPN特征融合过程中文本信息丢失,增强网络的特征提取能力.其次,针对不同尺度特征图中的文本特征,引入一个子空间注意力模块SAM(Subspace Attention Module),通过将多尺度融合特征图按通道划分为数个子空间特征图,分别学习每个子空间中的文本特征权重,使得融合后的特征图包含更多不同尺度的文本特征,从而增强融合特征图对文本实例的表征能力,进而提升网络的检测效果.在公开数据集Total-Text上对模型进行评估,实验结果表明,该算法与目前快速高效的DBNet相比,准确率、召回率和F值分别提高了0.5%、0.4%和0.4%. 相似文献

3.

双金字塔结构引导的多粒度行人重识别方法北大核心CSCD

刘粤赵迪田紫欣熊炜许婷婷李利荣《光电子．激光》2022,(9):959-967

针对杂乱场景下难以有效地提取行人关键信息和局部遮挡时全局特征方法失效的问题,提出了一种双金字塔结构引导的多粒度行人重识别(person re-identification,ReID)方法。首先在ResNet50中嵌入注意力金字塔,引导网络由粗到细依次挖掘不同粒度的特征,使网络更倾向于关注复杂环境中行人的显著区域;其次通过结构不对称的双重注意力特征金字塔分支(double attention feature pyramid branch,DFP branch)提取多尺度的行人特征,丰富特征的多样性,同时双重注意力机制可使分支从浅层信息中捕获高细粒度的局部特征;最后将粒度较粗的全局特征与多层级细粒度的局部特征融合,两种金字塔相互作用,以此获得更多具有鉴别性的多粒度特征,改善行人遮挡问题。在多个数据集上进行了实验,结果表明,各项评价指标均高于目前大多数主流模型,其中在DukeMTMC-reID数据集上,Rank-1、mAP和平均逆负处罚(mean inverse negative penalty,mINP)分别达到了91.6%、81.9%、48.1%。相似文献

4.

ConvFormer：基于Transformer的视觉主干网络

胡杰昌敏杰徐博远徐文才《电子学报》2024,(1):46-57

针对主流Transformer网络仅对输入像素块做自注意力计算而忽略了不同像素块间的信息交互,以及输入尺度单一导致局部特征细节模糊的问题,本文提出一种基于Transformer并用于处理视觉任务的主干网络ConvFormer. ConvFormer通过所设计的多尺度混洗自注意力模块（Channel-Shuffle and Multi-Scale attention,CSMS）和动态相对位置编码模块（Dynamic Relative Position Coding,DRPC）来聚合多尺度像素块间的语义信息,并在前馈网络中引入深度卷积提高网络的局部建模能力.在公开数据集ImageNet-1K,COCO 2017和ADE20K上分别进行图像分类、目标检测和语义分割实验,ConvFormer-Tiny与不同视觉任务中同量级最优网络RetNetY-4G,Swin-Tiny和ResNet50对比,精度分别提高0.3%,1.4%和0.5%. 相似文献

5.

基于关系融合和特征分解的车辆重识别算法

刘寒松《光电子．激光》2024,35(7):708-715

在车辆重识别(re-identification,Re-ID) 任务中,通过对全局及局部信息的联合提取已成为目前主流的方法,是许多重识别模型在提取局部信息时只关注了丰富程度而忽略了完整性。针对该问题,提出了一种基于关系融合和特征分解的算法。该算法从空间与通道维度出发,设计对骨干网络所提取的特征沿垂直、水平、通道3维度分割,首先,为了更好地凸显车辆的前景区域,提出一种混合注意力模块(mixed attention module,MAM) ,之后,为了在空间维度上挖掘丰富特征信息的同时使得网络关注更完整的感兴趣区域,设计对垂直及水平方向的分割后的特征实现基于图的关系融合。为了赋予网络捕捉更具判别性信息的能力,在通道方向上对分割后的局部特征实现特征分解。最后,在全局分支特征与局部分支下所提取的鲁棒性特征的共同作用下实现车辆重识别。实验结果表明,本文算法在两个主流车辆重识别数据集上取得了更先进的性能。相似文献

6.

基于字符注意力的自然场景文本识别

熊炜孙鹏赵迪刘粤《光电子．激光》2023,34(11):1158-1167

自然场景文本识别中采用固定大小的卷积核提取视觉特征,后仅进行字符分类的方法,其全局建模能力弱且忽视了文本语义建模的重要性,因此,本文提出一种基于字符注意力的自然场景文本识别方法。首先构建不同于卷积网络的多级efficient Swin Transformer提取特征,其可使不同窗口的特征进行信息交互;其次设计了字符注意力模块(character attention module, CAM),使网络专注于字符区域的特征,以提取识别度更高的视觉特征;并设计语义推理模块(semantic reasoning module, SRM),根据字符的上下文信息对文本序列进行建模,获得语义特征来纠正不易区分或模糊的字符;最后融合视觉和语义特征,分类得到字符识别结果。实验结果表明,在规则文本数据集IC13上识别准确率达到了95.2%,在不规则的弯曲文本数据集CUTE上达到了85.8%,通过消融及对比实验证明了本文提出的方法可行。相似文献

7.

基于双重注意力和多尺度特征融合的场景文本检测算法

强观臣杨茜张丽真熊炜李利荣《光电子．激光》2024,35(6):570-579

本文提出了一种场景文本检测方法,用于应对复杂自然场景中文本检测的挑战。该方法采用了双重注意力和多尺度特征融合的策略,通过双重注意力融合机制增强了文本特征通道之间的关联性,提升了整体检测性能。在考虑到深层特征图上下采样可能引发的语义信息损失的基础上,提出了空洞卷积多尺度特征融合金字塔(dilated convolution multi-scale feature fusion pyramid structure, MFPN),它采用双融合机制来增强语义特征,有助于加强语义特征,克服尺度变化的影响。针对不同密度信息融合引发的语义冲突和多尺度特征表达受限问题,创新性地引入了多尺度特征融合模块(multi-scale feature fusion module, MFFM)。此外,针对容易被冲突信息掩盖的小文本问题,引入了特征细化模块(feature refinement module, FRM)。实验表明,本文的方法对复杂场景中文本检测有效,其F值在CTW1500、ICDAR2015和Total-Text 3个数据集上分别达到了85.6%、87.1%和86.3%。相似文献

8.

基于多尺度注意力网络的行人属性识别算法

李娜武阳阳刘颖邢琎《激光与光电子学进展》2021,58(4):282-288

为了提高行人属性识别的准确率,提出了一种基于多尺度注意力网络的行人属性识别算法。为了提高算法的特征表达能力和属性判别能力,首先,在残差网络ResNet50的基础上,增加了自顶向下的特征金字塔和注意力模块,自顶向下的特征金字塔由自底向上提取的视觉特征构建;然后,融合特征金字塔中不同尺度的特征,为每层特征的通道注意力赋予不同的权重。最后,改进了模型损失函数以减弱数据不平衡对属性识别率的影响。在RAP和PA-100K数据集上的实验结果表明,与现有算法相比,本算法对行人属性识别的平均精度、准确度、F1性能更好。相似文献

9.

基于双支路特征融合的MRI颅脑肿瘤图像分割研究北大核心CSCD

熊炜周蕾乐玲张开李利荣《光电子．激光》2022,(4):383-392

针对磁共振成像(magnetic resonance imaging, MRI)颅脑肿瘤区域误识别与分割网络空间信息丢失问题,提出一种基于双支路特征融合的MRI脑肿瘤图像分割方法。首先通过主支路的重构VGG与注意力模型(re-parameterization visual geometry group and attention model, RVAM)提取网络的上下文信息,然后使用可变形卷积与金字塔池化模型(deformable convolution and pyramid pooling model, DCPM)在副支路获取丰富的空间信息,之后使用特征融合模块对两支路的特征信息进行融合。最后引入注意力模型,在上采样过程中加强分割目标在解码时的权重。提出的方法在Kaggle_3m数据集和BraTS2019数据集上进行了实验验证,实验结果表明该方法具有良好的脑肿瘤分割性能,其中在Kaggle_3m上,Dice相似系数、杰卡德系数分别达到了91.45%和85.19%。相似文献

10.

基于深度学习的场景文本检测算法研究

熊炜艾美慧杨荻椿李利荣刘敏王娟曾春艳《光电子．激光》2021,32(7):728-734

针对自然场景中任意形状文本图像因文本行难以区分导致的信息丢失问题,提出了一种基于深度学习的场景文本检测算法。首先构建特征提取模块,使用Resnet50作为骨干网络,在增加跨层连接的金字塔网络结构中引入并联的空洞卷积模块,以提取更多语义信息; 其次,对得到的特征图进行多尺度特征融合,学习不同尺度的特征;最后预测出不同内核大小的文本实例,并通过尺度扩展逐渐扩大文本行区域,直到得到最终的检测结果。实验结果表明,该方法在SCUT-CTW1500弯曲文本数据集上的准确率、召回率及F1值分别达到88.5%、 77.0%和81.3%,相比其他基于分割的算法,该算法对弯曲文本的检测效果良好,具有一定的应用价值。相似文献

11.

基于卷积神经网络与注意力机制的高光谱图像分类

高玉鹏闫伟红潘新《光电子．激光》2024,35(5):483-489

由于浅层卷积神经网络(convolutional neural network,CNN)模型感受野的限制,无法捕获远距离特征,在高光谱图像 (hyperspectral image,HSI) 分类问题中无法充分利用图像空间-光谱信息,很难获得较高精度的分类结果。针对上述问题,本文提出了一种基于卷积神经网络与注意力机制的模型(model based on convolutional neural network and attention mechanism,CNNAM),该模型利用CA (coordinate attention)对图像通道数据进行位置编码,并利用以自注意力机制为核心架构的Transformer模块对其进行远距离特征提取以解决CNN感受野的限制问题。CNNAM在Indian Pines和Salinas两个数据集上得到的总体分类精度分别为97.63%和99.34%,对比于其他模型,本文提出的模型表现出更好的分类性能。另外,本文以是否结合CA为参考进行了消融实验,并证明了CA在CNNAM中发挥重要作用。实验证明将传统CNN与注意力机制相结合可以在HSI分类问题中获得更高的分类精度。相似文献

12.

基于改进3D UNet的前列腺MR图像分割

桑子江邵叶秦许昌炎《光电子．激光》2023,34(12):1337-1344

针对前列腺磁共振 (magnetic resonance, MR)图像边缘模糊、对比度较低,灰度值分布不均衡而导致分割精度较差的问题,提出了一种结合双路径注意力(dual path attention,DPA) 和多尺度特征聚合(multi-scale feature aggregation,MFA) 模块的改进3D UNet网络模型。首先,对数据集进行重采样和裁剪处理以适应模型输入。然后,在3D UNet网络的编码器各层引入DPA 并添加残差连接,加强特征的编码能力。同时,在网络解码器中加入MFA模块,以充分利用空间上下文信息,增强语义信息。最后,在公开数据集PROMISE12上进行验证,所提出的模型的Dice系数为89.90%,Hausdorff 距离为9.37 mm。相比较于其他模型,所提出模型的分割结果更优,且参数量和运算量更少。相似文献

13.

基于双重增强网络的跨模态行人重识别

陈梦蝶卢健张奇《光电子．激光》2024,35(7):745-752

针对异质样本差异、行人遮挡及背景干扰等造成的跨模态行人重识别(person re-identification,ReID)精度不高的问题,本文提出了一种基于通道与特征学习的双重增强网络(dual enhanced network,DEN)。首先从通道级出发,通过随机交换可见光通道来挖掘可见光与红外通道间的关系,增强模型对多模态样本变化的鲁棒性。其次从特征级出发,在模态共享网络前引入基于归一化的注意力模块(normalization-based attention module,NAM),通过惩罚贡献因子较小的权重来避免噪声对模态不变信息学习造成一定干扰。同时采用特征分离模块(feature separation module,FSM)来分离出身份相关特征与身份无关特征,有效提升了模型对异质样本的识别能力。最后联合难样本三元组和加权正则化损失对网络进行监督训练,从而约束行人特征学习。在RegDB数据集上,DEN的Rank1准确率和mAP分别达到了94.86%和90.10%的高水准。相似文献

14.

基于半监督生成对抗网络的乳腺癌图像分类

宣萌刘坤《光电子．激光》2022,33(7):770-777

本文针对仅有少量带标签样本时如何提高大量未标注样本分类的的鲁棒性和准确性问题,提出一种基于改进的半监督生成对抗网络(semi-supvised generative adversarial networks,SGAN) 的乳腺癌图像分类方法。该方法在输出层使用Softmax 函数替代 Sigmoid 函数实现多分类。首先将随机向量输入到生成网络中,生成伪样本并标记为伪样本类进行训练。接着将真实标签样本、真实无标签样本和伪样本输入到判别网络中,输出为不同类概率值;然后采用半监督训练方法反向传播更新参数;最后实现对乳腺癌病理图像的分类,标注样本数量分别为25、 50和200,最终准确率达到95.5%。实验结果表明,当标注样本有限时,本文算法的准确率具有良好的鲁棒性。本文算法相比于使用卷积神经网络和迁移学习(tranfer learning,TL)等分类方法准确率有了显著提高。相似文献

15.

融合双层注意力与多流卷积的肌电手势识别记忆网络

刘聪许婷婷马钰同刘粤孔祥斌胡胜《光电子．激光》2023,34(2):180-189

针对表面肌电信号(surface electromyography, sEMG)手势识别使用卷积神经网络(convolutional neural network, CNN)提取特征不够充分,且忽略时序信息而导致识别精度不高的问题,本文创新性地提出了一种融合双层注意力与多流卷积神经网络(multi-stream convolutional neural network, MS-CNN)的sEMG手势识别记忆网络模型。首先,利用滑动窗口生成的表面肌电图像作为该模型的输入;然后在MS-CNN中嵌入通道注意力层(channel attention module, CAM),弱化无关信息,使网络能够更加专注sEMG的有效特征;其次,通过长短期记忆网络(long short term memory network, LSTM)对输入的特征进行时序上的激励,关注更多sEMG的时序信息,让网络在时间维度上拥有更强的学习能力;最后,采用时序注意力(time-sequence attention, TSA)层对LSTM的状态进行关注,从而更好地学习重要肌肉信息,提高手势识别精度。在NinaPro数据集上... 相似文献

16.

基于深度特征提取和图神经网络匹配的图像复制粘贴篡改检测

陈文霞魏伟一陶洪《光电子．激光》2023,34(6):610-619

针对图像中特征提取不均匀、单尺度超像素划分对伪造定位结果影响较大的问题,提出一种基于深度特征提取和图神经网络(graph neural network,GNN) 匹配的图像复制粘贴篡改检测(cope-move forgery detection,CMFD) 算法。首先将图像进行多尺度超像素分割并提取深度特征,为保证特征点数目充足,以超像素为单位计算特征点分布的均匀度,自适应降低特征提取阈值;随后引入新的基于注意力机制的GNN特征匹配器,进行超像素间的迭代匹配,且用随机采样一致性(random sample consensus,RANSAC) 算法消除误匹配;最后将多尺度匹配结果进行融合,精确定位篡改区域。实验表明,所提算法具有良好的性能,也证明了GNN在图像篡改检测领域的可用性。相似文献

17.

Tone mapping based HDR compression: Does it affect visual experience?

《Signal Processing: Image Communication》2014,29(2):257-273

High Dynamic Range (HDR) content is visually more appealing since it can represent the real luminance of the scene. However, on the downside, this means that a large amount of data needs to be handled both during storage and processing. The other problem is that HDR content cannot be displayed on the conventional display devices due to their limited dynamic range. To overcome these two problems, dynamic range compression (or range reduction) is often used and this is accomplished by tone mapping operators (TMOs). As result of tone mapping, the HDR content is not only fit to be displayed on a regular display device but also compressed. However from an artistic intention point of view, TMOs are not necessarily transparent and might induce different viewing behavior. It is generally accepted that TMOs reduce visual quality and there have been a number of studies reported in literature which examine the impact of tone mapping from the view point of perceptual quality. In contrast to this, it is largely unclear if tone mapping will induce changes in visual attention (VA) as well and whether these are significant enough to be accounted for in HDR content processing. To our knowledge, no systematic study exists which sheds light on this issue. Given that VA is a crucial visual perception mechanism which affects the way we perceive visual signals, it is important to study the effect of tone mapping on VA deployment. Towards this goal, this paper investigates and quantifies how TMOs modify VA. Comprehensive subjective tests in the form of eye-tracking experiments have been conducted on several HDR content and using a large number of TMOs. Further non-parametric statistical analysis has been carried out to ascertain the statistical significance of the results obtained. Our studies suggest that TMOs can indeed modify human attention and fixation behavior. Based on this we believe that VA needs consideration for evaluating the overall perceptual impact of TMOs on HDR content. As mentioned, since the existing studies so far have only considered the quality or esthetic appeal angle, this study brings in a new perspective regarding the importance of VA in HDR content processing for visualization on LDR displays. 相似文献