期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

曾春艳严康王志锋余琰纪纯妹《计算机工程与应用》2021,57(8):1-9

深度学习技术以数据驱动学习的特点,在自然语言处理、图像处理、语音识别等领域取得了巨大成就。但由于深度学习模型网络过深、参数多、复杂度高等特性,该模型做出的决策及中间过程让人类难以理解,因此探究深度学习的可解释性成为当前人工智能领域研究的新课题。以深度学习模型可解释性为研究对象,对其研究进展进行总结阐述。从自解释模型、特定模型解释、不可知模型解释、因果可解释性四个方面对主要可解释性方法进行总结分析。列举出可解释性相关技术的应用,讨论当前可解释性研究存在的问题并进行展望,以推动深度学习可解释性研究框架的进一步发展。相似文献

2.

基于深度学习特征点法的单目视觉里程计

熊炜金靖熠王娟刘敏曾春艳《计算机工程与科学》2020,42(1):117-124

针对特征点法的视觉里程计VO中光度、视点变化对特征点提取稳定性降低的不利影响,提出一种基于深度学习特征点法的单目VO方法。采用自监督深度学习网络训练得到DSP特征点检测器。首先使用亮度非线性逐点调整方法对训练图像进行光度调整;然后使用非极大值抑制方法剔除冗余DSP特征点,改进最邻近方法得到双向最邻近方法,解决特征点匹配问题;最后建立最小化重投影误差方程求解优化位姿及空间点参数。在Hpatches、Visual Odometry数据集上进行验证,实验结果表明:DSP特征点检测器增强了特征匹配对光度、视点变化的鲁棒性;无后端优化的条件下,本方法定位均方根误差比ORB方法明显降低,且保证了系统实时性,为特征点法的VO提供新的解决思路。相似文献

3.

基于MD-LinkNet的低质量文档图像二值化算法

熊炜贾锈闳金靖熠王娟刘敏曾春艳《光电子．激光》2019,30(12):1331-1338

针对低质量文档图像存在的背景渗透、页面污渍、边缘大面积与文本相似的噪声等现象,改进D-LinkNet框架,提出了一种融合多尺度特征(multiple scale feature)的低质量文档图像二值化算法,简称为MD-LinkNet。该算法有两处改进,一是在编解码中间部分增加剩余多核池化(RMP)模块来通过四个池化操作以提取丰富的文档特征信息;二是将池化后的低分辨率图像通过DUpsample而不是双线性插值进行上采样,结合了文档图像像素邻域信息,将文档图像的全局与局部特征进行融合,提高了分割精度。实验结果表明,在2017 年和2018年国际文档图像二值化竞赛(DIBCO)数据集中,本文算法的F值(F-measure)最高分别达到了90.54、91.42,验证了所提出算法在解决多种复杂噪声背景的低质量文档图像下的鲁棒性,且相比其他最新经典算法效果较优。相似文献

4.

深度学习框架下说话人识别研究综述

下载免费PDF全文

曾春艳马超峰王志锋朱栋梁赵楠王娟刘聪《计算机工程与应用》2020,56(7):8-16

说话人识别由于其独特的方便性、经济性和准确性等优势,已成为人们日常生活与工作中重要的身份认证方式。然而在实际应用场景下,对说话人识别系统的准确性、鲁棒性、迁移性、实时性等提出了巨大的挑战。近年来深度学习在特征表达和模式分类方面表现优异,为说话人识别技术的进一步发展提供了新方向。相较于传统说话人识别技术（如GMM-UBM、GMM-SVM、JFA、i-vector等）,聚焦于深度学习框架下的说话人识别方法,按照深度学习在说话人识别中的作用方式,将目前的研究分为基于深度学习的特征表达、基于深度学习的后端建模、端到端联合优化三种类别,并分析和总结了其典型算法的特点及网络结构,对其具体性能进行了对比分析。最后总结了深度学习在说话人识别中的应用特点及优势,进一步分析了目前说话人识别研究面临的问题及挑战,并展望了深度学习框架下说话人识别研究的前景,以期推动说话人识别技术的进一步发展。相似文献

5.

数字音频来源被动取证研究综述

下载免费PDF全文

王志锋湛健曾春艳叶俊民田元闵秋莎左明章《计算机工程与应用》2020,56(5):1-12

数字音频来源被动取证研究旨在不依赖主动嵌入的数字水印或数字签名等冗余信息,通过原始数字音频数据的内在设备信息提取出表征设备源机器指纹的特征,进而对数字音频证据来源做出判断,在司法取证、军事信息、新闻传播等领域有着广泛的应用前景。目前,数字音频来源被动取证的研究综述面临时效性不足、针对性不够的问题。据此,给出了数字音频来源被动取证的研究框架和基本思路。对该领域常用的数据集做了简要的分析。根据数字音频来源被动取证的研究对象,将领域内的研究分为特征表达和表征建模两大模块,对频域信息特征、倒谱特征、基于高斯超矢量信息的特征、融合特征、深度特征五类特征,高斯混合取证模型、支持向量机决策模型、稀疏表达分类器决策模型、其他机器学习决策模型、深度学习决策模型五类模型的性能进行了比较分析。总结分析了数字音频来源被动取证领域的研究现状和存在的问题,并对未来的研究方向进行了展望。相似文献

6.

联合结构相似性与类信息的图像分类

下载免费PDF全文

熊炜刘豪王玥婧妍王娟曾春艳张凡《计算机工程与应用》2019,55(16):179-184

针对卷积神经网络训练收敛速度慢的问题，提出了一种加权的联合结构相似性和类信息监督训练的方法。首先，针对小图像，设计一个能有效提取图像高级别信息的卷积神经网络。其次，建立加权的联合结构相似性和类信息损失函数训练卷积神经网络。最后，通过mnist手写数字和cifar10图像分类实验验证所设计网络的有效性。实验结果表明，所设计的网络在mnist手写数字和cifar10数据集上的图像分类错误率分别为0.33%和11%。在未进行扩增mnist数据集的前提下，所设计的网络的性能超过了该数据集上所有单网络的性能；在cifar10数据集上，所设计的网络能以较少的计算量获得较高的图像分类准确率。同时，联合结构相似性和类信息损失的监督训练能加快网络的训练速度。相似文献

7.

篮球比赛视频节目中短管哨声检测方法

曾春艳窦维蓓《电声技术》2010,34(9):53-56

提出了一种检测篮球比赛视频中重要音频关键词（短管哨声）的方法。通过分析短管哨声的频谱分布特性提出一种二级检测方法：首先提取特定子带能量峰指数特征,并采用门限决策方法获得关键词候选集;第二级再结合梅尔频率倒谱系数和支持向量机得到最终的关键词检测结果。选取时长为1378s的NBA篮球比赛音频片段作为测试序列．验证了本方法具有正确率和检出率分别为95．45％和91.3％的性能。相似文献

8.

基于音频内容的篮球比赛精彩镜头检测

曾春艳窦维蓓《电视技术》2010,34(11)

提出了基于音频内容的篮球比赛精彩镜头检测系统.由音频统采用二叉树结构的多级支持向量机(SVM)分类器及SEFC-FDR方法检测5个关键词.第2个子系统提出事件的二级转换模型.对3场总时长约319min的NBA比赛进行测试,得分的平均准确率和回检率分别为64.89%和86.21%,犯规分别为64.60%和66.86%. 相似文献

9.

基于特征跟踪和网格路径运动的视频稳像算法

熊炜王传胜管来福童磊刘敏曾春艳《计算机工程与科学》2020,42(5):843-850

针对手持移动设备拍摄的抖动视频问题,提出了一种基于特征跟踪和网格路径运动的视频稳像算法。通过SIFT算法提取视频帧的特征点,采用KLT算法追踪特征点,利用RANSAC算法估计相邻帧间的仿射变换矩阵,将视频帧划分为均匀的网格,计算视频的运动轨迹,再通过极小化能量函数优化平滑多条网格路径。最后由原相机路径与平滑相机路径的关系,计算相邻帧间的补偿矩阵,利用补偿矩阵对每一帧进行几何变换,从而得到稳定的视频。实验表明,该算法在手持移动设备拍摄的抖动视频中有较好的结果,其中稳像后视频的PSNR平均值相比原抖动视频PSNR值大约提升了11.2 dB。与捆绑相机路径方法相比约提升了2.3 dB。图像间的结构相似性SSIM平均值大约提升了59%,与捆绑相机路径方法相比约提升了3.3%。相似文献

10.

基于深度学习的场景文本检测算法研究

熊炜艾美慧杨荻椿李利荣刘敏王娟曾春艳《光电子．激光》2021,32(7):728-734

针对自然场景中任意形状文本图像因文本行难以区分导致的信息丢失问题,提出了一种基于深度学习的场景文本检测算法。首先构建特征提取模块,使用Resnet50作为骨干网络,在增加跨层连接的金字塔网络结构中引入并联的空洞卷积模块,以提取更多语义信息; 其次,对得到的特征图进行多尺度特征融合,学习不同尺度的特征;最后预测出不同内核大小的文本实例,并通过尺度扩展逐渐扩大文本行区域,直到得到最终的检测结果。实验结果表明,该方法在SCUT-CTW1500弯曲文本数据集上的准确率、召回率及F1值分别达到88.5%、 77.0%和81.3%,相比其他基于分割的算法,该算法对弯曲文本的检测效果良好,具有一定的应用价值。相似文献