首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 281 毫秒
1.
摘 要:针对传统方法在单目视觉图像深度估计时存在鲁棒性差、精度低等问题,提出一 种基于卷积神经网络(CNN)的单张图像深度估计方法。首先,提出层级融合编码器-解码器网络, 该网络是对端到端的编码器-解码器网络结构的一种改进。编码器端引入层级融合模块,并通过 对多层级特征进行融合,提升网络对多尺度信息的利用率。其次,提出多感受野残差模块,其 作为解码器的主要组成部分,负责从高级语义信息中估计深度信息。同时,多感受野残差模块 可灵活地调整网络感受野大小,提高网络对多尺度特征的提取能力。在 NYUD v2 数据集上完 成网络模型有效性验证。实验结果表明,与多尺度卷积神经网络相比,该方法在精度 δ<1.25 上 提高约 4.4%,在平均相对误差指标上降低约 8.2%。证明其在单张图像深度估计的可行性。  相似文献   

2.
目的 基于单幅RGB图像的手势姿态估计受手势复杂性、手指特征局部自相似性及遮挡问题的影响,导致手势姿态估计准确率低。为此,提出一种面向单目视觉手势姿态估计的多尺度特征融合网络。方法 1)采用ResNet50(50-layer residual network)模块从RGB图像提取不同分辨率特征图,通过通道变换模块显式地学习特征通道间的依赖关系,增强重要的特征通道信息,弱化次要的特征通道信息。2)在全局回归模块中,通过设计节点间的连接方式融合不同分辨率特征图,以便充分利用图像的细节与整体信息。采用局部优化模块继续提取更深层的特征信息,获得手部关节点的高斯热图,以此修正遮挡等原因造成部分关节点回归不准确的问题。3)计算经通道变换模块处理后的最小特征图,通过全局池化和多层感知机处理该特征图以获得手势类别和右手相对于左手的深度。4)综合以上结果获得最终的手势姿态。结果 采用InterHand2.6M和RHD(rendered handpose dataset)数据集训练多尺度特征融合网络,评估指标中根节点的平均误差和关节点的平均误差,均低于同类方法,且在一些复杂和遮挡的场景下鲁棒性更高。在In...  相似文献   

3.
石跃祥  许湘麒 《控制与决策》2021,36(5):1206-1212
针对图像中由于人数不确定对处理速度的影响,以及不同人体或人体自身部位的相对大小不同等尺度因素影响导致通用的关键点检测方法的检测效果不佳等问题,提出一种改进的稠密卷积网络(DenseNet)结构用于人体姿态估计.该网络结构为单阶段的端对端的网络结构,利用深度卷积神经网络进行特征提取,在卷积网络末端通过特定的尺度转换结构得到6种不同尺度的特征图,使得网络能同时使用不同层次的特征进行多尺度关键点检测,可以有效提高检测精度.所提出方法采用自底向上的方式,使得网络进行多人姿态估计任务的处理速度得到保证.实验表明,所提出方法相比几种主流方法在多人关键点检测的平均精度上提升了1个百分点,为平衡姿态估计的速度与精度提供了一种新方法.  相似文献   

4.
针对6DoF姿态估计需要收集与标注大量数据训练神经网络提出一种小数据集下面向目标6DoF姿态与尺寸估计的全卷积神经网络模型以降低人工操作成本。首先采用注意力机制与特征金字塔相结合的方式通过区域建议网络提取感兴趣区域,将该区域输入并行融合全卷积网络获得掩膜图;其次通过增加跳跃连接丰富每个卷积后的特征信息,将其融合并通过分类获得预测标准化坐标空间图;最后将得到的掩膜图与标准化坐标空间图通过三维点云配准获得目标的6DoF姿态与尺寸。实验表明,该方法在小数据集下较PVN3D方法精度提升约2.6%,较GPVPose方法精度提升约1%。  相似文献   

5.
卷积神经网络(CNN)具有强大的特征提取能力,能够有效地提高高光谱图像的分类精度.然而CNN模型训练需要大量的训练样本参与,以防止过拟合,Gabor滤波器以非监督的方式提取图像的边缘和纹理等空间信息,能够减轻CNN模型对训练样本的依赖度及特征提取的压力.为了充分利用CNN和Gabor滤波器的优势,提出了一种双通道CNN和三维Gabor滤波器相结合的高光谱图像分类方法Gabor-DC-CNN.首先利用二维卷积神经网络(2D-CNN)模型处理原始高光谱图像数据,提取图像的深层空间特征;同时利用一维卷积神经网络(1D-CNN)模型处理三维Gabor特征数据,进一步提取图像的深层光谱-纹理特征.连接2个CNN模型的全连接层实现特征融合,并将融合特征输入到分类层中完成分类.实验结果表明,该方法能够有效地提高分类精度,在Indian Pines,Pavia University和Kennedy Space Center 3组数据上分别达到98.95%,99.56%和99.67%.  相似文献   

6.
三维人体姿态估计在本质上是一个分类问题和回归问题,主要通过图像估计人体的三维姿态。基于传统方法和深度学习方法的三维人体姿态估计是当前研究的主流方法。按照传统方法到深度学习方法的顺序对近年来三维人体姿态估计方法进行系统介绍,从而了解传统方法通过生成和判别等方法得到人体姿态的众多要素完成三维人体姿态的估计。基于深度学习的三维人体姿态估计方法主要通过构建神经网络,从图像特征中回归出人体姿态信息,大致可以分为基于直接回归方法、基于2D信息方法和基于混合方法的三维人体姿态估计这三类。最后对当前三维人体姿态估计研究所面临的困难与挑战进行阐述,并对未来的研究趋势做出展望。  相似文献   

7.
《软件》2019,(6):109-112
手势识别是当前计算机视觉的一个重要研究课题,由于手势旋转,角度等因素的影响,视频手势识别仍是一项具有挑战性的任务。该文提出了一种基于三维密集卷积神经网络和门限循环单元的双通道手势识别算法,通过三维密集卷积神经网络获取手势的空间信息,使用门限循环单元学习视频中手势的时序信息,最后融合RGB图像和深度图像的深度学习模型特征以此对手势进行识别。在ISOGD数据集上的实验表明,该手势识别算法能够有效提高了视频手势识别的准确率。  相似文献   

8.
手部姿态估计在人机交互、手功能评估、虚拟现实和增强现实等应用中发挥着重要作用, 为此本文提出了一种新的手部姿态估计方法, 以解决手部区域在大多数图像中占比较小和已有单视图关键点检测算法无法应对遮挡情况的问题. 所提方法首先通过引入Bayesian卷积网络的语义分割模型提取手部目标区域, 在此基础上针对手部定位结果, 利用所提基于注意力机制和级联引导策略的新模型以获得较为准确的手部二维关键点检测结果.然后提出了一种利用立体视觉算法计算关键点深度信息的深度网络, 并在深度估计中提供视角自学习的功能. 该方式以三角测量为基础, 利用RANSAC算法对测量结果进行校准. 最后经过多任务学习和重投影训练对手部关键点的3D检测结果进行优化, 最终提取手部关键点的三维姿态信息. 实验结果表明: 相比于已有的一些代表性人手区域检测算法, 本文方法在人手区域检测上的平均检测精度和运算时间上有一定的改善. 此外, 从本文所提姿态估计方法与已有其他方法的平均端点误差(EPE_mean)和PCK曲线下方面积(AUC)这些指标的对比结果来看, 本文方法的关键点检测性能更优, 因而能获得更好的手部姿态估计结果.  相似文献   

9.
马利  金珊杉  牛斌 《计算机应用研究》2020,37(10):3188-3192
针对单幅深度图像三维手姿估计中由于手部复杂结构捕捉困难导致的精度低和鲁棒性较差的问题,提出一种基于改进PointNet网络的三维手姿估计方法。该方法首先采用边界框定位网络预测三维边界框,从而准确裁剪手部区域。然后将手部深度图像表示为点云,模拟手部可见表面,有效地利用深度图像中的三维信息。最后将手部点云数据输入改进的PointNet网络,准确地进行三维手姿估计。改进的PointNet网络通过引入跳跃连接,充分利用不同层次的特征,更好地捕捉手部的复杂结构。在NYU手姿数据集上进行验证,实验结果表明,提出的方法优于现有的大部分方法,并且网络结构简单、易于训练,运行速度快。  相似文献   

10.
针对复杂环境中动态手势识别精度低且鲁棒性不强的问题,提出一种基于多模态融合的动态手势识别算法TF-MG。TF-MG结合深度信息和三维手部骨架信息,利用2种不同网络分别提取对应特征信息,然后将提取的特征融合输入分类网络,实现动态手势识别。针对深度信息运用运动历史图像方法,将运动轨迹压缩到单帧图像,使用MobileNetV2提取特征。针对三维手部骨架信息采用门控循环神经单元组成的DeepGRU对手部骨架信息进行特征提取。实验结果表明,在DHG-14/28数据集上,对14类手势识别精度达到93.29%,对28类手势识别精度达到92.25%。相对其他对比算法实现了更高的识别精度。  相似文献   

11.
尽管3D人体姿态估计已经相对成功,但现存方法在复杂场景下的性能依然差强人意。为了提高在无约束场景下3D人体姿态估计的准确性以及鲁棒性,提出了ARGP-Pose,一种基于探索关键点间关系的单目视频3D人体姿态估计框架。该框架包含一种关键点信息预处理方式以及3D姿态估计网络结构。关键点预处理能够强化结构特征,抽取出关键点之间联系信息,并作为网络输入。3D姿态估计网络能够融合各个关键点的局部信息以及整体姿态的全局信息。此外,利用自注意力模块来提取有效时序信息,以进一步提高预测准确度。而对于复杂姿态,采用了分组预测的方式将复杂动作的预测分解为各个点的预测,从而使网络对复杂姿态的估计能力有了明显的提高。在Human3.6M和HumanEva-I这两个著名数据集上的实验结果证明了所提出的方法的优越性。  相似文献   

12.
童立靖  李嘉伟 《图学学报》2022,43(5):892-900
针对 PointNet++网络处理点云局部特征时因分组范围区过大导致计算量较大的问题,提出一种改 进的 PointNet++网络的三维手姿估计方法。首先对手势点云进行基于 Delaunay 三角剖分算法与 K 中位数聚类算 法相结合的三角剖分,得到手势点云的三角网格模型,并计算三角网格模型的边长均值;然后以三角网格模型边 长均值为半径,对最远点采样(FPS)的采样点进行球查询搜索,再根据搜索到的采样点个数极值对采样点云进行 K 近邻分组,并最终输入 PointNet 网络,完成三维手姿的位置估计。改进后的 PointNet++网络可以根据不同的点云 密度自动调整网络分组区域的局部提取点个数。实验结果表明,在不影响三维手姿估计精度的情况下,该方法提 高了 PointNet++网络的模型训练速度,并在三维手姿估计中可有效减少特征提取的计算量,使计算机能够更快地 捕捉手姿状态。  相似文献   

13.
目前基于彩色图像的手姿态2D关键点热图估计大多数采用卷积姿势机或沙漏网络进行,但这两种网络不能同时满足高分辨率表示保持学习和多尺度特征融合。针对该问题引用了一种多尺度高分辨率保持的网络,该网络采用高低分辨率表示并行设计的结构,并通过融合所有分辨率表示增强各分辨率表示的特征,而且拥有多个阶段提取高质量特征用于2D热图估计。为得到3D手姿态,还使用了全局旋转视角不变的方法将2D热图映射到3D姿态。在三个公开数据集(RHD、STB、Dexter+Object)上分别对2D手姿态估计和3D手姿态估计进行了实验,结果验证了该方法在手姿态估计中的有效性。  相似文献   

14.

Due to severe articulation, self-occlusion, various scales, and high dexterity of the hand, hand pose estimation is more challenging than body pose estimation. Recently-developed body pose estimation algorithms are not suitable for addressing the unique challenges of hand pose estimation because they are trained without explicitly modeling structural relationships between keypoints. In this paper, we propose a novel cascaded hierarchical CNN(CH-HandNet) for 2D hand pose estimation from a single color image. The CH-HandNet includes three modules, hand mask segmentation, preliminary 2D hand pose estimation, and hierarchical estimation. The first module obtains a hand mask by hand mask segmentation network. The second module connects the hand mask and the intermediate image features to estimate the 2D hand heatmaps. The last module connects hand heatmaps with the intermediate image features and hand mask to estimate finger and palm heatmaps hierarchically. Finally, the extracted Finger(pinky,ring,middle,index) and Palm(thumb and palm) feature information are fused to estimate 2D hand pose. Experimental results on three datasets - OneHand 10k, Panoptic, and Eric.Lee, consistently shows that our proposed CH-HandNet outperforms previous state-of-the-art hand pose estimation methods.

  相似文献   

15.
目的 2D姿态估计的误差是导致3D人体姿态估计产生误差的主要原因,如何在2D误差或噪声干扰下从2D姿态映射到最优、最合理的3D姿态,是提高3D人体姿态估计的关键。本文提出了一种稀疏表示与深度模型联合的3D姿态估计方法,以将3D姿态空间几何先验与时间信息相结合,达到提高3D姿态估计精度的目的。方法 利用融合稀疏表示的3D可变形状模型得到单帧图像可靠的3D初始值。构建多通道长短时记忆MLSTM(multi-channel long short term memory)降噪编/解码器,将获得的单帧3D初始值以时间序列形式输入到其中,利用MLSTM降噪编/解码器学习相邻帧之间人物姿态的时间依赖关系,并施加时间平滑约束,得到最终优化的3D姿态。结果 在Human3.6M数据集上进行了对比实验。对于两种输入数据:数据集给出的2D坐标和通过卷积神经网络获得的2D估计坐标,相比于单帧估计,通过MLSTM降噪编/解码器优化后的视频序列平均重构误差分别下降了12.6%,13%;相比于现有的基于视频的稀疏模型方法,本文方法对视频的平均重构误差下降了6.4%,9.1%。对于2D估计坐标数据,相比于现有的深度模型方法,本文方法对视频的平均重构误差下降了12.8%。结论 本文提出的基于时间信息的MLSTM降噪编/解码器与稀疏模型相结合,有效利用了3D姿态先验知识,视频帧间人物姿态连续变化的时间和空间依赖性,一定程度上提高了单目视频3D姿态估计的精度。  相似文献   

16.
快速、可靠的手部姿态估计在人机交互等领域有着广泛的应用。为了解决光照强度变化、自身遮挡以及姿态变化幅度较大等情况对手部姿态估计的影响,提出了一种基于标签分布学习的深度网络结构。该网络将手部点云作为输入数据,首先通过最远点采样和定向边界框(OBB)对点云数据进行归一化处理,然后采用PointNet++提取手部点云数据特征。为了应对点云数据与手部关节点之间的高度非线性关系,通过标签分布学习网络预测手部关节点的位置信息。与传统的基于深度图的方法相比,该方法能够高效地提取高鉴别力的手部几何特征,并且计算复杂度较低、精确度较高。为了验证提出的手部姿态估计网络的有效性,在公共数据集MSRA上进行了一系列测试。实验结果表明,该网络估计出的手部关节点位置的平均误差为8.43 mm,平均每帧的处理时间为12.8 ms,而且姿态估计的误差相较于3D CNN算法降低了11.82%,相较于Hand PointNet算法降低了0.83%。  相似文献   

17.
针对二维人脸识别对姿态与光照变化较为敏感的问题,提出了一种基于三维数据与混合多尺度奇异值特征MMSV(mixture of multi-scale singular value,MMSV)的二维人脸识别方法。在训练阶段,利用三维人脸数据与光照模型获取大量具有不同姿态和光照条件的二维虚拟图像,为构造完备的特征模板奠定基础;同时,通过子集划分有效地缓解了人脸特征提取过程中的非线性问题;最后对人脸图像进行MMSV特征提取,从而对人脸的全局与局部特征进行融合。在识别阶段,通过计算MMSV特征子空间距离完成分类识别。实验证明,提取到的MMSV特征包含有更多的鉴别信息,对姿态和光照变化具有理想的鲁棒性。该方法在WHU-3D数据库上取得了约98.4%的识别率。  相似文献   

18.
Head pose estimation plays an essential role in many high-level face analysis tasks. However, accurate and robust pose estimation with existing approaches remains challenging. In this paper, we propose a novel method for accurate three-dimensional (3D) head pose estimation with noisy depth maps and high-resolution color images that are typically produced by popular RGBD cameras such as the Microsoft Kinect. Our method combines the advantages of the high-resolution RGB image with the 3D information of the depth image. For better accuracy and robustness, features are first detected using only the color image, and then the 3D feature points used for matching are obtained by combining depth information. The outliers are then filtered with depth information using rules proposed for depth consistency, normal consistency, and re-projection consistency, which effectively eliminate the influence of depth noise. The pose parameters are then iteratively optimized using the Extended LM (Levenberg-Marquardt) method. Finally, a Kalman filter is used to smooth the parameters. To evaluate our method, we built a database of more than 10K RGBD images with ground-truth poses recorded using motion capture. Both qualitative and quantitative evaluations show that our method produces notably smaller errors than previous methods.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号