首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 251 毫秒
1.
二维手部姿态估计是人机交互领域的一项关键技术。为增强复杂环境下系统鲁棒性,提高手势姿态估计精度,提出一种基于目标检测和热图回归的YOLOv3-HM算法。首先,利用YOLOv3算法从RGB图像中识别框选手部区域,采用CIoU作为边界框损失函数;然后,结合热图回归算法对手部的21个关键点进行标注;最终,通过回归手部热图实现二维手部姿态估计。分别在FreiHAND数据集与真实场景下进行测试,结果表明,该算法相较于传统手势检测算法在姿态估计精度和检测速度上均有所提高,对手部关键点的识别准确率达到99.28%,实时检测速度达到59 f/s,在复杂场景下均能精准实现手部姿态估计。  相似文献   

2.
针对复杂场景下仅依靠传统的目标检测与跟踪算法进行跟踪时准确度低且速度慢的问题,提出一种基于GhostNet与注意力机制结合的行人检测与跟踪算法.首先,将YOLOv3的主干网络替换为GhostNet,保留多尺度预测部分,利用Ghost模块减少深度网络模型参数和计算量,在Ghost模块中融入注意力机制给予重要特征更高的权值...  相似文献   

3.
针对复杂背景下手势运动过程中出现的手势形态变化、遮挡、光照变化等问题,提出了一种基于时空上下文的手势跟踪与识别方法。使用机器学习方法离线训练手势样本分类器,实现对手势的检测和定位;利用时空上下文跟踪算法对动态手势进行跟踪,同时为了避免跟踪过程中出现的漂移、目标丢失等情况,使用手势检测算法对手势位置信息进行实时校准;根据手势运动轨迹对手势运动进行跟踪与识别。实验表明,提出的方法可以实现对手势运动快速、准确、连续识别,满足人机交互的要求。  相似文献   

4.
对街道场景视频或图像数据中的人和车辆进行实时检测是导盲系统中难度很高的任务,针对街道目标检测任务,提出了一个根据目标检测技术YOLOv3算法改进的街道场景检测算法YOLOv3-Street,分别在传统YOLOv3算法的网络框架以及数据增强方式上进行了改进。针对传统的主特征提取网络Darknet53采用CSPDarknet53改进结构,实现更丰富的梯度组合,同时减少计算量;引入特征金字塔SPP和PAN结构,增加网络感受野;使用Mosaic数据增强避免过拟合。实验过程中采用MIT的CBCLStreetScenes数据集并对3547张数据中的汽车,行人等目标进行训练和测试。结果表明,所提出的街道场景检测算法,能够在不受天气、光照、角度等条件约束实时速度达到69FPS,mAP为79.35%,实现了街道场景检测实时性与精度的良好平衡,提升了盲人出行的安全指数。  相似文献   

5.
针对现有的单目视觉下动态手势识别率低、识别手势种类少等问题提出一种联合卷积神经网络和支持向量机分类(CNN-Softmax-SVM)的动态手势识别算法.首先采用一种基于YCbCr颜色空间和HSV颜色空间的快速指尖检测跟踪,能在复杂背景下实时获取指尖运动轨迹;其次将指尖运动轨迹作为联合CNN-Softmax-SVM网络的输入,最终通过训练网络来识别动态手势.测试结果显示,采用联合CNN-Softmax-SVM算法能够很好地识别动态手势.  相似文献   

6.
视频监控系统中的人员异常行为识别研究具有重要意义.针对传统算法检测实时性和准确性差,易受环境影响的问题,提出一种基于骨架序列提取的异常行为识别算法.首先,改进YOLOv3网络用以对目标进行检测、结合RT-MDNet算法进行跟踪,得到目标的运动轨迹;然后,利用OpenPose模型提取轨迹中目标的骨架序列;最后通过时空图卷积网络结合聚类对目标进行异常行为识别.实验结果表明,在存在光照变化的复杂环境下,算法识别准确率达94%,处理速度达18.25 fps,能够实时、准确地识别多种目标的异常行为.  相似文献   

7.
考虑多目标跟踪过程中存在的实时性和身份跳变问题,提出一种基于检测的多车辆跟踪算法。首先利用Mobilenetv2替换YOLOv3检测算法的主干网络,构建目标检测模块YOLOv3-Mobilenetv2,减少检测算法模型参数,提高检测模块的运行速度;在Mobilenetv2中引入Bottom-up连接,增强多尺度特征图间的信息融合;然后构建基于LSTM的运动模型,解决卡尔曼滤波在非线性系统中产生的预测误差,基于Deepsort跟踪算法,引入LSTM运动模型,形成L-Deepsort跟踪算法;改进L-Deepsort跟踪算法外观匹配策略,提升目标间的关联性;最后融合轻量级目标检测算法YOLOv3-Mobilenetv2与多目标跟踪算法L-Deepsort,形成MYL-Deepsort多车辆跟踪算法,实现多车辆的实时准确跟踪。实验结果表明,该方法在跟踪性能提升的情况下,速度较YOLOv3-Deepsort提高21 frame/s,在TX2平台达到13 frame/s。  相似文献   

8.
针对水下图像模糊、颜色失真,水下场景环境复杂、目标特征提取能力有限等导致的水下鱼类目标检测精确度低的问题,提出一种基于YOLOv5的改进水下鱼类目标检测算法.首先,针对水下图像模糊、颜色失真的问题,引入水下暗通道优先(underwater dark channel prior, UDCP)算法对图像进行预处理,有助于在不同环境下正确识别目标;然后,针对水下场景复杂、目标特征提取能力有限问题,在YOLOv5网络中引入高效的相关性通道(efficient channel attention, ECA),增强对目标的特征提取能力;最后,对损失函数进行改进,提高目标检测框的准确度.通过实验证明改进后的YOLOv5在水下鱼类目标检测中精确度比原始的YOLOv5提高了2.95%,平均检测精度(mAP@0.5:0.95)提高了5.52%.  相似文献   

9.
基于改进YOLOv3的火灾检测与识别   总被引:1,自引:0,他引:1  
现阶段火灾频发,需要自动进行火灾的检测与识别,虽然存在温度、烟雾传感器等火灾检测手段,但是检测实时性得不到保证.为了解决这一问题,提出了基于改进YOLOv3的火灾检测与识别的方法.首先构建一个多场景大规模火灾目标检测数据库,对火焰和烟雾区域进行类别和位置的标注,并针对YOLOv3小目标识别性能不足的问题进行了改进.结合深度网络的特征提取能力,将火灾检测与识别形式化为多分类识别和坐标回归问题,得到了不同场景下火焰和烟雾两种特征的检测识别模型.实验表明,本文提出的改进YOLOv3算法对不同拍摄角度、不同光照条件下的火焰和烟雾检测都能得到理想的效果,同时在检测速度上也满足了实时检测的需求.  相似文献   

10.
基于遥感目标在密集分布和背景复杂场景中因特征提取和表达能力的不足而存在漏检和检测效果不佳的问题,提出了改进YOLOv4的遥感目标检测算法.对用于检测目标的锚框(anchor)用K-means聚类算法重新聚类来减少网络计算量;改进特征提取网络结构,引入残差连接取缔网络中连续卷积操作来提高密集目标特征提取能力;在特征提取网络中激活函数加入自适应激活与否的特征激活平滑因子,而在PANet特征融合网络结构中采用Mish激活函数,增强网络对非线性特征的提取能力,从而提升网络的特征提取能力,提高遥感目标在密集分布场景中的检测效果.将所提算法和原始的YOLOv4目标检测算法在遥感图像数据集上进行对比实验,改进YOLOv4算法在实验选用的遥感图像测试数据集上的平均准确率均值(mAP)达到85.05%,与YOLOv4算法相比,mAP提升了5.77个百分点.实验结果表明,在单目标密集分布和多目标混合分布等背景复杂条件下,改进YOLOv4算法具有更好的检测效果.  相似文献   

11.
江超  艾矫燕 《计算机应用》2012,32(Z1):128-133
利用OpenCV计算机视觉库在vs2008平台上设计了一个基于实时摄像头的集动态手势检测、动态手势跟踪、动态手势轨迹识别的应用.首先,该应用基于静止的背景更新,利用背景差分检测运动手势,再结合颜色直方图的粒子滤波进行动态手势跟踪,最后利用隐马尔可夫模型(HMM)进行运动轨迹识别.在运动检测部分结合了背景差分图与通过颜色直方图获得的反投影图,达到比较满意的实时运动检测效果;在运动手势跟踪部分,改进的颜色直方图的粒子跟踪能够在经过类肤色人脸的干扰后迅速地找回运动手势,基本达到了跟踪的要求,但是同时对于HMM识别轨迹时需要的运动轨迹序列采集造成了影响;在识别轨迹部分,HMM的训练达到了识别的要求,但是识别的效果主要取决于实时运动轨迹序列的采集工作与采集方法的优化.  相似文献   

12.
在智能人机交互中, 以交互人的视角为第一视角的手势表达发挥着重要作用, 而面向第一视角的手势识别则成为最重要的技术环节. 本文通过深度卷积神经网络的级联组合, 研究复杂应用场景中第一视角下的一次性学习手势识别(One-shot learning hand gesture recognition, OSLHGR)算法. 考虑到实际应用的便捷性和适用性, 运用改进的轻量级SSD (Single shot multibox detector)目标检测网络实现第一视角下手势目标的快速精确检测; 进而, 以改进的轻量级U-Net网络为主要工具进行复杂背景下手势目标的像素级高效精准分割. 在此基础上, 以组合式3D深度神经网络为工具, 研究提出了一种第一视角下的一次性学习手势动作识别的网络化算法. 在Pascal VOC 2012数据集和SoftKinetic DS325采集的手势数据集上进行的一系列实验测试结果表明, 本文所提出的网络化算法在手势目标检测与分割精度、分类识别准确率和实时性等方面都有显著的优势, 可为在复杂应用环境下实现便捷式高性能智能人机交互提供可靠的技术支持.  相似文献   

13.
本文主要研究了动态手势识别在PPT播放当中的应用,即在播放过程中能够通过动态手势控制PPT的翻页.首先在动态手势检测的研究中,通过采用背景差分和基于HSV的肤色建模相结合的方法,分割出了较好的动态手势图像.其次,通过对几种动态手势的跟踪算法的分析与比较,采用了主流的非线性跟踪算法W勇瞬’惴?通过对得到的手势图像中的V分量值的人为设置,消除了在跟踪过程中脸部及其他的类肤色干扰,从而避免了手势跟踪过程中的遮挡问题.最后通过采用隐马尔可夫模型与阈值Max相结合的方法,实现了对PPT播放的实时控制.实验结果表明动态手势的识别能够应用到PPT播放当中,并最终实现了利用动态手势来实时控制PPT的翻页.  相似文献   

14.
In this paper, we propose a new method for recognizing hand gestures in a continuous video stream using a dynamic Bayesian network or DBN model. The proposed method of DBN-based inference is preceded by steps of skin extraction and modelling, and motion tracking. Then we develop a gesture model for one- or two-hand gestures. They are used to define a cyclic gesture network for modeling continuous gesture stream. We have also developed a DP-based real-time decoding algorithm for continuous gesture recognition. In our experiments with 10 isolated gestures, we obtained a recognition rate upwards of 99.59% with cross validation. In the case of recognizing continuous stream of gestures, it recorded 84% with the precision of 80.77% for the spotted gestures. The proposed DBN-based hand gesture model and the design of a gesture network model are believed to have a strong potential for successful applications to other related problems such as sign language recognition although it is a bit more complicated requiring analysis of hand shapes.  相似文献   

15.
研究基于计算机视觉的实时动态手势识别技术,并利用OpenCV计算机视觉库在VS2010平台上设计一个基于该技术在多媒体教学中PPT演示控制方面的应用。首先,利用背景差分法进行手势检测,在背景更新的基础上,通过背景差分图和颜色直方图的反投影图来检测运动手势区域,可以达到较为满意的实时运动手势检测效果;其次,采用基于颜色直方图的粒子跟踪算法进行手势跟踪,基本能满足跟踪的实时性;最后,在手势识别阶段,采用基于Hu不变矩的轮廓匹配算法,得到较好的手势识别效果;使用六种手势,来实现演示文稿中的控制应用。  相似文献   

16.
针对无人机视频中存在目标密集、运动噪声强而导致跟踪性能显著下降的问题,提出了一种改进YOLOv3的车辆检测算法及一种基于深度度量学习的多车辆跟踪算法。针对车辆检测的精度与实时性问题,采用深度可分离卷积网络MobileNetv3作为特征提取网络实现网络结构轻量化,同时采用CIoU Loss作为边框损失函数对网络进行训练。为了在多目标跟踪过程中提取到更具判别力的深度特征,提出了一种基于深度度量学习的多车辆跟踪算法,实验证明,本文提出的算法有效改善车辆ID跳变问题,速度上满足无人机交通视频下车辆跟踪的实时性要求,达到17 f/s。  相似文献   

17.
This article proposes a 3-dimensional (3D) vision-based ambient user interface as an interaction metaphor that exploits a user's personal space and its dynamic gestures. In human-computer interaction, to provide natural interactions with a system, a user interface should not be a bulky or complicated device. In this regard, the proposed ambient user interface utilizes an invisible personal space to remove cumbersome devices where the invisible personal space is virtually augmented through exploiting 3D vision techniques. For natural interactions with the user's dynamic gestures, the user of interest is extracted from the image sequences by the proposed user segmentation method. This method can retrieve 3D information from the segmented user image through 3D vision techniques and a multiview camera. With the retrieved 3D information of the user, a set of 3D boxes (SpaceSensor) can be constructed and augmented around the user; then the user can interact with the system by touching the augmented SpaceSensor. In the user's dynamic gesture tracking, the computational complexity of SpaceSensor is relatively lower than that of conventional 2-dimensional vision-based gesture tracking techniques, because the touched positions of SpaceSensor are tracked. According to the experimental results, the proposed ambient user interface can be applied to various systems that require real-time user's dynamic gestures for their interactions both in real and virtual environments.  相似文献   

18.
针对动态手势跟踪稳定性的不足和识别效率的问题, 提出一种基于TLD和DTW的动态手势跟踪识别框架. 首先利用基于Haar特征的静态手势分类器获得手势区域, 然后使用TLD跟踪算法对获得的手势区域进行跟踪以获取手势轨迹, 最后提取轨迹特征, 使用改进的DTW算法进行识别. 实验表明, 该框架能够长时间稳定地跟踪手势区域, 并能够在保证识别率的基础上显著提高识别效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号