首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 180 毫秒
1.
针对现实场景图片中的文字区域具有仿射变换和多方向的问题,设计了一种带有仿射变换锚点,能够生成仿射变换文本预测框的文本检测网络。按照常见文字实例的仿真变换形状,给定了6种固定角度和5个固定变换量。检测过程中对预测候选框的角度和偏移值进行了调整拟合,最后对边框进行了回归,让检测结果更适应真实文字区域的边界框。与以往的文字检测网络相比,该检测方法能够有效适应文字区域,在检测精度和平均指标上分别有了7%和10%的提升。  相似文献   

2.
利用印刷电路板(PCB)残片图像的字符检索完整PCB图像,是解决PCB残片溯源难题的一种有效方法;为此,提出了一种高性能的PCB图像字符检测方法。基于残差网络结构实现特征金字塔的提取,设计双检测头进行字符区域预测,引入结构相似性损失函数优化网络;设计了一种适合PCB图像的字符区域热力图标签生成算法以训练网络;采用多种数据增强、多尺度检测等策略提高字符检测性能。在自建PCB图像数据集上进行测试,该方法的字符检测精准率为95.6%、召回率为92.4%;特别是综合指标F1为93.6%,优于对比方法,证明了针对PCB图像字符检测问题,所提出的综合检测方法可与当前自然场景图像字符检测的先进方法媲美。  相似文献   

3.
在无人机航拍视频烟雾检测领域中,由于不同检测场景差异大,导致现有烟雾检测算法经常出现检测精度低、速度慢等问题。为了解决以上问题,建立了一个基于无人机视角的多类场景下的烟雾数据集(UAV smoke dataset,USD),并提出了一种改进YOLOx的多类场景下无人机视频烟雾检测算法。首先,在YOLOx网络模型中引入改进的注意力机制,分别改进通道特征和空间特征的提取过程,提取更加具有表征能力的烟雾特征;然后,提出一种双向特征融合模块,增强多尺度特征融合模块对小目标烟雾特征的融合能力;最后,引入Focal-EIOU损失函数,解决训练过程中出现正负样本不平衡,以及预测框和真实框不相交时无法反映两个框的距离远近和重合度大小等问题。实验结果表明,所提算法在应用于多类场景下无人机视频烟雾检测任务时具有较好的鲁棒性,对比多个经典烟雾检测算法,本文算法在不同数据集上的烟雾检测准确率均有不同的提升,比如对比原有的YOLOx-s模型,准确率提升2.7%,召回率提升3%,速度达到73.6帧/s。  相似文献   

4.
针对在自然场景中文本定位需要大量样本训练导致算法运行速度较慢且倾斜文本难以定位的问题,提出了一种基于最大稳定极值区域(maximally stable extremal regions,MSER)结合层次聚类的快速自然场景倾斜文本定位算法。利用MSER椭圆拟合的方法对图片进行最大极值稳定区域的选取,并根据拟合椭圆的自身特征和在图像上的位置特征,过滤掉大部分的非文本区域,筛选出文本候选区域。运用层次聚类的思想,快速对文本区域逐层聚类融合,最终将单个的文本区域合并成单词区域,实现高效的倾斜场景文本定位。实验结果表明,与传统的定位算法相比,该算法在没有损失定位精度的情况下运算速度有明显的提升。  相似文献   

5.
目前,牛身识别技术大多采用卷积神经网络(Convolutional Neural Networks, CNN),CNN只能处理局部邻域信息,容易丢失细节信息。为此,提出一种基于局部特征融合Transformer的牛身识别算法。首先,运用卷积将相邻空间内的牛身局部信息进行融合,增强融合后局部特征信息在不同姿态下的辨别力和鲁棒性;其次,将融合后的局部信息和全局分类信息通过数个多层感知机模块进行分类训练,损失函数采用三元组和标签平滑交叉熵损失,有效提高了牛只多姿态场景下特征的提取。仿真实验结果表明,在复杂场景下,与基于CNN的牛身识别算法相比,提出的算法有效降低了拒识率,提高了Top1排序性能和AUC值。  相似文献   

6.
近年来许多基于通用目标检测框架的文本检测方法相继被提出,这些方法往往是直接预测文本的整个边界框,受网络感受野的限制而难以有效检测长文本。为改进长文本难以有效检测的问题,提出了基于短边顶点回归网络的文本检测方法。该方法将文本区域划分为3类区域,即两条短边附近的区域及中间区域,采用分离再组合的方式检测文本,不再直接预测文本的整个边界框。首先,在一个融合多层特征的残差网络上预测分割3类文本区域,同时还将在每个短边区域的像素点处预测与之邻近的一条短边的两个顶点。然后,在后处理过程中,利用文本中间区域与短边区域相邻的关系将文本两类短边区域进行组合,两类短边区域预测的短边顶点将随之结合,便能产生完整精确的文本检测结果。在一个长文本检测数据集和公开的MSRA-TD 500,ICDAR 2015及ICDAR 2013自然场景文本检测数据集上进行测试比较,该方法的精度与速度超过目前绝大部分方法。实验结果表明,该方法在文本检测,尤其是长文本检测,具有一定的优越性。  相似文献   

7.
为了解决最大稳定极值区(MSER)提取过程中产生的大量重复文本区域和非文本区域难以被剔除影响算法精度的问题,提出了一种基于树修剪和多特征融合的场景文本检测方法。首先提取出边缘叠加的MSER作为文本候选区域;其次设计了一种MSER树修剪算法剔除重复文本区域;然后采用贝叶斯分类器融合多特征剔除非文本区域;最后设定了一系列相似性标准合并文本区域。ICDAR 2011数据集(f=76.8%)上的实验结果低于目前最好的算法\[19\],但算法在速度上具有明显的优势。  相似文献   

8.
针对SAR近岸区域船只检测准确率低与虚警率高的问题,提出一种基于改进注意力机制与旋转框的SAR近岸区域船只检测方法。该方法首先通过改进坐标注意力机制并引入至特征提取网络中,提升网络的特征提取能力;其次,增加角度分类头,并引入二维高斯分布,计算预测分布与目标分布的KL散度评估旋转框损失值,完成目标的角度信息提取;再基于YOLOX算法中的无锚框(AF)机制,减少候选框冗余,使模型轻量化并进一步提高定位精度。最后在公开数据集offical-ssdd上进行测试,在嵌入式平台(NVIDIA Jetson AGX Xavier)上对模型进行推理验证。该算法模型计算参数仅1.14 M,在近岸情况下平均检测精度较YOLOX模型提高了18.77%,总体检测精度达到94.2%。验证结果表明,该算法适用于复杂场景下任意方向的密集船只目标检测,满足实时处理需求。  相似文献   

9.
针对现实应用场景中短时语音和混叠有噪声情况下声纹识别准确性低的问题,本文设计了一种改进的基于深度学习的声纹识别算法,提高了声纹识别模型在短时语音和带噪环境下的鲁棒性,并将该模型部署到了嵌入式设备中.本文主要对声纹识别算法的编码层和损失函数进行改进.对于编码层,本文使用了基于差分编码的NeXtVLAD技术,同时对帧级特征中的静态声纹特征和动态声纹特征进行建模.对于损失函数,本文将基于小样本学习框架的余弦-原型损失函数cosine-Prototypical与附加间隔分类损失函数AM-Softmax进行融合来训练声纹识别模型,使得模型在特征空间中的同类特征尽可能集聚,异类特征尽可能分离.此外,本文还将声纹识别算法部署在Raspberry Pi平台上,实现了能快速推理的声纹识别系统.实验结果表明:这种改进的声纹识别系统在多种开放场景下,能够实时、准确地完成声纹识别任务,可以达到实际应用的要求.  相似文献   

10.
针对智能视觉分析中视频场景状态检测问题,提出了一种鲁棒的方法。首先,用高斯金字塔算法预处理输入帧;对比3种帧间差计算方法,其中,先灰度化再差分的帧间差计算方案性能最佳。通过分析帧间差灰度图中高亮点在空间分布和形态学上的差异,提出了基于腐蚀-膨胀比的场景状态检测算法REDP。将算法应用于不同场景、亮度、天气条件下的视频序列,实验结果说明了算法不仅可指示获取场景中运动对象位置和轮廓信息的时机,而且,验证了算法对于场景状态检测的有效性。通过增大参与帧间差运算的帧间间距,可进一步提高算法对场景状态检测的鲁棒性。  相似文献   

11.
针对电力巡检中标志牌难以被高精度识别问题,提出了一种基于改进型PPYOLOE的电力标志牌检测识别模型。首先,通过改进RepResBlock模块结构,加强卷积核单一参数的特征表达能力,增加模型权重维度的同时提升整个网络的泛化能力;然后,引入CIoU损失函数,解决了预测框与真实框不相交、收敛慢的问题,保证预测框和真实框的宽高比更为接近,提高回归精度;最后,改进数据增强Mosaic方法,降低负样本误检率,提高了模型精度和鲁棒性。实验结果表明:所提方法显著提高了检测模型性能,平均精度达98.4%,量化和蒸馏后检测模型体积压缩为原来的26.1%,自制样本库使文字检测和识别精度均超过90%。  相似文献   

12.
重轨生产线钢坯字符识别方法   总被引:1,自引:1,他引:0  
针对重轨生产线钢坯支支跟踪的需求,研究了一种基于计算机视觉的钢坯字符识别方法.该识别方法对在线采集到的钢坯字符图像采用基于最大类间方差的多级分割滤波与聚类处理突出字符目标区域,从而精准定位出钢坯字符;采用基于智能多代理者的切分算法来完成钢坯字符的精确切分;采用模板匹配与结构特征识别相结合的多级识别方法来正确识别出钢坯字符.实验结果表明所提出的算法能正确快速地识别出钢坯号字符.  相似文献   

13.
提出了一种基于宏块信息的快速MPEG压缩视频场景分割算法。该算法只需要通过直接抽取MPEG视频流中的B帧、P帧中的宏块类型信息,并对其进行计算就可以检测出视频中存在的镜头边界,从而对场景变换进行精确定位。这种方法无需对压缩视频进行解压,所以能够满足实时检测的速度要求。经过选用多个MPEG压缩视频进行实验分析证明,此方法能够精确有效地检测出视频流中存在的镜头边界。  相似文献   

14.
Unlike named entity recognition (NER) for English, the absence of word boundaries reduces the final accuracy for Chinese NER. To avoid accumulated error introduced by word segmentation, a deep model extracting character-level features is carefully built and becomes a basis for a new Chinese NER method, which is proposed in this paper. This method converts the raw text to a character vector sequence, extracts global text features with a bidirectional long short-term memory and extracts local text features with a soft attention model. A linear chain conditional random field is also used to label all the characters with the help of the global and local text features. Experiments based on the Microsoft Research Asia (MSRA) dataset are designed and implemented. Results show that the proposed method has good performance compared to other methods, which proves that the global and local text features extracted have a positive influence on Chinese NER. For more variety in the test domains, a resume dataset from Sina Finance is also used to prove the effectiveness of the proposed method.  相似文献   

15.
Speedometer identification has been researched for many years.The common approaches to that problem are usually based on image subtraction,which does not adapt to image offsets caused by camera vibration.To cope with the rapidity,robust and accurate requirements of this kind of work in dynamic scene,a fast speedometer identification algorithm is proposed,it utilizes phase correlation method based on regional entire template translation to estimate the offset between images.In order to effectively reduce unnecessary computation and false detection rate,an improved linear Hough transform method with two optimization strategies is presented for pointer line detection.Based on VC++ 6.0 software platform with OpenCV library,the algorithm performance under experiments has shown that it celerity and precision.  相似文献   

16.
虚拟室内漫游的实现技术   总被引:2,自引:0,他引:2  
虚拟技术在场景浏览中得到广泛的应用,针对室内漫游的主要实现技术进行了研究。室内漫游的实现技术,主要包括三维模型的建立和漫游中的碰撞检测。在三维模型的建立中,基于3DMAX5.0建模渲染后输出的ASE文件,利用OPENGL进行三维场景模型的重建;在漫游碰撞检测中,基于包围盒检测技术,根据室内场景的特点,给出了虚拟室内漫游系统中碰撞检测的算法。  相似文献   

17.
针对卷积神经网络中间特征层信息利用不充分,以及不区分尺度和难易样本的学习所导致的文字检测精度难以提高的问题,提出基于多路精细化特征融合的聚焦难样本的区分尺度的自然场景文字检测方法. 构建多路精细化的卷积神经网络融合层提取高分辨率特征图;按照文字标注矩形框的较长边的尺寸,将文字实例划分为3种尺度范围,并分布到不同的候选框提取网络中提取相应的候选框;设计聚焦损失函数对难样本进行重点学习以提高模型的表达能力并得到目标文字框. 实验表明,所提出的多路精细化特征提取方法在COCO-Text数据集上的文字召回率较高,聚焦难样本的区分尺度的文字检测方法在ICDAR2013、ICDAR2015标准数据集上的检测精度分别为0.89、0.83,与CTPN、RRPN等方法相比,在多尺度多方向的自然场景图像中具有更强的鲁棒性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号