首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 609 毫秒
1.
针对手写汉字笔画提取的重点和难点--模糊区域的识别和解析问题,提出了一种新的基于模糊区域检测的笔画提取算法.该算法首先利用细化算法提取的fork候选点和fork候选点附近的轮廓信息来检测模糊区域;然后利用图模型来对子笔画和模糊区域进行建模,同时通过构造贝叶斯分类器来分析子笔画对的连续性,并通过路径搜索来得到子笔画序列;最后通过进行B样条插值来提取细化后的笔画.对比实验结果表明,该算法不仅能够有效地用于模糊区域检测和笔画提取,而且能够避免细化结果在模糊区域内的形状畸变.  相似文献   

2.
针对基于视觉的传统海面目标检测算法在水面无人艇的自动避碰应用中存在检测精确率、召回率低以及对复杂场景的适应性不足的问题,提出一种基于概率图与视觉显著性的海面目标检测算法。首先利用概率图模型分割出原始图像中的海界限区域与海面孤立目标;然后针对海界限区域子图像特点,设计了一种基于方向抑制的梯度特征,并结合背景先验改进频率调谐显著图,利用特征融合的方法提取海界限区域的潜在目标。实验结果表明,该算法能够有效抑制云、飞鸟、海天线和海杂波的背景干扰。与传统方法相比,提出的方法具有更高的精确率与召回率,且满足无人艇自动避碰实时性的要求。  相似文献   

3.
基于笔画提取和颜色模型的视频文字分割算法   总被引:1,自引:0,他引:1       下载免费PDF全文
程豪  黄磊  刘金刚 《计算机工程》2009,35(4):193-195
提出综合利用视频文字时空、笔画、颜色和几何特征的文字分割算法,快速准确地从复杂背景的视频图像中分割出文字。利用多帧融合进行图像增强,基于笔画宽度特征,使用笔画特征算子提取文字笔画,根据笔画图标注的文字区域建立颜色模型,提取文字颜色层,并用改进的连通域分析法去除文字颜色层中的同色背景和噪声。实验结果表明,该算法比传统算法能更好解决复杂背景的视频文字分割问题。  相似文献   

4.
针对光照不均和背景复杂度所导致的自然场景文本检测中文本的漏检和错检现象,提出一种基于笔画角度变换和宽度特征的自然场景文本检测方法。分析发现与非文本相比,文本具有较稳定的笔画角度变换次数和笔画宽度,针对这两个特性提出笔画外边界优劣角变换次数和增强笔画支持像素面积比两种特征。前者分段统计笔画外轮廓角度变换次数;后者计算笔画宽度稳定区域在笔画总面积的占比,用来分别反映笔画角度和宽度变化稳定特性。为降低文本漏检率,采用多通道最大稳定极值区域(maximally stable extremal regions,MSER)检测,合并所有候选区域,提取候选区域的笔画特征和纹理特征,利用支持向量机完成文本和非文本区域分类。在ICDAR2015数据库上,算法的精确率和召回率分别达到79.3%和72.8%,并在一定程度上解决了光照不均和复杂背景的问题。  相似文献   

5.
为实现新闻视频图像中标注文本的快速检测与定位,提出了一种有效的字幕定位方法。该方法通过灰度差分统计对视频帧中文字区域进行行定位,再利用行定位信息得到的子图像在垂直方向的投影进行列定位,最后对预处理结果进行过滤和合并得到文字区域定位的精确结果。实验结果表明:该方法效果良好,不受文字大小影响,不受图像背景复杂度限制,方便快捷。  相似文献   

6.
基于笔画和Adaboost的两层视频文字定位算法   总被引:3,自引:1,他引:2  
程豪  黄磊  刘昌平  谭怒涛 《自动化学报》2008,34(10):1312-1318
在定位和验证的两级框架下提出了一种新的视频文字定位算法. 在定位模块中, 充分利用字符的笔画属性, 引入对字符区域有很强的响应的笔画算子; 经笔画提取, 密度过滤, 区域分解得候选文本行. 在验证模块中, 提取对文字有较强鉴别能力的边缘方向直方图特征, 使用Adaboost算法训练的分类器对候选文本行进行筛选. 实验结果表明, 该算法具有较强的鲁棒性, 在不同类型的视频帧中都能得到较好的定位结果.  相似文献   

7.
基于颜色聚类和多帧融合的视频文字识别方法   总被引:1,自引:0,他引:1  
易剑  彭宇新  肖建国 《软件学报》2011,22(12):2919-2933
提出一种基于颜色聚类和多帧融合的视频文字识别方法,首先,在视频文字检测模块,综合考虑了文字区域的两个显著特征:一致的颜色和密集的边缘,利用近邻传播聚类算法,根据图像中边缘颜色的复杂程度,自适应地把彩色边缘分解到若干边缘子图中去,使得在各个子图中检测文字区域更为准确.其次,在视频文字增强模块,基于文字笔画强度图过滤掉模糊的文字区域,并综合平均融合和最小值融合的优点,对在不同视频帧中检测到的、包含相同内容的文字区域进行融合,能够得到背景更为平滑、笔画更为清晰的文字区域图像.最后,在视频文字提取模块,通过自适应地选取具有较高文字对比度的颜色分量进行二值化,能够取得比现有方法更好的二值化结果;另一方面,基于图像中背景与文字的颜色差异,利用颜色聚类的方法去除噪声,能够有效地提高文字识别率.实验结果表明,该方法能够比现有方法取得更好的文字识别结果.  相似文献   

8.
针对传统的视频抠像算法交互频繁、计算复杂度高等问题,利用从Kinect获得的深度图信息、彩色信息以及视频中运动信息,提出基于Kinect的自动视频抠像算法。采用改进的三帧间差分法检测视频中的感兴趣区域(ROI),根据深度图信息改进自动种子增长区域算法,估算粗略的前景掩膜;通过数学形态学和逻辑操作去除粗前景区域的杂点,自动生成大致的三分图;采用改进的Shared Matting算法,得到精确的视频抠像。实验结果表明,该算法避免了人工交互,精度高且速度快。  相似文献   

9.
针对现有适用于小型显示设备的图像重定向算法焦点区域检测不精确、算法处理速度慢的问题,提出一种快速缝翘曲(FSW)图像重定向算法。建立一个与人类感知更加相关的自适应能量图,该能量图合并梯度幅度、深度图、显著性、面部、边缘和直线检测;提出一种利用行(列)像素之间最优匹配关系快速寻找最优高能量缝的方案实现快速、精确的焦点区域检测;通过给焦点和非焦点区域设置缩放因子以及使用线性插值方法,有效实现快速缝翘曲图像重定向。实验结果表明,该算法可更好保留复杂图像的重要内容及结构信息,其处理速度相较于其它算法也有明显提升。  相似文献   

10.
张华东  潘晨  章东平 《计算机应用》2015,35(12):3565-3569
针对区域立体匹配算法对光照变化敏感,视差图存在目标和弱纹理区域的错配、边界不平滑等问题,提出一种利用视觉显著性特征改进的快速区域立体匹配算法。该算法先利用显著性检测定位图像主要目标区域;再结合索贝尔(Sobel)边缘特征和相角特征完成特征匹配、得到粗视差图;最后通过检测粗视差图中的视觉显著性,消除图像弱纹理区域的突兀噪声。相比绝对误差累计(SAD)、平方误差累计(SSD)和归一化灰度互相关(NCC)算法,所提算法对光照变化不敏感,得到的视差图完整,匹配率高,有利于实时系统应用。  相似文献   

11.
In this paper, we present a new text line detection method for handwritten documents. The proposed technique is based on a strategy that consists of three distinct steps. The first step includes image binarization and enhancement, connected component extraction, partitioning of the connected component domain into three spatial sub-domains and average character height estimation. In the second step, a block-based Hough transform is used for the detection of potential text lines while a third step is used to correct possible splitting, to detect text lines that the previous step did not reveal and, finally, to separate vertically connected characters and assign them to text lines. The performance evaluation of the proposed approach is based on a consistent and concrete evaluation methodology.  相似文献   

12.
针对传统的最大稳定极值区域(MSER)方法无法很好地提取低对比度图像文本区域的问题,提出一种新的基于边缘增强的场景文本检测方法。首先,通过方向梯度值(HOG)有效地改进MSER方法,增强MSER方法对低对比度图像的鲁棒性,并在色彩空间分别求取最大稳定极值区域;其次,利用贝叶斯模型进行分类,主要采用笔画宽度、边缘梯度方向、拐角点三个平移旋转不变性特征剔除非字符区域;最后,利用字符的几何特性将字符整合成文本行,在公共数据集国际分析与文档识别(ICDAR)2003和ICDAR 2013评估了算法性能。实验结果表明,基于色彩空间的边缘增强的MSER方法能够解决背景复杂和不能从对比度低的场景图像中正确提取文本区域的问题。基于贝叶斯模型的分类方法在小样本的情况下能够更好地筛选字符,实现较高的召回率。相比传统的MSER进行文本检测的方法,所提方法提高了系统的检测率和实时性。  相似文献   

13.
针对CTPN算法不能检测倾斜文本和小尺度文本检测效果差的问题,提出一种基于旋转变量的改进文本检测算法(CTPN-R)。通过增加旋转角度预测层,将文本行拆分成一系列带旋转角度的anchor用于网络训练解决文本倾斜问题,加入特征融合层构建特征图金字塔以检测多尺度文本,改进边缘细化层的输出变量和回归方法,优化文本连接。CTPN-R在倾斜文本数据集MSRA-TD500上的检测综合性能指标F-measure达到了77.5%,比CTPN提高了38%。仿真结果表明,CTPN-R对实际场景中的文本图像检测精度高、实时性好,可以检测任意大小、任意方向文本。  相似文献   

14.
In video indexing and summarization, videotext is the very compact and accurate information. Most videotext detection and extraction methods only deal with the static videotext on video frames. Few methods can handle motion videotext efficiently since motion videotext is hardly extracted well. In this paper, we propose a two-directional videotext extractor, called 2DVTE. It is developed as an integrated system to detect, localize and extract the scrolling videotexts. First, the detection method is carried out by edge information to classify regions into text and non-text regions. Second, referring to the localization on scrolling videotext, we propose the two-dimensional projection profile method with horizontal and vertical edge map information. Considering the characteristics of Chinese text, the vertical edge map is used to localize the possible text region and horizontal edge map is used to refine the text region. Third, the extraction method consists of dual mode adaptive thresholding and multi-seed filling algorithm. In the dual mode adaptive thresholding, it produces the non-rectangle pattern to divide the background and foreground more precisely. Referring to the multi-seed filling algorithm, it is based on the consideration of the minimum and maximum length and four directions of the stroke while the previous method only considers the minimum length and two directions of the stroke. With this multi-seed exploitation on strokes, precise seeds are obtained to produce more sophisticated videotext. Considering high throughput and the low complexity issue, we can achieve a real-time system on detecting, localizing, and extracting the scrolling videotexts with only one frame usage instead of multi-frame integration in other literatures. According to the experiment results on various video sequences, all of the horizontal and vertical scrolling videotexts can be extracted precisely. We also make comparisons with other methods. In our analysis, the performance of our algorithm is superior to other existing methods in speed and quality.  相似文献   

15.
基于视窗的OCR页面图像倾斜检测方法   总被引:2,自引:0,他引:2       下载免费PDF全文
文档在扫描输入过程中,所生成的页面图像一般都存在一定的角度倾斜,当页面图像倾斜角度过大时,将对进一步的版面分析以及字符识别产生不良影响。为了快速准确地检测页面图像倾斜角度和降低计算量,提出了一种基于视窗变换的页面图像倾斜检测方法,该算法首先对视窗中的文字及图片的细节部分进行模糊,然后对其边沿进行直线拟合,以便快速检测页面图像倾斜角度。实验结果表明,该方法能快速准确地检测出各类页面图像的倾斜角度,并具有良好的适应性。  相似文献   

16.
基于方向ROEWA算子的高分辨率SAR图像道路提取   总被引:1,自引:0,他引:1       下载免费PDF全文
指数加权均值比率ROEWA算子是SAR图像阶跃边缘提取中较为常用的算法,但该方法只能提取边缘强度,不能得到边缘方向。本文在ROEWA算子的基础上,利用添加方向模板的方法,提出了获取边缘方向的ROEWA改进算法。并根据得到的边缘方向,分别提出了一种边缘筛选算法和快速的Hough变换算法,从而提取出图像中的直线信息。实验表明,本文方法准确、高效,且对SAR图像中的相干斑噪声具有很好的抑制作用。  相似文献   

17.
In this paper, we present an effective approach for grouping text lines in online handwritten Japanese documents by combining temporal and spatial information. With decision functions optimized by supervised learning, the approach has few artificial parameters and utilizes little prior knowledge. First, the strokes in the document are grouped into text line strings according to off-stroke distances. Each text line string, which may contain multiple lines, is segmented by optimizing a cost function trained by the minimum classification error (MCE) method. At the temporal merge stage, over-segmented text lines (caused by stroke classification errors) are merged with a support vector machine (SVM) classifier for making merge/non-merge decisions. Last, a spatial merge module corrects the segmentation errors caused by delayed strokes. Misclassified text/non-text strokes (stroke type classification precedes text line grouping) can be corrected at the temporal merge stage. To evaluate the performance of text line grouping, we provide a set of performance metrics for evaluating from multiple aspects. In experiments on a large number of free form documents in the Tokyo University of Agriculture and Technology (TUAT) Kondate database, the proposed approach achieves the entity detection metric (EDM) rate of 0.8992 and the edit-distance rate (EDR) of 0.1114. For grouping of pure text strokes, the performance reaches EDM of 0.9591 and EDR of 0.0669.  相似文献   

18.
针对自然场景中复杂背景干扰检测的问题,本文提出一种基于视觉感知机制的场景文字检测定位方法。人类视觉感知机制通常分为快速并行预注意步骤与慢速串行注意步骤。本文方法基于人类感知机制提出一种场景文字检测定位方法,该方法首先通过两种视觉显著性方法进行预注意步骤,然后利用笔画特征以及文字相互关系实现注意步骤。本文方法在ICDAR 2013与场景汉字数据集中均取得较有竞争力的结果,实验表明可以较好地用于复杂背景的自然场景英文和汉字的检测。  相似文献   

19.
冯智达  陈黎 《计算机应用》2022,42(12):3686-3691
针对基于分割的文字检测方法在混叠文字场景下性能下降的问题,提出了单向投影Transformer (SDPT)用于混叠文本检测。首先,使用深度残差网络(ResNet)和特征金字塔网络(FPN)提取并融合多尺度特征;然后,利用水平投影将特征图投影成向量序列,并送入Transformer模块进行建模,以挖掘文本行与行之间的关系;最后,使用多目标来进行联合优化。在合成数据集BDD-SynText和真实数据集RealText上进行了大量实验,结果表明,所提SDPT在高混叠度的文字检测下取得了最优的效果,而与PSENet等文本检测算法在相同骨干网络(ResNet50)条件下相比,在BDD-SynText上F1-Score(IoU75)至少提高了21.36个百分点,在RealText上的F1-Score (IoU75)至少提高了18.11个百分点,验证了所提方法对于混叠文字检测性能改善的重要作用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号