首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
一种基于学习的视频字幕验证方法   总被引:1,自引:0,他引:1       下载免费PDF全文
视频字幕验证是字幕检测中的重要环节,其目的在于提高检测准确率。当前的验证方法多是依据经验规则。这些方法在图像背景复杂、图像分辨率低以及字幕字体、大小、颜色多变这些条件下,适应性差。为提高验证方法的适应性和准确性,通过将2维主成分分析(2DPCA)应用到视频字幕验证中,提出了一种基于2DPCA和支撑向量机(SVM)的视频字幕验证方法。该方法分训练和判别两个步骤,即首先采用2DPCA方法提取视频图像块特征,然后通过训练SVM对图像块进行验证和分类。实验结果表明.在图像背景复杂、图像分辨率低以及字幕字体、大小、颜色多变这些传统验证方法或多或少都存在困难的条件下,该方法不仅具有良好的视频字幕验证能力,而且也能明显降低算法的运行耗时。  相似文献   

2.
视频中滚动字幕通常表达一段完整信息,对其进行检测与跟踪是字幕识别与应用的重要前提.通过分析视频中滚动字幕的特征,在Sobel边缘检测的基础上,提出规则和统计结合的字幕检测方法及垂直边缘特征最小差平方和的字幕跟踪方法.从视频全局角度出发,对相邻帧的边缘图像进行差分,选取水平边缘特征并根据规则检测字幕区域的候选边界,通过统计边界出现频数,定位滚动字幕区域;计算相邻滚动字幕条在不同偏移值下垂直边缘特征差平方和,取其最小值作为相邻字幕的偏移量,从而实现字幕的跟踪.实验结果显示,该文方法从含有多种字幕类型的视频中检测出滚动字幕的准确率可达96.61%、字幕跟踪的准确率达99.43%,充分说明文中方法的有效性.  相似文献   

3.
基于SVM和ICA的视频帧字幕自动定位与提取   总被引:4,自引:0,他引:4       下载免费PDF全文
视频字幕蕴涵了丰富语义,可以用来对相应视频流进行高级语义标注,但由于先前视频字幕提取考虑的只是如何尽可能定义好字幕特征,而忽视了分类学习机自身的学习推广能力.针对这一局限性,提出了一种基于支持向量机和独立分量分析的视频帧字幕定位与提取算法.该算法是首先将原始图象帧分割成N×N大小子块,同时将每个子块标注为字幕块和非字幕块两类;然后从每个子块提取能够保持相互高阶独立的独立分量特征去训练支持向量机分类器;最后结合金字塔模型和去噪方法,用训练好的支持向量机来实现对视频字幕区域自动定位提取.由于支持向量机能够在样本不是很多的情况下,具有良好的分类推广能力以及能使独立成分特征之间彼此保持高阶独立性,与其他视频帧字幕定位提取算法比较的结果表明,该算法具有明显的优点.  相似文献   

4.
视频字幕检测和提取是视频理解的关键技术之一。文中提出一种两阶段的字幕检测和提取算法,将字幕帧和字幕区域分开检测,从而提高检测效率和准确率。第一阶段进行字幕帧检测:首先,根据帧间差算法进行运动检测,对字幕进行初步判断,得到二值化图像序列;然后,根据普通字幕和滚动字幕的动态特征对该序列进行二次筛选,得到字幕帧。第二阶段对字幕帧进行字幕区域检测和提取:首先,利用Sobel边缘检测算法初检文字区域;然后,利用高度约束等剔除背景,并根据宽高比区分出纵向字幕和横向字幕,从而得到字幕帧中的所有字幕,即静止字幕、普通字幕、滚动字幕。该方法减少了需要检测的帧数,将字幕检测效率提高了约11%。实验对比结果证明, 相比单一使用帧间差和边缘检测的方法,该方法在F值上提升约9%。  相似文献   

5.
基于边缘检测和线条特征的新闻字幕探测   总被引:2,自引:0,他引:2  
新闻视频中的字幕包含有丰富的语义信息,对理解当前的视频内容,具有重要的意义.如何准确的探测出新闻字幕,显得尤为重要.通过对新闻字幕的特点进行分析,提出了一种基于边缘检测和线条特征的新闻字幕探测方法.算法首先对图像进行灰度变换,去除冗余颜色信息,然后进行边缘检测、线条过滤,去除不符合字符特征的线条,最后进行字幕区域探测与合并,提取出字幕.选用不同频道的新闻视频帧对文中算法进行实验,并与其他方法进行比较,结果表明,提出的算法具有较高的探测召回率与探测准确率.  相似文献   

6.
视频已广泛应用于各个领域,所以对视频字幕的处理具有重要的意义。提出一种新的数字视频字幕检测及恢复算法。首先进行边缘检测,通过分析图像的边缘密度在水平和垂直方向的投影,得到字幕的粗略区域;再利用水平集方法进一步确定字幕的具体位置;最后用Criminisi算法对检测到的字幕进行恢复。通过对不同类型的视频素材进行实验验证,结果表明该方法能够达到理想效果。  相似文献   

7.
一种快速新闻视频标题字幕探测与定位方法*   总被引:1,自引:0,他引:1  
新闻视频字幕包含有丰富的语义信息,尤其是标题字幕,对新闻视频高层语义内容的分析和理解具有 重要作用。利用标题字幕的时空分布特征,提出了一个新闻视频标题字幕的快速探测与定位方法。首先利用标 题字幕持续多帧出现的特点降低所需处理的帧数,然后基于标题字幕的边缘特征和位置特征,标记帧图像的候 选字幕块,对帧序列中的图像进行统计分析,探测出视频中标题字幕的位置及出现消失时间。实验结果表明所 提方法简单有效,能够快速、鲁棒地探测并定位新闻视频中的标题字幕。  相似文献   

8.
视频字幕检索是视频检索领域的重要部分。随着OCR技术的不断完善,视频字幕检索算法也取得了很多重大突破,然而在检索效果提升的同时,视频包含的大量图像、文字信息使数据处理成为制约字幕提取的性能瓶颈。众核架构高性能协处理器近年发展迅猛,为高性能计算研究打下了良好的硬件基础。将Intel众核MIC应用到视频字幕提取中,选用OpenMP并行语言进行加速。通过在Intel Xeon Phi 7110P进行测试,获得了比较理想的加速比。  相似文献   

9.
视频字幕在传递信息的同时,固化在视频中的字幕也阻碍了视频的重复利用。提出一种基于时空解耦Transformer的视频字幕去除算法,能够从带有字幕文本的视频序列中去除字幕文本,并重建出被字幕区域遮挡的背景图像。整体框架分为两个部分,字幕掩膜提取模块和字幕去除模块,前者快速精准地获得输入视频序列的二值字幕掩膜,将得到的二值字幕掩膜作为辅助信息,输入到基于时空解耦Transformer的字幕去除模块,进行字幕文本的去除和背景纹理的恢复,实现对整体视频字幕的去除。与现有的经典视频字幕去除方法相比,在峰值信噪比和结构相异性等图像质量指标以及视觉效果上,该方法均取得了更好的性能,实验结果验证了该方法在视频字幕去除领域的有效性。  相似文献   

10.
目的:为提高复杂背景下的视频字幕在OCR中的识别率,需要对提取的视频字幕进行有效地字幕增强。该文首次将Logistic模型应用到视频字幕增强中,提出了基于Logistic模型的融合多帧信息的视频字幕增强方法。方法:对字幕进行检测与跟踪,将出现在连续多帧中的同一字幕片段进行对齐;通过分析字幕片段在多帧中信息,提出字幕背景在时域上的变化特征、背景和字幕文本的固有特征,并将三个特征进行量化与融合,构建适用于字幕增强的Logistic模型,实现对视频字幕的增强。结果:对含阴影或描边效果的特殊复杂背景字幕、普通复杂背景字幕、单一背景字幕分别进行实验,增强后的字幕在OCR软件中的识别正确率分别为81.76%、97.13%、98.19%,与对比方法比较均有一定的提高。结论:实验结果表明,该文方法既可以降低字幕背景的复杂度,又可以提高字幕背景与文本的对比度,从而可以对复杂背景和单一背景下的视频字幕进行有效地增强。  相似文献   

11.
基于多帧图像的视频文字跟踪和分割算法   总被引:6,自引:2,他引:6  
视频中文字的提取是视频语义理解和检索的重要信息来源.针对视频中的静止文字时间和空间上的冗余特性,以文字区域的边缘位图为特征对检测结果作精化,并提出了基于二分搜索法的快速文字跟踪算法,实现了对文字对象快速有效的定位.在分割阶段,除了采用传统的灰度融合图像进行文字区域增强方法,还结合边缘位图对文字区域进行进一步的背景过滤.实验表明,文字的检测精度和分割质量都有很大提高.  相似文献   

12.
自动从视频图像中提取文字信息,对于监控视频图像内容、添加视频标签和建立视频图像检索系统,有重要的意义。文字检测是文字信息提取系统的前端,是文字信息提取中最关键的一步。近年来,视频图像文字信息检测领域有了新的重要的发展,综述从基于区域和基于纹理的文字检测方法进行归纳、比较和分析,概括了近年来文字检测技术的主要进展。此外,为了突出综合性方法的重要性,对其专门进行了总结。最后对视频图像中的文字检测技术的难点进行总结,并对其发展趋势进行展望。  相似文献   

13.
为了解决视频检索中文本定位精确度不高的问题,提出一种基于条件笔画密度提取的文本定位方法。根据文本笔画的特征对视频图像中的文本进行初步定位,用基于条件密度的方法滤去一部分非文本区域,再利用动态形态学对提取的文本区域精确定位并对其优化得到最终的文本区域。实验结果表明,该方法能滤去大部分非文本信息,得到相对精确的文本区域,并且定位效果较好。  相似文献   

14.
沈任道  黎绍发  江焯林 《计算机工程》2009,35(9):214-216,219
针对大多数视频文本边缘丰富且颜色单一、水平排列的特点,通过基于dcriche边缘的方法迅速确定视频图像中可能包含文本的区域,使用基于颜色的方法从中提取精确的二值文本图像.实验结果表明,该文本提取方法适用于背景复杂的视频图像,且与单纯基于颜色的算法相比,在速度和提取效果方面更具优越性.  相似文献   

15.
由于视频中固化的字幕影响了不同语种间视频的交流和处理,为此提出了一种基于CEMA算法和纹理修复技术的自动检测与去除视频内字幕的方法。首先,运用CEMA算法检测出视频中的字幕,然后,结合纹理修复技术,将检测出来的字幕从原图中去除,同时,恢复原图中被字幕所遮挡的背景区域。实验结果表明,该方法能较好地检测和去除视频图像内的字幕。  相似文献   

16.
一种新的利用多帧结合检测视频标题文字的算法   总被引:5,自引:0,他引:5  
视频中的标题文字通常在视频信息索引和检索中起到重要作用.提出了一种新的视频标题文字的检测算法.首先采用一种新的多帧结合技术来降低图像背景的复杂度,它基于时间序列对多帧图像进行最小(或最大)像素值搜索,搜索的具体方式由Sobel边缘图来决定.然后以块为单位来进行文字与非文字的分类,即用一扫描窗口对图像进行扫描,以Sobel边缘为特征,判断其是否为文字。一个2级的金字塔被用来检测不同大小的文字.最后,提出一种新的迭代的文字区域分解方法,它能够更精确地定位文字区域的边界.实验结果表明,这种文字检测算法能够取得很高的精度和召回率.  相似文献   

17.
Using Webcast Text for Semantic Event Detection in Broadcast Sports Video   总被引:1,自引:0,他引:1  
Sports video semantic event detection is essential for sports video summarization and retrieval. Extensive research efforts have been devoted to this area in recent years. However, the existing sports video event detection approaches heavily rely on either video content itself, which face the difficulty of high-level semantic information extraction from video content using computer vision and image processing techniques, or manually generated video ontology, which is domain specific and difficult to be automatically aligned with the video content. In this paper, we present a novel approach for sports video semantic event detection based on analysis and alignment of webcast text and broadcast video. Webcast text is a text broadcast channel for sports game which is co-produced with the broadcast video and is easily obtained from the web. We first analyze webcast text to cluster and detect text events in an unsupervised way using probabilistic latent semantic analysis (pLSA). Based on the detected text event and video structure analysis, we employ a conditional random field model (CRFM) to align text event and video event by detecting event moment and event boundary in the video. Incorporation of webcast text into sports video analysis significantly facilitates sports video semantic event detection. We conducted experiments on 33 hours of soccer and basketball games for webcast analysis, broadcast video analysis and text/video semantic alignment. The results are encouraging and compared with the manually labeled ground truth.   相似文献   

18.
视频和图像中的文本通常在基于内容的视频数据库检索、网络视频搜索,图像分割和图像修复等中起到重要作用,为了提高文本检测的效率,给出了一种基于多种特征自适应阈值的视频文本检测方法.方法是在Michael算法的基础上,利用文本边缘的强度,密度,水平竖直边缘比3个特征计算自适应局部阈值,用阈值能较好去除非文本区域,提取文本边缘,检测并定位文本,减少了Michael算法单一特征阈值的不利影响.在文本定位阶段引入了合并机制.减少了不完整区域的出现.实验结果表明有较高的精度和召回率,可用于视频搜索、图像分割和图像修复等.  相似文献   

19.
基于点模式匹配的视频文字跟踪和笔画提取   总被引:1,自引:0,他引:1       下载免费PDF全文
给出一种在复杂背景下的视频文字跟踪和文字笔画提取方法。用基于Harris角点特征的点模式匹配法跟踪视频序列中静止和运动的文字,以确定文字序列的时间属性,比较了采用图像整体像素匹配和点模式匹配的跟踪精度。用基于多帧融合思想的前景/背景识别算法提取视频文字笔画并作OCR识别。实验结果显示,点模式匹配的跟踪算法比图像整体像素匹配的算法跟踪精度更高,在图像背景复杂、变化快的情况下,基于多帧融合的文字笔画提取方法优于传统的二值化方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号