首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
金鑫 《电子科技》2012,25(1):73-75
名片作为当今商务活动中一种重要的信息载体,使用频繁,而人工管理繁琐且容易出错,所以研究名片的自动识别和存储具有现实意义。文中介绍了商务名片识别系统的工作流程,分析其存在的不足,提出了一种具有反馈机制的名片信息分类方法。在传统基于语义理解的信息分类方法上加入版面分析的结果作为辅助决策因子,并将得到的分类结果反馈于版面分析和字符识别的环节,提高识别率的同时,增强了系统的自动纠错能力。  相似文献   

2.
文档图像标题检测作为文档版面分析的特定应用在信息检索、机器翻译等方面存在广泛应用,也是学术研究的热点之一。传统基于规则的文档图像标题检测算法存在因为规则覆盖率有限导致算法泛化能力差的问题。本文提出一种基于CTPN的文档图像标题检测算法,首先检测图像中文本块,将每个文本块位置信息转化为标题检测模型所需的特征向量,并形成训练样本集,利用随机森林分类器学习样本分布。该算法结合了神经网络和随机森林分类器,算法泛化能力强,同时在给定样本分布下,标题检测算法具有较优的性能,可用于一般场景下文本图像标题检测。  相似文献   

3.
基于游程平滑算法的英文版面分割   总被引:1,自引:0,他引:1  
张利  朱颖  吴国威 《电子学报》1999,27(7):102-104
游程平滑算法RLSA是借鉴于游程编码的一种版面分割前期处理方法,经它处理后的版面图像被分成一个个孤立的子区域,对这些区域的有效分类与合并是版面分割的关键,本文给出了从游程平滑开始到分割出图形,图像和文本段落的一整套英文版面分割算法。  相似文献   

4.
使用Unicode的主要意义在于可以满足跨平台、跨语言的文本处理和转换。为了提高文本信息在传输中的安全,可采用文本的Unicode编码嵌入图像并进行图像加密的方法,由于文本信息与图像信息在计算机中的存储表达均采用二进制,将文本信息嵌入无规则的图像中,再对图像进行读取,在未知文本位置及编码结构的情况下是难以与像素信息加以区分的。实践证明使用Logistic混沌理论进行图像加密可以达到比较理想的效果,应用图像加密手段加密文本信息可以有效提高信息的安全性。  相似文献   

5.
针对信息增益模型在文本分类中的不足之处,提出了一种基于灰关系与信息增益的文本分类算法.首先基于改进的χ2统计进行类别特征选择用于类内文本表示,提高类别中心向量的表示能力;其次针对IG模型对低频词赋权过大问题,提出了基于频数和位置的改进加权方法;最后提出了基于灰关系的文本相似度计算途径,改善了基于距离的相似度计算模式的不足.试验表明,此算法提高了文本分类效率.  相似文献   

6.
周炫余  刘娟  卢笑  邵鹏  罗飞 《电子学报》2017,45(1):140-146
针对纯视觉行人检测方法存在的误检、漏检率高,遮挡目标以及小尺度目标检测精度低等问题,提出一种联合文本和图像信息的行人检测方法.该方法首先利用图像分析的方法初步获取图像目标的候选框,其次通过文本分析的方法获取文本中有关图像目标的实体表达,并提出一种基于马尔科夫随机场的模型用于推断图像候选框与文本实体表达之间的共指关系(Coreference Relation),以此达到联合图像和文本信息以辅助机器视觉提高交通场景下行人检测精度的目的.在增加了图像文本描述的加州理工大学行人检测数据集上进行的测评结果表明,该方法不仅可以在图像信息的基础上联合文本信息提高交通场景中的行人检测精度,也能在文本信息的基础上联合图像信息提高文本中的指代消解(Anaphora Resolution)精度.  相似文献   

7.
采用图像处理技术实现对织物编织样式进行自动分类.设计一种双面织物的成像系统,对选定对称双面区域同时获取其镜像图像进行分析处理.首先对获取的图像进行滤波处理,再利用图像经、纬方向上的亮度特征信息,对织物图像进行网格自动划分,通过分析所划分的网格图像在正、反两方面对应位置的颜色信息,确定纱线的交替位置,从而确定节点位置.采用颜色和结构编码方法,对织物基本循环单元的节点进行分类,并用纱线的邻近信息对其进行完善,并最终建立一个包含节点类型和颜色信息的织物结构分类模型.提出的方法有助于对织物机构参数自动分析,并实现编织模式结构逆向重构,为织物编织样式类型建立数据库系统奠定基础.  相似文献   

8.
汉字识别研究的回顾   总被引:28,自引:0,他引:28  
丁晓青 《电子学报》2002,30(9):1364-1368
本文回顾了汉字识别研究的历史。根据模仿人类视觉模型,基于文字图像的统计模式识别方法是文字识别取得瞩目进展的基础。模式识别信息熵理论揭示了模式分类的信息过程和理论极限,本文讨论了从汉字图像中提取特征以及文字识别分类器设计和学习的各种方法。介绍了文本识别必须解决的文字切分,版面分析、理解和重构,及提高识别性能等重点问题,最后,总结了文字识别研究的重要进展和对今后的展望。  相似文献   

9.
为了逃避基于文本的垃圾邮件系统的检测,越来越多的垃圾邮件制造者将文本信息嵌入到图像中。为了有效地检测出图像型垃圾邮件,提出了一种基于灰度—梯度共生矩阵(GGCM, gray-gradient co-occurrence matrix)的图像型垃圾邮件识别方法。先通过灰度—梯度共生矩阵提取图像的特征信息,然后运用最小二乘支持向量机(LS-SVM, least squares support vector machines)进行分类。实验表明,该方法具有较高的分类精度和较好的实时性。  相似文献   

10.
本文在已有文献的基础上,通过分析不同子带小波系数之间的相关性,提出了一类基于小波域HMT(Hidden Markov Tree)模型文本图像分割方法.其基本思想是先在子带分类的基础上,综合考虑不同尺度上的分类,进行多尺度文本图像分割,最后根据后验像素信息对上述方法所得分割结果进行修正,得到优于已有文献的分割效果,而且在一定程度上减少了分割算法的计算量.  相似文献   

11.
面向不良文本信息的中文网页分类方法   总被引:1,自引:0,他引:1  
结合Internet不良文本信息的特点,运用贝叶斯理论设计了一种面向该类信息的网页分类方法,该方法兼顾分类效率与分类精度,对特征项选取以及权重计算的方法进行了优化,降低了分类特征维数,简化了分类过程的处理.实验数据表明,该方法保持了良好的性能,提高了效率.  相似文献   

12.
With the rapid development of artificial intelligence technology, text categorization technology is becoming more and more mature. However, text categorization in real situations still faces various unconstrained conditions. English text is an important part of text information, it is also an important way for people to get information from abroad. How can everyone get the desired content from the massive data quickly and accurately, it has become a hot issue in current research. This paper improves the current text categorization algorithm based on English quality-related text categorization. The design and implementation of text categorization system are illustrated with an example of English quality-related text categorization system, complete the research work of text categorization algorithm. The core work of this paper is to mine, classify and analyze large amounts of data in English text by using the method of combining cyclic neural network with quality. Finally, the essential features of high quality English texts are obtained. Traditional English text categorization algorithm if the amount of training data is large, it is easy to show some defects such as unclear feature items. In view of these problems, in order to improve the accuracy and flexibility of English text categorization, this paper proposes a quality-related English text categorization method based on cyclic neural network. A mechanism combining attention is proposed to improve the problem of label disorder and make the structure of the model more flexible. The model proposed in this paper is compared and optimized. Experiments show that the accuracy of neural text classification based on quality classification can reach about 96%.  相似文献   

13.
 本文针对训练数据较少以及在基于图的分类算法中的文本表示问题,提出了一种基于潜在语义分析技术和直推式谱图算法的文本分类方法LSASGT,该方法将潜在语义分析技术和直推式谱图算法这两种基于谱分析理论的技术有机地结合在一起,对所有训练数据和测试数据进行统一建模,挖掘数据中潜在的多种结构信息.LSASGT引入潜在语义分析技术用于构造文本图表示模型,在能够反映人的分类标准的潜在语义特征空间中,描述文本之间的语义相关性;基于这样的文本表示,利用半监督的直推式谱图算法进行文本分类.在基准英文文本分类数据集Reuters21578和中文文本分类数据集Tan-Corp上的实验结果表明,本文给出的LSASGT文本分类方法获得了较好的分类结果.  相似文献   

14.
牛洪波  丁华福 《信息技术》2007,31(12):100-102
针对目前网络上不良信息变换不同方式逃脱过滤以及中文分词器分词后存在的问题,提出了基于文本分类技术的信息过滤方法,通过在原有的文本自动分类系统中添加三个过滤模块,以过滤掉无用信息、单个独立字、敏感信息等不良内容,从而保障分类安全高效。  相似文献   

15.
针对基于语义的短文本相似度计算方法在短文本分类中准确率较低这一问题,提出了结合词性的短文本相似度算法( GCSSA)。该方法在基于hownet(“知网”)语义的短文本相似度计算方法的基础上,结合类别特征词并添加关键词词性分析,对类别特征词和其他关键词的词性信息给定不同关键词以不同的权值系数,以此区别各种贡献度词项在短文本相似度计算中的重要程度。实验表明,该算法进行文本相似度计算后应用于短文本分类中较基于hownet的短文本分类算法在准确率宏平均和微平均上提升4%左右,有效提高了短文本分类的准确性。  相似文献   

16.
中文文本分类中的特征选择算法研究   总被引:34,自引:0,他引:34  
比较了文档频率、信息增益、互信息、X^2统计量、期望交叉熵、文本证据权以及几率比等7种常用于文本分类的特征选择算法。实验采用国家“八六三计划”中文文文本语料库和Rocchio分类器对以上的特征选择算法分别进行评估,测评结果表明,几率比法的性能优于其它特征选择算法。  相似文献   

17.
基于一种混合语言模型的自动文本分类技术研究   总被引:1,自引:0,他引:1  
随着Internet以及Intranet中大量可利用信息的爆炸式增长,文本分类成为处理和组织大量文档数据的关键技术之一。该文提出一种本体论和统计方法相结合的混合语言模型,用以解决自动文本分类问题。首先,通过学习不同类别的训练语料,分别获得各自类别的语言本体知识库,构造成为不同类别的分类器。对于实际文档,将基于不同类别的语言本体知识库分别获得对文档的评价值,并以所获得的最高评价值决定该文档的类别归属。与Bayes,k-nearest neighbor,support vector machine等3种典型的文本分类器进行了比较。实验结果表明,该文方法的分类性能均胜于其上述3种方法。  相似文献   

18.
陈培新  郭武 《信号处理》2017,33(8):1090-1096
经典的概率主题模型通过词与词的共现挖掘文本的潜在主题信息,在文本聚类与分类任务上被广泛应用。近几年来,随着词向量和各种神经网络模型在自然语言处理上的成功应用,基于神经网络的文本分类方法开始成为研究主流。本文通过卷积神经网络(Convolutional Neural Network,CNN)和概率主题模型在文本主题分类上的效果对比,展示了CNN在此任务上的优越性。在此基础上,本文利用CNN模型提取文本的特征向量并将其命名为卷积语义特征。为了更好地刻画文本的主题信息,本文在卷积语义特征上加入文本的潜在主题分布信息,从而得到一种更有效的文本特征表示。实验结果表明,相比于单独的概率主题模型或CNN模型,新的特征表示显著地提升了主题分类任务的F1值。   相似文献   

19.
一种基于散度差组合型文本特征降维方法   总被引:2,自引:2,他引:0  
讨论了文本分类中特征降维的主要方法及其特点,分析了基于散度差准则的特征降维的原理和方法,在避开求逆矩阵问题的同时,通过对文本特征进行选择对文本特征集进行了第一次压缩,借助于加权散度差原理对特征集进行了二次抽取,在最低限度减少信息损失的前提下实现了特征维数的大幅度降低.试验结果表明,这种方法在文本分类上的效率较好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号