首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 906 毫秒
1.
受传统观念的影响,中国人名最后一个或两个字的用法对性别判定通常具有一定的指示作用,由此提出利用条件随机场模型来实现中文人名性别的自动识别.该机器学习方法根据人名的结构和用字信息,构建人名标注集,选择6组不同的特征模板集,利用条件随机场模型,在231 337个人名数据库中经过封闭测试,正确率可以达到89.30%,比采用朴素贝叶斯依赖人名用字进行性别识别的方法好将近7个百分点.实验证明:在人名库中识别性别,名字尾字的作用要高于姓氏用字,且女性人名性别识别的准确度要略高于男性,一般是高2至3个百分点,从机器学习的角度来说性别差异可以体现在人名用字中.通过分析实验数据总结了适合人名识别的CRF特征模板设计的一般规律,这为后续的研究工作提供了基础.  相似文献   

2.
针对水族古文字受字形变化、年代噪声影响,无法实现高质量数字化提取,且缺乏利用深度学习技术实现对水书古文字的自动化识别问题,提出了一种自适应图像增强和AlexNet的水书文字识别算法,通过优化模型识别复杂环境下文字的关键特征,实现水书古文字智能识别以及同汉字的自动翻译。首先,采集具有代表性的水书古文字并进行数据标注处理,通过图像变换算法扩充数据集;其次,计算各种场景的图像噪声阈值,构建自适应图像增强的去噪算法;最后,构建AlexNet神经网络模型实现水书古文字的自动识别。实验结果表明,提出的算法能有效识别复杂环境下的水族古文字,其精确率、召回率和F1值分别为0.975 5、0.974 3和0.974 3,能为少数民族文字识别、古籍文字自动提取及少数民族古文字与汉字的自动翻译提供有效支撑,具有一定的学术价值和应用前景。  相似文献   

3.
基于层叠隐马尔可夫模型的中文命名实体识别   总被引:29,自引:0,他引:29  
提出了一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,旨在将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。首先在词语粗切分的结果集上采用底层隐马尔可夫模型识别出普通无嵌套的人名、地名和机构名等,然后依次采取高层隐马尔可夫模型识别出嵌套了人名、地名的复杂地名和机构名。在对大规模真实语料库的封闭测试中,人名、地名和机构识别的F-1值分别达到92.55%、94.53%、86.51%。采用该方法的系统ICTCLAS在2003年5月SIGHAN举办的第一届汉语分词大赛中名列前茅。  相似文献   

4.
利用网络新闻图像以及与图像相关的文字说明构造一个有人名标注的人脸库.人脸库中的人脸通过对新闻图像进行人脸检测得到,人名从与图像相关的文字说明中提取得到.通过一个聚类过程得到人脸与人名之间的对应关系,并通过一个合并聚类的过程可以识别出同一个人的不同名字.对AP聚类算法进行改进,实验表明相比于k-means与AP算法,改进...  相似文献   

5.
针对阅卷系统中手写汉字识别率和识别精度低的问题,文中提出一种基于压缩感知理论的阅卷系统手写汉字识别算法。该算法首先对阅卷系统手写汉字图像进行随机采样得到其特征;然后对其进行稀疏表示,并最小化其l1范数以得到样本的稀疏解;最后利用该稀疏解的系数判别测试样本的类别。该方法用对信号的随机采样替代了传统的特征提取方法,简化了算法的实现过程,同时用现有的训练样本组成训练字典,避免了复杂的训练过程。该算法在手写汉字数据库ETL9B上的识别率达到99.1%。  相似文献   

6.
张靖  俞一彪 《通信技术》2020,(3):618-624
说话人识别系统实际应用时,一旦应用环境和训练环境不一致,系统的性能会急剧下降。由于环境噪声的多变性,系统训练时无法预测实际应用中的环境噪声。因此,引入环境自学习和自适应思想,通过改进的矢量泰勒级数(Vector Taylor Series,VTS)刻画环境噪声模型和说话人语音模型之间的统计关系,提出一种具有环境自学习能力的鲁棒说话人识别算法。系统应用中每当环境变化时利用语音输入前采集到的环境噪声信号来迭代更新环境噪声模型参数,进一步基于VTS确立的统计关系,将说话人语音模型自适应到实际应用环境来补偿环境失配的影响。说话人辨认实验结果表明,提出的方法在低信噪比条件下对于不同种类的噪声都能显著提升系统的识别性能。  相似文献   

7.
在线汉字识别技术在广播电视实时检测系统中的应用   总被引:1,自引:0,他引:1  
戴建秋 《电视技术》2005,(8):90-93,96
针对广播电视检测系统中只需少量汉字服务的实际情况,提出一种使用在线手写汉字识别的方法,来优化系统设计.该方法有三个特点,一是通过利用汉字的笔段链码特征,在单片机中建立动态字典库和词汇库;二是操作者只需手写极少"领衔汉字"供系统识别,系统并将与其相关联的所有命令都显示出来,供操作者选用;三是被检测点的数量等改变时,系统程序不变,且状态既能用数据显示,也能用释意汉字串显示.实用结果表明,该方法具有稳定、高效、经济、使用方便等特点,并且拓展了手写在线识别技术的应用领域.  相似文献   

8.
DSP嵌入式说话人识别系统的设计与实现   总被引:1,自引:1,他引:0  
洪家高  俞一彪 《现代电子技术》2009,32(22):203-206,209
介绍一种基于浮点型数字信号处理器(TMS320C6713),并通过语音识别说话人身份的实用系统。为构建一个稳定实用的基于DSP说话人识别系统。以Mel倒谱系数作为特征参数,采用高斯混合模型作为识别模型,模型参数采用FLASH ROM存储,并实现自举运行。经过调试,实现了系统的自举运行,自举运行时可选择系统的训练和识别功能,并可方便地选择参加训练和识别的说话人,识别的范围为10人,识别的速度在3 s之内,准确率达98%以上。达到了系统设计的目的要求。与其他系统相比,该系统在实现算法上加以一定的改进,保证了识别率,并实现自举运行同时充分考虑可操作性,具有更大的实用价值。  相似文献   

9.
信息提取技术是自然语言处理技术的关键技术之一,其中最主要的任务是事件元素提取.本文利用深度学习网络模型实现信息提取任务进行了深入研究.训练数据来源于上海大学构建的CEC已标注的语料库.相比于采用手工设立规则的识别方式和BiLSTM网络模型,本文通过对数据进行预处理和搭建BERT-BiLSTM-CRF深度网络模型,对文本数据训练实现标注,在时间、报道时间、参与对象的识别准确率上均有所提升.  相似文献   

10.
基于锚点的字符级甲骨图像自动标注算法研究   总被引:1,自引:0,他引:1  
甲骨文是中国最早的系统文字,是目前能见到的最早的成熟汉字.甲骨文的研究对历史探究和文化传承具有重要的意义.但是要实现字符级别的甲骨字符图像标注,在现有技术环境下,只能通过资深甲骨学专家进行人工标注,不仅耗费人力资源,而且效率低下.针对这一问题,在前期工作中的甲骨字符图像识别模型的基础上,本文提出了一种甲骨字符图像自动标注算法.该算法通过先分列后切割的思想,先将甲骨拓片上的每一个字符图像归结到某一个特定列,再以锚点甲骨字为参考点,根据空间近邻关系找到甲骨原文中的字所对应的甲骨字符图像,从而实现了甲骨字符图像的自动标注.同时,将标注好的甲骨字符图像添加到样本数据集,并利用增广后的数据集(增加6~10倍)重新训练甲骨字符图像识别模型,有利于提高基于深度学习的甲骨文识别算法的识别准确度;以较小的成本大幅增加样本数量,也可以节约专家大量的时间和人力.  相似文献   

11.
基于层叠条件随机场模型的中文机构名自动识别   总被引:39,自引:1,他引:38  
中文机构名的自动识别是自然语言处理中的一个比较困难的问题.本文提出了一种新的基于层叠条件随机场模型的中文机构名自动识别算法.该算法在低层条件随机场模型中解决对人名、地名等简单命名实体的识别,将识别结果传递到高层模型,为高层的机构名条件随机场模型实现对复杂机构名的识别提供决策支持.文中为机构名条件随机场模型设计了有效的特征模板和特征自动选择算法.对大规模真实语料的开放测试中,召回率达到90.05%,准确率达到88.12%,性能优于其它中文机构名识别算法.  相似文献   

12.
总结了维吾尔地名结构及其特点,并结合维吾尔地名内部结构特征,手动建立了基于新疆维吾尔自治区的地名词典库、首词库、中间词库和特征词库,研究了基于规则的维吾尔语地名识别方法和技术。以包含地名的较大规模维吾尔文本作为测试样本,利用地名内部结构和相邻词信息,通过匹配算法进行了地名识别,并用Visual C++编程工具实现了维吾尔语地名识别算法。最后,给出了实验结果,并分析了出错原因及相应的对策。  相似文献   

13.
This paper describes a method for the automated anatomical labeling of the bronchial branch extracted from a three-dimensional (3-D) chest X-ray CT image and its application to a virtual bronchoscopy system (VBS). Automated anatomical labeling is necessary for implementing an advanced computer-aided diagnosis system of 3-D medical images. This method performs the anatomical labeling of the bronchial branch using the knowledge base of the bronchial branch name. The knowledge base holds information on the bronchial branch as a set of rules for its anatomical labeling. A bronchus region is automatically extracted from a given 3-D CT image. A tree structure representing the essential structure of the extracted bronchus is recognized from the bronchus region. Anatomical labeling is performed by comparing this tree structure of the bronchus with the knowledge base. As an application, we implemented the function to automatically present the anatomical names of the branches that are shown in the currently rendered image in real time on the VBS. The result showed that the method could segment about 57% of the branches from CT images and extracted a tree structure of about 91% in branches in the segmented bronchus. The anatomical labeling method could assign the correct branch name to about 93% of the branches in the extracted tree structure. Anatomical names were appropriately displayed in the endoscopic view.  相似文献   

14.
域名作为用户访问互联网的入口,日益成为互联网最重要的基础设施之一,它承载着互联网上的各种应用。但是当前针对域名系统的攻击事件却层出不穷,因此有效保证域名系统稳定高效的运行也就显得非常必要。本文从三个层面详细分析了当前域名系统遇到的安全问题,提出了一些域名安全策略建议。  相似文献   

15.
A web-based translation method for Chinese organization name is proposed. After analyzing the structure of Chinese organization name, the methods of bilingual query formulation and maximum entropy based translation re-ranking are suggested to retrieve the English translation from the web via public search engine. The experiments on Chinese university names demonstrate the validness of this approach.  相似文献   

16.
Automated directory listing retrieval has been a goal of the Bell System and others for a long time. Recent attempts at implementing such a system relied on button pushing on the part of the user. Since the Touch-Tone®keyboard does not contain a unique key corresponding to each letter of the alphabet, the button pushing system had some drawbacks. In an attempt to alleviate these problems and to provide a more natural form of communication for the user, the use of spoken spelled names was proposed in place of pushing buttons. An early form of this directory listing retrieval system was a speaker trained system (i.e., it had to be trained to each user individually) and it used a simplified directory search algorithm. Subsequent improvements and modifications to both the recognition algorithm and the directory search procedure have led to the current implementation in which the overall system is speaker independent and can automatically find the name (or names) in the directory which provides the best acoustic match to the spoken name. The new system can automatically detect and correct simple (i.e., single letter) anomalies in the spelling of the name, including letter substitutions, inversions, deletions, and insertions. If a conflict in the detected name occurs (e.g., 2 or more names with the same or close acoustic distance scores), the system automatically requests additional information to help resolve the ambiguity. In evaluational tests on an 18 000 name Bell Laboratories directory, the directory listing retrieval system found the unique correct name in 98.3 percent of the trials, on average, even though the acoustic recognizer provided the correct letters only about 70 percent of the time.  相似文献   

17.
This paper describes an automatic caption-superimposing system with a new continuous speech recognizer for efficient production of TV programs. The system which we have developed can recognize continuous speech announced in a hall of Japanese `sumo' wrestling and automatically superimpose the recognition results of wrestlers' names and winning tricks as captions on a TV display. The announcements consist of sentences to inform which wrestler has won a match with what kind of winning trick. They are formed out of small-sized vocabulary with a specific uttered style and are spoken nearly at a Japanese `bunsetsu' unit like a phrase only by some specific speakers. We designed the system to work with the following features: (a) recognition of continuous speech with a specific uttered style; (b) an easy change of vocabulary to be recognized; (c) no requirement of pre-registration of any particular utterances; (d) implementation on multi-microprocessors with high computing speed. The proposed recognizer utilizes general intra-`bunsetsu' grammar which is applicable to various recognition tasks, while conventional Japanese continuous speech recognizers use intra-`bunsetsu' grammar which depends on applied recognition tasks. In a recognition experiment on 40 sentences of `sumo' announcements by two speakers, the system attained `bunsetsu' accuracy of 91.0% with quasi-real-time processing  相似文献   

18.
张奕  邹福泰 《通信技术》2020,(1):168-173
人工智能在恶意域名检测领域的应用越来越广泛,而传统的恶意域名检测方法主要采用黑名单方式,存在时效性较差的问题。因此,提出了一种将知识图谱与恶意域名检测相结合的系统,完成了信息在知识图谱中的存储和表示。将系统的嵌入式模型作为输入,使用BiLSTM神经网络提取特征并完成最终的检测。实验表明,在通过真实数据构造的数据集上,该系统性能良好,对恶意域名的检测准确率高达99.31%。  相似文献   

19.
针对恶意域名检测中存在的随机性大、现实样本少的缺陷,导致深度学习模型训练易出现过拟合的问题,提出了一种基于群卷积神经网络的恶意域名检测方法。首先将域名转换为嵌入词向量表示,然后通过随机维度组合生成随机数据集并构建卷积神经网络组,鉴于Inception结构优势将其加入到网络中,最后针对数据集易出现的类间样本失衡问题,引入了类间平衡系数以抑制模型训练过拟合,提高模型泛化能力。实验结果表明,在采集的域名检测数据集上,所构建的模型能够有效实现恶意域名检测;经过参数优化,相比于浅层模型组合分类器与典型深度神经网络模型LSTM-CNN,群卷积神经网络对所构建的域名检测集检测准确率分别提升了4%、1%,达到98.9%。  相似文献   

20.
Three areas underpin the developing role of the personal computer: first, the integration of computer and communications technology; second, the developments in microelectronics technology; and third, the packing of software and intelligence into VLSIs resulting in the feasibility of improved man--machine interface. These issues are discussed in this paper. In addition, this paper describes the PC-100 personal computer which provides high-quality graphics capability. This 16-bit personal computer also has a Kanji (Chinese characters used in writing the Japanese language) processing function, which is indispensable in the Japanese market.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号