首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 750 毫秒
1.
本文介绍了汉字编码的PTEC模型.按照这个模型,开发了一个全功能汉字编码计算机辅助设计系统——“CC-1”软件包.它可以处理多种类型的汉字编码方案.在这个软件包的支持下,从方案规则的输入到正码本的输出,绝大部分工作都由计算机完成.  相似文献   

2.
现有的命名实体识别算法多半采用统计与规则相结合的办法,但是这些方法有的没有考虑全局信息,有的没有解决好统计模型的时间复杂性问题.提出一个简约语法规则和最大熵模型相结合的混合命名实体识别方法,该方法采用简约语法规则与最大熵模型级联,首先使用简约语法规则模型进行识别,降低了使用复杂语法规则的时间复杂度,并把它的输出进行部分匹配,很好的弥补了由于简约语法规则带来的召回率偏低的问题,然后将得到的中间结果作为输入传递给最大熵模型,再由最大熵模型进行识别,得到最终的识别结果.实验结果表明,在MUC-7的命名实体识别评测中,系统的准确率、召回率和F值分别达到了94%,91%和92.48%,与已有的系统相比在性能上有很大的提升.  相似文献   

3.
周浩  王莉 《智能系统学报》2019,14(1):171-178
鉴于常规的序列化标注方法提取中文评价对象准确率低,存在忽略中文语义与语法信息的缺陷,提出了融合语义与语法信息的中文评价对象提取模型。该模型在原始字向量的基础上通过优化字符含义策略强化语义特征,弥补忽略的字符与词语的内部信息;并通过词性序列标注,对句子的词性信息进行表征,深化输入的语法特征。网络训练使用双向长短期记忆网络并用条件随机场克服标注标签的偏差,提高了提取准确率。该模型在BDCI2017数据集上进行验证,与未融入语义和语法的提取模型相比,中文主题词与情感词提取准确率分别提高了2.1%与1.68%,联合提取的准确率为77.16%,具备良好的中文评价对象提取效果。  相似文献   

4.
在文字识别系统中,为了进一步提高文本识别率,后处理模块是很重要的环节。文章针对日文的语言特性,建立统计方法和规则相结合的混和语言模型,实现了一个日文识别后处理系统。该系统首先利用Viterbi算法得到统计模型输出的最优结果,通过与前端识别器输入的识别结果相比较,确定可疑字位置,再利用上下文词匹配方法和语法规则库的使用对可疑字进行检错和纠错处理。经实验验证,该后处理系统对识别日文印刷体文本错误率平均下降21.4%。  相似文献   

5.
该研究以型式语法为理论基础,通过链语法形式化语法体系对动词型式进行了形式化,并对链语法动词词典进行了重构,旨在构建一个更好的面向中国学生的英语书面语动词形式错误检查系统。测试结果显示,重构后链语法词典的查错性能和句法分析能力得到提高。对错句检查的召回率比原词典提高了4.5%,准确率提高了15.7%;对本族者正确分析句子的准确率提高了12.2%。研究表明,该研究所基于的语言学理论(动词型式语法)和形式模型(链语法)可以较好地适用于中国学生书面英语动词形式错误检查系统的构建。  相似文献   

6.
查字与电脑输入多用54型汉字编码   总被引:1,自引:0,他引:1  
本文介绍了适合于查字和电脑输入的多用54型汉字编码。它的形码为59个码元,按一个字的书写顺序取前三末一4位,重码字不超过1%。  相似文献   

7.
本文提出了一种独立于语种不需分词的文本分类方法。与传统文本分类模型相比,该方法在字的级别上利用了n元语法模型,文本分类时无需进行分词,并且避免了特征选择和大量预处理过程。我们系统地研究了模型中的关键因素以及它们对分类结果的影响,并详细介绍了评价方法。该文本分类方法已经在中文和英文两个语种上得到实现,并获得了较好的分类性能。  相似文献   

8.
部件组合──潜在的汉字结构层次   总被引:7,自引:0,他引:7  
本文提出了汉字结构中的一个潜在层次——部件组合, 并对其在汉字编码字符集(基本集)中的分布特征进行了统计分析, 发现绝大多数组合的组字次数和频率都很低, 高频组合很少。文中列出了低频组合中的60个高频部件, 以供汉字编码输入参考。最后讨论了部件组合在汉语教学及认知心理学研究等方面的应用意义。  相似文献   

9.
控制流图描述了函数执行时可能采取的执行路径。绝大多数静态分析工具都在抽象语法树之上生成控制流图并据此对程序的运行行为进行分析。在模型检测过程中,提取正确的控制流图是构建系统模型的关键。在分析C程序的抽象语法树和控制结构的基础上,设计并实现了程序控制流图提取的算法,并分析了算法的正确性。基于提取的控制流程,可对C程序的某些性质进行模型检验。  相似文献   

10.
基于二元语法的N-最大概率中文粗分模型   总被引:2,自引:0,他引:2  
吴春颖  王士同 《计算机应用》2007,27(12):2902-2905
中文粗分是中文分词的基础环节,目前常用的粗分模型有基于规则的非统计模型和基于一元语法(uni-gram)的统计模型,其中后者取得了较好效果。在一元语法模型基础上提出了一种基于二元语法(bi-gram)的N-最大概率中文粗分模型,该模型把所有可能的词切分构造成一个有向无环图(DAG),利用噪声—信道模型和二元语法来计算概率,通过插值平滑技术来解决数据稀疏问题,目的在于更好地得到少量高召回率、高效率的粗分结果,更大程度地保留歧义字段和未登录词,提高后续分词质量。通过理论分析、模型建立和初步实验验证了模型的有效性。  相似文献   

11.
一个简单笔式交互系统的实现   总被引:1,自引:0,他引:1  
以用户为中心的思想,引入笔交互风格,运用Fonseca和Jorge提出的模糊逻辑识别算法,采用了中科院软件所的笔式应用开发平台PenUI作为底层支撑,设计并实现了一个能识别基本几何图形和简单手势的交互式系统.所采用的识别算法是一种识别多笔画几何草图简单方法.它利用图形的暂时邻接关系和全局几何特征来识别一些简单的几何图形,其中有实线和虚线两种.  相似文献   

12.
本文介绍了一个印刷表格文本分析识别系统。提出了表格特征点分析方法。在表格图象处理的基础上, 对表格线进行分析, 在考虑表格线和字符块粘连的情况下提取字符块, 判别汉字串和数英串后分别识别, 生成表格。实验表明本方法的有效性。  相似文献   

13.
面向信息检索的自适应中文分词系统   总被引:16,自引:0,他引:16  
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势.  相似文献   

14.
基于自适应中文分词和近似SVM的文本分类算法   总被引:1,自引:1,他引:0  
冯永  李华  钟将  叶春晓 《计算机科学》2010,37(1):251-254
中文分词的难点在于处理歧义和识别未登录词,传统字典的匹配算法很大程度上是依靠字典的代表性而无法有效地识别新词,特别是对于各种行业领域的知识管理。基于二元统计模型的分词算法能很好地适应不同的语料信息,且时间和精度都能满足文本知识管理的应用需要。近似支持向量机是将问题归结成仅含线性等式约束的二次规划问题,该算法的时间复杂度和空间复杂度比传统SVM算法的均有降低。在利用自适应分词算法进行分词的基础上,再利用近似支持向量机进行文本分类。实验表明,该方法能够自动适应行业领域的知识管理,且满足文本知识管理对训练时间敏感和需要处理大量文本的苛刻环境要求,从而具备较大的实用价值。  相似文献   

15.
针对目前复杂环境下车牌汉字图像识别率较低,识别时间较长等问题,提出了一种基于伪Zernike矩和独立主成分分析(ICA)的改进概率神经网络(PNN)车牌汉字识别方法.该方法是将车牌汉字图像的伪Zernike矩通过独立主成分分析降维,再将降维后的特征输入所提出的一种基于代表点的改进概率神经网络中进行训练和识别,从而有效地实现车牌汉字的识别.将该方法应用于复杂环境下的车牌汉字图像识别实验,实验结果表明,该方法能有效地降低特征维数,减少识别时间,并能显著地提高车牌汉字的识别率.  相似文献   

16.
基于区域分割的水下目标实时识别系统   总被引:2,自引:2,他引:0  
王猛  杨杰  白洪亮 《计算机仿真》2005,22(8):101-105
在真实水下环境中,检测和识别水下日标一致是研究的重点。介绍了一种基于最优阈值分割算法的水下目标自动实时识别系统。首先运用去噪、图像均衡等方法对实时摄取的水下图像进行预处理,接着运用基于遗传算法优化的Otsu(即大津方法)最优阈值分割算法对所得图像进行区域分割,提取图像的特征向量,最后采用BP神经网络对提取的特征向量进行自动分类从而最终确定了水下目标的类型。水槽仿真试验表明系统能够在恶劣的环境下自动地检测水下目标,而且该方法具有较强的抗光线干扰能力和较高的准确度。  相似文献   

17.
传统的手语识别方法基本都是利用离散的各帧静态图像进行识别,存在一定局限性,根据普通摄像头获得的视频图像,并采用方向直方图来获得单帧的静态特征矢量和各帧图像间的动态特征矢量.实现手语的识别.首先针对头两帧图像,通过手部边缘轮廓提取算法找到手的区域,然后从中提取出能表现手部形状的静态特征矢量.同时,对连续帧的图像做动作评估,获得手部移动的动态特征欠量.最后,将手部形状的静态特征与动态特征结合,采用使用欧氏距离作为矢量问匹配程度的度量算法以实现手语识别.实验对5个人的5种手语分别进行测试,均能正确识别,结果验证了该方法的有效性.  相似文献   

18.
为解决因手写书法作品种类繁多而识别困难的问题,降低人们观赏书法的门槛,本文提出了基于深度学习的手写书法字体识别算法.识别过程中首先使用投影法等图像处理方法对书法作品图像中的汉字进行定位和分割,然后分别利用GoogLeNet Inception-v3模型和ResNet-50残差网络进行书体风格识别和字形识别.实验结果表明,本文算法能实现对整幅书法作品中楷书和篆书的书体风格以及字形的识别,对楷书和篆书单字的识别率分别为91.57%和81.70%,达到了实用的需求.  相似文献   

19.
A new method for recognizing Chinese characters is proposed. It is based on the so-called featurepoints of Chinese characters. The feature points we use include those on the stroke of a character, i.e., endpoints, turning points, fork points and cross points, and the key points on the background of character. Thismethod differs from the previous ones for it combines the feature points on stroke with those on back-ground and it uses feature points to recognize Chinese characters directly. A Chinese character recognitionsystem based on top-down dynamical matching of feature point is developed. The system can recognizenot only 6763 printed sample Song font Chinese characters of size 5.6×5.6mm~2 with high recognition rate,but also the general printed books, magazines and documents with a satisfactory recognition rate andspeed.  相似文献   

20.
基于支持向量机的手写体相似字识别   总被引:22,自引:3,他引:19  
本文提出对手写相似汉字进行识别的支持向量机方法。该方法与人工神经网络一样适用于小规模分类,但由于支持向量机依据结构风险最小化原则,因此泛化能力更强。并且,由于支持向量机算法是一个凸二次优化问题,能够保证找到的极值解就是全局最优解。本文用支持向量机算法对三组手写相似汉字进行了识别,取得了较好的结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号