首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
基于BI-LSTM-CRF模型的中文分词法   总被引:1,自引:0,他引:1  
递归神经网络能够很好地处理序列标记问题,已被广泛应用到自然语言处理(NLP)任务中。提出了一种基于长短期记忆(LSTM)神经网络改进的双向长短期记忆条件随机场(BI-LSTM-CRF)模型,不仅保留了LSTM能够利用上下文信息的特性,同时能够通过CRF层考虑输出标签之间前后的依赖关系。利用该分词模型,通过加入预训练的字嵌入向量,以及使用不同词位标注集在Bakeoff2005数据集上进行的分词实验,结果表明:BI-LSTM-CRF模型比LSTM和双向LSTM模型具有更好的分词性能,同时具有很好地泛化能力;相比四词位,采用六词位标注集的神经网络模型能够取得更好的分词性能。  相似文献   

2.
在传统基于统计的中文分词系统基础上加以总结和改进,通过向量空间建立字典模型,改进了倒排字典设计,引入了改进的字典自我学习的功能,优化了字典排序的算法,提高了查询的速度.  相似文献   

3.
针对目前已有的分词算法和程序在处理海量网络文本分词时性能下降的问题,本文提出了一种基于深度神经网络模型的中文分词方案。该方案利用基于长短期记忆网络的编码-解码模型对数据模型进行训练,并采用得到的模型进行分词。为了提升分词性能,进一步提出了一种基于词向量的修正方法,对采用上述模型的分词结果进行修正。对典型微博语料数据集的实验结果表明,提出基于模型的分词性能相对于传统的分词软件的分词性能有了较大提升。采用提出的词向量修正方法修正后的分词准确率和F值略优于未修正的分词准确率和F值,从而验证了论文提出的分词方案的有效性。  相似文献   

4.
基于计算机自动分词的研究   总被引:1,自引:0,他引:1  
时代发展对中文分词的要求越来越高,在原有机械分词方法中双向匹配理论的基础上,对其进行改进,以提高分词的速度和准确率.在原方法上分别为正向匹配和逆向匹配增加了一个词头表,利用Java语言中Map和Set具有Hash结构的特性,进行程序设计.设计以《红楼梦》为例,对改进的方法进行测试,结果证明改进的方法可行,与原有方法比较,在速度上和准确率上都有较大的提高.  相似文献   

5.
近年来基于字的词位标注方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,基于字的词位标注汉语分词方法逐渐成为汉语分词的主要技术路线。该方法中特征模板选择至关重要,采用四词位标注集,使用条件随机场模型进一步研究基于字的词位标注汉语分词技术,在第三届和第四届国际汉语分词评测Bakeoff语料上进行封闭测试,并对比了不同特征模板集对分词性能的影响。实验表明采用的特征模板集:TMPT-10′较传统的特征模板集分词性能更好。  相似文献   

6.
针对当前的专家系统所存在的一些不足之处,阐述了“专家系统应该在兼顾可行性的前提下充分体现出智能的有机整体性”这一观点,从这一观点出发,结合模糊神经网络技术和面向对象的分析与设计方法,提出了“宏专家系统”这样一种新的专家系统模型,最后给出了一个基于此模型的设计实例-“冲模设计宏专家系统”。  相似文献   

7.
针对当前的专家系统所存在的一些不足之处 ,阐述了“专家系统应该在兼顾可行性的前提下充分体现出智能的有机整体性”这一观点 .从这一观点出发 ,结合模糊神经网络技术和面向对象的分析与设计方法 ,提出了“宏专家系统”这样一种新的专家系统模型 .最后给出了一个基于此模型的设计实例———“冲模设计宏专家系统  相似文献   

8.
通过研究和分析现有最大匹配分词算法,词库结构的设计和分词算法直接关系着分词的速度和效率,提出了一种改进的最大匹配分词算法——基于双字词的动态最大匹配分词算法,设计并实现了汉语分词词库和算法。实验结果表明,此算法相对于现有最大匹配分词算法有显著提高。  相似文献   

9.
基于计算语言学的全文检索   总被引:2,自引:0,他引:2  
对全文检索系统的实现原理及途径进行了讨论,指出了传统方法存在的问题,对如何利用计算语言学原理来实现全文检索进行了研究  相似文献   

10.
Aho-Corasick自动机算法是著名的多模式串匹配算法,它在模式串失配时,通过fail指针转移至有效的后续状态,存在一个或多个有效的后续状态可能。据此特性,该文提出了一种适应于中文分词的自动机算法。该算法使用动态规划的方法,计算上下文匹配概率,转移至最佳的有效后续状态,即实现了基于字符串匹配的机械分词方法与基于统计概率模型的方法结合。实验结果表明,该算法分词准确率高。  相似文献   

11.
基于多特征的自适应新词识别   总被引:4,自引:0,他引:4  
为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统辅助的边界确认信息等,并直接从被抽取文本中自动训练识別模型.同时,新词识别过程在字串PAT-Array数据结构上进行,可以抽取任意长度的新词语.实验结果表明,该方法新词发现速度快、节省存储空间.  相似文献   

12.
本系统将智能引入了汉字编码输入技术,具有易学快速的特点。本文首先介绍了系统特点和总体设计指导思想,接着介绍了编码设计及重码字机内智能处理的一种技术——双向自动选择技术,最后介绍双通道输入方式设计。  相似文献   

13.
汉字的字体设计在艺术设计上地位极其重要。巧妙运用汉字的字体设计的创意表现,是现代艺术设计展现品牌形象的一种方法。文字的图形化,使汉字的字体设计更有艺术性,在各种艺术设计中均可巧妙运用,文章展示了汉字的字体设计在艺术设计中的运用效果及未来发展趋势。  相似文献   

14.
文章介绍了人工智能在教育中的应用之起源、智能辅导系统的概念和典型机构.阐述智能辅导系统和通常的计算机辅助学习系统之差别,介绍智能辅导系统在教育中的应用,并讨论智能辅导系统对教育的好处.  相似文献   

15.
基于统计模式识别原理的联机手写汉字识别算法,提出了一种新的笔划识别算法-笔划识别的混合算法,它是方向码差值判别法与坐标差特征值判别法的有机结合,同时提出了笔段二值化等概念,并论述了以最小距离判决法则为理论依据的特征坐标匹配识别原理。  相似文献   

16.
机器翻译技术的发展及其应用   总被引:4,自引:0,他引:4  
本结合一些典型的机器翻译系统,介绍了近年来机器翻译技术的进展情况,探讨了机器翻译技术的发展趋势,最后介绍了目前机器翻译的实际应用情况。  相似文献   

17.
本文给出了全汉化电子收款机EC-01的硬件、软件设计原理和方法.该收款机具有零售、退货、进货、查账、连网等多种功能.  相似文献   

18.
提出了一种树形识别字典结构,并采用坐标描述法对汉字的结构进行描述,从而有效地提高了汉字部件(包括笔划)之间位置关系的描述精度.  相似文献   

19.
根据矿井系统的复杂性及矿井设计的不良结构特点,提出了智能化矿井设计系统的基本结构、建模思路和建模方法,并分析了它的基本特点和应具备的基本功能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号