首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 406 毫秒
1.
针对目前已有的分词算法和程序在处理海量网络文本分词时性能下降的问题,本文提出了一种基于深度神经网络模型的中文分词方案。该方案利用基于长短期记忆网络的编码-解码模型对数据模型进行训练,并采用得到的模型进行分词。为了提升分词性能,进一步提出了一种基于词向量的修正方法,对采用上述模型的分词结果进行修正。对典型微博语料数据集的实验结果表明,提出基于模型的分词性能相对于传统的分词软件的分词性能有了较大提升。采用提出的词向量修正方法修正后的分词准确率和F值略优于未修正的分词准确率和F值,从而验证了论文提出的分词方案的有效性。  相似文献   

2.
一种网络课程答疑系统分词器的设计   总被引:1,自引:0,他引:1  
针对网络课程答疑系统提出了一种新的分词词典和查询算法,借鉴了现有三类分词算法的优点,克服了它们的不足,所设计的分词词典包括专业词典和基础词典两部分,所设计的算法在分词词典中搜索时,先搜索基础词典,后搜索专业词典,如果在基础词典中搜索出单词,则不继续搜索专业词典,该算法大大降低了算法的时间复杂度。本文将分词词典设计成由首字和次字构成的二维索引矩阵,和全部词语的有序顺序表组成,将单字的内码作为其在矩阵中的下标,对有序顺序表采用顺序查找,减少了词典搜索次数。  相似文献   

3.
为提高三维模型的检索准确度,针对工程三角网格模型提出了一种基于随机点间距离和法向夹角余弦联合分布及二进制粒子群优化的检索算法。在模型表面构造若干随机点并计算各点之间的距离和法向夹角余弦,然后以距离和余弦为坐标轴建立距离一余弦二维网格,统计各网格中的随机点数量,得到三维模型的距离-余弦联合形状分布矩阵,用分布矩阵之间的L_2距离表示模型之间的相似度。为了体现形状分布矩阵中各元素对模型相似度影响的差异性,采用一种基于二进制粒子群优化的方法对相似度计算过程进行了改进。实验结果表明,本算法可有效提高工程三角网格模型检索的准确性。  相似文献   

4.
基于字、词、词组的中文搜索引擎分词系统   总被引:2,自引:0,他引:2  
分析了全文检索系统中常用的基于字表和基于词表的中文分词方法的优缺点,提出了基于字、词、词组混合模型的中文搜索引擎分词系统;并利用广义语词概念,设计了分词词典,改进了最大匹配分词算法(MM);最后把分词系统应用于全文检索中。  相似文献   

5.
针对释义识别任务如何学习上下文语义的问题,提出了利用词向量来表示句子语义距离的模型。首先,利用word2vec训练大规模的词向量模型,把词的语义信息利用向量分布式表示;然后通过欧氏距离来计算句子间词的移动开销;最后基于EMD模型实现了从词语义距离到句子语义距离的建模,通过采用句子变换矩阵来实现句子间语义距离的度量,进而从语义相似性方面进行句子释义识别。实验基于SemEval-2015 PIT任务,与作为实验基线的逻辑回归和加权矩阵因数分解方法进行比较,提出的模型采用有监督实验时, 值非常接近实验基线,而采用无监督方法实验时, 值提高了5.8%。  相似文献   

6.
汉语分词是汉语处理与拼音文字语言处理的一个不同点.本文回顾了汉语分词研究的发展,对现有的四种汉语分词方法进行了评述,介绍了当前的研究现状和存在的困难,并提出了一种基于期望的汉语分词方法.这种方法把分词与理解同步进行.基于这种方法的汉语分词模型是由预处理模块、词头处理模块、期望分词模块、句法分析模块、语义分析模块、学习模块以及知识库组成.  相似文献   

7.
中文分词是自然语言处理的基础。交叉型歧义是提高中文分词精度的瓶颈之一。文章提出一种基于正向、负向最大匹配算法和passive aggressive(PA)算法结合的交叉型歧义消解算法。基于PA算法训练分词模型;利用正向、负向最大匹配算法检测交叉型歧义的位置;把可能出现交叉型歧义的句子或者句子的部分传递给分词模型,解码得到分词结果;最后,把正向、负向最大匹配结果和分词模型解码结果拼接成最终的分词结果。利用PA算法基于2014年2—12月份人民日报数据训练分词模型、2014年1月份人民日报数据作为测试语料进行实验,得到交叉型歧义的准确率、召回率和F-score分别为98.32%、98.14%和98.23%,说明该方法有效可行。  相似文献   

8.
针对多阶段情形下的三角模糊数双边匹配决策问题,基于新型距离测度和TODIM方法提出一种考虑多阶段的匹配决策方法。首先,针对现有三角模糊数距离测度的不足,提出一种三角模糊数新型距离测度;其次,给出阶段属性权重未知、阶段时间权重未知的多阶段双边匹配决策问题的数学描述;再次,利用三角模糊数的新型距离计算得到期望水平与评价信息之间的损益矩阵,利用三角模糊数的综合熵值构建优化模型求取阶段属性权重,利用衰减法计算阶段时间权重,利用TODIM方法构建综合优势度矩阵,利用极差变化法构建满意度矩阵。通过最大化满意度构建双边匹配模型,并通过求解模型得到匹配结果。最后,以风险投资商和企业的投资为例,验证了所提出匹配决策方法的可行性和有效性。  相似文献   

9.
提出一种三维网格模型的鲁棒数字水印算法,利用三维网格模型顶点到模型中心的距离所构成的矩阵为顶点模值矩阵,并用二维信号处理的方法嵌入水印,然后通过一系列的嵌入过程的逆处理操作重构含有水印的三维信号.实验结果表明了本算法具有良好的可操作性与鲁棒性.  相似文献   

10.
基于BI-LSTM-CRF模型的中文分词法   总被引:1,自引:0,他引:1  
递归神经网络能够很好地处理序列标记问题,已被广泛应用到自然语言处理(NLP)任务中。提出了一种基于长短期记忆(LSTM)神经网络改进的双向长短期记忆条件随机场(BI-LSTM-CRF)模型,不仅保留了LSTM能够利用上下文信息的特性,同时能够通过CRF层考虑输出标签之间前后的依赖关系。利用该分词模型,通过加入预训练的字嵌入向量,以及使用不同词位标注集在Bakeoff2005数据集上进行的分词实验,结果表明:BI-LSTM-CRF模型比LSTM和双向LSTM模型具有更好的分词性能,同时具有很好地泛化能力;相比四词位,采用六词位标注集的神经网络模型能够取得更好的分词性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号