首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 244 毫秒
1.
针对Lucene自带中文分词器分词效果差的缺点,在分析现有分词词典机制的基础上,设计了基于全哈希整词二分算法的分词器,并集成到Lucene中,算法通过对整词进行哈希,减少词条匹配次数,提高分词效率。该分词器词典文件维护方便,可以根据不同应用的要求进行定制,从而提高了检索效率。  相似文献   

2.
基于BiLSTM-CRF的中医文言文文献分词模型研究   总被引:1,自引:0,他引:1  
王莉军  周越  桂婕  翟云 《计算机应用研究》2020,37(11):3359-3362,3367
由于中医文献内容繁杂数目庞大、专业术语词汇较多,且包含使用文言文、古人口语等多样的书写方式,使用通用领域的分词器进行分词的效果较差。为了解决这一问题,该方法构建了BiLSTM-CRF的模型对中医领域的文献尤其是文言文文献进行分词,并在中医领域文献上对比了BiLSTM-CRF模型、BiLSTM模型及主流通用中文分词器jieba、Ansj的分词结果。结果表明基于Bi-LSTM-CRF模型的分词取得了更优秀的分类性能和鲁棒性。  相似文献   

3.
近年来,基于神经网络的分词模型在封闭领域文本上取得了很高的性能。然而,在领域移植场景下,即测试数据与训练数据的领域差异较大时,分词的性能会显著下降。该文尝试利用自动获取的弱标注数据来提升领域移植场景下的分词性能。首先,对目前性能最好的BiLSTM-CRF分词模型进行扩展,引入适用于弱标注数据的损失函数;进而提出一种简单有效的数据筛选方法,从海量弱标注数据中筛选和目前领域更相关的数据;最后,该文发现数据预处理和在神经网络中引入传统特征均可以有效提高分词性能。在SIGHAN Bakeoff 2010和ZhuXian标注测试集上的实验结果表明,该文所提方法可有效提升汉语分词领域移植性能,平均F值提高了3.6%。  相似文献   

4.
分词是中文信息处理的第一步,但由于预警信息的领域性较强,直接将现有分词方法应用于预警领域,算法效率和分词结果的准确性都急剧下降.采用神经网络领域纠正器框架,在通用粗分阶段引入权重信息,改进了双字哈希词典的构造方法,有效降低了最大匹配分词算法的迭代次数.在领域纠正阶段,构建合法预警人工分词语料,利用双向GRU模型设计神经网络预警领域纠正器,提高领域适应性.仿真证明了算法在有效提高分词速度的同时,取得了更加优秀的准确率、召回率和P值,能够满足预警信息快速、准确切分的需求.  相似文献   

5.
如何在中文BERT字向量基础上进一步得到高质量的领域词向量表示,用于各种以领域分词为基础的文本分析任务是一个亟待解决的问题。提出了一种基于BERT的领域词向量生成方法。建立一个BERT-CRF领域分词器,在预训练BERT字向量基础上结合领域文本进行fine-tuning和领域分词学习;通过领域分词解码结果进一步得到领域词向量表示。实验表明,该方法仅利用少量的领域文本就可以学习出符合领域任务需求的分词器模型,并能获得相比原始BERT更高质量的领域词向量。  相似文献   

6.
目前,许多深度神经网络模型以双向长短时记忆网络结构处理中文分词任务,存在输入特征不够丰富、语义理解不全、计算速度慢的问题。针对以上问题,该文提出一种基于膨胀卷积神经网络模型的中文分词方法。通过加入汉字字根信息并用卷积神经网络提取特征来丰富输入特征;使用膨胀卷积神经网络模型并加入残差结构进行训练,能够更好理解语义信息并提高计算速度。基于Bakeoff 2005语料库的4个数据集设计实验,与双向长短时记忆网络模型的中文分词方法做对比,实验表明该文提出的模型取得了更好的分词效果,并具有更快的计算速度。  相似文献   

7.
为了提高专业领域中文分词性能,以及弥补专业领域大规模标注语料难以获取的不足,该文提出基于深度学习以及迁移学习的领域自适应分词方法。首先,构建包含词典特征的基于深度学习的双向长短期记忆条件随机场(BI-LSTM-CRF)分词模型,在通用领域分词语料上训练得到模型参数;接着,以建设工程法律领域文本作为小规模分词训练语料,对通用领域语料的BI-LSTM-CRF分词模型进行参数微调,同时在模型的词典特征中加入领域词典。实验结果表明,迁移学习减少领域分词模型的迭代次数,同时,与通用领域的BI-LSTM-CRF模型相比,该文提出的分词方法在工程法律领域的分词结果F1值提高了7.02%,与预测时加入领域词典的BI-LSTM-CRF模型相比,分词结果的F1值提高了4.22%。该文提出的分词模型可以减少分词的领域训练语料的标注,同时实现分词模型跨领域的迁移。  相似文献   

8.
老挝语是一种无空格切分的字母语言,在进行自然语言处理工作时需要首先进行分词处理。现有分词算法主要为首先使用规则进行音节切分,然后根据音节切分结果进行老挝语分词,存在错误传递等问题。该文提出一种基于神经网络的端到端老挝语分词方法,基于多任务联合学习思想,将老挝语音节切分与分词工作进行结合,实现了基于双向长短时记忆循环神经网络(BiLSTM)的端到端老挝语分词模型。实验表明,端到端的老挝语分词模型准确率达到89.02%,较以往分词模型有所提升。  相似文献   

9.
针对金融领域中智能客服的句子相似度计算方法进行了研究。利用基于词性的分词纠正模型减少中文歧义词、金融相关词汇的分词错误;通过词向量方法和循环神经网络分别提取词语级和句子级的语义特征,并且得到句子向量;用融合层计算出句子向量间的差异特征;对差异特征进行降维和归一化得到句子相似度计算结果。实验结果表明,该方法具有较高的准确率和[F1]值。  相似文献   

10.
当分词算法优化到接近极限时,分词器的性能指标就较多地取决于训练语料的覆盖度和完备程度。因此,如何快速、省力、自动化地构建具有较完备的分词语料库是一个亟待解决的问题。该文对用户输入过程中留下的大量可用且珍贵的自然分词信息进行了探索和研究,为自动构建分词语料库提供了一种新的观点。前人的研究中,对用户在输入过程中留下的自然分词标记信息并没有关注,而该文通过实验验证了这些分词标记信息确实可以用于构建分词语料库,并且具有相当好的效果。其中经过甄别优秀用户在输入时留下的分词标记十分接近标准的分词结果。该文使用分类模型结合投票机制的方法找到三个此类优秀用户,获取了他们带有输入标记的文本,快速构建了分词训练语料库,极大地提升了分词器的精度;更重要的是,揭示并验证了自然输入分词标记信息的有效作用。  相似文献   

11.
目的 目前深度神经网络已成功应用于众多机器学习任务,并展现出惊人的性能提升效果。然而传统的深度网络和机器学习算法都假定训练数据和测试数据服从的是同一分布,而这种假设在实际应用中往往是不成立的。如果训练数据和测试数据的分布差异很大,那么由传统机器学习算法训练出来的分类器的性能将会大大降低。为了解决此类问题,提出了一种基于多层校正的无监督领域自适应方法。方法 首先利用多层校正来调整现有的深度网络,利用加法叠加来完美对齐源域和目标域的数据表示;然后采用多层权值最大均值差异来适应目标域,增加网络的表示能力;最后提取学习获得的域不变特征来进行分类,得到目标图像的识别效果。结果 本文算法在Office-31图像数据集等4个数字数据集上分别进行了测试实验,以对比不同算法在图像识别和分类方面的性能差异,并进行准确度测量。测试结果显示,与同领域算法相比,本文算法在准确率上至少提高了5%,在应对照明变化、复杂背景和图像质量不佳等干扰情况时,亦能获得较好的分类效果,体现出更强的鲁棒性。结论 在领域自适应相关数据集上的实验结果表明,本文方法具备一定的泛化能力,可以实现较高的分类性能,并且优于其他现有的无监督领域自适应方法。  相似文献   

12.
基于图神经网络的推荐算法通过从图中获取知识生成节点的特征表示,提高了推荐结果的可解释性.然而,随着推荐系统原始数据规模的不断扩大,大量包含语义信息的文本数据没有得到有效利用.同时图神经网络在融合图中邻居信息时没有区分关键节点,使得模型难以学习到高质量的实体特征,进而导致推荐质量下降.本文将图神经网络与语义模型相结合,提出一种融合语义信息与注意力的图神经网络推荐算法.该算法基于SpanBERT语义模型处理实体相关的文本信息,生成包含语义信息的特征嵌入,并将注意力机制引入到基于用户社交关系以及用户-项目交互的影响传播融合过程中,从而实现用户和项目两类实体特征的有效更新.在公开数据集上的对比实验结果表明,本文所提出的方法较现有基准方法在各项指标上均有所提升.  相似文献   

13.
介绍了用神经网络校正传感器系统非线性误差的原理和方法,提出了一种基于RBF神经网络的传感器非线性校正模型及其算法,并与采用BP神经网络校正非线性误差进行了比较,并给出一个仿真实验,实验结果表明:采用RBF神经网络的传感器非线性校正精度和网络训练速度均大大优于BP神经网络,能满足实用要求.  相似文献   

14.
基于CNN-BLSTM-CRF模型的生物医学命名实体识别   总被引:3,自引:0,他引:3  
命名实体识别是自然语言处理任务的重要步骤。近年来,不依赖人工特征的神经网络在新闻等通用领域命名实体识别方面表现出了很好的性能。然而在生物医学领域,许多实验表明基于领域知识的人工特征对于神经网络模型的结果影响很大。因此,如何在不依赖人工特征的情况下获得较好的生物医学命名实体识别性能是有待解决的问题。该文提出一种基于CNN-BLSTM-CRF的神经网络模型。首先利用卷积神经网络(CNN)训练出单词的具有形态特征的字符级向量,并从大规模背景语料训练中得到具有语义特征信息的词向量,然后将二者进行组合作为输入,再构建适合生物医学命名实体识别的BLSTM-CRF深层神经网络模型。实验结果表明,不依赖任何人工特征,该文方法在Biocreative Ⅱ GM和JNLPBA2004生物医学语料上都达到了目前最好的结果,F-值分别为89.09%和74.40%。  相似文献   

15.
基于BP神经网络的颜色补偿模型   总被引:1,自引:0,他引:1  
针对光源渐变等因素在机器视觉中产生的相关问题,提出了一种基于BP神经网络的图像颜色校正方法.该方法通过合适的训练集对BP神经网络进行大量训练,得到光照变化前后图像像素点之间的映射关系,从而建立了在渐变光照环境下的颜色恒常性模型.该方法不需要内建约束的自适应模型,对于输入的数据不需要对表面属性做特定假设,拥有自适应、自学习的特点.实验结果表明,该模型对室内真实环境中渐变日光下颜色的识别表现出较好的颜色恒常性.  相似文献   

16.
As the amount of online Chinese contents grows, there is a critical need for effective Chinese word segmentation approaches to facilitate Web computing applications in a range of domains including terrorism informatics. Most existing Chinese word segmentation approaches are either statistics-based or dictionary-based. The pure statistical method has lower precision, while the pure dictionary-based method cannot deal with new words beyond the dictionary. In this paper, we propose a hybrid method that is able to avoid the limitations of both types of approaches. Through the use of suffix tree and mutual information (MI) with the dictionary, our segmenter, called IASeg, achieves high accuracy in word segmentation when domain training is available. It can also identify new words through MI-based token merging and dictionary updating. In addition, with the proposed Improved Bigram method IASeg can process N-grams. To evaluate the performance of our segmenter, we compare it with two well-known systems, the Hylanda segmenter and the ICTCLAS segmenter, using a terrorism-centric corpus and a general corpus. The experiment results show that IASeg performs better than the benchmarks in both precision and recall for the domain-specific corpus and achieves comparable performance for the general corpus.  相似文献   

17.
A neural network algorithm-based system that reads handwritten ZIP codes appearing on real US mail is described. The system uses a recognition-based segmenter, that is a hybrid of connected-components analysis (CCA), vertical cuts, and a neural network recognizer. Connected components that are single digits are handled by CCA. CCs that are combined or dissected digits are handled by the vertical-cut segmenter. The four main stages of processing are preprocessing, in which noise is removed and the digits are deslanted, CCA segmentation and recognition, vertical-cut-point estimation and segmentation, and directly lookup. The system was trained and tested on approximately 10000 images, five- and nine-digit ZIP code fields taken from real mail  相似文献   

18.
A new numerical calculation method has been developed based on the nonlinear analysis characteristics of artificial neural network (ANN). This method is a novel algorithm for computational fluid dynamics (CFD) using the concept of the artificial intelligence. It is completely different from prior traditional numerical methods. It does not generate mesh in the calculation domain except for some random points, even does not solve the algebraic equations. This method has been applied to compute the vapor–water two-phase flows in a tube with uniform and nonuniform heating. Through the comparison of the calculated results between this method and theoretical analysis (the finite difference method), the validity of this meshfree method based on the ANN is confirmed.  相似文献   

19.
光电位置敏感传感器(PSD),特别是其B区存在非线性误差大、测量精度低的问题.针对现有神经网络校正方法的不足,提出一种基于思维进化计算(MEC)算法优化的神经网络校正模型.该方法首先应用MEC算法搜索最优神经网络初始权值和阈值,再利用LM算法训练BP神经网络,最后将训练好的神经网络用于PSD非线性校正.仿真实验结果表明,所提出的方法校正精度高,收敛速度快,泛化能力强,测试数据的平均误差被控制在0.005 mm以下.经过校正后的PSD在非线性区表现出与线性区相似的线性程度,提高了PSD的测量精度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号