期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

成于思施云涛《计算机工程与应用》2018,54(17):30-34

在专业领域分词任务中;基于统计的分词方法的性能受限于缺少专业领域的标注语料;而基于词典的分词方法在处理新词和歧义词方面还有待提高。针对专业领域分词的特殊性;提出统计与词典相结合的分词方法;完善领域词典构建流程;设计基于规则和字表的二次分词歧义消解方法。在工程法领域语料上进行分词实验。实验结果表明;在工程法领域的分词结果准确率为92.08%;召回率为94.26%;F值为93.16%。该方法还可与新词发现等方法结合;改善未登录词的处理效果。相似文献

2.

基于改进BERT的电力领域中文分词方法

夏飞陈帅琦华珉蒋碧鸿《计算机应用》2023,43(12):3711-3718

针对电力领域中文文本包含大量专有词时分词效果不佳的问题,提出一种基于改进BERT(Bidirectional Encoder Representation from Transformers)的电力领域中文分词(CWS)方法.首先,构建分别涵盖通用、领域词的词典,并设计双词典匹配融合机制将词特征直接融入BERT模型,使模型更有效地利用外部知识;其次,通过引入DEEPNORM方法提高模型对于特征的提取能力,并使用贝叶斯信息准则(BIC)确定模型的最佳深度,使BERT模型稳定加深至40层;最后,采用ProbSparse自注意力机制层替换BERT模型中的经典自注意力机制层,并利用粒子群优化(PSO)算法确定采样因子的最优值,在降低模型复杂度的同时确保模型性能不变.在人工标注的电力领域专利文本数据集上进行了分词性能测试.实验结果表明,所提方法在该数据集分词任务中的F1值达到了92.87%,相较于隐马尔可夫模型(HMM)、多标准分词模型METASEG(pre-training model with META learning for Chinese word SEGmentation)与词典增强型BERT(LEBERT)模型分别提高了14.70、9.89与3.60个百分点,验证了所提方法有效提高了电力领域中文文本的分词质量. 相似文献

3.

基于条件随机场的中文领域分词研究

朱艳辉刘璟徐叶强田海龙马进《计算机工程与应用》2016,52(15):97-100

针对条件随机场分词不具有良好的领域自适应性,提出一种条件随机场与领域词典相结合的方法提高领域自适应性,并根据构词规则提出了固定词串消解,动词消解,词概率消解三种方法消除歧义。实验结果表明,该分词流程和方法,提高了分词的准确率和自适应性,在计算机领域和医学领域的分词结果F值分别提升了7.6%和8.7%。相似文献

4.

基于Active Learning的中文分词领域自适应

许华婷张玉洁杨晓晖单华徐金安陈钰枫《中文信息学报》2015,29(5):55-63

在新闻领域标注语料上训练的中文分词系统在跨领域时性能会有明显下降。针对目标领域的大规模标注语料难以获取的问题,该文提出Active learning算法与n-gram统计特征相结合的领域自适应方法。该方法通过对目标领域文本与已有标注语料的差异进行统计分析,选择含有最多未标记过的语言现象的小规模语料优先进行人工标注,然后再结合大规模文本中的n-gram统计特征训练目标领域的分词系统。该文采用了CRF训练模型,并在100万句的科技文献领域上,验证了所提方法的有效性,评测数据为人工标注的300句科技文献语料。实验结果显示,在科技文献测试语料上,基于Active Learning训练的分词系统在各项评测指标上均有提高。
相似文献

5.

中文分词模型词典融入方法比较

冯雪《计算机应用研究》2019,36(1)

目前比较流行的中文分词方法为基于统计模型的机器学习方法。基于统计的方法一般采用人工标注的句子级的标注语料进行训练,但是这种方法往往忽略了已有的经过多年积累的人工标注的词典信息。这些信息尤其是在面向跨领域时,由于目标领域句子级别的标注资源稀少,从而显得更加珍贵。因此如何充分而且有效的在基于统计的模型中利用词典信息,是一个非常值得关注的工作。最近已有部分工作对它进行了研究,按照词典信息融入方式大致可以分为两类：一类是在基于字的序列标注模型中融入词典特征,而另一类是在基于词的柱搜索模型中融入特征。对这两类方法进行比较,并进一步进行结合。实验表明,这两类方法结合之后,词典信息可以得到更充分的利用,最终无论是在同领域测试和还是在跨领域测试上都取得了更优的性能。相似文献

6.

统计与词典相结合的领域自适应中文分词

张梅山邓知龙车万翔刘挺《中文信息学报》2012,26(2):8-13

基于统计的中文分词方法由于训练语料领域的限制,导致其领域自适应性能力较差。相比分词训练语料,领域词典的获取要容易许多,而且能为分词提供丰富的领域信息。该文通过将词典信息以特征的方式融入到统计分词模型(该文使用CRF统计模型)中来实现领域自适应性。实验表明,这种方法显著提高了统计中文分词的领域自适应能力。当测试领域和训练领域相同时,分词的F-measure值提升了2%;当测试领域和训练领域不同时,分词的F-measure值提升了6%。相似文献

7.

面向建筑领域的中文分词方法研究

李鹏光永星乔天玲操峻岩《电脑与信息技术》2021,29(5):67-72

中文分词技术目前存在的一个问题是针对特定领域未登录词识别效率较低的问题.建筑类文本分词由于受到专业本身词语的特点等限制,分词时对未登录词的识别效果不太好.提出一种非监督的基于改进算法与邻接熵结合的方法来进行未登录词的识别.首先通过算法对文本间相互依赖值比较大的字串进行识别,然后通过停用词表和语料库进行筛选过滤得到候选词典,计算候选词典之间的邻接熵,设定阈值确定最后的未登录词,最后将识别的未登录词作为加入到专业词典进行分词.通过实验证明建筑领域文本在使用提出的算法时对于未登录词有较好的识别效果,准确率较算法提高了15.92％,召回率提高了7.61％,因此最终的分词效果在准确率和召回率分别可达到82.15％、80.45％. 相似文献

8.

基于无监督学习的专业领域分词歧义消解方法

修驰宋柔《计算机应用》2013,33(3):780-783

中文自然语言处理中专业领域分词的难度远远高于通用领域。特别是在专业领域的分词歧义方面,一直没有找到有效的解决方法。针对该问题提出基于无监督学习的专业领域分词歧义消解方法。以测试语料自身的字符串频次信息、互信息、边界熵信息为分词歧义的评价标准,独立、组合地使用这三种信息解决分词歧义问题。实验结果显示该方法可以有效消解专业领域的分词歧义,并明显提高分词效果。相似文献

9.

基于半监督CRF的跨领域中文分词

邓丽萍罗智勇《中文信息学报》2017,31(4):9-19

中文分词是中文信息处理领域的一项关键基础技术。随着中文信息处理应用的发展,专业领域中文分词需求日益增大。然而,现有可用于训练的标注语料多为通用领域(或新闻领域)语料,跨领域移植成为基于统计的中文分词系统的难点。在跨领域分词任务中,由于待分词文本与训练文本构词规则和特征分布差异较大,使得全监督统计学习方法难以获得较好的效果。该文在全监督CRF中引入最小熵正则化框架,提出半监督CRF分词模型,将基于通用领域标注文本的有指导训练和基于目标领域无标记文本的无指导训练相结合。同时,为了综合利用各分词方法的优点,该文将加词典的方法、加标注语料的方法和半监督CRF模型结合起来,提高分词系统的领域适应性。实验表明,半监督CRF较全监督CRF OOV召回率提高了3.2个百分点,F-值提高了1.1个百分点;将多种方法混合使用的分词系统相对于单独在CRF模型中添加标注语料的方法OOV召回率提高了2.9个百分点,F-值提高了2.5个百分点。相似文献

10.

字典与统计相结合的中文分词方法 总被引：15，自引：0，他引：15

翟凤文赫枫龄左万利《小型微型计算机系统》2006,27(9):1766-1771

提出了一种字典与统计相结合的中文分词方法，该方法首先利用基于字典的分词方法进行第一步处理，然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题．本算法在基于字典的处理过程中，通过改进字典的存储结构，提高了字典匹配的速度；在基于统计的处理过程中，通过统计和规则相结合的方法提高了交集型歧义切分的准确率，并且一定条件下解决了语境中高频未登录词问题，实验结果表明，由本文算法实现的分词系统DSfenci的分全率达99．52％，准确率达98．52％．相似文献

11.

一种规则与统计相结合的汉语分词方法 总被引：18，自引：2，他引：18

赵伟戴新宇尹存燕陈家骏《计算机应用研究》2004,21(3):23-25

汉语自动分词是中文信息处理领域的一项基础性课题,对现有的汉语分词方法作了简单的概述和分析,然后提出了一种新的分词方法,该方法基于一个标注好了的语料库,并且结合了规则和语料库统计两种分词方法。相似文献

12.

基于最短路径的二元语法中文词语粗分模型的研究 总被引：1，自引：0，他引：1

甘秋云《现代计算机》2013,(17)

词语粗分是分词后续处理的基础和前提,直接影响到分词系统最终的准确率和召回率。针对目前常用分词方法单一使用时存在的不足,综合机械分词的高效性和统计分词的灵活性,设计一种基于最短路径的二元语法中文词语粗分模型。实验结果表明,此粗分模型无论在封闭测试和开放测试中,还是在不同粗分模型对比测试和不同领域的开放测试中,都有较好的句子召回率。相似文献

13.

基于最大间隔马尔可夫网模型的汉语分词方法

李月伦常宝宝《中文信息学报》2010,24(1):8-15

分词是汉语自然语言处理研究中非常重要的一个环节,在早先的研究中,最大熵模型和条件随机场(CRF)模型已经广泛运用到汉语自动分词的工作中。最大间隔马尔可夫网(M3N)模型是近年来由B.Taskar等^[1]人提出的一种新型结构学习模型。该文尝试将这一模型用于汉语分词建模并进行实验,实验结果显示,基于给定的训练语料与测试语料,分词精度可以达到95％,表明基于最大间隔马尔科夫网的汉语分词方法可以取得较高的分词精度,是一种有效的汉语分词方法。相似文献

14.

基于“固结词串”实例的中文分词研究

修驰宋柔《中文信息学报》2012,26(3):59-65

近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基于“固结词串”实例的机器学习方法解决分词歧义问题。实验结果表明,该方法可以简单有效的解决原有的分词歧义问题,并且不会产生更多新的歧义切分。相似文献

15.

基于字词分类的层次分词方法研究

张聪品赵理莉吴长茂《计算机应用》2010,30(8):2034-2037

中文分词是自然语言处理的基础性问题。条件随机场模型分词过程中出现的切分粒度过小和多字粘连造成的错分问题,是影响分词结果的两个主要原因。提出了一个基于字词分类的层次分词模型,该模型采用多部有效词典进行处理,在外层分词系统中解决切分粒度过小问题;在内层核心层,条件随机场分词后再处理多字粘连问题。实验结果表明,采用加入多词典的字词结合层次分类模型F-测度值有较大的提高,有助于得到好的分词结果。相似文献

16.

一种面向社区型问句检索的主题翻译模型

张伟男张宇刘挺《计算机学报》2015,38(2)

基于统计机器翻译模型的问句检索模型,其相关性排序机制主要依赖于词项间的翻译概率,然而已有的模型没有很好地控制翻译模型的噪声,使得当前的问句检索模型存在不完善之处.文中提出一种基于主题翻译模型的问句检索模型,从理论上说明,该模型利用主题信息对翻译进行合理的约束,达到控制翻译模型噪声的效果,从而提高问句检索的结果.实验结果表明,文中提出的模型在MAP (Mean Average Precision)、MRR(Mean Reciprocal Rank)以及p@1(precision at position one)等指标上显著优于当前最先进的问句检索模型. 相似文献