首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
在基于条件随机场的中文命名实体识别任务中,现有表示学习方法学习到的特征存在语义表示偏差,给中文命名实体识别带来噪音。针对此问题,提出了一种基于位置敏感Embedding的中文命名实体识别方法。该方法将上下文位置信息融入到现有的Embedding模型中,采用多尺度聚类方法抽取不同粒度的Embedding特征,通过条件随机场来识别中文命名实体。实验证明,该方法学习到的特征缓解了语义表示偏差,进一步提高了现有系统的性能,与传统方法进行相比,F值提高了2.85%。  相似文献   

2.
韩玉民  郝晓燕 《计算机应用》2022,42(6):1862-1868
准确识别命名实体有助于构建专业知识图谱、问答系统等。基于深度学习的命名实体识别(NER)技术已广泛应用于多种专业领域,然而面向材料领域的NER研究相对较少。针对材料领域NER中可用于监督学习的数据集规模小、实体词复杂度高等问题,使用大规模非结构化的材料领域文献数据来训练基于一元语言模型(ULM)的子词嵌入分词模型,并充分利用单词结构蕴含的信息来增强模型鲁棒性;提出以BiLSTM-CRF模型(双向长短时记忆网络与条件随机场结合的模型)为基础并结合能够感知方向和距离的相对多头注意力机制(RMHA)的实体识别模型,以提高对关键词的敏感程度。得到的BiLSTM-RMHA-CRF模型结合ULM子词嵌入方法,相比BiLSTM-CNNs-CRF和SciBERT等模型,在固体氧化物燃料电池(SOFC)NER数据集上的宏平均F1值(Macro F1值)提高了2~4个百分点,在SOFC细粒度实体识别数据集上的Macro F1值提高了3~8个百分点。实验结果表明,基于子词嵌入和相对注意力的识别模型能够有效提高材料领域实体的识别准确率。  相似文献   

3.
小麦病虫害中文命名实体识别是构建该领域知识图谱的关键步骤,针对小麦病虫害领域训练数据匮乏、实体结构复杂、实体类型多样及实体分布不均匀等问题,在充分挖掘隐含知识的前提下,采用了两种数据增广方法扩充句子语义信息,构建了小麦病虫害实体识别语料库WpdCNER及其领域词典WpdDict,并在领域专家的指导下定义了16类实体;同时提出了一种基于规则修正的中文命名实体识别模型WPD-RA,该模型基于轻量级BERT+双向长短期记忆网络+条件随机场(ALBERT+BiLSTM+CRF)进行实体识别,并在识别后定义具体规则校准实体边界。融合规则后的ALBERT+BiLSTM+CRF模型取得了最好的识别结果,准确率为94.72%,召回率为95.23%,F1值为94.97%,相比不加规则的识别结果,其准确率、召回率、F1值分别增加了1.71个百分点、0.34个百分点、1.03个百分点。实验结果表明,该方法能有效识别小麦病虫害领域命名实体,识别性能优于其他模型,为食品安全、生物等其他领域命名实体识别提供了一种可借鉴的思路。  相似文献   

4.
旅游领域命名实体识别是旅游知识图谱构建过程中的关键步骤,与通用领域的实体相比,旅游文本的实体具有长度长、一词多义、嵌套严重的特点,导致命名实体识别准确率低。提出一种融合词典信息的有向图神经网络(L-CGNN)模型,用于旅游领域中的命名实体识别。将预训练词向量通过卷积神经网络提取丰富的字特征,利用词典构造句子的有向图,以生成邻接矩阵并融合字词信息,通过将包含局部特征的词向量和邻接矩阵输入图神经网络(GNN)中,提取全局语义信息,并引入条件随机场(CRF)得到最优的标签序列。实验结果表明,相比Lattice LSTM、ID-CNN+CRF、CRF等模型,L-CGNN模型在旅游和简历数据集上具有较高的识别准确率,其F1值分别达到86.86%和95.02%。  相似文献   

5.
英文产品命名实体识别目前国内外研究得较少,本文针对TREC 2009英文产品命名实体(EPNE)识别的任务,首次提出了一种基于条件随机场模型(CRF)的英文产品命名实体识别方法。在条件随机场中,该方法以词作为切分粒度,充分利用上下文和英文产品名特有的指示信息作为分类特征,结合手工构建的品牌词表进行建模。实验表明,该方法获得了较好的结果,英文产品实体识别准确率达到93.6%,召回率达到92.4%。  相似文献   

6.
命名实体识别是自然语言处理领域的一项基础性技术。近年来微博等网络社交平台发展迅速,其独特的形式对传统的命名实体识别技术提出了新的挑战。故提出一种基于条件随机场模型的改进方法,针对微博文本短小、语义含糊等特点,引入外部数据源提取主题特征和词向量特征来训练模型,针对微博数据规模大、人工标准化处理代价大的特点,采取一种基于最小置信度的主动学习算法,以较小的人工代价强化模型的训练效果。在新浪微博数据集上的实验证明,该方法与传统的条件随机场方法相比F值提高了4.54%。  相似文献   

7.
胡婕  胡燕  刘梦赤  张龑 《计算机应用》2022,42(9):2680-2685
针对预训练模型BERT存在词汇信息缺乏的问题,在半监督实体增强最小均方差预训练模型的基础上提出了一种基于知识库实体增强BERT模型的中文命名实体识别模型OpenKG+Entity Enhanced BERT+CRF。首先,从中文通用百科知识库CN-DBPedia中下载文档并用Jieba中文分词抽取实体来扩充实体词典;然后,将词典中的实体嵌入到BERT中进行预训练,将训练得到的词向量输入到双向长短期记忆网络(BiLSTM)中提取特征;最后,经过条件随机场(CRF)修正后输出结果。在CLUENER 2020 和 MSRA数据集上进行模型验证,将所提模型分别与Entity Enhanced BERT Pre-training、BERT+BiLSTM、ERNIE和BiLSTM+CRF模型进行对比实验。实验结果表明,该模型的F1值在两个数据集上比四个对比模型分别提高了1.63个百分点和1.1个百分点、3.93个百分点和5.35个百分点、2.42个百分点和4.63个百分点以及6.79个百分点和7.55个百分点。可见,所提模型对命名实体识别的综合效果得到有效提升,F1值均优于对比模型。  相似文献   

8.
基于CRF和规则相结合的地理命名实体识别方法   总被引:1,自引:0,他引:1  
为了识别文本中海量的地理命名信息,以CRF(条件随机场)模型识别为基础,加入制定的规则,来提高CRF模型识别的召回率,从而提高整体的地理命名实体识别效果。通过选取适合的地理命名实体识别的特征模板,验证特征的有效性以及分析CRF模型识别结果中的未识别实体样本,设计针对未识别实体的规则用以修正识别结果。实验表明,对地名和组织名结合规则进行修正后的F值达到了91.61%和85.74%,有了显著提高。  相似文献   

9.
针对电网领域命名实体识别(NER)对人工标注的依赖问题,提出了一种面向电网设备故障报告的半监督命名实体识别方法Semi-supervised PGTBC.首先使用基于多头自注意力机制的深度自注意力网络进行特征抽取,然后结合双向长短记忆神经网络(BiLSTM)和条件随机场模型(CRF)建立电网领域命名实体识别模型,最后基于半监督思想,引入基于深度自注意力网络的实体类别综合描述相似度计算,结合PGTBC的置信度作为半监督阈值筛选依据,减少对电网设备故障报告实体标注的依赖.数据集使用来源于1256篇的电网故障报告的10301条标注样本数和30829条无标注样本数.在有标注电网领域数据上的实验结果表明,基于PGTBC模型的预测F1为96.43%,相对于传统的BiLSTM-CRF模型提高了7.09个百分点.在无标注样本上,半监督方法Semi-supervised PGTBC取得了93.16%的F1,相对半监督CRF模型的F1提高了23.4个百分点,并对无标注样本进行了自动标注,识别出1661条新实体,有效减少电网设备故障报告命名实体任务对人工标注的依赖.  相似文献   

10.
基于BERT+BiLSTM+CRF的中文景点命名实体识别   总被引:1,自引:0,他引:1  
为解决旅游文本在特征表示时的一词多义问题, 针对旅游游记文本景点实体识别中景点别名的问题, 研究了一种融合语言模型的中文景点实体识别模型. 首先使用BERT语言模型进行文本特征提取获取字粒度向量矩阵, BiLSTM用于上下文信息的提取, 同时结合CRF模型提取全局最优序列, 最终得到景点命名实体. 实验表明, 提出的模型性能提升显著, 在实际旅游领域内景点识别的测试中, 与以往研究者方法比较下准确率, 召回率分别提升了8.33%, 1.71%.  相似文献   

11.
字典与统计相结合的中文分词方法   总被引:15,自引:0,他引:15  
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DSfenci的分全率达99.52%,准确率达98.52%.  相似文献   

12.
This paper describes a method for building a compact online Markov random field (MRF) recognizer for large handwritten Japanese character set using structured dictionary representation and vector quantization (VQ) technique. The method splits character patterns into radicals, whose models by MRF are shared by different character classes such that a character model is constructed from the constituent radical models. Many distinct radicals are shared by many character classes with the result that the storage space of model dictionary can be saved. Moreover, in order to further compress the parameters, VQ technique to cluster parameter sequences of the mean vectors and covariance matrixes for MRF unary features and binary features as well as the transition probabilities of each state into groups was employed. By sharing a common parameter sequence for each group, the dictionary of the MRF recognizer can be greatly compressed without recognition accuracy loss.  相似文献   

13.
面向中文自动分词的可扩展式电子词典研究   总被引:1,自引:0,他引:1  
在中文自动分词及词性标注系统中,电子词典是系统的重要组成部分,也是影响系统性能的重要因素之一。介绍了电子词典应该具备的查询功能及常用的组织结构,给出了一种结构为系统词典+用户词典的可扩展式电子词典机制。其系统词典是基于首字Hash散列的逐字二分词典结构,用户词典采用基于首字Hash散列的链接表词典结构,具有很强的扩展性和实用性。  相似文献   

14.
由于中文地址命名的不规范性和汉语语言特点,中文地址要素识别成为地址编码的关键技术。传统的特征字匹配和字典匹配方法,难以解决地址要素命名的多样性问题。借鉴自然语言处理技术,通过构建地址要素标注集,设计了基于条件随机场的中文地址要素识别方法。实验证明,与基于特征字的规则方法相比,基于条件随机场的方法能够在较大程度上提高识别效果。由于条件随机场模型具有较好的泛化能力,该方法具有更强的通用性,特别适宜于大规模地址数据的批量解析和大众化位置服务中地址编码的快速处理。  相似文献   

15.
字典模型(BOW)是一种经典的图像描述方法,模型中特征字典的构造方法至关重要。针对特征字典构造问题,提出了一种类别约束下的低秩优化特征字典构造方法LRC-DT,通过低秩优化的方法使训练出来的特征字典在描述同类图像时表示系数矩阵的秩相对较低,从而将类别信息引入到字典学习中,提高字典对图像描述的可分辨性。在标准公测库Caltech-101和Caltech-256上的实验结果表明:将SPM、稀疏编码下的SPM(ScSPM)、局部线性编码(LLC)和线性核函数的SPM(LSPM)编码方法中的特征字典替换为加入低秩约束(LRC)的特征字典后,随着训练样本数目增多,字典模型的分类准确率与未引入低秩约束的方法相比有所提高。  相似文献   

16.
针对汉语分词词典中双字哈希索引机制未能充分利用索引分词,而分词效率又明显优于首字哈希索引机制的问题,在充分分析汉语构词特点的基础上,提出了基于三字哈希索引的分词词典机制,并通过将字串的三态标记与下一索引指针的乘积作为哈希值的链地址法,简化了词典结构,节省了内存空间。理论分析和真实语料仿真均证明了三字哈希索引机制与不同字数的其他索引机制相比,具有更好的分词效率。  相似文献   

17.
基于字典和统计的分词方法   总被引:2,自引:0,他引:2       下载免费PDF全文
提出了一种基于字典与统计相结合的中文分词方法,该方法利用改进的字典结构能够快速切分,在其基础上进一步利用统计的方法处理所产生未登录词,并且能解决大部分交集歧义问题。  相似文献   

18.
针对常见问答系统采用的以词法分析为基础的浅层语义模型难以有效挖掘用户问句深层语义的问题,本文立足于旅游问答应用领域,采用组合范畴语法对旅游问句进行句法分析,使用Lambda演算式表示问句语义,以此构建旅游领域问句的语义模型,以便于通过精确的问句语义快速查找应答结果.研究首先进行旅游领域数据采集与语料标注的准备性工作,并针对语料对旅游问句的句式句法进行分析;然后采用基于概率的组合范畴语法的监督学习过程,通过训练获得较为可靠的旅游问句语义词典;最后根据语义词典及其他相关知识,学习用户问句语义,构建旅游自动应答语义分析系统,着重于问句解析和相应的语义模型的构建.通过在评测集上的验证,这种语义解析方法在解析效果上有比较明确的提升.  相似文献   

19.
字符排序一般要遵循字典顺序并且需要为每个参与排序的字符赋予特定的排序码。藏文字符有两种编码方式:动态组合方式和静态组合方式,对于动态组合方式编码的藏文组合字符而言,仅仅根据构成它的字母来排序,则排序结果与字典顺序有较大的差异。文中分析了藏文字符的字典顺序,总结了藏文的字典顺序规律,提出了引入藏文字符集扩展集A中的UNICODE编码为排序码对藏文组合字符进行排序的观点,使得藏文组合字符的排序符合藏文字典顺序。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号