首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
复句关系是指复句分句之间的逻辑语义关系, 复句关系识别是对分句间语义关系的甄别, 是自然语言处理中的难点问题. 本文以有标复句为研究对象, 提出了一种BERT-FHAN模型, 该模型利用BERT模型获取词向量, 在HAN模型中融入关系词本体知识以及词性、句法依存关系、语义依存关系特征. 通过实验对提出的模型进行验证, BERT-FHAN模型取得的最高宏平均F1值和准确率分别为95.47%与96.97%, 表明了本文方法的有效性.  相似文献   

2.
为增加向量空间模型的文本语义信息,提出三元组依存关系特征构建方法,将此方法用于文本情感分类任务中。三元组依存关系特征构建方法在得到完整依存解析树的基础上,先依据中文语法特点,制定相应规则对原有完整树进行冗余结点的合并和删除;再将保留的依存树转化为三元组关系并一般化后作为向量空间模型特征项。为了验证此种特征表示方法的有效性,构造出在一元词基础上添加句法特征、简单依存关系特征和词典得分不同组合下的特征向量空间。将三元组依存关系特征向量与构造出的不同组合特征向量分别用于支持向量机和深度信念网络中。结果表明,三元组依存关系文本表示方法在分类精度上均高于其他特征组合表示方法,进一步说明三元组依存关系特征能更充分表达文本语义信息。  相似文献   

3.
文档检索中句法信息的有效利用研究   总被引:1,自引:0,他引:1  
利用词项依存关系来改进词袋模型,一直是文本检索中一个热门话题。已有的定义词项依存的方法中,有两类主要的方法一类是词汇层次的依存关系,利用统计近邻信息来定义词项依存关系,另一类是句法层次的依存关系,由句法结构来定义词项依存关系。虽然已有的研究表明,相对于词袋模型,利用词项依存关系能够显著地提高检索性能,但这两类词项依存关系却缺乏系统的比较在利用词项依存关系来改进文档和查询的表达上,如何有效地利用句法信息,哪些句法信息对文本检索比较有效,依然是个有待研究的问题。为此,在文档表达上,比较了利用近邻信息和句法信息定义的词项依存关系的性能;在查询表达上,对利用不同层次的句法信息所定义的词项依存关系的性能进行了比较。为了系统地比较这些词项依存关系对检索性能的影响,在语言模型基础上,以平滑为思路,提出了一个能方便融入这两类词项依存关系的检索模型。在TREC语料上的实验表明,对于文档表达来说,句法关系较统计近邻关系没有明显的差别。在查询表达上,基于名词/专有词短语的部分句法信息较其他的句法信息更加有效。  相似文献   

4.
基于最大生成树解析算法和决策式解析算法的互补关系,提出了最大生成树解析算法和决策式解析算法相结合的中文依存关系解析方法。结合方法利用Nivre模型的依存关系解析结果和依存度修正最大生成树模型有向边的权重,再搜索最大生成树作为依存树。使用宾州中文树库中的4 500句语料作十折交叉测试,结合模型的依存关系正确率达到了86.49%。结果表明该文提出的结合方法有效地提高了的中文依存关系解析性能。  相似文献   

5.
为了提高关键词提取的准确率,在利用文本中相同词的前后词共现频率识别组合词的基础上,提出一种基于改进词语统计特征的朴素贝叶斯关键词提取算法。该算法选取词语的词长、词性、位置、TF-IDF值作为词语的特征项,改进了统计词长、TF-IDF和词频的方法,使长词和TF-IDF大的词具有更高的概率,而在统计词频时,考虑了词语之间包含与被包含的关系。然后,采用朴素贝叶斯模型对标记好关键词的文本进行训练,获得各个特征项出现的概率,用来提取文本的关键词。实验表明,与传统基于词频和决策树C4.5的关键词提取算法相比,采用该方法提取的关键词具有更高的准确率和可读性。  相似文献   

6.
大部分基于依存句法分析的事件检测方法仅聚焦于依存句法结构上的单跳联系,忽视了词与词之间的多跳联系,造成事件触发词与部分相关实体间的语义缺失,从而影响了事件检测效率。因此,为了充分利用词语间的语义相关性提升事件触发词的识别能力,提出了融合多跳关系标签和依存句法结构信息的事件检测模型。构建了一种新型的依存句法多跳树以及多跳关系标签搜索算法,增强了核心词汇的事件表征能力,并结合图注意力网络聚合了词的多阶表示,提升了事件检测性能。在ACE2005数据集上的实验结果显示,提出的增加了多跳关系标签信息的事件检测方法比基准模型性能提升了近2%。  相似文献   

7.
为弥补传统的语义标注方法在词语或句子成分之间关系描述方面的不足,该文提出了一种基于本体和依存句法的非结构化文本语义关系标注算法。算法以句子为单位,综合POS(Part of Speech)、语义辞典、语言学特征等因素对句子中词汇的语义关系进行识别,利用词语间的依存关系对词语进行语义组合,从而实现词汇语义关系标注。结合语义标注过程中的语义匹配度、语义丰富度等特征,设计了评价算法,用以衡量标注结果的正确性。实验结果表明,该标注算法能获得较高的准确率,在大规模语料下效果尤为显著。  相似文献   

8.
准确识别词语语义倾向并构建高质量的情感词典,从而提高微博文本情感分析的准确率,具有重要意义。传统的基于语料库方法对种子词选取敏感,并且不能有效对低频词语语义倾向进行识别。本文提出了一种基于词亲和度的微博词语语义倾向识别算法。利用词性组合模式提取候选词集,选取微博表情符号作为种子词,并构建词亲和度网络,利用同义词词林对低频词进行扩展,计算候选词与种子词之间语义倾向相似度。根据设定阈值判断词语语义倾向。在200万条微博语料上分别将本文算法与传统算法进行对比,实验结果表明本文算法优于传统算法。  相似文献   

9.
针对中文事件相关关系识别问题,提出了一种基于神经张量网络的事件相关关系识别方法,将对事件对关系的抽取问题转化为对事件对关系的二分类问题。首先,基于事件的结构特征,抽取包括事件对类型、子类型、论元相似度、触发词依存关系以及论元依存关系共2项事件对结构特征;其次,基于神经张量网络捕获事件对语义特征;并将事件对语义特征与2项事件对结构特征相融合,构建事件对相关关系的二分类模型ECR_NTN,进而完成事件相关关系的识别。实验结果表明所提出的方法和模型具有良好的事件相关关系识别能力,ECR_NTN模型的准确率、召回率、F1值达到75.98%、75.86%、75.92%,与多种主流机器学习方法和深度神经网络模型对比其具有更加优异的性能。  相似文献   

10.
传统文本表示方法通常基于词袋模型,而词袋模型是基于文本中词项之间是相互独立的假设。最近也提出一些通过词共现来获取词项之间关系的统计分析方法,却忽略了词项之间的隐含语义。为了解决传统文本表示方法词袋模型对文本语义的忽略问题,提出一种融合词项关联关系和统计信息的短文本建模方法。通过词语之间的内联及外联关系耦合得到词语关联关系,充分挖掘了显示和隐含的语义信息;同时以关联关系作为初始词语相似度,迭代计算词语之间及文本之间的相似度,改善了短文本的表示。实验证明,该方法显著地提高了短文本聚类的性能。  相似文献   

11.
节点频度和语义距离相结合的网页正文信息抽取   总被引:1,自引:1,他引:0       下载免费PDF全文
提出了一种带有节点频度的扩展DOM树模型—BF-DOM树模型(Block node Frequency-Document Object Module),并基于此模型进行网页正文信息的抽取。该方法通过向DOM树的某些节点上添加频度和相关度属性来构造文中新的模型,再结合语义距离抽取网页正文信息。方法主要基于以下三点考虑:在同源的网页集合内噪音节点的频度值很高;正文信息一般由非链接文字组成;与正文相关的链接和文章标题有较近的语义距离。针对8个网站的实验表明,该方法能有效地抽取正文信息,召回率和准确率都在96%以上,优于基于信息熵的抽取方法。  相似文献   

12.
一种基于免疫遗传算法的网络新词识别方法   总被引:1,自引:0,他引:1  
随着互联网的发展,网络新词不断涌现,但是目前的分词方法很难及时、准确地对其做出识别。对此提出一种应用免疫遗传算法的网络新词识别方法。在分析网络新词特点的基础上,利用汉语词群现象和词位的概念提取出示范抗体,在遗传算法进行的过程中有针对性地注入该抗体。实验表明,该方法对于分词碎片中符合词群现象的新词有着极高的识别率,对于一般网络新词的识别率也基本令人满意。  相似文献   

13.
中文命名实体识别在机器翻译、智能问答等下游任务中起着重要作用。提出一种新的基于gazetteers和句法依存树的中文命名实体识别方法,旨在解决由于字符向量缺少词信息和词之间的句法依赖结构信息而导致的错误传递问题。该方法将句子中的gazetteers信息和句法依存树信息形成图,再通过自适应门控图神经网络(adapted gated graph neural networks,AGGNN)将其融入到字符向量中,从而使得每个字向量很好地获取词汇间的语义关系,提升识别准确率。通过在Ecommerce、Resume、QI等数据集的验证,新的方法可以使得中文实体识别的准确率得到较大提升。  相似文献   

14.
复句中的关系词对研究复句中各分句的语义关系有着重要意义,但在基于规则的关系词自动识别的研究中发现,并非复句中出现的关系标记都是关系词,从中识别出真正的关系词是研究的重点和难点。提出对一种典型的关系标记——位置相邻的关系标记进行自动标记的算法,该算法结合关系词库和关系词提取技术,分析其连用特征。实验表明,该算法对连用关系标记的标识准确率达到72.9%。  相似文献   

15.
A large number of new words in product reviews generated by mobile terminals are valuable indicators of the privacy preferences of customers. By clustering these privacy preferences, sufficient information can be collected to characterize users and provide a data basis for the research issues of privacy protection. The widespread use of mobile clients shortens the string length of the comment corpus generated by product reviews, resulting in a high repetition rate. Therefore, the effective and accurate recognition of new words is a problem that requires an urgent solution. Hence, in this paper, we propose a method for discovering new words from product comments based on Mutual Information and improved Branch Entropy. Firstly, by calculating the Co-occurrence Frequency and Mutual Information between words and adjacent words, the character strings of words after pre-processing and word segmentation are expanded left and right respectively to discover the potential word set. The candidate set of new words is obtained by means of an improved support filtering algorithm. Finally, a new word set is built by applying an improved Branch Entropy filtering algorithm and removing old words. The experimental results show that this method can accurately and effectively identify new words in product comments.  相似文献   

16.
李全 《计算机工程》2012,38(3):280-283
为解决无线射频识别系统中的标签碰撞问题,提出一种基于改进后退策略的按位二进制防碰撞算法。该算法利用标签ID的唯一性,使阅读器只需通过标签ID的部分比特位就能准确地识别某个标签。仿真结果表明,改进的搜索算法能减少阅读器与标签之间的识别通信量及阅读器的搜索次数,提高标签的识别速度。  相似文献   

17.
基于多规约的电网实时监测主站系统的设计   总被引:1,自引:0,他引:1  
针对电网实时监测系统中通信终端设备及通信规约的兼容性问题,提出了采用规约插件的模型构建新型的监测系统.通过在系统的规约识别模块采用BP神经网络识别规约和在系统的规约解析模块中统一数据格式和接口函数,实现规约识别,规约解析等相关任务,并用Matlab对识别算法进行仿真,论证算法的合理性,对整个系统进行了软件实现.  相似文献   

18.
Latent Semantic Indexing (LSI) is a standard approach for extracting and representing the meaning of words in a large set of documents. Recently it has been shown that it is also useful for identifying concerns in source code. The tree cutting strategy plays an important role in obtaining the clusters, which identify the concerns. In this contribution the authors compare two tree cutting strategies: the Dynamic Hybrid cut and the commonly used fixed height threshold. Two case studies have been performed on the source code of Philips Healthcare to compare the results using both approaches. While some of the settings are particular to the Philips-case, the results show that applying a dynamic threshold, implemented by the Dynamic Hybrid cut, is an improvement over the fixed height threshold in the detection of clusters representing relevant concerns. This makes the approach as a whole more usable in practice.  相似文献   

19.
余敦辉  张笑笑  付聪  张万山 《计算机应用研究》2020,37(5):1395-1399,1405
针对网络中敏感词变形体识别效率不高的问题,提出了基于决策树的敏感词变形体识别算法。首先,通过分析汉字的结构和读音等特征,研究敏感词及变形体;其次,基于敏感词库构建敏感词决策树;最后,通过多因子改进模型,对微博等新媒体的文本敏感程度进行计算。实验结果表明,该算法在识别中文敏感词及变形体时,查全率和查准率最高分别可达95%和94%,与基于确定有穷自动机的改进算法相比,查全率和查准率分别提高了19.8%和21.1%;与敏感信息决策树信息过滤算法相比,查全率和查准率分别提高17.9%和18.1% 。通过分析,该算法对敏感词变形体的识别和自动过滤是有效的。  相似文献   

20.
林呈宇  王雷  薛聪 《计算机应用》2023,43(2):335-342
针对弱监督文本分类任务中存在的类别词表噪声和标签噪声问题,提出了一种标签语义增强的弱监督文本分类模型。首先,基于单词上下文语义表示对类别词表去噪,从而构建高度准确的类别词表;然后,构建基于MASK机制的词类别预测任务对预训练模型BERT进行微调,以学习单词与类别的关系;最后,利用引入标签语义的自训练模块来充分利用所有数据信息并减少标签噪声的影响,以实现词级到句子级语义的转换,从而准确预测文本序列类别。实验结果表明,与目前最先进的弱监督文本分类模型LOTClass相比,所提方法在THUCNews、AG News和IMDB公开数据集上,分类准确率分别提高了5.29、1.41和1.86个百分点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号