共查询到20条相似文献,搜索用时 140 毫秒
1.
2.
为增加向量空间模型的文本语义信息,提出三元组依存关系特征构建方法,将此方法用于文本情感分类任务中。三元组依存关系特征构建方法在得到完整依存解析树的基础上,先依据中文语法特点,制定相应规则对原有完整树进行冗余结点的合并和删除;再将保留的依存树转化为三元组关系并一般化后作为向量空间模型特征项。为了验证此种特征表示方法的有效性,构造出在一元词基础上添加句法特征、简单依存关系特征和词典得分不同组合下的特征向量空间。将三元组依存关系特征向量与构造出的不同组合特征向量分别用于支持向量机和深度信念网络中。结果表明,三元组依存关系文本表示方法在分类精度上均高于其他特征组合表示方法,进一步说明三元组依存关系特征能更充分表达文本语义信息。 相似文献
3.
文档检索中句法信息的有效利用研究 总被引:1,自引:0,他引:1
利用词项依存关系来改进词袋模型,一直是文本检索中一个热门话题。已有的定义词项依存的方法中,有两类主要的方法一类是词汇层次的依存关系,利用统计近邻信息来定义词项依存关系,另一类是句法层次的依存关系,由句法结构来定义词项依存关系。虽然已有的研究表明,相对于词袋模型,利用词项依存关系能够显著地提高检索性能,但这两类词项依存关系却缺乏系统的比较在利用词项依存关系来改进文档和查询的表达上,如何有效地利用句法信息,哪些句法信息对文本检索比较有效,依然是个有待研究的问题。为此,在文档表达上,比较了利用近邻信息和句法信息定义的词项依存关系的性能;在查询表达上,对利用不同层次的句法信息所定义的词项依存关系的性能进行了比较。为了系统地比较这些词项依存关系对检索性能的影响,在语言模型基础上,以平滑为思路,提出了一个能方便融入这两类词项依存关系的检索模型。在TREC语料上的实验表明,对于文档表达来说,句法关系较统计近邻关系没有明显的差别。在查询表达上,基于名词/专有词短语的部分句法信息较其他的句法信息更加有效。 相似文献
4.
5.
《计算机应用与软件》2014,(2)
为了提高关键词提取的准确率,在利用文本中相同词的前后词共现频率识别组合词的基础上,提出一种基于改进词语统计特征的朴素贝叶斯关键词提取算法。该算法选取词语的词长、词性、位置、TF-IDF值作为词语的特征项,改进了统计词长、TF-IDF和词频的方法,使长词和TF-IDF大的词具有更高的概率,而在统计词频时,考虑了词语之间包含与被包含的关系。然后,采用朴素贝叶斯模型对标记好关键词的文本进行训练,获得各个特征项出现的概率,用来提取文本的关键词。实验表明,与传统基于词频和决策树C4.5的关键词提取算法相比,采用该方法提取的关键词具有更高的准确率和可读性。 相似文献
6.
大部分基于依存句法分析的事件检测方法仅聚焦于依存句法结构上的单跳联系,忽视了词与词之间的多跳联系,造成事件触发词与部分相关实体间的语义缺失,从而影响了事件检测效率。因此,为了充分利用词语间的语义相关性提升事件触发词的识别能力,提出了融合多跳关系标签和依存句法结构信息的事件检测模型。构建了一种新型的依存句法多跳树以及多跳关系标签搜索算法,增强了核心词汇的事件表征能力,并结合图注意力网络聚合了词的多阶表示,提升了事件检测性能。在ACE2005数据集上的实验结果显示,提出的增加了多跳关系标签信息的事件检测方法比基准模型性能提升了近2%。 相似文献
7.
为弥补传统的语义标注方法在词语或句子成分之间关系描述方面的不足,该文提出了一种基于本体和依存句法的非结构化文本语义关系标注算法。算法以句子为单位,综合POS(Part of Speech)、语义辞典、语言学特征等因素对句子中词汇的语义关系进行识别,利用词语间的依存关系对词语进行语义组合,从而实现词汇语义关系标注。结合语义标注过程中的语义匹配度、语义丰富度等特征,设计了评价算法,用以衡量标注结果的正确性。实验结果表明,该标注算法能获得较高的准确率,在大规模语料下效果尤为显著。 相似文献
8.
准确识别词语语义倾向并构建高质量的情感词典,从而提高微博文本情感分析的准确率,具有重要意义。传统的基于语料库方法对种子词选取敏感,并且不能有效对低频词语语义倾向进行识别。本文提出了一种基于词亲和度的微博词语语义倾向识别算法。利用词性组合模式提取候选词集,选取微博表情符号作为种子词,并构建词亲和度网络,利用同义词词林对低频词进行扩展,计算候选词与种子词之间语义倾向相似度。根据设定阈值判断词语语义倾向。在200万条微博语料上分别将本文算法与传统算法进行对比,实验结果表明本文算法优于传统算法。 相似文献
9.
吴雨钊 《网络安全技术与应用》2021,(4):39-40
针对中文事件相关关系识别问题,提出了一种基于神经张量网络的事件相关关系识别方法,将对事件对关系的抽取问题转化为对事件对关系的二分类问题。首先,基于事件的结构特征,抽取包括事件对类型、子类型、论元相似度、触发词依存关系以及论元依存关系共2项事件对结构特征;其次,基于神经张量网络捕获事件对语义特征;并将事件对语义特征与2项事件对结构特征相融合,构建事件对相关关系的二分类模型ECR_NTN,进而完成事件相关关系的识别。实验结果表明所提出的方法和模型具有良好的事件相关关系识别能力,ECR_NTN模型的准确率、召回率、F1值达到75.98%、75.86%、75.92%,与多种主流机器学习方法和深度神经网络模型对比其具有更加优异的性能。 相似文献
10.
《计算机应用与软件》2016,(10)
传统文本表示方法通常基于词袋模型,而词袋模型是基于文本中词项之间是相互独立的假设。最近也提出一些通过词共现来获取词项之间关系的统计分析方法,却忽略了词项之间的隐含语义。为了解决传统文本表示方法词袋模型对文本语义的忽略问题,提出一种融合词项关联关系和统计信息的短文本建模方法。通过词语之间的内联及外联关系耦合得到词语关联关系,充分挖掘了显示和隐含的语义信息;同时以关联关系作为初始词语相似度,迭代计算词语之间及文本之间的相似度,改善了短文本的表示。实验证明,该方法显著地提高了短文本聚类的性能。 相似文献
11.
提出了一种带有节点频度的扩展DOM树模型—BF-DOM树模型(Block node Frequency-Document Object Module),并基于此模型进行网页正文信息的抽取。该方法通过向DOM树的某些节点上添加频度和相关度属性来构造文中新的模型,再结合语义距离抽取网页正文信息。方法主要基于以下三点考虑:在同源的网页集合内噪音节点的频度值很高;正文信息一般由非链接文字组成;与正文相关的链接和文章标题有较近的语义距离。针对8个网站的实验表明,该方法能有效地抽取正文信息,召回率和准确率都在96%以上,优于基于信息熵的抽取方法。 相似文献
12.
13.
中文命名实体识别在机器翻译、智能问答等下游任务中起着重要作用。提出一种新的基于gazetteers和句法依存树的中文命名实体识别方法,旨在解决由于字符向量缺少词信息和词之间的句法依赖结构信息而导致的错误传递问题。该方法将句子中的gazetteers信息和句法依存树信息形成图,再通过自适应门控图神经网络(adapted gated graph neural networks,AGGNN)将其融入到字符向量中,从而使得每个字向量很好地获取词汇间的语义关系,提升识别准确率。通过在Ecommerce、Resume、QI等数据集的验证,新的方法可以使得中文实体识别的准确率得到较大提升。 相似文献
14.
15.
Hai Yang Zhu Xiaobo Yin Shunxiang Zhang Zhongliang Wei Guangli Zhu Meng-Yen Hsieh 《计算机系统科学与工程》2020,35(6):399-410
A large number of new words in product reviews generated by mobile terminals are valuable indicators of the privacy preferences of customers. By clustering
these privacy preferences, sufficient information can be collected to characterize users and provide a data basis for the research issues of privacy protection.
The widespread use of mobile clients shortens the string length of the comment corpus generated by product reviews, resulting in a high repetition rate.
Therefore, the effective and accurate recognition of new words is a problem that requires an urgent solution. Hence, in this paper, we propose a method
for discovering new words from product comments based on Mutual Information and improved Branch Entropy. Firstly, by calculating the Co-occurrence
Frequency and Mutual Information between words and adjacent words, the character strings of words after pre-processing and word segmentation are
expanded left and right respectively to discover the potential word set. The candidate set of new words is obtained by means of an improved support filtering
algorithm. Finally, a new word set is built by applying an improved Branch Entropy filtering algorithm and removing old words. The experimental results
show that this method can accurately and effectively identify new words in product comments. 相似文献
16.
为解决无线射频识别系统中的标签碰撞问题,提出一种基于改进后退策略的按位二进制防碰撞算法。该算法利用标签ID的唯一性,使阅读器只需通过标签ID的部分比特位就能准确地识别某个标签。仿真结果表明,改进的搜索算法能减少阅读器与标签之间的识别通信量及阅读器的搜索次数,提高标签的识别速度。 相似文献
17.
基于多规约的电网实时监测主站系统的设计 总被引:1,自引:0,他引:1
针对电网实时监测系统中通信终端设备及通信规约的兼容性问题,提出了采用规约插件的模型构建新型的监测系统.通过在系统的规约识别模块采用BP神经网络识别规约和在系统的规约解析模块中统一数据格式和接口函数,实现规约识别,规约解析等相关任务,并用Matlab对识别算法进行仿真,论证算法的合理性,对整个系统进行了软件实现. 相似文献
18.
Latent Semantic Indexing (LSI) is a standard approach for extracting and representing the meaning of words in a large set of documents. Recently it has been shown that it is also useful for identifying concerns in source code. The tree cutting strategy plays an important role in obtaining the clusters, which identify the concerns. In this contribution the authors compare two tree cutting strategies: the Dynamic Hybrid cut and the commonly used fixed height threshold. Two case studies have been performed on the source code of Philips Healthcare to compare the results using both approaches. While some of the settings are particular to the Philips-case, the results show that applying a dynamic threshold, implemented by the Dynamic Hybrid cut, is an improvement over the fixed height threshold in the detection of clusters representing relevant concerns. This makes the approach as a whole more usable in practice. 相似文献
19.
针对网络中敏感词变形体识别效率不高的问题,提出了基于决策树的敏感词变形体识别算法。首先,通过分析汉字的结构和读音等特征,研究敏感词及变形体;其次,基于敏感词库构建敏感词决策树;最后,通过多因子改进模型,对微博等新媒体的文本敏感程度进行计算。实验结果表明,该算法在识别中文敏感词及变形体时,查全率和查准率最高分别可达95%和94%,与基于确定有穷自动机的改进算法相比,查全率和查准率分别提高了19.8%和21.1%;与敏感信息决策树信息过滤算法相比,查全率和查准率分别提高17.9%和18.1% 。通过分析,该算法对敏感词变形体的识别和自动过滤是有效的。 相似文献
20.
针对弱监督文本分类任务中存在的类别词表噪声和标签噪声问题,提出了一种标签语义增强的弱监督文本分类模型。首先,基于单词上下文语义表示对类别词表去噪,从而构建高度准确的类别词表;然后,构建基于MASK机制的词类别预测任务对预训练模型BERT进行微调,以学习单词与类别的关系;最后,利用引入标签语义的自训练模块来充分利用所有数据信息并减少标签噪声的影响,以实现词级到句子级语义的转换,从而准确预测文本序列类别。实验结果表明,与目前最先进的弱监督文本分类模型LOTClass相比,所提方法在THUCNews、AG News和IMDB公开数据集上,分类准确率分别提高了5.29、1.41和1.86个百分点。 相似文献