首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 359 毫秒
1.
借鉴近些年来在自然语言处理领域卓有成效的一种词嵌入模型word2vec,提出两种商品嵌入表示模型item2vec和w-item2vec。提出的两种模型通过对用户在每次购买时对商品的比较和选择行为进行建模,将商品表示为一个低维空间的向量,该向量可以有效地对不同商品之间的关系和性质进行度量。应用这一性质,使用item2vec和w-item2vec得到的向量对商品进行分类,试验结果表明:在仅使用10%数据训练的基础上,w-item2vec对商品分类的准确率可以接近50%。两种模型分类准确性均显著优于其他模型。  相似文献   

2.
针对现有领域情感词典在情感和语义表达等方面的不足,提出一种基于词向量的领域情感词典构建方法。利用25万篇新闻语料和10万余条酒店评论数据,训练得到word2vec模型;选择80个情感明显、内容丰富、词性多样化的情感词作为种子词集;利用TF-IDF值在词汇重要程度的度量作用,在酒店评论中获得9 860个领域候选情感词汇;通过计算候选情感词与种子词的词向量之间的语义相似度,将情感词映射到高维向量空间,实现了情感词的特征向量表示(Senti2vec)。将Senti2vec应用于情感词极性分类和文本情感分析任务中,试验结果表明,Senti2vec能实现情感词的语义表示和情感表示;基于特定领域语料的语义相似计算,使得提取的情感特征更具有领域特性,同时不受候选情感词集范围的约束。  相似文献   

3.
针对释义识别任务如何学习上下文语义的问题,提出了利用词向量来表示句子语义距离的模型。首先,利用word2vec训练大规模的词向量模型,把词的语义信息利用向量分布式表示;然后通过欧氏距离来计算句子间词的移动开销;最后基于EMD模型实现了从词语义距离到句子语义距离的建模,通过采用句子变换矩阵来实现句子间语义距离的度量,进而从语义相似性方面进行句子释义识别。实验基于SemEval-2015 PIT任务,与作为实验基线的逻辑回归和加权矩阵因数分解方法进行比较,提出的模型采用有监督实验时, 值非常接近实验基线,而采用无监督方法实验时, 值提高了5.8%。  相似文献   

4.
根据元路径和可交换矩阵,结合节点一阶和二阶相似性得到最后的传播概率矩阵;利用降噪自动编码器对传播概率矩阵进行降维得到异构信息网络的节点表示;将异构信息网络的节点表示用梯度提升树(GBDT)分类,得到不同百分比训练集下的分类准确率,用聚类指标标准化互信息(NMI)评价聚类效果,用T-SNE展现可视化效果. 在数据集DBLP和AMiner上分别进行实验,相比DeepWalk、node2vec和metapath2vec方法,在应用任务节点分类上,所提出的基于传播概率矩阵的异构信息网络表示学习(HINtpm)的准确率与DeepWalk相比最高提升了24%,聚类指标NMI与DeepWalk相比最高提升了13%.  相似文献   

5.
针对受字数限定影响的文本特征表达能力弱成为短文本分类中制约效果的主要问题,提出基于word2vec维基百科词模型的中文短文本分类方法(chinese short text classification method based on embedding trained by word2vec from wikipedia, CSTC-EWW),并针对新浪爱问4个主题的短文本集进行相关试验。首先训练维基百科语料库并获取word2vec词模型,然后建立基于此模型的短文本特征,通过SVM、贝叶斯等经典分类器对短文本进行分类。试验结果表明:本研究提出的方法可以有效进行短文本分类,最好情况下的F-度量值可达到81.8%;和词袋(bag-of-words, BOW)模型结合词频-逆文件频率(term frequency-inverse document frequency, TF-IDF)加权表达特征的短文本分类方法以及同样引入外来维基百科语料扩充特征的短文本分类方法相比,本研究分类效果更好,最好情况下的F-度量提高45.2%。  相似文献   

6.
针对统计模型受限于标注语料规模且不能捕获标注序列的上下文信息问题,提出一种融合深度学习和统计学习的印地语词性标注模型。该模型具有3层逻辑结构,首先在词表示层采用深度神经网络框架训练出印地语单词的形态特征,并利用word2vec方法对语料训练生成具有语义信息的低维度稠密实数词向量,然后在序列表示层将形态特征和词向量作为深度神经网络模型的输入并进行训练,得到输入序列的信息特征,最后在CRF推理层利用深度神经网络模型的输出状态和当前的转移概率矩阵作为CRF模型的参数,最终得到最优的标签序列。对提出的方法与其他方法进行了对比实验,结果表明融合深度学习和统计模型的方法较其他几种统计模型的性能有显著的提升。  相似文献   

7.
Category-based statistic language model is an important method to solve the problem of sparse data. But there are two bottlenecks: 1) The problem of word clustering. It is hard to find a suitable clustering method with good performance and less computation. 2) Class-based method always loses the prediction ability to adapt the text in different domains. In order to solve above problems, a definition of word similarity by utilizing mutual information was presented. Based on word similarity, the definition of word set similarity was given. Experiments show that word clustering algorithm based on similarity is better than conventional greedy clustering method in speed and performance, and the perplexity is reduced from 283 to 218. At the same time, an absolute weighted difference method was presented and was used to construct vari-gram language model which has good prediction ability. The perplexity of vari-gram model is reduced from 234.65 to 219.14 on Chinese corpora, and is reduced from 195.56 to 184.25 on English corpora compared with category-based model.  相似文献   

8.
提出了一种基于词向量的两层词性标注方法,使用少量人工提取的特征,大部分特征可使用词向量和第1层标注向量自动训练得到.该方法将标注集分成两类,分别作为不同层的标注集.首先,对容易标注的类别进行标注;然后,对难以标注的动词或者名词进行第2层标注,将其标注为具体的某类动词或名词.利用该方法对中国学生写的英语文章进行词性标注的准确率可从95.23%提高到95.63%,超过了现有基于词向量词性标注器对相同语料词性标注的准确率.  相似文献   

9.
介词结构语序在现代汉语中违背了中心语边缘原则,对普遍语法理论提出了挑战,自《马氏文通》以来一直是学者研究的热点。现代汉语缺少形态标记,语序问题常常又与句法关系联在一起,因此本文首先回顾介词结构的句法功能探讨,然后综述介词结构语序特点的历时和共时研究,同时梳理介词结构语序研究的理论维度。文章最后指出,介词结构语序研究在理论视角、系统性以及对语序变异原因的深入挖掘等方面还存在不足。  相似文献   

10.
The input of a network is the key problem for Chinese word sense disambiguation utilizing the neural network. This paper presents an input model of the neural network that calculates the mutual information between contextual words and the ambiguous word by using statistical methodology and taking the contextual words of a certain number beside the ambiguous word according to ( - M, + N). The experiment adopts triple-layer BP Neural Network model and proves how the size of a training set and the value of M and N affect the performance of the Neural Network Model. The experimental objects are six pseudowords owning three word-senses constructed according to certain principles. The tested accuracy of our approach on a closed-corpus reaches 90. 31% , and 89. 62% on an open-corpus. The experiment proves that the Neural Network Model has a good performance on Word Sense Disambiguation.  相似文献   

11.
使用有序词语移动距离特征进行中文文本蕴含识别   总被引:1,自引:0,他引:1  
提出了一种基于有序词语移动距离的中文文本蕴含识别方法,该方法基于word2vec词向量计算有序词语移动距离特征,进而利用有序词语移动距离特征和传统语言学特征通过支持向量机生成分类模型,然后使用分类模型进行蕴含识别,最终得到蕴含结果.该方法在RITE-VAL评测任务的CS数据上的MacroF1为0.629,超过RITE-VAL的最优评测结果(BUPTTeam,0.615).实验结果表明,该方法可以提升中文文本蕴含识别系统的性能.  相似文献   

12.
引入句法依存信息到原方面术语,提出一种新的方面术语表示方法,利用Glove词向量表示单词以及单词与单词之间的依存关系,构造出包含句法依存信息的依存关系邻接矩阵和依存关系表示矩阵,利用图卷积神经网络和多头注意力机制将句法依存信息融入到方面术语中,使得方面术语表达与上下文结构高度相关。将改进后的方面词术语表示替换到现有模型后,模型泛化能力得到有效提升。对比试验和分析结果表明:该方法具有有效性和泛化性。  相似文献   

13.
提出了一种针对小训练集环境的文本自动分类方法。在传统自动训练过程中通过训练集为每个类别建立初步类别特征向量,由于初步类别特征向量是在小训练集基础上建立的,含有的类别特征信息不够充分。在初步类别特征向量基础上,标定了一定数量的一级和二级类别核心特征词,在文本/类别相似度计算中,利用自动训练过程得到的核心特征词权重因子对核心特征词权重加权,以提高类别特征向量中类别特征信息的含量。实验结果显示,这种分类方法自动分类重合率达到94.12%以上,与不进行权重加权方法的52.94%相比,有很大提高。  相似文献   

14.
为提高传统命名实体识别模型在中文电子病历上的准确性,提出一种在基线模型B E RT-BiLSTM-CRF中加入对抗训练的方法,该方法在词嵌入层添加扰动因子从而生成对抗样本,并利用对抗样本进行迭代训练,从而优化模型参数.CCKS2021评测数据集实验结果表明,加入FGM和PGD两个对抗训练模型后,其精准率、召回率以及F1...  相似文献   

15.
文档的高维性导致朴素贝叶斯文本分类器的复杂度较高,进而影响到文本分类的效率和精度.针对这一问题,首先采用k-means算法对单词进行聚类,将得到的单词簇视为文本特征,再使用朴素贝叶斯分类器进行文本分类.实验表明:基于簇的分类方法在分类精度和效率上均优于基于单词的分类方法.  相似文献   

16.
简单命题的语义识别是进行自然命题逻辑推理的重要基础之一,知网在中文词汇和句子的相似度计算方面扮演着越来越重要的角色。在对领域命题进行了预处理后,针对简单命题的句型结构和构成成分的特点,通过改进义原相似度、词语相似度、句子相似度的计算方法,提出了一种基于知网的、新的句子相似度计算方法。实验表明:该方法可以简单而有效地计算词语相似度;在句子相似度计算时,可以减少助动词、修饰词的影响,更适合判断两个命题是否高度相似。  相似文献   

17.
词性标注作为汉语自动分词以至中文信息处理领域比较关键的问题之一,是该领域的研究难点也是研究重点,对兼类词词性标注的正确率严重影响着词性标注的质量。在基于规则的词性标注的基础上,提出了一种基于规则优先级的词性标注方法,即对每条词性标注规则加上优先级,并在标注算法中通过对优先级进行控制来完成兼类词的词性标注。并用大规模语料对该方法做了试验,结果表明其词性标注正确率可达到96.4%。  相似文献   

18.
为提高关键词自动抽取的准确率,提出了基于字同现频率的关键词自动抽取算法。根据词的位置和文本长度改进TF/IDF算法,由字同现频率计算词的信息量,运用特征加权计算词的权重,选取权重大的词作为关键词。给出了关键词自动抽取的过程,设计了关键词抽取的对比实验,验证该算法的有效性。实验结果表明该算法在准确率和召回率上具有优势。  相似文献   

19.
为了防止卖家的恶性竞争、保证电商平台能够公平交易、保护消费者的权益不受侵犯,针对虚假评论检测领域中数据集小、标注不准确等问题,基于亚马逊最新发布的虚假评论数据集对相关算法进行改进。考虑到Word2vec模型无法识别英语中的词对,提出了Bigram-Word2vec模型;提出“二分类加权硬投票法”以解决异质集成学习中分类器投票数相等的情况;针对异质集成学习中分类器权重设置问题提出“加权软投票法”。试验结果表明,文中对相关算法的改进取得了较为理想的结果。  相似文献   

20.
目标情感分析旨在分析评论文本中不同目标所对应的情感倾向。当前,基于图神经网络的方法使用依存句法树来融入依存句法关系,一方面,此类方法大多忽略了依存关系缺乏区分度的事实;另一方面,未考虑依存句法树提供的依存关系存在目标与情感词关系缺失的问题。为此,提出双重图注意力网络模型。该模型首先使用双向长短期记忆网络得到具有语义信息的词节点表示,然后根据依存句法树在词节点表示上构建句法图注意力网络,实现依存句法关系重要程度的区分,更有效地建立目标与情感词之间的关系,进而得到更准确的目标情感特征表示;同时根据句子的无向完全图构建全局图注意力网络来挖掘目标与情感词缺失的关系,进一步提升模型的性能。实验结果表明,与现有模型对比,双重图注意力网络模型在不同数据集上的准确率与宏平均F1值均取得了更好结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号