首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 632 毫秒
1.
基于特征选择技术的情感词权重计算   总被引:2,自引:0,他引:2  
在文本情感分析中,情感词典的构建至关重要,然而目前这方面的研究大多集中在简单的词语极性判别上,有关情感词的权重赋值研究较少,且已有的权重赋值方法基本上都需要人工辅助来选取基准词,这给实际应用带来很大的困难. 针对此问题,提出了一种自动的基于特征选择技术的情感词权重计算方法. 首先提出了词语情感权重与文本情感倾向的相关假设;然后针对情感分类,结合二元分类的特性改进了信息增益( information gain, IG)和卡方统计量( chi-square,CHI) ,将特征选择技术应用于情感词权重计算. 实验结果表明:将计算所得的带情感权重的情感词库用于文本情感分类能够提升分类精度.  相似文献   

2.
情感计算是对文本进行情感分析与挖掘,得出文本评价调性的过程。基于知网的情感计算方法首先依据知网"情感分析用词语集"构建情感词典,然后计算文本中特征词汇的情感倾向,最后通过累加得出文本的情感倾向。实验结果表明,在设定一个合理中性阀值后,能较好地计算出特征词汇和篇章的情感倾向,有较高的查全率和查准率。  相似文献   

3.
基于评论文本的深度学习推荐方法主要利用评论文本刻画用户和项目的特征信息,学习用户对项目的评分关系,提升推荐的性能.现有研究工作在提高推荐系统精度质量的同时,忽略了情感特征在评分预测中的可解释性贡献.针对此问题,考虑了评论文本以及情感倾向分别在用户和项目嵌入中的作用,提出了一种基于评论文本情感注意力的推荐方法(Incor...  相似文献   

4.
一种基于多重词典的中文文本情感特征抽取方法   总被引:1,自引:1,他引:0  
情感特征抽取是文本情感分类的重要步骤,正确的选择情感特征并赋予合理的情感权重是保障分类精度的前提。利用基础情感词词典、连词词典及词语距离,提出了一种基于多重词典的中文文本情感特征抽取算法,实验证明该方法优于HM,SO-PMI和词语语义距离等经典的特征抽取算法。  相似文献   

5.
针对电商评论中所包含的消费者情感倾向信息问题,提出一种基于注意力机制和双向长短期记忆(bidirectional long-short term memory,BLSTM)网络的情感倾向分类模型。该模型使用预训练的字向量作为输入特征,通过双向长短期记忆网络来学习文本的语义特征。依此特征,设计了一种新的注意力机制来捕捉BLSTM模型生成的文本语义特征中重要的信息,以降低文本中冗余噪声对于情感倾向分类的影响。实验结果表明,与传统机器学习方法以及长短期记忆模型和双向长短期记忆模型相比,所提出模型在电商评论的情感倾向分类上取得了较好的结果。  相似文献   

6.
提出了一种基于文本集密度的特征词选择与权值计算的方法AMTW (ApproachofModifyingTermWeighting) .该方法可以找出不损失文本有效信息的最小特征词语集 ,设计出更为合理权值计算方案 .经元打分法证明该方法是有效的  相似文献   

7.
特征选择是文本分类过程中极其重要的一个环节。本文提出了一种新的特征选择算法,该算法基于一个特征频度相对于其它特征频度的差值的总和衡量其相对贡献率的大小,从而进行特征选择。本文使用了基准数据集20-Newgroups,在朴素贝叶斯和支持向量机两个分类器上对该方法进行了验证。实验结果表明,与信息增益、互信息,几率比和DIA相关因子等四种流行的特征选择算法相比,该算法有效降低了文本的特征维数,提高了分类精度。  相似文献   

8.
一种改进的文本特征选择方法的研究与设计   总被引:1,自引:0,他引:1  
特征选择是文本挖掘技术的一个重要环节。在中文分词的基础上,通过设计一个简单的应用程序,对文本进行预处理。然后,在分析比较几种用于文本分类的特征选择方法的基础上,提出了一种基于信息增益和互信息相结合的特征选择方法。利用它对文本文档进行特征选择,抽取代表其特征的元数据或特征词条构成特征向量,降低噪音。最后通过实验来和其他几种特征选择方法作比较,分析这种方法获取文本特征的精度。  相似文献   

9.
为了解决短文本对象特征空间稀疏性与背景缺失造成的精确分类困难与语义混淆问题,提出一种背景补偿与边缘相关计算的特征选择方法.通过提取并利用文本间存在的关联性建立小样本簇背景特征集,重构特征空间,并结合边缘相关性分析确定最终的特征集.过程可分为2个阶段:1)基于词矢量语义量化模型计算特征词的背景相关性;2)将测试文本重组特征空间,并进行边缘性相关计算.提出的短文本特征选择方法,可以在保持原始特征空间性质与结构的前提下,强化特征空间紧凑性,减少冗余性,降低特征维度.在Reuters-21578和NewsGroup标准语料集上的实验证明,提出的方法比传统的文档频率、信息增益、互信息等方法更有效,针对两个标准的数据集,其在典型的分类器上运行表现强于一般特征选择方法.  相似文献   

10.
针对短文本在情感极性判断上准确率不高的缺点,在隐含狄利克雷分配(latent Dirichlet allocation, LDA)的基础上提出一种适用于短文本的情感分析模型。该模型在短文本中按词性寻找情感词汇,并对其进行有约束的词语扩充形成扩充集合,增强情感词汇之间的共现频率。将扩充集合加入文本中已发现的情感词汇,使得短文本长度增加并且模型可以提取到情感信息,模型通过这种方法将主题聚类变成情感主题聚类。该模型使用4 000条带有正负情感极性的短文本进行验证,结果表明该模型准确率比情感主题联合模型提高约11%,比隐含情感模型提高约9.5%,同时可以发现更多的情感词汇,证明该模型对于短文本能够提取更丰富的情感特征并在情感极性分类上准确率较高。  相似文献   

11.
指纹图像的质量严重影响指纹识别系统的性能,指纹图像质量评测在指纹识别系统中的指纹分割、匹配等环节有重要应用,对指纹识别算法的研究具有重要意义。利用指纹图像的方向场信息,提出了一种基于指纹方向场信息连续性的指纹图像质量评测方法,评测结果将指纹图像分成质量较好和较差两类。该评测方法对于指纹图像的每个分块,分别计算原始方向场信息和低通滤波平滑后的方向场信息,根据统计的整幅图像低通滤波平滑前后原始方向场的变化率,评测指纹图像的质量。实验结果表明该方法能够较为有效地提高低质量指纹图像质量评测的正确率。  相似文献   

12.
针对传统的视觉词袋(bagofvisualwords,BoVW)模型忽略了视觉单词的空间位置信息的问题,文章提出一种基于视觉单词共生矩阵的图像分类方法。首先对整幅图像进行空间金字塔分解,得到一系列图像块;然后针对每一图像块中的SIFT点,在其空间邻域范围内构建视觉单词共生矩阵(visual words co—oeeurrenee matrix,VWCM)单元,并得到该图像块对应的视觉单词共生矩阵;最后设计出一种新的空间金字塔共生矩阵核(spatial pyramideo—occurrence matrixkernel,SPCMK),并将其用于图像分类。该方法能够有效地刻画视觉单词的绝对和相对位置信息,极大地增强了图像表达的完整度与准确度。实验结果表明,文章方法确实能够大幅度提高图像分类的准确率。  相似文献   

13.
实际工作中,由于数据来源多样、结构不一,入库前霱要进行删除、合并、补充等数据清理工作。针对实例层,利用数据的地理信息特征,清洗多源数据。具体过程包括剔除明显错误数据;基于空间条件重构唯一名称字段标识,以唯一名称删除重复点、匹配挂接两个数据,提取要素地理坐标信息;利用正则表达式、线索词抽取信息。结果表明,该方案能够将多个政府部门的文本信息融合到地理信息数据属性表中,使数据达到入库标准。  相似文献   

14.
针对信息增益算法只能考察特征对整个系统的贡献、忽略特征对单个类别的信息贡献的问题,提出改进信息增益算法,通过引入权重系数调整对分类有重要价值的特征的信息增益值,以更好地考虑一个词在类别间的分布不均匀性. 针对传统专利自动分类中训练集标注瓶颈问题,提出基于改进三体训练算法的半监督分类方法,通过追踪每次更新后的训练集样本类别分布来动态改变3个分类器对同一未标记样本类别的预测概率阈值,从而在降低噪音数据影响的同时实现对未标记训练样本的充分利用. 实验结果表明,本研究所提出的分类方法在有标记训练样本较少的情况下,可以取得较好的自动分类效果,并且适当增大未标记样本数据可以增强分类器的泛化能力.  相似文献   

15.
Text representation based on word frequency statistics is often unsatisfactory because it ignores the semantic relationships between words, and considers them as independent features. In this paper, a new Chinese text semantic representation model is proposed by considering contextual semantic and background information on the words in the text. The method captures the semantic relationships between words using Wikipedia as a knowledge base. Words with strong semantic relationships are combined into a word-package as indicated by a graph node, which is weighted with the sum of the number and frequency of the words it contains. The contextual relationship between words in different word-packages is stated by a directed edge, which is weighted with the maximum weight of its adjacent nodes. The model retains the contextual information on each word with a large extent. Meanwhile, the semantic meaning between words is strengthened. Experimental results of Chinese text classification show that the proposed model can express the content of a text accurately and improve the performance of text classification. Compared to Support Vector Machines, Text Semantic Graph-based Classification can improve the efficiency by 7.8%, reduce the error rate by 1/3, and show more stability.  相似文献   

16.
In order to solve the poor performance in text classification when using traditional formula of mutual information (MI),a feature selection algorithm were proposed based on improved mutual information.The improved mutual information algorithm,which is on the basis of traditional improved mutual information methods that enhance the MI value of negative characteristics and feature’s frequency,supports the concept of concentration degree and dispersion degree.In accordance with the concept of concentration degree and dispersion degree,formulas which embody concentration degree and dispersion degree were constructed and the improved mutual information was implemented based on these.In this paper,the feature selection algorithm was applied based on improved mutual information to a text classifier based on Biomimetic Pattern Recognition and it was compared with several other feature selection methods.The experimental results showed that the improved mutual information feature selection method greatly enhances the performance compared with traditional mutual information feature selection methods and the performance is better than that of information gain.Through the introduction of the concept of concentration degree and dispersion degree,the improved mutual information feature selection method greatly improves the performance of text classification system.  相似文献   

17.
Image classification based on bag-of-words (BOW) has a broad application prospect in pattern recognition field but the shortcomings such as single feature and low classification accuracy are apparent. To deal with this problem, this paper proposes to combine two ingredients:(i) Three features with functions of mutual complementation are adopted to describe the images, including pyramid histogram of words (PHOW), pyramid histogram of color (PHOC) and pyramid histogram of orientated gradients (PHOG). (ii) An adaptive feature-weight adjusted image categorization algorithm based on the SVM and the decision level fusion of multiple features are employed. Experiments are carried out on the Caltech 101 database, which confirms the validity of the proposed approach. The experimental results show that the classification accuracy rate of the proposed method is improved by 7%-14% higher than that of the traditional BOW methods. With full utilization of global, local and spatial information, the algorithm is much more complete and flexible to describe the feature information of the image through the multi-feature fusion and the pyramid structure composed by image spatial multi-resolution decomposition. Significant improvements to the classification accuracy are achieved as the result.  相似文献   

18.
对现有情感词典在微博情感分类中的适用性进行了分析,针对现有情感词典在微博中情感词覆盖度低的问题,整合现有情感词典资源,构建了一个微博基础情感词典,同时提出了一种基于拉普拉斯平滑的SO-PMI算法对微博基础情感词典中没有收录的情感词倾向性进行判断,最后利用微博情感词典与拉普拉斯平滑的SO-PMI算法对微博情感词典进行了构建,并对所构建微博情感词典的分类性能进行了实验。实验结果表明,该方法所构建的情感词典在微博情感分类中能达到较好的分类效果。  相似文献   

19.
针对新闻文本分类方法中词向量的表示无法很好地保留字在句子中的信息及其多义性,利用知识增强的语义表示(ERNIE)预训练模型,根据上下文计算出字的向量表示,在保留该字上下文信息的同时也能根据字的多义性进行调整,增强了字的语义表示。在ERNIE模型后增加了双向门限循环单元(Bi GRU),将训练后的词向量作为Bi GRU的输入进行训练,得到文本分类结果。实验表明,该模型在新浪新闻的公开数据集THUCNews上的精确率为94. 32%,召回率为94. 12%,F1值为0. 942 2,在中文文本分类任务中具有良好的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号