首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 436 毫秒
1.
该文利用领域本体对产品评论文本中的评价对象进行抽取和整合,在此基础上,建立产品性能的非完备信息系统,将特征的情感倾向寓于特征的权重计算之中。对非完备信息系统,给出了基于差别矩阵的启发式特征约简方法,通过特征降维处理,达到了减少特征的冗余度和数据稀疏性的目的。对降维后的非完备信息系统采用K-Means聚类算法,实现了评价对象情感聚类。为了验证该文提出方法的有效性,在真实汽车评论文本数据上进行实验, 实验结果表明,在对特征进行一定程度的降维后,仍表现出较好的聚类效果。  相似文献   

2.
在文本情感分析时,使用有监督的机器学习方法的不足是需要大量的带标签的文本数据,而无监督的文本聚类方法可以克服这一问题。对于文本情感聚类,在节省数据资源的同时,也存在聚类结果的不确定性问题。给出了情感维度的形式化描述,并将观点词识别技术应用于情感维度的判别中。在此基础上,利用获得的情感维度,对评论文本进行情感聚类,有效地解决情感聚类结果的不确定性问题。在4个领域的英文产品评论数据上进行实验,结果表明该方法在自动识别情感聚类维度中是有效的,并得到了满意的情感聚类结果。  相似文献   

3.
为进一步提升生活类APP用户忠诚度,提出基于用户评论情感分析的生活类App用户满意度预测模型.采用TF-IDF加权法对每个词汇赋予合理权重,减少评论中冗余信息.将注意力机制与卷积神经网络相结合,利用预训练词矢量建立嵌入矩阵,通过卷积层获得评论文本局部特征,加强输入特征表达.生成整体评价编码,计算注意力权重,获得整体评论...  相似文献   

4.
通过基于概念的聚类方法,对博客作者的情感极性进行分析。在知网情感词汇库的基础上,将概念引入向量空间模型。首先,提取博客文本情感词,利用基于情感词概念的向量空间模型完成对博客文本的表示。然后,使用k-means算法对博客文本进行聚类,完成对博客情感极性的分析。在向量空间模型中使用概念作为特征项,提高了对博客作者情感极性分析的精度。实验证明基于概念的向量空间模型比传统基于词语的向量空间模型在博客文本情感聚类上具有更好的性能。  相似文献   

5.
张冬雯  杨鹏飞  许云峰 《计算机科学》2016,43(Z6):418-421, 447
利用有监督的机器学习的方法来对中文产品评论文本进行情感分类,该方法结合了word2vec和SVMperf两种工具。先由word2vec训练出语料中每个词语的词向量,通过计算相互之间的余弦距离来达到相似概念词语聚类的目的,通过相似特征聚类将高相似度领域词汇扩充到情感词典;再使用word2vec训练出词向量的高维度表示;然后采用主成分分析方法(PCA)对高维度向量进行降低维度处理,形成特征向量;最后使用两种方法抽取有效的情感特征,由SVMperf进行训练和预测,从而完成文本的情感分类。实验结果表明,采用相似概念聚类方法对词典进行扩充任务或情感分类任务都可以获得很好的效果。  相似文献   

6.
该文针对网络评论倾向分级问题,提出了一种基于观点袋模型和语言学规则的多级情感分类方法。通过分析句子中的词性搭配关系,设计了12种抽取特征-观点搭配模式,并对存在问题给出了解决策略。依据汉语用词特点和词汇在汽车领域的特殊用法,提出搭配四元组的情感倾向极性值计算方法。在此基础上,利用获取的搭配四元组及其情感倾向极性,建立文本的向量化表示,并构造了权重计算公式。最后,利用文本余弦相似度计算方法实现对评论文本的五级情感极性分类。通过在COAE2012任务3的汽车数据集上进行的测试,取得了较好的分类结果。  相似文献   

7.
在对短文本进行情感分类任务的过程中,由于文本长度过短导致数据稀疏,降低了分类任务的准确率。针对这个问题,提出了一种基于潜在狄利克雷分布(LDA)与Self-Attention的短文本情感分类方法。使用LDA获得每个评论的主题词分布作为该条评论信息的扩展,将扩展信息和原评论文本一起输入到word2vec模型,进行词向量训练,使得该评论文本在高维向量空间实现同一主题的聚类,使用Self-Attention进行动态权重分配并进行分类。通过在谭松波酒店评论数据集上的实验表明,该算法与当前主流的短文本分类情感算法相比,有效地提高了分类性能。  相似文献   

8.
针对目前网络评论文本情感分类准确性不高的问题,提出一种基于BERT和双向门控循环单元(BiGRU)的改进模型,使用能够表征文本丰富语义特征的BERT模型进行词向量表示,结合能够长期保留文本上下文关联信息的BiGRU神经网络提高模型的分类效果,并在此基础上引入注意力机制,突出文本中更能表达分类结果的情感词权重,提高情感分类的准确率。将上述模型分别在Acllmdb_v1和酒店评论两个公开数据集上进行测试,实验结果表明,该模型在中、英文文本情感分类任务中都获得了良好的性能。  相似文献   

9.
基于LSTM的商品评论情感分析   总被引:1,自引:0,他引:1  
随着电子商务的发展,产生了大量的商品评论文本.针对商品评论的短文本特征,基于情感词典的情感分类方法需要大量依赖于情感数据库资源,而机器学习的方法又需要进行复杂的人工设计特征和提取特征过程.本文提出采用长短期记忆网络(Long Short-Term Memory)文本分类算法进行情感倾向分析,首先利用Word2vec和分词技术将评论短文本文本处理为计算机可理解的词向量传入LSTM网络并加入Dropout算法以防止过拟合得出最终的分类模型.实验表明:在基于深度学习的商品评论情感倾向分析中,利用LSTM网络的短时记忆独特特征对商品评论的情感分类取得了很好的效果,准确率达到99%以上.  相似文献   

10.
基于情感词识别的BBS情感分类研究   总被引:3,自引:0,他引:3  
针对目前BBS网络信息杂乱的现象,提出了一种BBS情感分类方法,能够方便用户准确定位所需信息,辨识评论的极性(肯定还是否定).根据词语具有语义倾向的概率大小,利用最大熵的特征模型识别文本中具有语义倾向的词语,选择具有一定倾向值的词作为文档的特征表示.通过这些类型特征构造支持向量机分类模型,对BBS文本所表达的情感等主观内容进行分类,判断其是正面还是负面.实验表明,在BBS情感分类中,基于该特征表示的分类精度较好.  相似文献   

11.
针对传统的卷积神经网络未能充分利用不同通道间的文本特征语义信息和关联信息,以及传统的词向量表示方法采用静态方式对文本信息进行提取,忽略了文本的位置信息,从而导致文本情感分类不准确的问题,提出了一种结合ALBERT(a lite BERT)和注意力特征分割融合网络(attention feature split fusion network,AFSFN)的中文短文本情感分类模型ALBERT-AFSFN。该模型利用ALBERT对文本进行词向量表示,提升词向量的表征能力;通过注意力特征分割融合网络将特征分割为两组,对两组不同通道的特征进行提取和融合,最大程度保留不同通道之间的语义关联信息;借助Softmax函数对中文短文本情感进行分类,得到文本的情感倾向。在三个公开数据集Chnsenticorp、waimai-10k和weibo-100k上的准确率分别达到了93.33%、88.98%和97.81%,F1值也分别达到了93.23%、88.47%和97.78%,结果表明提出的方法在中文短文本情感分析中能够达到更好的分类效果。  相似文献   

12.
基于向量空间模型(VSM)的文本聚类会出现向量维度过高以及缺乏语义信息的问题,导致聚类效果出现偏差。为解决以上问题,引入《知网》作为语义词典,并改进词语相似度算法的不足。利用改进的词语语义相似度算法对文本特征进行语义压缩,使所有特征词都是主题相关的,利用调整后的TF-IDF算法对特征项进行加权,完成文本特征抽取,降低文本表示模型的维度。在聚类中,将同一类的文本划分为同一个簇,利用簇中所有文本的特征词完成簇的语义特征抽取,簇的表示模型和文本的表示模型有着相同的形式。通过计算簇之间的语义相似度,将相似度大于阈值的簇合并,更新簇的特征,直到算法结束。通过实验验证,与基于K-Means和VSM的聚类算法相比,文中算法大幅降低了向量维度,聚类效果也有明显提升。  相似文献   

13.
运用空间向量对文本信息进行合理且有效的表示对文本聚类以及检索的结果有较大影响。共现潜在语义向量空间模型(CLSVSM)深度挖掘了文本特征词之间的共现潜在语义信息并且提升了文本聚类的性能。本文在CLSVSM基础上先引入特征词词频信息,再将引入的词频作为权重赋予CLSVSM的共现强度,最终构建特征加权的CLSVSM。特征加权的CLSVSM在中文数据上的聚类效果如下:在F值方面,相比CLSVSM和Word2vec文本模型分别提高将近2.4%、5.2%,在熵值上相比90%CLSVSM_K和Word2vec文本模型分别降低了将近3.1%、9.0%,相比词频CLSVSM和TF-IDF模型在聚类效果上都有所提高。在英文数据上聚类效果也与其他模型相当。特征加权的CLSVSM的稳定性有待提高,受限于关键词词频信息表达完整程度。  相似文献   

14.
粗糙集是一种能够有效处理不精确、不完备和不确定信息的数学工具,粗糙集的属性约简可以在保持文本情感分类能力不变的情况下对文本情感词特征进行约简。针对情感词特征空间维数过高、情感词特征表示缺少语义信息的问题,该文提出了RS-WvGv中文文本情感词特征表示方法。利用粗糙集决策表对整个语料库进行情感词特征建模,采用Johnson粗糙集属性约简算法对决策表进行化简,保留最小的文本情感词特征属性集,之后再对该集合中的所有情感特征词进行词嵌入表示,最后用逻辑回归分类器验证RS-WvGv方法的有效性。另外,该文还定义了情感词特征属性集覆盖力,用于表示文本情感词特征属性集合对语料库的覆盖能力。最后,在实验对比的过程中,用统计检验进一步验证了该方法的有效性。  相似文献   

15.
特征是一切观点挖掘和情感分析任务的关键所在。对于无监督的文本聚类任务,文本特征的优劣直接影响聚类效果。考察三种语义特征(名词、名词短语、语义角色)对主题聚类的作用以及不同特征之间的相容关系,提出一种消除冗余特征的方法。该方法能有效地去除冗余特征,提高聚类精度。同时还提出一种基于语义角色标注的直接定位有效词特征的聚类方法,实验表明该方法是直接的和有效的,并为特征选择方法提供了新思路。  相似文献   

16.
随着社交网络平台的广泛使用,涌现出大量蕴涵丰富情感信息的在线评论文本,分析评论中表达的情感对企业、平台等具有重要意义。为了解决目前针对在线评论短文本情感分析中存在特征提取能力弱以及忽略短文本本身情感信息的问题,提出一种基于文本情感值加权融合字词向量表示的模型——SVW-BERT模型。首先,基于字、词级别向量融合表示文本向量,最大程度获取语义表征,同时考虑副词、否定词、感叹句及疑问句对文本情感的影响,通过权值计算得到文本的情感值,构建情感值加权融合字词向量的中文短文本情感分析模型。通过网络平台在线评论数据集对模型的可行性和优越性进行验证。实验结果表明,字词向量融合特征提取语义的能力更强,同时情感值加权句向量考虑了文本本身蕴涵的情感信息,达到了提升情感分类能力的效果。  相似文献   

17.
该文讨论了文本聚类所涉及的关键技术和方法,这些技术包括文本表示模型,特征约减,聚类技术,聚类结果的衡量等。文章详细分析了已有技术和方法的优缺点,提出将语义和次序信息结合,使用图表示文章,基于文章的图表示模型,设计新的文本相似度量方法以及聚类结果的衡量标准。  相似文献   

18.
针对传统的空间向量模型在进行文本表示时计算相似度仅采用词频统计来表示文本以及对高维文本数据聚类效果有所下降等问题,提出一种基于优化密度的耦合空间LDA文本聚类算法。该算法利用提出的耦合空间模型和LDA主题模型线性融合计算文本相似度,并对阈值敏感问题进行优化,确定不同密度区域对应的阈值半径。实验结果表明,与改进的DBSCAN文本聚类算法和R-DBSCAN文本聚类算法相比,本文算法的文本聚类精度更高、聚类效果更优。  相似文献   

19.
微博作为当代生活中信息传播的重要平台,对其进行热点话题挖掘成为当今重要的研究方向之一。针对传统的热点话题发现方法在处理微博文本时存在文本表示缺乏语义信息、挖掘热点话题效果差等问题,本文提出一种基于频繁词集和BERT语义的文本双表示模型(Text dual representation model based on frequent word sets and BERT semantics, FWS-BERT),通过该模型计算加权文本相似度对微博文本进行谱聚类,进一步基于改进相似性度量的affinity propagation (AP)聚类算法进行微博话题挖掘,最后通过引入文献计量学中的H指数提出一种话题热度评估方法。实验表明,本文提出的方法在轮廓系数及Calinski-Harabasz(CH)指标值上均高于基于频繁词集的单一文本表示方法和K-means方法,并且能准确地对微博数据进行话题表示和热度评估。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号