首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
对于一个实体(产品或者商户),往往伴随着成千上万的用户评论。如何从这些冗杂的评论信息中抽取能够描述此实体的精华信息是研究的热点问题。该文提出了一种能够为每个实体抽取特征标签的方法,并且语义去重,保证标签在语义空间内相互独立。首先,对于每个实体的所有评论,进行中文分词、词性标注,并且做依存句法分析。然后,根据每个句子中的依存关系,抽取关键标签,构成此实体的标签库,并且对标签库进行显式语义去重。最后通过K-Means聚类以及Latent Dirichlet Allocation(LDA)主题模型将每个标签映射到语义独立的主题空间,再根据每个标签相对该主题的置信度进行排序。通过以上步骤,可以为每个实体抽取语义独立的关键标签描述,实验中,该文通过对返回标签列表的准确性以及语义多样性进行了统计分析,验证了标签抽取方法的可行性和有效性。  相似文献   

2.
通过主题模型对酒店评论文本进行文本挖掘,有利于引导酒店管理者和客户对评论信息做出合适的鉴别和判断。提出一种基于预训练的BERT语言模型与LDA主题聚类相结合的方法;利用中文维基百科语料库训练BERT模型并从中获取文本向量,基于深度学习算法对评论文本进行情感分类;通过LDA模型对分类后的文本进行主题聚类,分别获取不同情感极性文本的特征主题词,进而挖掘出酒店客户最为关注的问题,并对酒店管理者提出具有参考价值的建议。实验结果表明,通过BERT模型获取的文本向量在情感分类任务中表现较好,且BERT-LDA文本挖掘方法能使酒店评论文本的主题更具表达性。  相似文献   

3.
情感分析作为文本挖掘的一个新型领域,可用于分类、归纳用户发布的产品评论,从而有助于商家改善服务,提高产品质量;同时为其他消费者提供购买决策。本文提出一种基于情感词抽取与LDA特征表示的情感分析方法,对产品评论进行褒贬二元分类。在情感词抽取中,采用人工构造的情感词典对预处理之后的文本抽取情感词;用LDA模型建立文档的主题分布,以评论-主题分布作为特征,用SVM分类器进行分类。实验结果表明,本文方法在评论褒贬分类方面有着良好的效果。  相似文献   

4.
主题抽取是意见挖掘的核心任务之一。该文面向维吾尔语评论文本, 针对显式主题和隐式主题, 提出了一种陈述级的主题抽取方法。该方法采用GLR-Cascaded LDA模型抽取段落级的局部主题、篇章级的全局主题, 建立全局—局部主题关系, 并将这些关系对应到每个意见陈述中; 然后运用Bootstrapping和模式匹配的方法进行显式陈述的主题抽取; 最后使用隐式主题推断算法推断隐式陈述的主题。主题抽取的最终目标是为每个意见陈述建立意见陈述—主题四元组。实验结果证明了该方法在主题抽取任务中的有效性。  相似文献   

5.
朱韦光 《计算机时代》2023,(9):132-135+141
为了帮助商家从在线评论中挖掘产品的需求偏好及客户构成,构建了基于LDA主题模型、情感分析,以及改进的K均值聚类算法等方法的产品需求偏好判别及客户细分模型。通过LDA模型挖掘用户需求偏好,利用情感分析进行情感打分,再用改进的聚类算法得到客户细分群体。最终得到用户对于手机的需求偏好以及客户细分群体构成,帮助商家更好地作出经营决策。  相似文献   

6.
李学明  张朝阳  佘维军 《计算机应用》2016,36(10):2767-2771
针对有监督评论有用性预测方法中的训练数据集难以构造,以及无监督方法缺乏对情感信息支撑的问题,提出基于语义和情感信息构建一种无监督模型,用于对评论有用性进行预测,同时考虑了评论和评论下回复内容对观点的支持度用来计算观点的有用性得分,进而得到评论的有用性。同时,提出结合句法分析和改进潜在狄利克雷分配(LDA)模型的评论摘要方法用于评论有用性预测模型中的观点提取,基于句法分析结果构建must-link和cannot-link两种约束条件指导主题模型学习,在保证召回率的同时提高模型准确率。该方法在实验数据集上能取得70%左右的F1值和90%左右的排序准确率,且实例应用也表明该方法对结果具有较好的解释性。  相似文献   

7.
网络新媒体的快速发展,使得网上评论数据呈现爆炸性增长,面对数量庞大的网络文本,使用传统的人工方式来提取观点会导致效率低下、分类界限模糊、领域适应性差等问题。为解决以上问题,在对传统LDA模型进行改进的基础上,提出了一个基于领域判别的LDA主题模型来对在线评论进行观点挖掘。首先,在标准LDA模型中引入领域层,对语料库中的文档采样领域标签,利用领域化的参数来求解LDA模型;其次,考虑到句子间的情感从属关系,在主题层和单词层之间加入情感层,并引入情感转移变量进行表示,提高了情感极性分析的精度,实验结果表明了本文所提模型和理论的有效性。  相似文献   

8.
针对电商平台提出一个基于评论的商品特征抽取及情感分析框架,并将该框架在京东生鲜类商品的评论中进行应用。实验结果表明该框架确实能够成功抽取出商品的典型特征及该特征对应的情感极性,且在小样本数据集上测试了特征词和观点词抽取算法以及情感极性计算方法的性能,其中显式<特征词,观点词>词对抽取的准确率达到了53.6%,召回率达到了81.5%,极性判断的准确率达到了98.3%。主要贡献包括:提出一种依据观点词与特征词关联度的隐含特征词映射方法;基于word2vec词向量模型计算特征词相似度,并利用改进的半监督层次聚类算法对特征词进行典型特征聚类,建立特征词关联表。  相似文献   

9.
李芳  何婷婷  宋乐 《计算机科学》2012,39(6):159-162
主要研究如何从在线评论文本中挖掘产品的评价主题,并对其倾向性进行分析。首先采用一种启发式规则和共现概率统计相结合的方法识别文本集合中的名词性短语,再运用LDA模型挖掘潜在的评价主题。然后利用多特征融合的方法计算句子的倾向性,进而根据特征词群统计出各主题的倾向性结果。最后通过对网络汽车评论文本语料的实验证实了该方法的有效性。  相似文献   

10.
基于LDA主题模型的文本相似度计算   总被引:1,自引:0,他引:1  
王振振  何明  杜永萍 《计算机科学》2013,40(12):229-232
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果。实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果。  相似文献   

11.
为了抽取出更能反映文本主题的关键词,也为了解决文本关键短语抽取任务中主题信息缺失的问题,提出一种基于LDA和TextRank的单文本关键短语抽取方法。该方法利用LDA模型对语料库中的文本进行主题挖掘,并融入目标文本中的主题覆盖度和词语共现关系构建无向加权词图;引入节点词汇主题影响力因素根据词语主题相关性来修改节点间的随机跳转概率,在词图的基础上运用TextRank算法获取候选关键词排序;再利用bootstraping算法的思想迭代生成表意性更强的关键短语。实验表明,该方法可有效提取出表意性强且涵盖文本主题信息的关键短语。  相似文献   

12.
针对深度学习方法中文本表示形式单一,难以有效地利用语料之间细化的特征的缺陷,利用中英文语料的不同特性,有区别地对照抽取中英文语料的特征提出了一种新型的textSE-ResNeXt集成模型。通过PDTB语料库对语料的显式关系进行分析,从而截取语料主要情感部分,针对不同中、英文情感词典进行情感程度关系划分以此获得不同情感程度的子数据集。在textSE-ResNeXt神经网络模型中采用了动态卷积核策略,以此对文本数据特征进行更为有效的提取,模型中融合了SEnet和ResNeXt,有效地进行了深层次文本特征的抽取和分类。将不同情感程度的子集上对textSE-ResNeXt模型采用投票集成的方法进一步提高分类效率。分别在中文酒店评论语料和六类常见英文分类数据集上进行实验。实验结果表明了本模型的有效性。  相似文献   

13.
吕韶华  杨亮  林鸿飞 《计算机工程》2011,37(19):62-64,67
在餐馆评论中,存在评论文本未明确指出评价等级及评论文本不一致等问题。为此,提出一种基于LDA模型的餐馆评论排序方法。利用LDA模型对评论文本进行主题抽取,过滤掉不相关评论,基于过滤后的用户评论和用户给出的评论等级计算餐馆评论若干方面的得分,在该得分的基础上,利用逻辑回归进行训练,得到餐馆评论排序模型。实验结果表明,该方法的排序效果较优。  相似文献   

14.
《计算机工程》2017,(12):184-191
词嵌入技术能从大语料库中捕获词语的语义信息,将其与概率主题模型结合可解决标准主题模型缺乏语义信息的问题。为此,同时对词嵌入和主题模型进行改进,构建词-主题混合模型。在主题词嵌入(TWE)模型中引入外部语料库获得初始主题和单词表示,通过定义主题向量和词嵌入的条件概率分布,将词嵌入特征表示和主题向量集成到主题模型中,同时最小化新词-主题分布函数和原始词-主题分布函数的KL散度。实验结果表明,与Word2vec、TWE、LDA和LFLDA模型相比,该模型在词表示和主题检测方面性能更好。  相似文献   

15.
利用领域本体对产品评论文本中的特征及其评价词进行抽取,并将特征评价词的情感倾向与特征所在句子的情感倾向进行特征表示,得到文本特征矩阵,在此基础上,利用K-means算法实现了文本的情感聚类。为了验证该方法的有效性,在真实汽车评论文本数据上进行实验,结果表明,基于特征的情感倾向表示的权重相比布尔权重和LDA特征权重的聚类结果,在聚类的纯度和F值上有明显提高。  相似文献   

16.
《微型机与应用》2017,(19):19-22
传统的LDA主题模型没有考虑词频对主题分类的影响,使得主题分布向高频词倾斜。为了综合考虑词频和主题间的相关性,文中利用互信息能够表达变量间相关性的特点,在互信息基础上改进作为特征选择方法,利用评价函数评价特征词的权重值改进LDA算法分类过程,提高对主题分类贡献度高的特征词的作用。通过在新闻语料库上的分类实验证明了该方法的有效性,同时表明分类的准确率也有所提高。  相似文献   

17.
《软件》2016,(12):38-42
用户兴趣是对微博用户研究的重要内容,本文使用聚类方法提取用户兴趣。由于微博短文本的特征稀疏和上下文依赖性,传统方法不能取得良好的效果。本文对微博短文本进行基于LDA主题模型的特征拓展处理。LDA主题模型引入隐含主题,通过主题相似性,在一定程度上拓展文本特征,弥补原文本特征稀疏的缺点。并且,在处理多义词时,主题相似性能明显区分不同词义,以解决上下文依赖问题。在此基础上,通过文本聚类方法提取用户兴趣。通过实验表明,在引入LDA模型下,聚类效果和用户兴趣抽取的到明显提升,有效解决的微博用户兴趣发现中文博短文本特征稀疏和上下文依赖问题。  相似文献   

18.
面对网络上日益丰富的评论信息资源,如何在海量的客户评论中快速有效的获取并使用其中的有效信息,成为人们日益关注的问题。研究目标是互联网上的旅游评论,通过使用数据挖掘算法分析获取评论中关于商品或服务的主题词,并提取所有评论中包含主题词的句子。使用主题抽取模型(LDA模型)进行半监督的聚类处理,建立景点评论的主题模型,实现了互联网旅游评论个性化的设置和查询。  相似文献   

19.
针对在中文资源的关系抽取中,由于中文长句句式复杂,句法特征提取难度大、准确度低等问题,提出了一种基于平行语料库的双语协同中文关系抽取方法。首先在中英双语平行语料库中的英文语料上利用英文成熟的句法分析工具,将得到依存句法特征用于英文关系抽取分类器的训练,然后与利用适合中文的n-gram特征在中文语料上训练的中文关系抽取分类器构成双语视图,最后再依靠标注映射后的平行语料库,将彼此高可靠性的语料加入对方训练语料进行双语协同训练,最终得到一个性能更好的中文关系抽取分类模型。通过对中文测试语料进行实验,结果表明该方法提高了基于弱监督方法的中文关系抽取性能,其F值提高了3.9个百分点。  相似文献   

20.
《软件工程师》2019,(1):1-7
通过挖掘商品评论中的评价对象,可以得知用户更关心商品哪些方面的属性,从而帮助企业改进商品,帮助用户选择商品。因此,商品评价对象的挖掘具有重要的意义。本文提出了一种用于商品评价对象挖掘的领域词典构建方法:首先基于LDA模型,提出了一种领域基础词典的构建方法;然后,分别提出了基于词汇之间的PMI值和基于依存句法分析的领域词典扩充方法。本文基于京东商城的洗衣液产品真实评论数据集,使用构建的词典分别进行了一级标签评价对象挖掘和二级标签评价对象挖掘的实验。实验结果表明,本文提出的方法在进行评价对象挖掘时具有良好的性能;相比一级标签评价对象,扩充后的词典对二级标签评价对象挖掘的效果有更好的提升。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号