共查询到18条相似文献,搜索用时 265 毫秒
1.
2.
随着互联网的高速发展,社会大众可以通过网络对医疗事件以及医患关系自由地发表个人意见和观点言论,这对于引导公众正确的价值导向有着重大研究意义.然而,仅考虑单模态数据的主题分析算法不能精准地把握整个舆情事件的真相,存在主题提取不准确、个人情感先入为主等问题.提出一种基于LDA的多模态数据主题分析算法MD_LDA(multimodal data topic analysis based on LDA).通过对各模态主题分析结果进行决策级融合来计算多模态的主题分析结果,进而解决传统方法对多模态数据考虑不全面的缺陷.实验结果表明,针对多模态舆情事件,在主题词的提取效果上,所提出的MD_LDA算法优于单一模态数据进行主题分析的算法.而相对于传统的关键词提取算法TF_IDF与TextRank和MD_LDA算法的准确率以及主题词提取效率均有所提高,验证了结合多模态数据进行主题分析的MD_LDA算法的有效性. 相似文献
3.
《计算机应用与软件》2015,(7)
为了提高个人微博相似度的精确性,实现事件的高效归类,提出一种基于改进的Jaccard相似度和余弦相似度的JS综合相似度算法。该算法采用改进的TF-IDF算法提取特征词及LDA(Latent Dirichlet Allocation)主题模型构造同类词模板,在此基础上计算个人微博相似度,最后利用K-means时序事件归类算法对个人微博进行归类。实验结果表明所提出的JS综合相似度算法比传统的相似度算法具有更高的精确度,在一定程度上提高了个人微博时序事件归类的准确性。 相似文献
4.
经典的TF-IDF算法仅考虑了特征词频率和逆文档频率等,忽略了特征词的类间、类内分布信息.本文通过TF-IDF算法计算特征词在不同规模语料库中的权重,分析特征词的类信息对权重的影响,并进一步针对该影响提出一种新的衡量特征词的类间、类内分布信息的方法.本文通过增加两个新的权值,类间离散因子和类内离散因子,将其与经典的TF-IDF算法结合,提出了基于类信息的改进的TF-IDF-CI算法.本文通过朴素贝叶斯模型对改进后的算法的分类性能进行了验证.实验证明,改进后的权重算法在测试数据集上的表现,在准确率、召回率和F1值上均优于经典的TF-IDF算法. 相似文献
5.
对网络舆情进行有效监测、预警和管控,引导网民情感走向是网络安全的重要工作内容。爬取新浪微博“新冠疫情”相关博文的评论数据,通过python利用BOW模型,TF-IDF算法和逻辑回归模型构建文本分类算法,对网民的评论情感特点进行研究。对爬取清洗后26688条评论数据代入模型进行情感分类得出网民情感的舆情特点和走向,从时间线上看2021年负面评论数据高于2020年。对不同时间线的舆情特点进行了深度分析,同时结合2021年四季度西安疫情的特殊舆情事件展开了回溯分析。 相似文献
6.
《软件》2017,(2):47-50
近年来,国内人民的生活水平在不断的提高,互联网迅速的发展起来,并且出现在人们生活的各个领域中,导致网络用户的数量大大增加。本文通过对网络用户的行为进行分析,运用信息检索的方式来对网络用户进行分类,进而分析网络用户的行为特征。采用CHI特征选择算法对特征进行提取,通过整合特征词将网络用户分类,然后采用TF-IDF算法对特征进行加权运算,分析了算法的不足并为相关的特征词分配了适当的权重,然后对这些网络的身份进行识别。最后本文进行扩展,通过特殊举例用户的网络数据,用余弦定理进行相似度比较,这样可以了解这些用户之间拥有多少相同的话题和爱好,大大增加了彼此之间成为好友的可能性。这种方法在以后也可以应用在用普通的文本搜索相似的文章中。 相似文献
7.
随着网络的发展,主题提取的应用越来越广泛,尤其是学术文献的主题提取。尽管学术文献摘要是短文本,但其具有高维性的特点导致文本主题模型难以处理,其时效性的特点致使主题挖掘时容易忽略时间因素,造成主题分布不均、不明确。针对此类问题,提出一种基于TTF-LDA(time+tf-idf+latent Dirichlet allocation)的学术文献摘要主题聚类模型。通过引入TF-IDF特征提取的方法,对摘要进行特征词的提取,能有效降低LDA模型的输入文本维度,融合学术文献的发表时间因素,建立时间窗口,限定学术文献主题分析的时间,并通过文献的发表时间增加特征词的时间权重,使用特征词的时间权重之和协同主题引导特征词词库作为LDA的影响因子。通过在爬虫爬取的数据集上进行实验,与标准的LDA和MVC-LDA相比,在选取相同的主题数的情况下,模型的混乱程度更低,主题与主题之间的区分度更高,更符合学术文献本身的特点。 相似文献
8.
9.
10.
随着首个在线旅游数据生态共建倡议书的发布,在线评论数据更加真实、准确地表达顾客的客观感受,成为商家和消费者情报的重要来源。结合LDA、TF-IDF算法获取不同类型酒店客户评论特征权值,采用AipNLP获得情感倾向性估计值。利用Lasso算法进行特征筛选构建基于Lasso-LDA的用户偏好模型,将该模型应用于携程网上五种类型用户的偏好分析中。研究结果表明,与传统的多元线性回归及岭回归相比,该模型有更好的预测效果。 相似文献
11.
针对为项目自动推荐评审专家的任务特点,提出一种基于主题信息的专家推荐方法。在分析项目与专家描述文档的属性特点后,使用隐含狄利克雷分配模型获取文档内容的主题词,通过统计主题词词频的方法构建主题特征空间,并结合文档属性栏目的重要性因素,利用TF-IDF特征提取算法分别获得项目文档与专家文档的主题特征向量,采用改进的相似度算法计算项目与专家主题特征向量的相关度,并选择与项目相关度较高的专家作为推荐结果。实验结果表明,该方法的推荐效果优于使用TF-IDF+余弦相似度计算的推荐方法,准确率、召回率和综合评价指标F值平均提高了4.87%,5.04%和4.97%。 相似文献
12.
微博作为一种近年出现的新型网络媒体形式,已经成为网络舆论的强磁场。通过微博自身的特点,分析其对网络舆情的价值,然后设计基于微博的网络舆情分析系统,包括文本预处理、微博文本的向量表示与提取、话题发现以及微博的传播态势和倾向性分析等过程,微博特征提取采用了TF-IDF模型,话题发现采用MBT形式化表述,最后展望该系统的前景。 相似文献
13.
中文文本的情感倾向分析是网络舆情信息挖掘和分析的关键技术之一。提出了一种粒子群-高斯过程算法(PSO-GP)的中文文本情感倾向分类方法,采用粒子群优化算法(Particle Swarm optimization,PSO)进行高斯过程(Gaussian Process)超参数的最优搜索,解决了传统高斯过程中共轭梯度法迭代次数难确定、对初值依赖性强和易陷入局部极小值等问题。首先采用多线程网络爬虫技术采集文本数据组成语料库,构建特定领域情感词典,然后通过情感词匹配选择最有效的特征,降低数据维度,并利用TF-IDF算法计算特征词的权重以生成特征向量。最终,将测试样本输入PSO-GP分类模型。实验结果表明,与传统GP方法相比,提出的改进高斯过程分类模型的分类准确率提高了近15%。 相似文献
14.
银行智能派单系统的实现和功能完善,对银行提升客户满意度、提高突发事件处理效率、降低人工处理成本等非常重要。针对现有的基于Word2vec和TextCNN模型的银行智能派单系统进行了改进,针对特征词权重表达性弱,特征词类别及位置区分性弱等问题,提出基于改进TF-IDF加权的Word2vec词嵌入表示和卷积神经网络结合的银行智能派单系统:首先利用Word2vec模型得到输入事件单的词嵌入向量;再针对经典TF-IDF方法不具备类别区分性、位置区分性,也没有考虑极端频率特征词代表性的情况,提出改进型TF-IDF算法,计算每个特征词的权重,得到基于改进TF-IDF加权的Word2vec词嵌入表示;最后在卷积神经网络模型中进行训练,通过迭代训练最终得到分类器,利用分类器可对输入事件单信息自动进行系统类别的判断。实验结果表明改进词嵌入表示的银行智能派单系统分类模型的宏查准率、宏查全率、准确率以及宏F1值都得到进一步的提高。 相似文献
15.
16.
针对当前基于海量公开新闻数据的重大事件趋势预测研究在特征选择上的局限性问题,结合人工智能相关技术对现有方法进行优化改进,提出一种融合语义与事件特征的重大事件趋势预测方法。利用网络爬虫技术辅助数据采集;利用主题模型与事件抽取技术辅助海量新闻数据的特征集构建与向量表示,并针对LDA主题模型在特征词提取上存在偏向性的问题,提出一种改进模型IDFLDA;利用机器学习分类模型进行预测结果输出。以朝鲜核行为预测为例对提出方法进行验证,预测结果表明,该方法的预测性能优于依赖专家知识进行特征集构建的传统方法,能有效进行重大事件的趋势预测,为战略决策提供辅助支持。 相似文献
17.
针对轨道电路不均衡的故障历史文本数据,提出了一种针对非均衡历史文本数据挖掘的轨道电路智能分类模型。选取TF-IDF和先验LDA无监督机器学习模型对历史故障文本数据分别进行词项级和主题级故障特征提取并向量化,将提取的历史数据特征向量串行融合,得到其特征向量空间。采用SMOTE算法自动生成历史文本数据中的少数类数据,避免在机器学习过程中出现欠拟合现象。鉴于单个分类器在机器学习及智能分类的精度不高,采用投票的方式实现基分类器与集成分类器的集成学习。选择广铁集团电务段2011年的故障文本数据进行试验分析,验证该模型在历史故障数据分类的准确率和召回率等方面的优势。 相似文献
18.
文本分类领域中,TF-IDF特征权重是一种常用的分类算法。本文介绍了TF-IDF特征权重算法,对于能够表征文本特征的文本特征词,常常按某一方法赋予相应的权重,表示它们对于区分文本类别的重要程度。但是在该算法中将训练集的文档看成一个整体来考虑,不能表示特征项与类别之间的关联特性。针对该弊端本文引进了x2统计量函数计算权重。实验结果表明改进的TF-IDF权重算法是可行的,同时也比较好地提高了分类器的性能。 相似文献