首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
针对网络环境中大量短文本信息的鲜明特点,突破传统基于词标注的分类方法,提出了一种短文本频繁模式发现及其有效意义串分析算法。通过改进的FP-树算法挖掘最大频繁模式得到关键词库之后,结合中文词语局部性原理对关键词按照位置点聚类,进行意义串二次挖掘,最后进行文本情感分析。仿真结果表明,对于意义串词组挖掘,该算法具有较高的准确率,并有助于及时了解网络群体的情感方向。  相似文献   

2.
提出一种基于后缀树的文本聚类算法以实现中文文本的多主题聚类。先介绍基于后缀树的英文多主题聚类的主要流程。再分析中、英文语言的差异,并以中文词和短语为单位构造后缀树模型,随后构造基类关联图实现中文多主题聚类。实验分析表明,该方法能快速、较准确的实现中文文本的多主题聚类。  相似文献   

3.
受网上各种信息的影响,高校大学生对社会诸多现象、现实和问题等反应敏感,易受到错误言论的蒙蔽和误导。针对高校网络舆情监测与预警手段方面的严重不足,开发了一个基于网络信息挖掘技术的高校网络舆情监测系统,系统利用网络蜘蛛技术、中文分词技术和文本聚类技术,通过对互联网信息进行采集、处理,舆情识别分析,实现了舆情热点与话题信息的推送与跟踪功能,可进一步分析舆情内容的观点与态度问题,筛选并判定各级别网络舆情的发生,从而进行公共危机和热点事件的监测和预警。  相似文献   

4.
基于co-ICIB联合聚类的舆情监测系统的设计为舆情信息库,它通过联合聚类等数据挖掘算法可以快速及时地发现新的舆论热点.当舆论热点被确认,即在互联网上真正成为一个备受关注的话题时,文本分类算法可以将同一话题内的信息归类,有助于跟踪舆情的发展趋势.该舆情监测系统可为舆情监管部门提供原始舆情资料、数据性图表和建议性分析.  相似文献   

5.
针对k均值算法在文本聚类中由于初始聚类质心随机选择,使得聚类结果陷入局部最优,且孤立点和不确定的聚类个数造成k均值算法准确性低、收敛速度慢的问题,提出了一种改进的k均值文本聚类算法。该算法采用fp-growth算法挖掘文本频繁项集,过滤频繁项集得到核心频繁项集,并利用核心频繁项集指导文本初始聚类质心和聚类个数的生成,最后k均值算法利用初始聚类质心和聚类个数完成文本聚类。在新浪微博数据集上进行文本聚类实验,实验结果表明,改进的k均值算法提高了文本聚类的准确性,加快了收敛速度,具有较强的鲁棒性。  相似文献   

6.
Web访问挖掘中事务聚类研究   总被引:4,自引:0,他引:4  
Web访问挖掘可以发现用户浏览Web的目标、兴趣等行为模式,使Web变得更容易获取信息。聚类分析是Web访问挖掘系统的重要组件,聚类分析的质量决定挖掘结果的有效性。现有的三类聚类算法具有各自的缺点,本文概述了三种算法,给出了一种基于广义后缀树的聚类算法,通过实例说明了它的原理和优点。  相似文献   

7.
考虑网络事件的时间距离,基于半结构化网页中不同位置特征项重要程度的不同,提出改进的single-pass文本聚类算法single-pass*,优势在于对Web文本不同位置特征项的加权处理,仅需计算新文档与同类别种子文档间的相似度。实验结果表明,相比single-pass,改进算法极大减少了漏检率和错检率,降低了由于新文本流内文档进行相似度计算导致系统性能的下降,平均提高Web文本聚类效率40%。将聚类后的Web文本应用于网络舆情分析,进行主题关注度分析和话题热度特性分析。  相似文献   

8.
为了有效提高客服效率与主动服务意识,从电力短文本中挖掘客户的情感状态,提出了一种基于迁移学习的情感分析方法,将具有丰富标注信息的商品评论语料库作为源域,提高了目标域中的电力短文本的情感分类性能。在现有基于注意力机制的双向长短型记忆网络模型之上引入域适应层,以学习跨域知识并保留特定域的知识。实验结果表明,与其他算法相比较,该算法对电力短文本进行情感分类的效果优于非迁移学习方法,具有更好的分类性能。  相似文献   

9.
目前的网络舆情分析系统一般采用输入的关键词进行检索,无法及时发现未知的热点事件。针对这一问题,设计实现了一个具有实用意义的舆情信息分析系统,并将改进的K-MEANS算法应用于文本聚类来自动发现当前的热点主题。运行结果表明,系统可以及时发现热点话题并对事件实时追踪。  相似文献   

10.
在个性化的网络学习中,对知识点间的关联规则进行挖掘是一个关键的问题.该文提出了一种基于后缀树的知识点间关联规则挖掘算法,该算法通过对web日志数据构造后缀树进行序列挖掘,动态地挖掘最大频繁序列,进而发现有意义的知识点间的关联规则.  相似文献   

11.
基于字符串相似性聚类的网络短文本舆情热点发现技术   总被引:2,自引:0,他引:2  
将每个短文本文档看成一个由文字、数字和标点构成的字符串,并基于字符串自身的特性直接计算其相似性,在此基础上进行短文本层次化聚类,进而发现网络舆情热点.由于这种方法免去特征提取和文本表示过程,在一定程度上避免了传统方法在短文本表示时特征向量稀疏的不足,有效解决了短文本内容聚类问题.实验结果表明,本文提出方法有效.  相似文献   

12.
针对选取最优化管柱存在困难,本文综合应用层次分析与模糊数学方法对各类生产与措施管柱进行了因素分析,最后得到管柱的综合评价,根据综合评价结果确定管柱排序优选,并给出压裂管柱模糊评价实例分析。实例分析表明,该方法用于管柱因素分析、总结评价管柱是正确可行的,因而具有较好的应用推广价值。  相似文献   

13.
微博具有传播快、数量大、语言简练等特点,对舆情分析提出了更高要求。从微博短文本中提取特征用来计算相似度时,现有的字符串匹配方法在语义分析方面存在局限性。因此本文从语义角度提出一种基于名词语义的微博相似度算法。该算法将名词集合作为微博特征,利用《知网》词典树状结构,计算得到微博短文本间的相似度。中等规模微博数据集实验表明,本文提出的算法能够准确判断微博主题含义,同一类别微博相似度90%以上分布在0.6-1.0之间,可为后续微博聚类服务。  相似文献   

14.
提出了一种新的基于特征串匹配的文件内容动态识别算法,对文件类型可快速有效地识别,此技术可应用于网络信息流动的监控;研究了多种多模式串字符文本匹配算法,并基于Boyer—Moore提出了多特征串匹配算法(multiple features tringmatching algorithm,MFSM),以加速大量特征串匹配运算,与传统的“暴力”算法相比,MFSM在匹配速度上要快一倍以上。  相似文献   

15.
张弦梁结构是近些年在国内发展起来的一种新型的大跨度空间结构形式,由于其跨度大,整体刚度小,在风的作用下振动比较明显,故用现有规范中的等效静力法分析计算这种结构在风荷载下的响应精度太低,而采用时程分析的法可大大提高分析的精度,本文以一平面张弦梁为例,采用线形自回归滤波器法,模拟节点随机脉动风速时程,运用Matlab编程有效地模拟具有时间相关,空间相关性的脉动风速时程.然后在ANSYS中对此张弦梁结构进行瞬态分析,得到风振响应与风振系数,在此基础上改变两种基本参数,考察各参数对张弦梁风振响应及其风振系数的影响,得到一些有意义的结论,供张弦梁结构的工程应用考虑.  相似文献   

16.
为准确抽取语料库中的高频词串,使其能更好地应用于语言模型中,提出了一种基于字串切分度的中文高频词串(CFS)抽取算法,并用该算法抽取出的CFS分别建立一元和二元语言模型. 实验表明,基于CFS的语言模型能有效克服现有基于字和词的n元语法模型长距离相依性能较差的缺陷;同时,在模型困惑度、音字转换正确率上均优于已有基于净频次的CFS语言模型.  相似文献   

17.
运用EMTP软件,通过电压分布法对劣化绝缘子、零值绝缘子和不同绝缘子片数的绝缘子串进行仿真,分别得出不同状态下绝缘子串的电压分布特征.结果表明,绝缘子串的前3片出现故障时,整个绝缘子串的电压分布的不均匀程度最大;绝缘子串的绝缘子片数越多,其电压分布越不均匀.  相似文献   

18.
深水钻井作业过程中,钻井平台、隔水管、水下防喷器组和套管柱是一个整体,钻井隔水管在海洋环境载荷的作用下产生复杂的非线性运动,其底部动态作用力传递到处于海底浅部软土中的套管柱上,使套管柱与其周围的软土之间产生动力相互作用.在该作用力较大时将导致水下井口或套管柱失稳,严重时将使隔水管断裂,致使钻井作业中断,带来巨大的经济损失.因此对目前深水钻井水下井口及套管柱的稳定性分析、套管柱与其周围浅部软土间耦合作用等方面的研究现状进行了综述.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号