首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 71 毫秒
1.
2.
运用Twitter-LDA主题模型对新浪微博数据进行了主题分析,基于用户主题兴趣相关性的研究表明用户间的主题兴趣具有三度相关性,同一主题兴趣下三度以内粉丝的发文数随用户发文数增加而波动式增加,各度粉丝与用户主题兴趣的相似度随粉丝度数的增加而下降。通过分析比较不同主题类别微博的扩散差异,发现生活情感类的信息最受用户欢迎,不同主题类别微博被转发的概率存在显著差异,平均转发数相差可达10倍,微博信息扩散树中各类主题在微博信息扩散深度、扩散时间间隔和用户的扩散能力方面都表现出不同的特征。  相似文献   

3.
提出了一种基于主题模型的微博社区发现方法. 该方法采用狄利克雷过程(Dirichlet process)自适应生成多个潜在地理区域; 利用多项式分布描述主题在连续时间中的强度; 将用户对潜在地理区域和社区的选择偏好引入主题模型; 最后通过EM方法和Gibbs采样,实现时空主题模型参数估算,以基于主题相似性进行社区发现. 实验表明,该方法能更加准确地识别微博社区.  相似文献   

4.
针对目前的主题挖掘只考虑主题内容的概率分布方法,本文提出一种综合考虑内容、时间等因素的微博主题挖掘模型mixtureLDA. 该模型能够分析用户不同类型微博的主题概率分布和时间微博主题概率. 实验使用新浪微博数据集,结果表明基于mixtureLDA的微博主题挖掘模型能够有效地挖掘出用户微博和时间微博的主题概率分布. 与MB-LDA、userLDA模型对比,mixtureLDA模型可有效降低困惑度.  相似文献   

5.
为了解决短文本数据流的动态聚类问题,提出动态的狄利克雷多项混合(dynamic Dirichlet multinomial mixture,DDMM)模型。模型能够很好地捕获短文本数据流中主题随时间变化而变化的动态过程,同时考虑到已有历史主题和新主题之间的关系,能够对主题继承性的强弱进行调整,从而增大新主题产生的可能。在Gibbs采样过程中,能够自动估算出聚类个数。模拟数据和真实数据上的试验表明,DDMM模型是有效的。同时将提出的方法和传统动态聚类方法进行对比,结果表明DDMM模型能够进行有效的文本动态聚类,并且聚类效果表现良好。  相似文献   

6.
基于隐马尔可夫模型的招聘网络信息抽取   总被引:1,自引:0,他引:1  
网络信息抽取是从半结构化的Web海量数据中,按用户要求抽取且形成相关的有效的结构数据处理过程。论文以隐马尔科夫模型(HMM)进行数据抽取中的若干关键问题进行研究,提出了基于数据挖掘聚类的模型合并方法生成隐马尔可夫模型,即可根据数据自动生成HMM,同时对一般的隐马尔可夫模型进行了扩展,为每个抽取域生成一个隐马尔可夫模型,用于获取更多的有用信息。  相似文献   

7.
相对于传统的纸媒体,网络媒体中的数据具有更新速度快、用户参与度高、覆盖面广等特点。如何协助用户在较短时间了解网络媒体中的主题信息,是一个亟待研究的领域。目前,文本主题聚类的研究技术还不够成熟,且在国内处于不断研究的阶段,尤其是在中文文本领域。对国内外主题检测研究现状、主题挖掘基本步骤、聚类算法的优缺点等方面进行了系统的概述,指出了当前研究方法的不足以及未来可研究的方向。  相似文献   

8.
为了从人工神经网络中抽取规则,提出一种新的规则抽取算法。网络被训练并剪枝后,将隐节点的激活值离散化,对输入到隐节点的权重进行聚类,聚类过程中可根据隐节点的激活值动态调整权值聚类数目,进而高效准确地抽取规则。实验结果表明,该算法可明显降低规则抽取的时间复杂度,减少生成规则的数量。  相似文献   

9.
构建微博用户的社会关系网络是分析微博数据的重要基础手段之一。由于微博用户在信息的发布和传播过程中具有不确定的行为特性,导致常见方法无法有效地完成微博用户行为关系网络的建模。该文以不确定理论为基础,提出了基于Rough Set的动态认知技术,对微博的海量不完备信息进行处理,完成对用户行为的计算分析,构建了微博用户行为关系网络。并以此为基础,结合用户操作、主题与情感分析方法,对微博中的网络事件发展进行了分析。  相似文献   

10.
针对微博文本简短、格式内容散乱、信息描述不完全、数据噪声大导致无法高效获取微博主题的问题,提出一种基于 LDA改进的 SMLDA模型。该模型综合考虑微博作者之间的关系、微博特定主题的标签以及微博文本之间转发关系和背景主题,采用 Gibbs抽样算法推导模型参数。在真实新浪微博数据集上进行试验分析,实验结果表明,SMLDA 模型与LDA模型比较,前者效率更高,提取结果更准确。  相似文献   

11.
阐述了“话题式”英语词汇教学法的过程及其可行性,指出采用这种方法讲授和学习英语词汇应以教材和实际生活相联系为教学原则,进一步论述了这种词汇教学法的诸多益处。  相似文献   

12.
微博作为信息发布和获取的重要手段,已成为最重要的媒体之一。用户每天在微博上发言,其内容隐含着许多重要话题。在话题检测过程中,话题网络构建是一项最基本的内容。将微博发言作为节点,将节点间包含共同的词汇作为边,应用MapReduce编程模型作为海量数据处理的平台,研究了微博信息中大规模话题网络的构建方法。实验表明,基于MapReduce构建的话题网络符合社会网络的相关性质,并且其话题预测的准确性也高于基于LDA模型的话题检测。  相似文献   

13.
针对典型的循环神经网络方法在抽取主题词时因缺少上下文相关的句子级信息而导致识别准确率较低的问题,提出了一种基于双向长短期记忆网络条件随机场(BiLSTM-CRF)模型联合TextRank的主题词抽取方法。首先,利用TextRank对新闻文本进行主题句抽取,再使用双向长短期记忆(BiLSTM)模型获取文本的前后特征,最后使用条件随机场(CRF)完成句子级序列标注,得到主题词。在多组体育类新闻数据集上进行实验,该方法较对照组BiLSTM方法F1值提高约0.8%~5.1%,且用时更短。因此,改进的BiLSTM-CRF方法可显著提升主题词的抽取准确率和效率。  相似文献   

14.
针对人造物体图象具有规则边缘的特点,提出了一种新的基于分类边缘点集合的边缘线段提取算法,此算法速度快,定位准确,为下一步的模式识别任务打下了良好的基础。  相似文献   

15.
模糊规则是模糊系统的重要组成部分。针对数据库中的模糊规则提取问题,探讨了IF-THEN规则中的结论对前提的依赖关系,给出了规则的依赖度的定义,设计了基于遗传算法的模糊规则提取算法。实验验证了算法的有效性。  相似文献   

16.
为更有效地在中文短文本信息流中进行话题提取,给出了一种基于CRF模型的话题提取方法。根据短文本信息流的特点,定义了短文本信息流中关键词语相似度。充分利用上下文信息对特征信息进行全局归一化的处理,进一步得到全局的最优值。在真实的短信文本信息集上将此方法与决策树方法进行比较,取得了较明显的优势。  相似文献   

17.
兴趣融合法就是通过激起目标对象的兴趣来拉近彼此的距离,以兴趣为共同点,达到和目标对象融合的目的。班主任要重视兴趣融合法,把握学生兴趣的规律和特点,充分发挥兴趣爱好的融合作用,更好的实现班级管理。  相似文献   

18.
针对快速存储器(QAR)数据特征提取问题,首先给出适用于一类分类的最大间隔判别分析方法,并通过增加正交约束,给出适用于一类分类的最大间隔特征提取算法;在此基础上,针对QAR数据大样本的特性,给出正交约束的一类分类问题的最大间隔判别分析问题的修改形式,并将该修改形式转化为闭包球问题,进而给出了基于正交约束闭包球的最大间隔QAR数据特征提取方法,通过实验表明该方法对某一机型的飞行纪录数据取得了良好的实验结果,有效解决了QAR数据大样本特征提取的问题.  相似文献   

19.
针对传统指纹细节点提取和匹配方法在处理低质量图像时的不足,提出改进方法.利用脊线跟踪去除伪细节特征点,对细节点特征进行位置和方向信息分析,建立配对关系,计算相似度,进而得到匹配结果.通过此方法,可有效地获取具有辨识度的指纹特征信息,避免了大量的伪特征信息,增强了指纹细节点匹配的正确率和效率,具有较高的识别率和较强的鲁棒...  相似文献   

20.
本文探讨了在计算机使用过程中由于用户疏忽所致的安全隐患,以加强用户的自我防范意识。论文重点从机密性、完整性、可用性三方面叙述了计算机安全的含义。从密码、登录过程、离开系统的安全隐患讨论了访问权限问题;还详细论述了文件、电子邮件的安全隐患问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号