首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
冯永韩楠  贾东风 《计算机应用》2013,33(12):3559-3562
为从微博服务平台产生的大量实时信息中抽取新闻事件,提出了一套完整的云计算环境下的微博事件检测跟踪算法。首先采用新的基于微博转发数和评论数的权值计算方法,将微博文本表示成向量空间模型;再利用基于代表点的增量层次密度聚类(RIHDBSCAN)算法抽取关键词,最终实现新闻事件的检测和跟踪。针对单一节点无法快速高效地处理海量微博数据的问题,将算法部署在云计算平台Hadoop上。通过在新浪微博平台上获取的真实数据进行实验,结果表明,所提出的权值计算方法比  相似文献   

2.
增量ETL过程的并行化是提高ODS数据实时性的有效途径。结合通信顺序进程理论研究了增量ETL过程模型,形式化分析了增量ETL过程事件在并行环境下执行状态的变换过程,提出了增量ETL过程并行调度算法,解决了增量ETL过程在并行环境下调度策略的问题。应用及实践表明,模型及算法具有源系统负载小、数据的实时性高等特点。  相似文献   

3.
增量链接旨在提高编译速度和方便程序调试。通过分析采用增量链接后生成的PE文件的特点,提出了一种基于编译器增量链接特性的信息隐藏算法。该方案将隐秘信息隐藏在两个相邻函数代码之间的填充字节中,使得隐藏的信息与程序指令代码紧密结合在一起,极大地提高了隐蔽性和杭攻击性。实验结果表明:该算法隐藏容量大,隐藏信息后的PE文件的长度不会增加,程序性能不受影响,隐蔽性好。  相似文献   

4.
5.
增量决策树算法研究   总被引:2,自引:1,他引:2  
文中主要解决传统的ID3算法不能处理增量数据集构造决策树的问题。在传统ID3决策树算法和原有增量算法的基础上,利用信息论中熵变原理的特点,对与增量决策树算法相关的三个定理进行相应的改进,在理论上证明了改进的增量决策树算法的有效性和可靠性。同时对增量决策树算法和ID3算法的复杂度进行了对比分析,得出增量决策树算法的实例费用和信息熵费用都高于ID3算法的结论。最后通过一个实验证明,改进的增量决策树算法能够构造出与ID3算法形态基本相同的决策树。  相似文献   

6.
一种新的SVM对等增量学习算法   总被引:11,自引:0,他引:11  
在分析支持向量机(SVM)寻优问题的KKT条件和样本分布之间关系的基础上,分析了新增样本的加入对SV集的影响,定义了广义KKT条件。基于原训练样本集和新增训练样本集在增量训练中地位等同,提出了一种新的SVM增量学习算法。算法在及时淘汰对后继分类影响不大的样本的同时保留了含有重要分类信息的样本。对标准数据集的实验结果表明,算法获得了较好的性能。  相似文献   

7.
文中主要解决传统的ID3算法不能处理增量数据集构造决策树的问题.在传统ID3决策树算法和原有增量算法的基础上,利用信息论中熵变原理的特点,对与增量决策树算法相关的三个定理进行相应的改进,在理论上证明了改进的增量决策树算法的有效性和可靠性.同时对增量决策树算法和ID3算法的复杂度进行了对比分析,得出增量决策树算法的实例费用和信息熵费用都高于ID3算法的结论.最后通过一个实验证明,改进的增量决策树算法能够构造出与ID3算法形态基本相同的决策树.  相似文献   

8.
增量学习是在原有学习成果的基础上,对新信息进行学习,以获取新知识的过程,它要求尽量保持原有的学习成果.文章先简述了基于覆盖的构造型神经网络,然后在此基础上提出了一种快速增量学习算法.该算法在原有网络的分类能力基础上,通过对新样本的快速增量学习,进一步提高网络的分类能力.实验结果表明该算法是有效的.  相似文献   

9.
文章根据微博事件发展规律和传播特点,在微博社会感知器网络基础上,提出了针对微博安全事件的实时监测框架,该框架包含若干项核心算法,如异常检测算法、地理位置定位算法、相关事件推荐算法和事件相关度分析算法。基于此框架,文章实现了微博事件实时监测系统。该系统采用混合网络爬虫和开放API接口方式采集微博数据,并实现了事件检索模块、事件实时监测模块和热点模块。同时该系统以多维度展示微博事件结果信息,且运行稳定、效果良好。总体上看,文章主要解决的问题是探索虚拟社交网络与物理世界时空相关性,监测特定事件,并在其爆发前发现并进行地理定位,从而提供预警。  相似文献   

10.
随着数据集规模的不断增大,提高频繁项集的挖掘效率成为数据挖掘领域的研究重点。频繁项集的增量更新挖掘算法因其可以利用已挖掘发现的信息提高对新数据集的挖掘效率,成为重要的研究方向。但现有频繁项集增量更新算法大多基于APRIORI算法框架,性能提高有限。最近出现的建立在FP‐T REE等树形结构上的增量更新算法又往往存在树形结构调整困难、已发现频繁项集及树形结构保存效率较低等问题,算法性能有待进一步地提高。对此,通过分析增量挖掘过程中的关键信息,提出了一种基于磁盘存储1项集计数的增量FP_GROWTH算法(IU_FPGROWTH_1COUNTING)。该算法无需保存临时树形结构及临时挖掘结果,可以在原数据集及支持度均发生变化时,减少FP_GROWT H算法对数据集的扫描,提高频繁项集的挖掘效率。在生成以及真实数据集上进行了验证实验以及性能分析,结果表明IU_FPGROWTH_1COUNTING是一种有效的频繁项集增量更新挖掘算法。  相似文献   

11.
针对同步在线草图识别算法中的效率和应用范围问题,提出基于增量式意图提取的识别算法.算法通过定义滞后窗口,采用增量式意图提取的方式理解用户的勾画意图,进而根据当前信息修正以前生成的意图段落,使得识别结果和用户的勾画意图保持一致.实验证明,该算法能够准确、实时地识别用户输入的多种图形.  相似文献   

12.
周诗龙  徐俊刚 《软件学报》2013,24(S2):150-161
目前,微博搜索大多应用向量空间模型计算查询词与文档间的相关程度,通常使用TF-IDF(termfrequency-inverse document frequency)统计方法来确定词的权重.然而仅使用词进行微博搜索并不能检测到某条微博的信息含量,而这些往往是查询用户所关注的问题.为此提出了一种基于分析特征与动态步长的微博排序学习算法.首先,定义了一些微博分析特征,经过统计分析获得的这些分析特征可以用来预测用户行为;其次,在此基础上,提出了以词性为单位计算微博相关度的方法,结合信息熵计算方法得到微博词性信息的含量,并用来预测该微博的信息含量;最后,在现有ListNet排序学习算法的基础上,引入了动态步长的概念,对步长进行了动态优化,最终形成了一种基于动态步长的微博排序学习算法——RDLS(ranking based on dynamic learning stepsize)算法.实验结果表明,无论是基于直接特征还是加入分析特征,在相同迭代轮数情况下,相比ListNet算法,RDLS 算法可以训练出更优的模型,在微博排序方面有更好的表现.  相似文献   

13.
Due to the explosive growth of social-media applications, enhancing event-awareness by social mining has become extremely important. The contents of microblogs preserve valuable information associated with past disastrous events and stories. To learn the experiences from past events for tackling emerging real-world events, in this work we utilize the social-media messages to characterize real-world events through mining their contents and extracting essential features for relatedness analysis. On one hand, we established an online clustering approach on Twitter microblogs for detecting emerging events, and meanwhile we performed event relatedness evaluation using an unsupervised clustering approach. On the other hand, we developed a supervised learning model to create extensible measure metrics for offline evaluation of event relatedness. By means of supervised learning, our developed measure metrics are able to compute relatedness of various historical events, allowing the event impacts on specified domains to be quantitatively measured for event comparison. By combining the strengths of both methods, the experimental results showed that the combined framework in our system is sensible for discovering more unknown knowledge about event impacts and enhancing event awareness.  相似文献   

14.
芦俊丽  王丽珍  肖清  王新 《软件学报》2014,25(S2):189-200
空间co-location模式挖掘是空间数据挖掘的一个重要研究方向.空间co-location模式是空间对象的一个子集,它们的实例在空间中频繁关联.到目前为止,空间co-location模式挖掘都只关注某一个时刻的空间co-location模式.然而,在实际应用中,数据库中的数据是随着时间改变的,所以高效地增量挖掘空间co-location模式是非常必要的;空间co-location模式演化分析可以发现空间co-location模式的变化规律,预测特定事件的发生,但是对这些问题的研究并未见诸报道.研究了高效的空间co-location模式增量挖掘及空间co-location模式的演化分析,首先,提出了高效的空间co-location模式增量挖掘基本算法及剪枝算法.其次,在多个随时间变化的真实数据集上挖掘co-location演化模式.再次,证明了空间co-location模式增量挖掘基本算法及剪枝算法是正确的和完备的.最后,在"模拟+真实"的数据集上用充分的实验验证了增量挖掘基本算法的性能以及剪枝算法的剪枝效果.此外,把空间co-location增量挖掘基本算法、剪枝算法及演化模式挖掘算法应用到三江并流区域珍稀植物数据集上,增量挖掘出空间co-location模式及演化模式,预测了co-location模式的演化规律,更好地实现了对珍稀植物的动态跟踪和保护.  相似文献   

15.
Extensibility in complex compiler systems goes well beyond modularity of design and it needs to be considered from the early stages of the design, especially the design of the Intermediate Representation. One of the primary barriers to compiler pass extensibility and modularity is interference between passes caused by transformations that invalidate existing analysis information. In this paper, we also present a callback system which is provided to automatically track changes to the compilers internal representation (IR) allowing full pass reordering and an easy-to-use interface for developing lazy update incremental analysis passes. We present a new algorithm for incremental interprocedural data flow analysis and demonstrate the benefits of our design framework and our prototype compiler system. It is shown that compilation time for multiple data flow analysis algorithms can be cut in half by incrementally updating data flow analysis.  相似文献   

16.
数据流分析是编译器中重要部分,而增量式分析在程序开发环境和过程间优化编译器中有着相关实用的价值,当程序发生变化时,它可以增量式地维护数据流信息,而不致因程序的任何小改动都重新进行数据流分析,给出了一种增量式的消去数据流算法,它基于路径简化算法,具有和路径简化算法同样的复杂度,同样的通用性(适用于不可归约流图和流函数不完备的情况),而且能方便地在程序发生变化时维护现有的数据流信息。  相似文献   

17.
针对目前最先进的增量子图匹配算法Symbi中的索引结构DCS中存在的信息冗余问题,提出了一种新的索引结构CDCS(compressed dynamic candidate space),并提出了CDCS的更新算法INCCDCS来动态维护CDCS索引结构和匹配结果,最后提出了动态图的增量子图匹配算法CSymbi。该方法通过引入邻域信息约束,在构建和更新辅助结构的过程中过滤候选集,提高算法的求解效率。最后,在Netflow和LSBench数据集上进行验证,相较于现有方法,候选节点数量最高可以删减56%,候选边数量最高可以删减62%,有效缩减了计算空间并提高了算法的求解效率。  相似文献   

18.
刘强  郭景峰 《微机发展》2007,17(1):151-154
已有的基于访问路径分析的页面推荐系统大多由离线处理和在线处理两部分组成,由于其周期性离线处理的过程较为耗时,难以适应大型网站以及内容更新频繁的网站的需要。提出了一种新的基于用户访问路径分析的页面推荐模型。该模型采用在线处理方式,利用增量图划分方法形成页面聚类,依此生成动态页面推荐。模型以Apache模块的形式实现,可适用于大型网站以及内容更新频繁的网站。实验结果表明,该模型具有较好的整体性能。  相似文献   

19.
在线模糊最小二乘支持向量机的时间序列预测   总被引:1,自引:1,他引:0       下载免费PDF全文
基于模糊最小二乘支持向量机和在线学习算法,提出了一种模糊最小二乘支持向量机的增量式算法。传统最小二乘支持向量机引入模糊加权系数后,有效地提高了其抗噪性能。同时利用递推的核函数计算方法增强了该算法的在线学习能力。仿真结果表明,这一算法在运算精度和运算速度上都优于传统的支持向量机算法。  相似文献   

20.
在增量式关联规则更新算法的研究中,关于负增量式更新算法的研究比较少。提出了一种实用的在支持度和置信度不变的情况下数据集规模减小的负增量关联规则更新算法。算法在如何减少数据集的扫描次数,如何充分利用现有的信息减少候选集的规模等方面进行了研究,给出了算法的具体实现。通过分析,算法是可行的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号