首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
李冠辰 《软件》2013,(12):127-131
最近几年,以微博为首的社交网络迅猛发展,这些平台上包含了网民对于时事热点的观点,对生活和人际关系的看法等大量有价值的信息和资源。由于微博数据非常庞大又难以获取等困难,如何有效地对社交网络进行数据挖掘,是近两年数据挖掘研究的重点和热点。本工作设计和实现了一个基于Hadoop的并行社交网络挖掘系统,包含了分布式数据库,并行爬虫,并行数据处理和并行数据挖掘算法集,可以有效地获取和分析挖掘海量的社交网络数据,为社团分析,用户行为分析,用户分类,微博分类等工作提供支持。  相似文献   

2.
微博作为最大的社会化媒体产品,拥有海量的用户和信息资源。微博推荐是微博个性化服务的重要方面,是解决信息过载问题的有效工具。考虑到微博数据海量性的特点,针对传统串行推荐算法对大数据处理效率低的问题,采用MapReduce模型,提出和设计一种基于关联规则挖掘算法Apriori的微博推荐并行算法,并在Hadoop平台实现。实验表明,提出的微博推荐并行算法具有较好的加速比和较高的运行效率,证明了该微博推荐并行算法在大数据处理中的高效性。  相似文献   

3.
冯永韩楠  贾东风 《计算机应用》2013,33(12):3559-3562
为从微博服务平台产生的大量实时信息中抽取新闻事件,提出了一套完整的云计算环境下的微博事件检测跟踪算法。首先采用新的基于微博转发数和评论数的权值计算方法,将微博文本表示成向量空间模型;再利用基于代表点的增量层次密度聚类(RIHDBSCAN)算法抽取关键词,最终实现新闻事件的检测和跟踪。针对单一节点无法快速高效地处理海量微博数据的问题,将算法部署在云计算平台Hadoop上。通过在新浪微博平台上获取的真实数据进行实验,结果表明,所提出的权值计算方法比  相似文献   

4.
随着大数据时代的到来,如今人们已经淹没在海量的信息当中。云计算技术的出现,为解决在海量数据中高效地挖掘出有价值的信息问题提供了新的思路。利用云计算的分布式处理和虚拟化技术的优势,提出一种基于Map/Reduce编程模型与编码操作相结合的分布式关联规则挖掘算法——MCM-Apriori算法;设计并实现一个基于Hadoop云平台的网上图书销售系统。为进一步验证该系统的高效性,在该系统中利用MCM-Apriori算法进行图书推荐服务的应用。实验对比结果表明,该系统实现了快速分析与查询、可靠存储的功能,可以明显提高关联规则挖掘效率。  相似文献   

5.
随着互联网发展带来的数据爆炸,使得 Web日志的数据量也越来越大,如何从海量的 Web 日志中挖掘有价值的信息成为了目前研究的热点。本文提出基于 Hadoop 集群框架对 Web 日志进行挖掘。实验结果表明,该集群系统既可以处理海量的 web 日志,同时也能够挖掘出有价值的信息,并证实了利用sqoop在 Hive仓库和传统数据库之间数据迁移的可行性。  相似文献   

6.
当面对海量数据时,基于单一节点的Web数据挖掘存在时间和空间效率上的瓶颈.针对该问题,提出一种在Hadoop平台下实现Web日志挖掘的并行FP-growth算法,利用Hadoop分布式文件系统和MapReduce并行计算模型处理日志文件.实验结果表明,该算法的加速比能随着数据集的增大而提高,其执行效率优于串行FP-growth算法.  相似文献   

7.
针对当前传统数据库已经不能满足海量农产品安全监控信息的存取及处理需求,借鉴Hadoop平台的分布式文件系统和Map/Reduce并行计算方法设计了农产品安全监控平台的框架,在此基础上,提出了一种用于监测农产品各项指标的Map/Reduce算法;最后通过Linux集群技术,搭建了一个基于Hadoop的农产品安全监控数据存储处理实验性平台,该平台能够有效地对海量农产品数据进行及时存储与处理。实验最终结果表明,相比传统的数据库,该平台能够大幅提升海量农产品数据的吞吐率及数据处理性能,由此验证了平台的合理及有效性。  相似文献   

8.
微博作为优质的数据源,其中的数据非常适合做舆情分析等。新浪官方提供的API限制数据采集速度,而利用模拟登录的网络爬虫采集数据又相对复杂且会降低效率。针对这些问题,设计了一个免登录的微博网络爬虫。通过实验表明,该爬虫可以更快的对微博数据进行完整稳定的采集。随着对数据需求量越来越大,单机网络爬虫已经不足以满足要求,将Hadoop分布式计算平台与免登录爬虫相结合,设计了一个基于MapReduce的分布式网络爬虫系统,利用多台计算机组成的集群,实现短时间内免登录抓取海量微博数据。通过实验证明,该爬虫系统可以每天稳定抓取近千万条微博。  相似文献   

9.
在传统的关系型数据库模式的使用中,存在大量的农业数据存储容量小和管理不够完善的问题。基于对Hadoop的分析,提出运用Hadoop框架构建海量农业数据处理云平台,并给出了平台架构和部分实验结果。通过实验数据表明,该方法可以为搭建农业海量数据云平台提供方法论基础,并实现了农业大数据有效的存储和管理。  相似文献   

10.
随着在线社会关系网络的迅猛发展,每天数以千万计的人通过发表、评论、分享等方式,产生和传播各类话题.对在线社会关系数据的感知与收集、存储管理、群体行为等进行研究,能更好地挖掘和分析社会关系网络.由于微博平台的登录、数据显示与处理等方面与传统网络平台有很大差异,传统网络爬虫不适于对微博信息的全面抓取.本文采用模拟用户浏览行为方法来爬取海量微博数据,通过数据包截取与分析等手段获取相关信息.实验结果表明该方法的有效性.在此基础上,以收集的微博数据为研究对象,对群体行为进行了分析.  相似文献   

11.
分布式决策树挖掘的隐私保护研究   总被引:2,自引:0,他引:2  
数据挖掘中的隐私保护是试图在不精确访问原始数据值的前提下,挖掘出准确的模式与规则.围绕分布式决策树挖掘的隐私保护问题展开研究,提出一种基于同态加密技术的决策树挖掘算法,使各参与方在不共享其隐私信息的前提下达到集中式挖掘的效果.理论分析和实验结果表明,该算法具有很好的隐私性、准确性和适用性.  相似文献   

12.
本文分析了高校网络教学平台的现状,所面临着无法科学的得到学生利用网络教学平台学习的反馈,从而引出了数据挖掘技术。介绍了数据挖掘技术的基本情况,阐述了数据挖掘技术在网络教学平台中所起到的作用,设计了基于数据挖掘技术的网络教学平台,并对本项研究进行了总结和展望。  相似文献   

13.
本文着重分析了航天探测信息系统建设的现状与成就,指出了当前航空物探数据管理的一些问题,提出了加大航天航空探测数据库建设。实现数据入库、检查和查询三大功能。本文针对其查询较为繁琐的问题引入了数据挖掘这一思想,使数据查询和使用更加的高效和便捷,进一步完善了我航空航天数据库系统的建设。  相似文献   

14.
面向微博平台的产品市场分析模型研究   总被引:1,自引:0,他引:1  
通过对面向微博平台的产品市场分析过程进行抽象,提出了3层分析模型。第一层实现了数据准备模块,为兴趣分析提供规范化的数据。第二层通过情感分析提取微博平台上与产品相关的用户兴趣。第三层利用用户兴趣信息计算产品的满意度和关注度来表现产品市场形势。整个模型提供了面向微博平台搭建产品市场分析系统的快速解决方案。  相似文献   

15.
王伟 《福建电脑》2021,(2):33-36
本文依据职位信息描述→慕课的学习路径分析→高校管理类数据挖掘课程体系改革为探索思路和实践线索,依据大数据分析实现管理类数据挖掘课程体系改革的路径分析.首先对职位信息进行采样和抽取,然后对学员的慕课学习路径进行预处理和数据挖掘,得到学员成功学习线路以及大量的辍学线路.通过实验提出高校管理类数据挖掘课程体系改革模式以及符合...  相似文献   

16.
数据挖掘技术是一种新的信息处理技术。其目的是从海量数据中抽取潜在的,有价值的数据规律或数据模型。通过数据挖掘技术对高校教学数据的分析处理,能够形成真正有价值的知识,向决策者提供信息支持,有利于推动学校教学改革和建设的全面发展。本文主要针对现行高校实际运作的学分选课数据库系统,以关联规则挖掘为例,提出简单而可行的数据挖掘应用实施办法。  相似文献   

17.
利用空间信息技术获取野外地块信息是提高外业工作效率的重要途径。基于矢量耕地地块数据和现势高分辨率遥感影像数据,以个人数字助理为硬件平台,建立移动GIS环境下的地块信息采集系统。该系统采用嵌入式开发组件,实现定位、导航和信息采集等功能,解决高分辨率遥感影像压缩与切割问题。实践结果验证了该系统的可行性和高效性。  相似文献   

18.
近年来,计算机科学技术快速发展,在人们的生活、工作和学习中发挥着越来越重要的作用。计算机互联网的信息资源非常丰富,与此同时碎片化、海量的数据信息在很大程度上增加了人们获取有价值信息的成本和时间。当前云计算平台下的Web数据挖掘技术为海量数据信息的处理和分析提供了极大的便利,通过研究云计算平台下的Web数据挖掘,进一步完善和优化Web结构数据挖掘技术,降低大量数据信息存储和处理的成本,提高系统运行效率。本文简要介绍了云计算和Web数据挖掘,阐述了云计算平台下的Web数据挖掘系统。  相似文献   

19.
基于数据挖掘技术和Agent技术,建立了DMS交易平台DMS-Trade。并给出了其中的算法管理Agent的实现算法。该平台能根据客户的信息,在数据挖掘结果的支持下,实现针对不同客户的个性化服务。  相似文献   

20.
作为数据库技术的一个新的发展方向,数据挖掘技术与数据库技术的结合产生的集成、一致的环境,将使决策者更快地获得更准确的信息。在论述基于数据仓库的决策支持系统的三个组成部件和已存在的教务管理信息系统的基础上,给出基于数据仓库的DSS系统在网络教务管理中的实现方案。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号