共查询到19条相似文献,搜索用时 734 毫秒
1.
大数据时代,面对爆发式增长的海量异构大数据,企业指标数据的实时供给能力亟待全面提升.基于流处理技术的大数据指标实时计算方法,主要由日志采集、消息管理、协调管理、实时处理等部分构成,使用Hadoop、Zookeeper、Storm、Kafka、Redis等开源软件,综合应用了数据库日志分析,流处理、内存计算等技术.本文详细论述了采用Storm技术的大数据指标实时计算方法的技术架构,实现方法及路径,同时给出了算法验证的过程和结果分析. 相似文献
2.
魏爽 《数字社区&智能家居》2014,(10):6603-6606
互联网上的数据规模大、种类多、变化快,而且越来越复杂。通过数据挖掘和分析,可以获取有潜在价值的信息。但是,传统的数据挖掘系统在数据存储和计算性能上存在瓶颈。通过使用云计算技术,设计了一个基于Hadoop架构的网页日志数据挖掘和分析平台来解决这个问题。同时,为了提高挖掘效率,为大规模网页日志挖掘实现了Apriori算法的并行化,并使用该平台验证了该行算法的效率。 相似文献
3.
魏爽 《数字社区&智能家居》2014,(28):6603-6606
互联网上的数据规模大、种类多、变化快,而且越来越复杂。通过数据挖掘和分析,可以获取有潜在价值的信息。但是,传统的数据挖掘系统在数据存储和计算性能上存在瓶颈。通过使用云计算技术,设计了一个基于Hadoop架构的网页日志数据挖掘和分析平台来解决这个问题。同时,为了提高挖掘效率,为大规模网页日志挖掘实现了Apriori算法的并行化,并使用该平台验证了该行算法的效率。 相似文献
4.
随着计算机和网络技术的迅猛发展以及数据获取手段的不断丰富,海量数据的实时处理需求日益增多,传统的日志分析技术在处理海量数据时存在计算瓶颈。大数据时代下,随着开放式处理平台的发展,能够处理大规模且多样化数据的大数据处理系统应运而生。为了让原有的业务能够充分利用Hadoop的优势,本文首先研究了基于大数据技术的网络日志分析方法,构建了网络日志分析平台以实现万亿级日志采集、解析、存储和高效、灵活的查询与计算。对比分析了Hive、Impala和Spark SQL这3种具有代表性的SQL-on-Hadoop查询系统实例,并展示了这类系统的性能特点。采用TPC-H测试基准对它们的决策支持能力进行测试及评估,通过对实验数据的分析和解释得到了若干有益的结论。实现了海量日志数据计算与分析在证券领域的几种典型应用,为进一步的研究工作奠定了基础。 相似文献
5.
Web日志挖掘是目前Web挖掘研究的一个重点.针对Web日志挖掘中存在的问题,给出了基于数据仓库技术的Web日志挖掘方案,就数据预处理、数据立方体设计及数据挖掘技术的应用进行了较为深入的探讨.并以一个Web站点日志为例,详细阐述了Web日志数据预处理、Web日志立方体设计以及数据挖掘算法的实现过程,并实现了一个Web日志多维数据集,能够有效解决Web日志分析中的难题. 相似文献
6.
针对现有日志分类方法只适用于格式化的日志,且性能依赖于日志结构的问题,基于机器学习方法对日志信息解析算法LogSig进行了扩展改进,并设计开发了一个集数据处理与结果分析于一体的日志解析系统,包括原始数据预处理、日志解析、聚类分析评价、聚类结果散点图显示等功能,在VAST 2011挑战赛的开源防火墙日志数据集上进行了测试。实验结果表明,改进后的算法在归类整理日志事件时的平均准确性达到85%以上;与原LogSig算法相比,日志解析精度提高了50%,同时解析时间仅为原先的25%,可用于大数据环境下高效准确地对多源非结构化日志数据进行解析。 相似文献
7.
针对单一CPU节点的Web数据挖掘系统在挖掘Web海量数据源时存在的计算瓶颈问题,利用云计算的分布式处理和虚拟化技术优势以及蚁群算法并行性的优点,设计一种基于Map/Reduce架构的Web日志挖掘算法。为进一步验证该算法的高效性,通过搭建Hadoop平台,利用该算法挖掘Web日志中用户的偏爱访问路径。实验结果表明,充分利用了集群系统的分布式计算能力处理大量的Web日志文件,可以大大地提高Web数据挖掘的效率。 相似文献
8.
9.
基于Web日志的用户访问模式挖掘 总被引:1,自引:0,他引:1
Web日志挖掘是数据挖掘技术在Web日志数据存储中的应用。论文介绍了Web日志挖掘,在分析发现用户访问模式方法——类Apriori算法的基础上,给出一种基于粗糙集的用户访问模式聚类方法。 相似文献
10.
《微型机与应用》2019,(6):26-35
大数据安全分析对于绝大多数桌面用户来说,用户的成本以及对强大的IT基础设施的需求都是不能接受的,并且难以应用于快速增长的数据集以进行安全性分析。介绍了一种直观且廉价的大数据安全分析方法,该方法使用Windows桌面用户的计算智能(CI)技术,其中Windows批处理编程EmEditor和R的组合用于安全性分析。模拟实验是在具有超过1 000万个观测值的真实数据集上执行的,这些数据集是从Windows防火墙日志中收集,用于演示桌面用户如何深入了解其丰富且未触及的数据,并提取有用信息以防止其系统受当前和未来安全保护威胁。这种基于CI的大数据安全分析方法还可以扩展到其他类型的安全日志、例如事件日志,应用程序日志和Web日志。 相似文献
11.
大数据技术的迅猛发展正在影响社会的各个领域,其在教育中的应用已取得了很大的进展。在教育大数据深入发展的背景下,基于蓝墨云班课平台中的高职学生学习行为日志数据,对学生的资源浏览情况、参与活动情况、作业测试成绩等相关的数据进行收集、预处理和展示。在此基础上,采用大数据学习分析得到了学生学习行为与学习效果的关系,以期为教育教学工作者提供教学内容组织、构建教学模式的依据。 相似文献
12.
13.
Web日志挖掘就是运用数据挖掘技术从Web日志中发现和抽取信息的过程。数据预处理是Web日志挖掘的一个关键环节。对数据预处理的各个环节进行研究,并介绍各个环节中的一些特殊处理方法,根据对Web服务期日志数据格式的分析,对会话概念进行了形式化描述,然后在分析目前会话构造算法的基础上,提出了基于时间和引用的启发式方法来构造会话。 相似文献
14.
Web日志作为服务器的记录文件,记录了网站最重要的信息,随着大数据时代数据量的骤然增加,提出一种应对大数据量的数据挖掘算法,更有效地分析日志文件迫在眉睫。用户聚类是在对日志文件进行数据预处理的基础上,建立用户会话序列矩阵,进而对其进行聚类分析,论文针对K-Means算法在选取初始中心点上存在的问题,以及在构建用户会话矩阵后存在的孤立点的问题,提出了一种密度参数和KCR算法的优化算法-ICKM算法,该算法利用密度参数最大的对象作为第一中心点,随后从数据集中将此对象删除,利用KCR算法寻找下一个中心点,算法借助MapReduce计算框架,提高大数据环境下的数据处理速度,通过实验表明,ICKM算法在寻找初始中心点以及用户聚类上具有较高的准确度,在处理大数据量的数据集时,有较好的的运算速度。 相似文献
15.
介绍了商业智能技术在互联网业的业务分析中的一些应用,并针对网站日志的分析应用,综合运用数据仓库、数据分析、数据挖掘技术,提出并实现了一套解决方案。针对商业智能技术在其它领域中的应用做出了一定的思考。 相似文献
16.
城市机动车数量、出行量的增加,使得车辆套牌现象屡禁不止.交管部门为了解决套牌监测的难题,采用传统的识别方式(如基于人工识别、基于牌照识别、基于射频识别等).然而面对海量的日志记录,这些方式普遍存在效率低、实时性差的问题.为此引入大数据技术,提出一个基于Kafka和Storm的车辆套牌实时分析存储系统.Kafka可以作为中间件进行缓存,提高数据采集和数据分析的同步性,还能避免数据丢失;Storm框架可以实现日志信息的实时计算,然后将套牌车辆信息存入指定文档中.整个系统具有实时、分布式存储、稳定、可扩展等特性. 相似文献
17.
针对现有的大数据处理平台实时性差、处理耗时长、资源请求慢等问题,采用Storm实时计算技术,结合Flume、
Kafka、Zookeeper等大数据处理组件,设计一个实时数据处理平台。利用tornado+WSGI+Apache技术搭建Web服务器,采用
Echarts技术对处理结果进行可视化分析。以网站访问日志作为数据源,对平台进行验证,通过测试,该平台能够完成网站的点
击率和访客数的实时计算,具有稳定可靠、操作简单、实时性强等特点。 相似文献
18.
19.
针对日益增长的民用航空巨量数据,借助大数据存储和分析技术,构建民用航空运行大数据分析平台,可更有效支撑快速响应、航材管理、健康管理等各项民机运行业务。结合目前国内外民用航空领域大数据技术的应用现状,梳理民机运行的业务模式及数据类别,设计并构建民用航空大数据分析平台的整体架构。根据目前民用航空运行业务需求,对民用航空大数据平台的硬件平台的管理节点、数据节点的计算能力等功能性能进行设计,并对民用航空大数据平台的轻量级计算、离线数据计算、实时在线数据处理分析等计算需求进行研究,针对不同的计算方式,提供具体解决途径。最后对民机运行大数据分析平台的业务应用集成及接口技术进行研究。分析表明研究成果有助于提高我国民机运行效率,为民用飞机运行大数据平台提供支撑。 相似文献