首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
在移动互联网时代,越来越活跃的用户手机上网行为带来了流量的迅猛发展.对电信运营商而言,用户上网日志包含了大量用户个性化需求、喜好信息,对其进行分析和挖掘,能更好的了解客户需求.传统经营分析系统小型机加关系型数据库的架构无法满足对海量非结构化数据的处理需求,搭建基于X86的Hadoop平台,引入大数据处理技术的方式,实现高效率、低成本、易扩展的经营分析系统混搭架构成为电信运营商最为倾向的选择.文章主要以用户WAP日志为例,详细阐述如何利用大数据技术处理海量的非结构化数据,进而挖掘和分析用户上网行为.  相似文献   

2.
针对网络舆情数据存在数据量大、分散度高、数据非结构化等特点,而常用的文本分类算法难以实现对网络舆情快速、准确分类的问题,因此提出一种基于Hadoop平台的并行kNN网络舆情分类算法,利用Hadoop分布式存储特性和设计并行kNN的MapReduce程序来解决处理大批量数据时存在的问题.对并行kNN算法进行分类能力和分类效率进行测试验证,实验结果表明,基于Hadoop平台的并行kNN网络舆情分类算法在处理大批量网络舆情数据时,能够快速、高效和准确对网络舆情数据进行分类.  相似文献   

3.
《现代电子技术》2016,(20):39-43
当前的文本分类方法无法较好地处理海量文本以及文本特征空间数据,不能打破计算机处理性能和内存的约束,实现文本混沌性分类。而云计算平台可向用户提供需要的运算能力和存储空间。提出一种优化SVM的云计算环境下文本混沌性分类方法,设计Hadoop开源云计算系统,通过该系统中的Map Reduce模型对分类过程进行处理,提高分类的效率。采用优化SVM分类方法将混沌文本分类二次规划过程中的不等式限制变换成等式限制,提高海量文本混沌性分类精度。实验结果表明,所设计分类方法具有更高的处理效率,可以对海量文本数据进行准确的分类。  相似文献   

4.
针对海量文本邮件的挖掘过滤需要更大的存储空间、以及更强的计算能力,提出一种基于Hadoop云计算平台的垃圾邮件过滤方法.其思想:把相对孤立的数据集合并成易于云平台处理的大文件集合;依据评估函数构建文本向量,将邮件转换为结构化的描述;基于MapReduce分布式编程模型改进SVM算法,利用集群整体的计算能力求解最优平面.实验表明:该方法能利用廉价的计算机集群代替昂贵的高性能机器实现海量邮件数据的挖掘过滤;并且,分类效率能随着集群规模的扩增而提升较快.  相似文献   

5.
李雷  张治中  席兵 《电信科学》2016,(6):167-176
针对LTE-Advanced网络移动数据业务爆炸性增长、多协议关联分析处理效率低下等问题,在传统信令监测系统的基础上,提出了一种采用大数据技术(存储、处理和分析)和多协议关联分析技术的LTE-Advanced网络Uu接口多协议关联分析系统.首先,对Uu接口的L1、L2、L3数据业务流程进行高效处理和精准分析,然后进一步关联分析用户数据信令流程和用户业务数据流程.最后,将所提系统应用于LTE-Advanced网络Uu接口数据的现网测试中.测试结果表明:设计的多协议关联分析系统达到了预期的效果,对提升用户体验、高效进行大数据分析以及精准营销领域具有推广意义.  相似文献   

6.
据IDC统计,2011年全球处理的数据量达到1.8 ZB,预计到2020年达到40 ZB.如何对海量数据进行高效分析和有效管理已成为大数据时代亟需解决的问题之一.商业数据、科学数据和网页数据这3类海量数据的异构性(充满着非结构化、半结构化和结构化数据)进一步增加了海量数据的处理难度.海量数据排序是海量数据处理的基本内容之一.Hadoop曾利用3 658个节点的集群在16.25小时内完成1PB数据的排序,获得Daytona类GraySort和MinuteSort级别的冠军.本文在设计层面上对Hadoop平台上海量数据排序策略进行分析.  相似文献   

7.
为有效处理并利用互联网海量的图像和视频数据,提出了一种基于Hadoop云平台的图像分类和标注解决方案。针对如何高效地进行训练集提取这一重要问题,搭建了基于云计算的图像抓取平台,利用互联网的图像资源作为原始数据集,为提取训练集图像提供足够的数据;实现了基于概率潜在语义分析模型的训练集图像提取功能,对原始数据集进行基于主题的聚类,帮助用户快速选取训练集图像;加入了SVM分类模型,利用提取出来的训练集对未标注图像进行分类标注,实现了完整的系统。实验结果表明,该方案能够满足海量图像数据分类和标注的功能和性能需求。  相似文献   

8.
《现代电子技术》2016,(16):98-101
针对海量图像的识别技术进行研究,使用SVM算法作为图像识别模型,考虑到随着图像训练样本数据量逐步增大,训练样本呈现指数上升这一问题,在此对基于Hadoop云平台的并行运算SVM方法进行研究,缩短训练时间,加快图像识别效率。使用Corel图像库中图像进行实验研究,结果表明,常规单机SVM图像识别系统以及基于Hadoop平台SVM的图像识别系统的识别准确率相差不大。当Hadoop平台中拥有超过2个节点时,加速比明显上升,训练时间下降,Hadoop平台中使用SVM进行图像识别的效率优势体现出来。  相似文献   

9.
为解决传统数据仓库扩展能力弱,不支持非结构化数据的问题,江苏有线结合实际应用情况,基于SQL-on-Hadoop技术实现了分布式的广电数据仓库TRAF。TRAF融合了传统数据仓库与Hadoop技术,可以同时存储结构化和非结构化数据,具备良好的扩展能力。TRAF在HBase框架之上构建支持多重查询嵌套和多级索引ANSI SQL标准的查询接口,实现海量用户行为的实时分析;采用通用x86服务器替代原有小型机存储,大幅降低了系统构建成本。测试结果表明,数据量在10亿条时,TRAF的处理速度比传统关系型数据仓库提升了5倍,同时构建成本降低了50%,有效提升了广电数据分析系统的应用水平。  相似文献   

10.
传统的数据分析方法面对海量电信数据存在管理和分析难的问题.Hadoop是一个可实现大规模分布式计算的开源框架,具有高效、可靠、可伸缩的优点,被广泛应用于云计算领域.本文在对云计算和Hadoop进行分析和研究的基础上,提出了一种针对海量电信数据的分布式云计算方法,建立了基于Hadoop的海量电信数据云计算平台.实验证明,该平台能够有效完成海量数据的管理和分析任务,提高海量数据分析的速度和效率.  相似文献   

11.
Hadoop下基于贝叶斯网络的气象数据挖掘研究   总被引:1,自引:0,他引:1       下载免费PDF全文
基于朴素贝叶斯的分类器是气象数据挖掘中比较传统的方法,但由于算法要求各属性相互独立,预测精度无法达到要求,且在处理海量数据时算法计算效率受到制约,对此提出一种Hadoop平台下基于离散贝叶斯网络的数据挖掘改进算法。算法不要求属性之间相互独立,且充分结合Hadoop平台适应处理大数据的优点,利用海量数据分析地面气象因素与温度之间的相关性,并由此选取预测因子来训练贝叶斯网络分类器模型,以达到预测温度的目的。实验结果表明,算法不但预测精度明显高于目前短期气候预测中采用的朴素贝叶斯算法,而且极大地提高了运算效率。  相似文献   

12.
In order to solve the problem that Hadoop cloud platform could not dynamically control user access request,a Hadoop cloud dynamic access control model based on user behavior assessment (DACUBA) was proposed.The model first collected the user instruction sequence in real time and the user behavior contour was obtained by parallel command sequence learning (PCSL).Then the global K model was established by using the forward profile,the subsequent sequence was classified and the classification results were evaluated.The evaluation results were combined with the improved Hadoop access control mechanism to make the cloud platform users’ access rights change dynamically with their own behaviors.Experimental results demonstrate that the model algorithm is effective and the dynamic access control mechanism is feasible.  相似文献   

13.
Offiine network traffic analysis is very important for an in-depth study upon the understanding of network conditions and characteristics, such as user behavior and abnormal traffic. With the rapid growth of the amount of information on the Intemet, the traditional stand-alone analysis tools face great challenges in storage capacity and computing efficiency, but which is the advantages for Hadoop cluster. In this paper, we designed an offiine traffic analysis system based on Hadoop (OTASH), and proposed a MapReduce-based algorithm for TopN user statistics. In addition, we studied the computing performance and failure tolerance in OTASH. From the experiments we drew the conclusion that OTASH is suitable for handling large amounts of flow data, and are competent to calculate in the case of single node failure.  相似文献   

14.
综合分析了数据流分类算法以及云计算的基本理论,提出了基于Hadoop框架的数据流系综分类算法,算法采用MapReduce并行编程模型对传统基于动态权重系综模型进行改进,以提升算法的分类效率.分析结果表明,该算法在处理快速海量到达的数据流时,其执行效率远高于传统系综算法.  相似文献   

15.
随着电信企业的业务发展,其运营网络、业务系统及支撑系统等生产了大量的日志数据,这些数据蕴含了大量有用信息,传统日志处理方式限制了企业对海量日志文件的处理、分析及应用.针对电信企业特定应用平台产生的大量日志文件,实践了Hadoop平台的MapReduce编程模型,该平台以HDFS作为底层文件系统,以Hbase作为可扩展的数据存储系统,更大幅度地提高了对日志数据分析的效率,具有较好的实用价值.  相似文献   

16.
李锐  张治中 《电信科学》2014,30(9):72-79
为了对TD-SCDMA 网络的用户流量进行识别以及对用户行为进行分析,对Iu-PS 接口的信令面与业务面协议进行了研究,设计出一种信令面和业务面协议关联的方案。针对传统信令监测系统和业务监测系统数据处理效率的不足以及无法将信令面与业务面数据进行关联的缺陷,利用增强型散列算法以及超时处理技术,设计出一种基于关键字段关联的信令面呼叫详细记录(call detail record,CDR)和业务面呼叫详细记录合成的协议关联方案,提高了数据处理效率,并实现了信令面和业务面数据的有效关联,为后期进行流量识别以及对用户行为进行分析奠定了基础。经过现网数据测试,验证了该协议关联方案的正确性与可行性,在移动互联网流量分析领域具有推广意义。  相似文献   

17.
大规模的netflow训练数据集是构建高质量、高稳定网络流量分类器的必然要求。但随着网络流特征维数的提高和数据集规模的扩大,无论是网络流的分析处理还是基于支持向量机(SVM)的分类器模型的训练,都无法在有效的时间内得到有效的处理结果。本文基于Hadoop云计算平台,采用MapReduce技术对SVM网络流量分类器进行分布式学习和训练,构建CloudSVM网络流量分类器。通过对来自校园网出口镜像的近2 T的大规模网络流量的跟踪文件的分布式存储和处理,对抽取的样本数据集进行分类,实验验证了基于Hadoop平台分布式存储和并行处理大规模网络数据集的高效率性,也验证了CloudSVM分类器在不降低分类准确度的情况下可以快速收敛到最佳,并随着大规模网络流样本的增加,SVM分类器训练的时间趋近平稳。  相似文献   

18.
在面对海量教育数据处理情况时,传统的协同过滤算法在单机上训练和测试效率低下,针对该问题,提出了基于Hadoop分布式平台和Spark并行计算模型的无中间结果输出改进型教育资源推荐策略,该策略较好地发挥了Spark的迭代计算能力优势,在应用于教育资源推荐时,比较了传统算法与改进算法在分布式情况和非分布式情况下的推荐效率和推荐质量的情况.实验结果表明,利用Spark计算模型实现协同过滤算法能够有效地提高教育资源个性化推荐的推荐质量以及推荐效率.  相似文献   

19.
马彪  吴东月  高强 《电子测试》2016,(13):95-96
单核苷酸多态性(SNP,Single Nucleotide Polymorphism)作为重要遗传标记,在遗传学研究中得到了广泛关注。针对从海量人类基因数据中获取SNP信息并实现数据共享的问题,本文构建了基于Web的SNP数据查询平台并进行性能调优。该数据库系统用户界面友好,数据查询操作简单且能够快速查询SNP数据,实现了SNP数据实时查询和共享,一定程度上解决了许多小型实验室以及非生物专业研究人员所面临的问题,为后续算法研究和软件开发提供了有力帮助。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号