首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
众所周知,在大数据量环境下,数据库服务器的资源是昂贵的,混合核心数据和过程数据的后果就是资源被不重要的数据占用,导致整个系统性能缓慢、堵塞和资源的浪费。基于此,文中针对大数据本身特点和在实际应用过程中大数据量数据的管理和处理方面的问题,对大数据特点和管理方面进行了有效阐述和分析,同时针对大数据处理方面存在的问题,提出了采用文件按缓冲的方式对大数据量数据进行合理的处理方式,而达到提高大数据利用率的要求。  相似文献   

2.
基于Hadoop二阶段并行模糊c-Means数据聚类算法   总被引:1,自引:0,他引:1  
为了解决MapReduce机制下算法通信时间占用比过高实际应用价值受限的问题,提出了基于Hadoop二阶段并行c-Means聚类算法;首先,采用成员管理协议方式实现成员管理与MapReduce降低操作的同步化方法,改进MapReduce机制下的MPI通讯管理方法;其次,实行典型个体组降低操作代替全局个体降低操作,并定义二阶段缓冲算法,通过第一阶段的缓冲进一步降低第二阶段MapReduce操作的数据量,尽可能降低大数据带来的对算法负面影响;通过仿真实验表明该算法在处理大数据上的性能表现较为优异;该算法在大规模数据集上的并行率和加速比都优于小型数据集上的表现,说明了该算法能够实时根据数据量的大小对自身进行调整。  相似文献   

3.
由于高动态GNSS接收机数据更新率高、数据量大,因而对高动态GNSS接收机导航数据采集的完整性提出了很高要求;针对上述要求,对高动态GNSS接收机导航数据采集完整性进行研究,设计了定时、事件触发和双缓冲3种导航数据采集方法;由于数据截断问题,定时方法的数据丢帧率为15.72%,适用于数据量少、更新率低的环境;事件触发方法虽然有效避免了数据截断,但由于缓冲区溢出,导致数据丢帧率为11.88%,适用于短时数据采集的环境;双缓冲方法有效解决了数据截断和缓冲区溢出问题,丢帧率为0,适用于高动态环境;最后,将双缓冲采集方法在高动态GNSS接收机导航数据采集中应用,结果证明所设计的采集方法能够高效完整地采集数据。  相似文献   

4.
针对数字通信系统中底层协议栈开发过程中处理数据量大,出现问题不易再现、难于追踪的问题,设计了一种专门用于底层协议栈开发的高速数据采集、仿真系统。系统采用USB总线作为高速数据通路,使用FPGA进行格式转换及数据缓冲。论述了仿真系统的工作原理和系统框架,分析了数据转换、解析的流程,给出了系统仿真的一般模式。  相似文献   

5.
OCR技术在文档数据的大数据量 (如人口普查 ,考卷处理 )处理领域中的应用越来越广。本文对于这种应用特点进行了一般介绍。实际应用中 ,处理过程必须满足对大数据量的质量和速度要求。本文针对文档表格的设计 ,图像的定位 ,图像字符分割和识别所要注意的问题进行讨论并提出处理方案。最后 ,针对不同的数据结果精度的要求 ,提出了后续处理的原则和方法。  相似文献   

6.
基于Hadoop的FP-Growth关联规则并行改进算法   总被引:1,自引:0,他引:1  
大数据环境下,传统的串行FP-Growth算法在处理海量数据时,占用内存过大、频繁项多,适用于大数据情况的PFP(Parallel FP-Growth)算法存在数据量增大无法处理的缺陷。针对这些问题,本文提出了基于Hadoop的负载均衡数据分割FP-Growth并行算法。在Hadoop平台下,本文使用负载均衡和数据分割相结合的方式对原始事务数据集分片实现并行化。实验证明基于Hadoop的负载均衡数据分割FP-Growth并行算法在处理数据量和效率上有所提高。  相似文献   

7.
静爆试验中需要对各测控点上多个前级差分式梳状激光光幕探测器输出的多路模拟数据进行采集,针对前级设备通道数多,时间精度高且数据量大后期难处理的问题;设计了一种具有自治能力的混合数据采集系统,该系统能自动剔除无效数据,将破片过幕时所产生的弹形信号及该弹形信号对应的UTC时刻值组成的混合信号缓冲并传输至上位机。该系统采用FPGA+ARM的架构完成采集缓冲任务,根据上位机配置和阈值自动剔除无效数据,结合GPS驯服温补晶振的手段使本地时钟与UTC时钟保持us级同步,并对采集弹形模拟数据进行UTC时钟打标形成混合数据包,通过USB2.0总线高速模式传至上位机。经实际测试该设计满足静爆试验中对前级探测器输出信号的采集需求,数据量大大减少,UTC时标精度满足后续处理要求并且成本低廉,稳定性高。  相似文献   

8.
黄蕾 《遥感信息》2011,(6):37-41
针对高光谱遥感影像数据量大、数据冗余度高的特点,引入拉普拉斯特征映射方法对高光谱遥感数据进行非线性降维。为了解决传统流形学习方法不能处理大数据量遥感影像的问题,本文提出了基于多元线性回归的拉普拉斯特征映射线性解法。实验证明,本文提出的降维方法能够保持数据集在原始特征空间分布的局部几何属性,降维后的影像具有更好的分类精度。  相似文献   

9.
随着信息技术的蓬勃发展,信息技术应用领域的数据量也越来越大,数据仓库的运用也越来越广泛和普遍,特别是在大数据时代,随着数据量的增加,数据仓库管理的数据也越来越多,数据方体的数据量也越来越大,因此也给数据方体的存储和查询带来了巨大的挑战,怎样能够支持对大型数据方体的快速查询,又能减少存储空间,在联机分析处理系统将是非常关键的一环,通过基于哈希算法的增强编码位图索引技术能够有效地减少存储空间并且提高查询效率。  相似文献   

10.
OCR技术在文档数据的大数据量文档处理 (如人口普查 ,考卷处理 )领域中的应用越来越广。处理过程必须满足对大数据量的质量和速度要求。针对不同环境和性价比要求的系统模型方案给予了讨论。为发挥模型的最大功能对数据流中的流水线控制进行了介绍。  相似文献   

11.
数据仓库是连接底层数据源与上层应用的枢纽。该文介绍了数据仓库的填充(与数据源的连接)和数据仓库的访问(与应用界面的连接)技术,包括与数据库数据源和非数据库数据源的连接以及采用组件工具访问数据仓库的方式和实现方法。  相似文献   

12.
为了解决实际问题,大数据分析处理系统需要获取数据,然而实际场景中收集到的实际数据通常不完备.另外,大多数问题的解决方案通常是由问题引导或者仅仅进行数据分析,运行参数调整和设定带有较大的盲目性,难以达到应用的智能性.为此,文中提出平行数据的概念和框架,根据实际数据经计算实验产生真正的虚拟大数据,结合默顿定律,以期待的解决方案与问题进行广义对偶,引导大数据聚焦到实际问题.实际数据与虚拟数据动态互动,平行演化,形成一个虚实相生、数据动态变化的过程,最终使数据具备智能,进而解决未知的问题.平行数据不但是一种数据表示形式,更是一种数据演化机制与方式,其特色是虚实互动,所有数据的动力学轨迹构成了数据动力学系统.平行数据为数据处理、表示、挖掘和应用提供了一个新的范式.  相似文献   

13.
吴昊 《电脑学习》2001,(2):36-37
为有效地解决实际问题,可能要使不同语言进行混合编程,这样就涉及到数据的传递和不同类型的数据文件之间的转换,这里讨论几种常用数据交换问题。  相似文献   

14.
陈元  陈文伟 《计算机工程》2000,26(10):9-10,85
通过定义SOL数据挖掘抽取器,设计了数据挖掘算法和数据库管理系统的接口的框架体系。并通过一个常用的数据挖掘算法简单贝叶斯算法说明了这种标准的SOL数据挖掘抽取器的适用性。  相似文献   

15.
Making a business decision using data from severaldifferent enterprise databases can be complicated. Data warehousesconsolidate data into a central repository and give you the OLAP toolsnecessary to retrieve data pertinent to the solution.DefinitionA data warehouse is used to consolidate this data into a central storeand to arrange it to make analysis easier, which means the data is lessnormalized than your traditional application database. Data is typicallytransferred in batch to the centra…  相似文献   

16.
数据仓库中的数据提取   总被引:18,自引:2,他引:16  
连立贵  金凤  蔡家楣 《计算机工程》2001,27(9):61-62,99
数据仓库的思想和工具在企业中得到了越来越广泛的体现和应用,在当前典型的数据仓库应用中,数据仓库的填充或者说数据的提取,转换和加载是设计人员遇到的最大挑战之一,预计在数据仓库的设计过程中,80%的努力都将用于此过程。该文从工程角度介绍了数据提取、转换和加载的过程和实现方式,并介绍了4种可灵活应用的数据提取方法。  相似文献   

17.
面向客户数据仓库的数据集成方法   总被引:3,自引:0,他引:3  
数据集成问题是建立数据仓库过程中的重要问题之一,而客户资料又是其中最难以集成的数据,对于该问题目前还没有一个很好的解决方法。我们总结在实际实践中取得的经验,提出了一套切实可行的解决方案,同时兼顾了集成效率和准确率两方面因素,实际应用效果比较理想。  相似文献   

18.
数据转换过程的串行化方法   总被引:2,自引:1,他引:2  
随着数据仓库和数据集成的发展,数据清洗的工作越来越多,用户在进行数据清洗时需要对数据的内容进行多次处理。在设计清洗的建模过程中,用户可能对同一个数据进行多次的清洗和转换处理,由于步骤多,用户往往不知道清洗和转换步骤出现错误。该文对前述问题进行论述,并针对这种清洗和转换处理中的赋值冲突和范围冲突提出解决方法。  相似文献   

19.
数据仓库中数据质量控制研究   总被引:18,自引:1,他引:18  
随着数据仓库的深入应用,数据质量问题成为关系到数据仓库建设成败和数据能否有效应用的重要关键问题。该文首先讨论数据仓库环境下存在的数据质量问题以及保证数据质量的重要性,然后提出数据质量的度量和评价指标,最后给出了数据仓库实施和运行过程中数据质量控制的数据质量成熟度模型和保证仓库数据质量的方法。  相似文献   

20.
数据仓库中的数据集成转换   总被引:2,自引:0,他引:2  
本文首先提出了数据仓库中数据集成的一个总体框架,然后列举了在数据转换中可能遇到的主要问题,最后根据这些转换规则,给出了一种描述性脚本语言来描述这些规则,继而给相应的处理模块解析处理。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号