首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 24 毫秒
1.
互联网金融中的网络贷款用户数据具有类别不平衡的特性,严重影响传统分类器的性能。随机平衡采样算法在对原始数据集进行重采样的过程中,将所有样本同等考虑,本文在平衡采样的过程中充分考虑样本点的性能,将其分为3类样本:安全的、边界的、噪声的,针对不同类型的样本采用相应的采样方法,得到平衡的新数据集,然后对该数据集进行Bagging集成,提高算法的泛化性能,结果表明本文改进的随机平衡采样(Improved Random Balanced Sampling, IRBS)Bagging算法可以较好地对网络贷款用户进行分类。  相似文献   

2.
不平衡数据分类是数据挖掘和机器学习领域的一个重要问题,其中数据重抽样方法是影响分类准确率的一个重要因素。针对现有不平衡数据欠抽样方法不能很好地保持抽样样本与原有样本的分布一致的问题,提出一种基于样本密度峰值的不平衡数据欠抽样方法。首先,应用密度峰值聚类算法估计多数类样本聚成的不同类簇的中心区域和边界区域,进而根据样本所处类簇区域的局部密度和不同密度峰值的分布信息计算样本权重;然后,按照权重大小对多数类样本点进行欠抽样,使所抽取的多数类样本尽可能由类簇中心区域向边界区域逐步减少,在较好地反映原始数据分布的同时又可抑制噪声;最后,将抽取到的多数类样本与所有的少数类样本构成平衡数据集用于分类器的训练。多个数据集上的实验结果表明,与现有的RBBag、uNBBag和KAcBag等欠抽样方法相比,所提方法在F1-measure和G-mean指标上均取得一定的提升,是有效、可行的样本抽样方法。  相似文献   

3.
基于聚类方法的审计分层抽样算法研究   总被引:1,自引:0,他引:1  
针对审计抽样中最复杂的抽样算法一分层抽样,从数据挖掘中“聚类”的角度出发,较好地运用了聚类思想于审计抽样的分层抽样算法之中,为该算法的实现提供了一种新的解决方案。AICPA39没有为分层抽样提供具体的实现方式,国内的学者曾从统计学角度有过实现,将从计算机科学角度实现方法与统计学实现方法进行分析比较,这是对分层抽样算法实现的有益新探索。  相似文献   

4.
基于传统的差分演化,对其种群的内部结构进行调整,提出了一种基于个体适应度排序的种群设置策略。并通过个体采样方式来选择个体参与变异步骤,结合优胜劣汰的选择策略,提出了基于个体排序的采样差分演化算法。通过优化测试函数的仿真试验,与传统差分演化算法和粒子群算法相比较,基于排序的采样差分演化算法在收敛速度和鲁棒性等方面有较好的优势。  相似文献   

5.
陈晓琪  谢振平  刘渊  詹千熠 《软件学报》2021,32(12):3884-3900
数据采样是快速提取大规模数据集中有用信息的重要手段,为更好地应对越来越大规模的数据高效处理要求,借助近邻传播算法的优异性能,通过引入分层增量处理和样本点动态赋权策略,实现了一种能够非常有效地平衡处理效率和采样质量的新方法.其中的分层增量处理策略考虑将原始的大规模数据集进行分批处理后再综合;而样本点动态赋权则考虑在近邻传播过程中对样本点进行合理的动态赋权,以获得采样的数据空间上更好的全局一致性.实验中,分别使用人工数据集、UCI标准数据集和图像数据集进行性能分析,结果表明:新方法与现有相关方法在采样划分质量上可达到同等水平,而计算效率则可实现大幅提升.进一步将新方法应用于深度学习的数据增强任务中,相应的实验结果表明:在原始数据增强方法上结合进高效增量采样处理后,在保持总训练数据集规模的情况下,所获得的模型性能可实现显著的提升.  相似文献   

6.
朱君鹏  李晖  陈梅  戴震宇 《计算机科学》2018,45(11):249-255
抽样作为一种有效的统计分析方法,常被用于大规模图数据分析领域以提升性能。现有的图抽样算法大多存在高度节点或低度节点过度入样的问题,较大程度地影响了算法的性能。复杂网络具有无标度特性,即节点的度服从幂律分布,节点个体之间存在较大差异。在基于点选择策略的抽样方法的基础上,通过结合节点的近似度分布策略,设计并实现了高效无偏的分层图抽样算法SNS。在3个真实的图数据集上的实验结果表明,SNS算法比其他图抽样算法保留了更多的拓扑属性,且执行效率比FFS更高。SNS算法在度的无偏性、抽样结果拓扑属性近似性方面的表现均优于现有算法。  相似文献   

7.
k近邻学习器将复杂的全局非线性关系映射为大量局部线性关系的组合,具有易解释、易扩展、抗噪能力强等优点,被广泛应用于说话人识别领域并取得了良好的效果。而集成学习算法因其强泛化能力和易于应用的特性得到了许多领域研究者的关注,但是研究表明通过重采样产生训练集差异的集成算法并不能有效地提高k近邻学习器系统的泛化能力。提出了一种新的BagWithProb采样算法产生训练集。实验表明,该算法可以有效地扩展训练集差异,提高集成系统性能。此外,还提出了基于环域分层采样的算法以加快k近邻识别算法在识别阶段的运算速度。  相似文献   

8.
针对主动学习中构造初始分类器难以选取代表性样本的问题,提出一种模糊核聚类采样算法。该算法首先通过聚类分析技术将样本集划分,然后分别在类簇中心和类簇边界区域选取样本进行标注,最后依此构造初始分类器。在该算法中,通过高斯核函数把原始样本空间中的点非线性变换到高维特征空间,以达到线性可聚的目的,并引入了一种基于局部密度的初始聚类中心选择方法,从而改善聚类效果。为了提高采样质量,结合划分后各类簇的样本个数设计了一种采样比例分配策略。同时,在采样结束阶段设计了一种后补采样策略,以确保采样个数达标。实验结果分析表明,所提算法可以有效地减少构造初始分类器所需的人工标注负担,并取得较高的分类正确率。  相似文献   

9.
高锋  黄海燕 《计算机科学》2017,44(8):225-229
不平衡数据严重影响了传统分类算法的性能,导致少数类的识别率降低。提出一种基于邻域特征的混合抽样技术,该技术根据样本邻域中的类别分布特征来确定采样权重,进而采用混合抽样的方法来获得平衡的数据集;然后采用一种基于局部置信度的动态集成方法,通过分类学习生成基分类器,对于每个检验的样本,根据局部分类精度动态地选择最优的基分类器进行组合。通过UCI标准数据集上的实验表明,该方法能够同时提高不平衡数据中少数类和多数类的分类精度。  相似文献   

10.
唐海波  林煜明  李优  蔡国永 《计算机应用》2018,38(11):3132-3138
针对现实应用通常要求聚类的结果相对平衡的问题,提出了一种基于模拟退火与贪心策略的平衡聚类算法(BCSG),该算法包括基于模拟退火的初始点选择算法(SACI)与基于贪心策略的平衡聚类算法(BCGS)2个步骤,以提高平衡聚类算法的聚类效果与时间性能。首先基于模拟退火在数据集中快速定位出K个合适的数据点作为平衡聚类初始点,然后每个中心点分阶段贪婪地将距离其最近的数据点加入簇中直至达到簇规模上限。在6个UCI真实数据集与2个公开图像数据集上进行的聚类对比实验结果表明:在簇数目较大时相比Fuzzy C-Means聚类结果平衡度最高提升了50%以上;聚类结果的准确率相比Balanced K-Means、BCLS两个表现较好的算法平均提高了8个百分点;算法时间复杂度也更低,在较大规模的数据集上运行时间比Balanced K-Means最高减少了近40%。实验结果表明BCSG具有更佳的聚类效果和时间性能。  相似文献   

11.
多表连接查询是大数据分析领域重要的查询类型之一,然而连接查询的实现代价很高,从而影响了大数据分析结果的时效性。在线聚集能够在查询完成前反馈具有统计意义的估计结果,具有重要的意义。目前已有的多表连接在线聚集算法从各表进行统一随机采样,导致连接结果的产出率低,并且导致分组连接查询的估计准确率低。针对这一问题,提出了基于马尔可夫链的多表连接在线聚集技术,将多表连接的实现过程转换为马尔可夫链上的随机游走过程,确定好连接顺序后在游走起始层创建分层样本,并设计了相应的采样策略及结果估计方法。将所提出技术在在线化Hadoop平台上实现,实验结果证明所提出方案的响应时间优于已有算法,并且具有良好的扩展性。  相似文献   

12.
梁喜涛  顾磊 《计算机科学》2015,42(6):228-232, 261
分词是中文自然语言处理中的一项关键基础技术.为了解决训练样本不足以及获取大量标注样本费时费力的问题,提出了一种基于最近邻规则的主动学习分词方法.使用新提出的选择策略从大量无标注样本中选择最有价值的样本进行标注,再把标注好的样本加入到训练集中,接着使用该集合来训练分词器.最后在PKU数据集、MSR数据集和山西大学数据集上进行测试,并与传统的基于不确定性的选择策略进行比较.实验结果表明,提出的最近邻主动学习方法在进行样本选择时能够选出更有价值的样本,有效降低了人工标注的代价,同时还提高了分词结果的准确率.  相似文献   

13.
点云选择与精简是三维扫描系统中应对背景数据、冗余采样、分布不均匀 等问题的必要后处理步骤。针对定制低成本三维扫描系统的需求,传统方法仍有很多局限性。 这是由于研究领域未提供支持套索UI 接口的点云选择算法;传统点云精简方法侧重曲率自 适应分布,无法保证平坦区域的均衡分布。论文提出一种支持套索UI 接口的点云选择算法, 通过构建套索形状矩形覆盖与点云八叉树剔除大部分点在多边形内的判断;提出一种基于 Poisson-disk 采样的均衡分布的点云精简算法,并以采样点邻域球布尔交运算来定义曲面上 的圆盘半径度量,具有保持尖锐边特征及边界的性质。实验结果表明,论文方法能够较好满 足低成本三维扫描系统中点云删减处理的需求。  相似文献   

14.
针对少数类样本合成过采样技术(SMOTE)在处理非平衡数据集分类问题时,为少数类的不同样本设置相同的采样倍率,存在一定的盲目性的问题,提出了一种基于遗传算法(GA)改进的SMOTE方法--GASMOTE.首先,为少数类的不同样本设置不同的采样倍率,并将这些采样倍率取值的组合编码为种群中的个体;然后,循环使用GA的选择、交叉、变异等算子对种群进行优化,在达到停机条件时获得采样倍率取值的最优组合;最后,根据找到的最优组合对非平衡数据集进行SMOTE采样.在10个典型的非平衡数据集上进行的实验结果表明:与SMOTE算法相比,GASMOTE在F-measure值上提高了5.9个百分点,在G-mean值上提高了1.6个百分点;与Borderline-SMOTE算法相比,GASMOTE在F-measure值上提高了3.7个百分点,在G-mean值上提高了2.3个百分点.该方法可作为一种新的解决非平衡数据集分类问题的过采样技术.  相似文献   

15.
In order to select a sample in a finite population of N units with given inclusion probabilities, it is possible to define a sampling design on at most N samples that have a positive probability of being selected. Designs defined on minimal sets of samples are called minimum support designs. It is shown that, for any vector of inclusion probabilities, systematic sampling always provides a minimum support design. This property makes it possible to extensively compute the sampling design and the joint inclusion probabilities. Random systematic sampling can be viewed as the random choice of a minimum support design. However, even if the population is randomly sorted, a simple example shows that some joint inclusion probabilities can be equal to zero. Another way of randomly selecting a minimum support design is proposed, in such a way that all the samples have a positive probability of being selected, and all the joint inclusion probabilities are positive.  相似文献   

16.
Rooted at the exponential possibility model recently developed by Tanaka and his colleagues, a new clustering criterion or concept is introduced and a possibility theoretic clustering algorithm is proposed. The new algorithm is characterized by a novel formulation and is distinctive in determining an appropriate number of clusters for a given dataset while obtaining a quality clustering result. The proposed algorithm can be easily implemented using an alternative minimization iterative procedure and its parameters can be effectively initialized by the Parzen window technique and Yager’s probability–possibility transformation. Our experimental results demonstrate its success in artificial datasets and large image segmentation. In order to reduce the complexity of large image segmentation, we propose to integrate the new clustering algorithm with a biased sampling procedure based on Epanechnikov kernel functions. As demonstrated by the preliminary experimental results, the possibility theoretic clustering is effective in image segmentation and its integration with a biased sampling procedure offers an attractive framework of large image processing.  相似文献   

17.
针对大数据环境中存在很多的冗余和噪声数据,造成存储耗费和学习精度差等问题,为有效的选取代表性样本,同时提高学习精度和降低训练时间,提出了一种基于选择性抽样的SVM增量学习算法,算法采用马氏抽样作为抽样方式,抽样过程中利用决策模型来计算样本间的转移概率,然后通过转移概率来决定是否接受样本作为训练数据,以达到选取代表性样本的目的。并与其他SVM增量学习算法做出比较,实验选取9个基准数据集,采用十倍交叉验证方式选取正则化参数,数值实验结果表明,该算法能在提高学习精度的同时,大幅度的减少抽样与训练总时间和支持向量总个数。  相似文献   

18.
A desirable feature of a global sampling design for estimating forest cover change based on satellite imagery is the ability to adapt the design to obtain precise regional estimates, where a region may be a country, state, province, or conservation area. A sampling design stratified by an auxiliary variable correlated with forest cover change has this adaptability. A global stratified random sample can be augmented by additional sample units within a region selected by the same stratified protocol and the resulting sample constitutes a stratified random sample of the region. Stratified sampling allows increasing the sample size in a region by a few to many additional sample units. The additional sample units can be effectively allocated to strata to reduce the standard errors of the regional estimates, even though these strata were not initially constructed for the objective of regional estimation. A complete coverage map of deforestation within the Brazilian Legal Amazon (BLA) is used as a population to evaluate precision of regional estimates obtained by augmenting a global stratified random sample. The standard errors of the regional estimates for the BLA and states within the BLA obtained from the augmented stratified design were generally smaller than those attained by simple random sampling and systematic sampling.  相似文献   

19.
改进型分层抽样技术及性能研究   总被引:2,自引:2,他引:0  
报文抽样技术是高速网络流量测量和管理中使用的一项关键技术。本文通过引进分层特征、层数L、分层边界、各层样本量分配、层内抽样策略5个分层抽样参数,并对其进行重新配置和简单理论探讨,实现对分层抽样技术的改进。同时文章使用简单线性估计推断原始流数据,并借助于Φ偏差检验方法,对改进的分层抽样技术和其它抽样技术在测量网络报文长度分布方面进行准确性性能比较。结果表明,改进的分层抽样技术在测量报文长度分布方面的准确性性能远高于其它抽样方式,提高了测量的精度。  相似文献   

20.
杜秀丽  张薇  陈波 《计算机应用》2018,38(12):3541-3546
基于矩阵置换的分块压缩感知(BCS)引入矩阵置换的策略,使复杂子块和稀疏子块向介于两者中间的稀疏度水平变化,用单一采样率采样时可以减少块效应,但仍存在块间稀疏度均衡效果较差的问题。为了得到更好的重构效果,提出基于波浪式矩阵置换的稀疏度均衡BCS(BCS-RMP)算法。首先,在采样前对图像进行矩阵置换的预处理,通过波浪式置换矩阵对图像各子块的稀疏度进行均衡;然后,采用相同的测量矩阵对子块进行采样,在解码侧进行重构;最后,通过波浪式置换逆矩阵对重构结果进行逆变换得到最终的重构图像。仿真结果表明,与现有矩阵置换算法相比,当选择合适的子块大小和采样率时,所提波浪式矩阵置换算法可有效提高图像的重构质量,且能更准确地体现细节信息。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号