首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 93 毫秒
1.
不确定数据的PU学习在现实世界的许多应用中,如在传感器网络、市场分析和医学诊断等领域普遍存在,提出了针对不确定数据PU学习的决策树算法。基于POSC45中信息增益的计算方法,引入UDT中处理连续属性的不确定数据时用到的不确定数据区间及概率分布函数的概念,提出了一种能处理连续属性的不确定数据PU学习的决策树算法DTU-PU(Decision Tree for Uncertain data with PU-learning)。在UCI数据集上的实验表明,DTU-PU具有较好的分类准确率和健壮性。  相似文献   

2.
不确定数据的查询处理是数据库领域近年来的热点研究课题.提出一种不确定数据上的范围受限的最近邻查询.给定不确定数据集D={o1,o2,…,on},范围约束R是一个简单多边形,q为一固定的查询点,范围受限的最近邻查询返回的是在数据集D中,既满足范围约束R,又能成为查询点q的最近邻的对象集合.为处理该查询,提出了范围受限的最近邻核心集的概念和范围受限的最近邻核心集的查找算法.并提出一种计算范围受限的最近邻候选集的优化方法,降低了查询代价.最后通过实验验证了该算法的有效性.  相似文献   

3.
在现实世界中,障碍物的存在影响了查询点到对象的可见性.可见最近邻查询返回到查询点最近的一个可见对象,是时空数据库中的一类重要应用.由于度量设备的误差和隐私保护,很多关于空间对象位置的数据是不确定的.将不确定对象应用到可见最近邻查询中便产生了概率可见最近邻查询,返回成为可见最近邻概率大于0的对象.有些情况下,用户只关心概率超过一定阈值的结果,于是本文提出了概率阈值可见最近邻查询,返回可见最近邻概率超过阈值T的不确定对象,其中阈值T是用户设定的,并且给出了高效的概率阈值可见最近邻查询算法.相比以前的工作,不仅处理了概率和为1的不确定对象,而且处理了概率和小于1的不确定对象;此外,通过引入缺失概率和聚类的概念,提出了高效的过滤技术和快速的批处理技术.最后通过实验验证了本算法的高效性和有效性.  相似文献   

4.
社交、移动等复杂网络节点接入的不确定性给数据查询处理带来了新的挑战。K最近邻查询是社交、移动网络中经常用到的操作。已有的方法首先将网络映射为不确定图,然后,考虑边只含有概率信息的情况。讨论了K最近邻查询方法,没有考虑权重信息,具有局限性。针对这个问题,定义了带权不确定子图和Pro Wei Dist距离,兼顾权重和概率两个要素,提出了针对带权不确定图的K最近邻查询算法,并对算法进行优化。实验结果表明,Sub Dist K算法能有效地解决K最近邻查询问题。  相似文献   

5.
针对现有方法无法有效处理不确定数据的障碍k聚集最近邻查询问题的不足,提出了基于不确定Voronoi图的概率障碍k聚集最近邻查询(probabilistic obstacle k aggregate nearest neighbor query,POk ANN)方法。该方法分为3个阶段,分别是查询点集处理阶段、过滤阶段和精炼阶段。在处理阶段,计算查询点集的最小覆盖圆圆心q,为剪枝做准备。过滤阶段针对3种聚集函数设计了不同的过滤算法,去除不可能成为结果的数据点进而得到候选集合。精炼阶段将候选集合中概率值大于给定阈值的k个数据点集合存入结果集合并返回给用户。理论研究和实验表明,所提出的方法在概率障碍k聚集最近邻查询方面有明显的优势。  相似文献   

6.
不确定数据上的概率相互最近邻查询具有重要的实际应用,针对目前关于这方面的研究尚少,提出了不确定数据上的概率相互最近邻的top-k查询算法。首先对问题进行描述与定义,其次总结可行的裁剪规则,从而裁剪查询对象中未计算的实例点。通过实验表明,该算法能有效地降低最近邻查询中的I/O开销,提高查询的响应速度。  相似文献   

7.
一种改进的最近邻聚类学习算法   总被引:3,自引:0,他引:3  
提出了一种自适应模糊逻辑系统(AFLS)的改进自适应学习算法,该算法将无导师学习算法与基于梯度信息的寻优学习算法相结和,并且在确定聚类过程中同时考虑样本输入与输出对聚类的影响。  相似文献   

8.
面向不确定图的k最近邻查询   总被引:1,自引:0,他引:1  
生物网络、社会网络、交际网络等复杂的网络被广泛的研究,由于数据抽出时引入的噪声和错误使这些数据具有不确定性,因此可以对这些应用使用不确定图模型建模,k最近邻查询问题是查询一个图上的距离某个特定点最近的k个邻居节点的问题,它是不确定图上的一个基础问题.设计了一个解决不确定图上最近邻问题的框架,首先定义了一种新颖的不确定图上的k最近邻查询,然后提出了针对该查询的一般处理算法,同时对该算法进行了优化,使算法效率得到极大提高.理论分析和实验结果表明提出的算法能够高效地处理不确定图上的k最近邻查询.  相似文献   

9.
局部相关空间不确定数据越来越受到许多实际应用的关注.提出了一种新颖的定义在不确定数据库的多个快照上的概率频繁近邻查询,目的是在多个快照数据上找到以一定概率频繁成为查询点最近邻的那些对象.应用现有的基于传统数据和基于不确定数据上的近邻查询算法直接处理这种查询会产生昂贵的开销.为了很好地解决这一问题,提出了一般的处理框架,...  相似文献   

10.
近年来,基于位置的服务获得了越来越广泛的关注,其中最近邻查询是最常用的一种查询方式.测量手段的不准确性以及数据本身的性质导致不确定性在位置数据中普遍存在,这种不确定性会对最近邻查询结果产生影响.空间中障碍物的存在也给空间数据查询带来了挑战.文中研究存在障碍物的空间中不确定对象连续最近邻查询的处理方法,设计了一种剪枝策略大幅降低需要计算的不确定对象数目,并进一步提出了障碍空间中不确定对象最近邻查询安全区域的概念及安全区域生成算法.设计了安全区域的索引存储方法.实验结果表明,文章所提出的方法具有良好的效率和可扩展性.  相似文献   

11.
不平衡数据问题对传统的近邻分类器带来了很大的挑战,它的准则函数往往会使测试样本类别偏向于多数类,且参数对数据集有很强的依赖性。基于万有引力的固定半径近邻分类器(GFRNN)算法通过引入万有引力定律的思想,实现了一个针对不平衡数据的无参、高效的分类器,但GFRNN算法仅采用欧氏距离方法来计算半径和候选集。因此,基于GFRNN算法,在算法构造层面上提出了一种多视角学习框架MGFRNN。考虑到距离计算的多样性及所对应候选集的不确定性,在距离的计算中,采用欧式距离、一范数距离和切比雪夫距离三种度量方法,根据三种距离度量方法分别计算候选集半径,并计算候选集中各类样本对测试样本的万有引力大小,从而进行分类。实验结果证明,所提MGFRNN算法在比较算法中具有最高的分类精确度。  相似文献   

12.
基于快速搜索和寻找密度峰值聚类算法(DPC)具有无需迭代且需要较少参数的优点,但其仍然存在一些缺点:需要人为选取截断距离参数;在流形数据集上的处理效果不佳。针对这些问题,提出一种密度峰值聚类改进算法。该算法结合了自然和共享最近邻算法,重新定义了截断距离和局部密度的计算方法,并且算法融合了候选聚类中心计算概念,通过算法选出不同的候选聚类中心,然后以这些候选中心为新的数据集,再次开始密度峰值聚类,最后将剩余的点分配到所对应的候选中心点所在类簇中。改进的算法在合成数据集和UCI数据集上进行验证,并与K-means、DBSCAN和DPC算法进行比较。实验结果表明,提出的算法在性能方面有明显提升。  相似文献   

13.
针对不平衡数据分类问题,一种基于密度的近邻分类算法(DNN)被提出。它利用核密度估计敏锐地捕捉不平衡数据的局部分布特征,由此产生更好的分类结果。用核密度估计方法估计查询实例的各类别密度,以此对其进行密度定位;将原始数据空间中的点映射到由类别密度和距离信息构成的空间;在这个映射空间中动态地选择近邻并对查询实例进行分类。实验结果表明,DNN算法在15个不平衡数据集上分类性能良好。  相似文献   

14.
A Weighted Nearest Neighbor Algorithm for Learning with Symbolic Features   总被引:14,自引:0,他引:14  
Cost  Scott  Salzberg  Steven 《Machine Learning》1993,10(1):57-78
In the past, nearest neighbor algorithms for learning from examples have worked best in domains in which all features had numeric values. In such domains, the examples can be treated as points and distance metrics can use standard definitions. In symbolic domains, a more sophisticated treatment of the feature space is required. We introduce a nearest neighbor algorithm for learning in domains with symbolic features. Our algorithm calculates distance tables that allow it to produce real-valued distances between instances, and attaches weights to the instances to further modify the structure of feature space. We show that this technique produces excellent classification accuracy on three problems that have been studied by machine learning researchers: predicting protein secondary structure, identifying DNA promoter sequences, and pronouncing English text. Direct experimental comparisons with the other learning algorithms show that our nearest neighbor algorithm is comparable or superior in all three domains. In addition, our algorithm has advantages in training speed, simplicity, and perspicuity. We conclude that experimental evidence favors the use and continued development of nearest neighbor algorithms for domains such as the ones studied here.  相似文献   

15.
基于自适应最近邻的局部线性嵌入算法   总被引:1,自引:0,他引:1  
喻军  秦如新  邓乃扬 《控制工程》2006,13(5):469-470
局部线性嵌入算法是一个优异的非线性维数约减方法,但是算法本身是一个无监督学习算法,对于有监督问题的学习效果不是很好。这主要是因为算法使用了K-近邻方法来求解最近邻点。针对这个缺点,提出了一种改进的、基于自适应最近邻法的局部线性嵌入方法,数值实验证明算法对于有监督的学习问题,具有较好的适应性。  相似文献   

16.
针对传统交互图像分割方法需要同时标注背景和前景的问题,提出一种新的交互图像分割方法——正例半监督学习图像分割。该方法结合正例半监督学习和图半监督学习,仅需要在感兴趣的图像区域标记少量像素点,就可以完成该区域的分割。在北工大眉毛图像数据库上的实验表明本文提出的方法与图半监督学习、随机游走和Lazy Snapping相比具有更稳定的分割效果。  相似文献   

17.
何力  卢冰原 《计算机工程》2010,36(24):136-138
针对由类的重叠引起的训练样本模糊不确定性,以及属性不足引起的类边界粗糙不确定性,提出一种基于期望-最大化(EM)的模糊-粗糙集最近邻分类算法——EM-FRNN。利用UCI数据库的突发性水污染事件案例进行实验,实验结果表明,与朴素的KNN、模糊最近邻算法、模糊粗糙最近邻算法相比,该算法的运算精度高且计算成本较低。  相似文献   

18.
Selective Sampling for Nearest Neighbor Classifiers   总被引:3,自引:0,他引:3  
Most existing inductive learning algorithms work under the assumption that their training examples are already tagged. There are domains, however, where the tagging procedure requires significant computation resources or manual labor. In such cases, it may be beneficial for the learner to be active, intelligently selecting the examples for labeling with the goal of reducing the labeling cost. In this paper we present LSS—a lookahead algorithm for selective sampling of examples for nearest neighbor classifiers. The algorithm is looking for the example with the highest utility, taking its effect on the resulting classifier into account. Computing the expected utility of an example requires estimating the probability of its possible labels. We propose to use the random field model for this estimation. The LSS algorithm was evaluated empirically on seven real and artificial data sets, and its performance was compared to other selective sampling algorithms. The experiments show that the proposed algorithm outperforms other methods in terms of average error rate and stability.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号