首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
基于蛇型磁带的海量数据排序算法   总被引:5,自引:0,他引:5       下载免费PDF全文
在数字图书馆和数据仓库中,需要解决海量数据的排序问题.利用蛇型磁带自身的物理特点,实现了一种高效的磁带排序算法STESort(serpentine tape external sort).与传统的2路归并磁带排序算法相比,STESort算法减少了磁带总定位时间.STESort算法具有更优的效率.STESort算法在提高排序效率的同时,通过减少磁头在磁带表面的移动次数延长了磁带的使用寿命.理论分析和实验结果表明,STESort算法优于传统的磁带排序算法,适合于海量数据排序.  相似文献   

2.
排序是将一组数据按照规定的顺序重新排列,其目的是为了便于查询和处理数据。 按照排序时存放数据的设备,排序可分为内部排序和外部排序。内部排序是指在排序的整个过程中,数据全部放在计算机的主存储器,并且在主存储器中调整数据的位置;外部排序是指在排序的过程中,数  相似文献   

3.
一、前言排序和检索是表处理中两个重要的操作.排序分为内部排序和外部排序.排序方法的改进可以促进检索方法的改进.为了提高计算机效率,人们研究出种种排序方法,就内部排序而言,有插入排序、希尔排序、选择排序、堆排序、快速排序、归并排序、基数排序等,其中,快速排序速度最快.如果用解释性BASIC语言编写管理程序,当涉及大量数据排序时,其效率将降低.为此在这一类程序中,调用汇编语言编写的快速排序,可以大大提高程序的运行效率.  相似文献   

4.
α优势粗糙集模型利用简单平均法赋权多个阈值α的排序结果,忽视数据集本身信息,导致不同数据集的排序质量差异性较大.针对此问题,文中提出基于加权α优势关系的优势度排序方法.首先运用α优势粗糙集方法详细分析决策对象.在此基础上,为了克服α主观赋权导致多属性决策排序结果中“并列”决策现象存在的不足,依据排序结果采用2种准则赋权α,并融合2种准则下所有对象的综合优势度,进一步细化排序结果.最后在具体算例中对比分析其它排序方法,验证文中方法的可行性和有效性.  相似文献   

5.
基于数组的桶排序算法   总被引:1,自引:0,他引:1  
经典桶排序算法以链表形式实现"桶",处理均匀数据效率很高,是O(N)算法 .但对极不均匀数据则退化成低效的O(N2)插入排序 .讨论了记录携带附加数据的计数排序算法,将"桶"实现为顺序数组,避免链表的动态内存分配直接提高算法效率,并允许快排等O(N log N)算法处理桶内数据 .对均匀数据仍然保持O(N)时间复杂度,对极端不均匀数据则只退化为O(N log N)的原算法 .对一般非均匀数据,证明数组桶排序算法总体性能高于经典算法 .均匀数据实验表明,桶排序算法明显优于Linux下标准qsort系统调用,且数组桶排序算法效率更高 .而在非均匀的正态数据实验中数组桶算法性能下降明显小于经典桶排序,总体效率仍然优于qsort的直接应用 .  相似文献   

6.
《网络与信息》2009,23(7):41-41
排序是数据处理中的经常性工作,Excel排序有序数计算(类似成绩统计中的名次)和数据重排两类.本文以几个车间的产值和名称为例,介绍Excel 2000/XP的数据排序方法.  相似文献   

7.
排序学习利用机器学习技术去训练排序模型以解决排序问题,是信息检索与机器学习交叉领域的一个新兴研究热点.越来越多的排序学习方法已经应用于实际系统中,如搜索引擎和推荐系统等.本文概括了排序学习的研究进展,并进行展望.首先,阐述了排序学习问题.然后,对排序学习方法进行了分类,并重点分析了依据训练排序模型时所采用的不同机器学习技术的排序学习方法类别.本文还介绍了一些代表性的标准排序学习数据集,对排序学习方法在若干领域的成功应用进行了总结,并归纳了一些排序学习方法软件包.最后,对排序学习的未来发展趋势和挑战进行了展望和探讨.  相似文献   

8.
现有排序学习算法忽视了查询之间的差异,在建立排序模型的过程中等同对待训练样本集中的所有查询及其相关文档,影响了排序模型的性能.文中描述了查询之间的差异,并在训练过程中考虑查询之间的差异,提出了一种基于有监督学习的多排序模型融合方法.这种方法首先使用每一个查询及其相关文档训练出子排序模型,并将每一个子排序模型的输出转化为体现查询差异的特征数据,使用监督学习方法,实现了多排序模型的融合.更进一步,针对排序问题的特性,文中提出了一种直接优化排序性能的融合函数融合子排序模型,使用梯度上升方法优化其下界函数.文中证明了直接优化排序性能的融合函数融合子排序模型的性能优于子排序模型线性合并的性能.基于较大规模真实数据应用的实验结果表明,直接优化性能指标的多排序模型融合方法可以比传统排序学习模型具有更好的排序性能.  相似文献   

9.
排序是计算机程序设计中一项经常而又重要的操作,研究排序算法具有重要的理论意义和广泛的应用价值.通过对目前常用的几种排序算法的研究,指出它们均为双重循环或多重循环结构设计,借鉴了军队排队列的思想,提出一种只需要单重循环结构即可完成排序过程的新型算法,并进行了编程实现.通过对该算法的时间复杂度、空间复杂度以及稳定性等性能分析,证明该算法对于基本有序的数据排列排序性能优秀,对于数据排列大都是两两错位的排序过程接近最优算法.  相似文献   

10.
代价敏感的列表排序算法   总被引:1,自引:0,他引:1  
排序学习是信息检索与机器学习中的研究热点之一.在信息检索中,预测排序列表中顶部排序非常重要.但是,排序学习中一类经典的排序算法——列表排序算法——无法强调预测排序列表中顶部排序.为了解决此问题,将代价敏感学习的思想融入到列表排序算法中,提出代价敏感的列表排序算法框架.该框架是在列表排序算法的损失函数中对文档引入权重,且基于性能评价指标NDCG计算文档的权重.在此基础之上,进一步证明了代价敏感的列表排序算法的损失函数是NDCG损失的上界.为了验证代价敏感的列表排序算法的有效性,在此框架下提出了一种代价敏感的ListMLE排序算法,并对该算法开展序保持与泛化性的理论研究工作,从理论上验证了该算法具有序保持特性.在基准数据集上的实验结果表明,在预测排序列表中顶部排序中,代价敏感的ListMLE比传统排序学习算法能取得更好的性能.  相似文献   

11.
在信息检索领域的排序任务中, 神经网络排序模型已经得到广泛使用. 神经网络排序模型对于数据的质量要求极高, 但是, 信息检索数据集通常含有较多噪音, 不能精确得到与查询不相关的文档. 为了训练一个高性能的神经网络排序模型, 获得高质量的负样本, 则至关重要. 借鉴现有方法doc2query的思想, 本文提出了深度、端到端的模型AQGM, 通过学习不匹配查询文档对, 生成与文档不相关、原始查询相似的对抗查询, 增加了查询的多样性,增强了负样本的质量. 本文利用真实样本和AQGM模型生成的样本, 训练基于BERT的深度排序模型, 实验表明,与基线模型BERT-base对比, 本文的方法在MSMARCO和TrecQA数据集上, MRR指标分别提升了0.3%和3.2%.  相似文献   

12.
根据电能质量系统中监测数据海量化的趋势,提出了一种基于部分存储和选择性加载的数据处理算法,彻底解决了现有数据处理算法中重复排序和多余处理的问题。在计算日指标时,根据存储率存储部分日排序数据;在计算周(月、季、年)指标时,利用多路归并算法将存储的部分日排序数据合并,计算出临时95概率大值(CP95);根据临时CP95确定需要重载的日数据,对部分存储的日数据和重载数据重新排序以计算稳态指标。部分存储的日排序数据可以重复利用,有效解决了传统处理方案中的重复排序问题;排序过程中只需读取部分日排序数据和少量重载数据,有效解决了传统处理方案中冗余处理问题。与传统的数据处理方法做测试对比,结果表明:日采样数据较小时,性能提升3倍以上;日采样数据超过2880时,性能提升15倍以上。数据量越大,性能提升越明显。所提方案已在山西、河北等监测系统中成功应用,实践证明所提方案正确、有效。  相似文献   

13.
窦家维  汪榆淋 《软件学报》2022,33(11):4316-4333
安全多方计算(secure multi-party computation,SMC)是国际密码学界近年来的研究热点.排序是一种基本的数据操作,是算法研究中最基础的问题.多方保密排序是百万富翁问题的推广,是一个基本的SMC问题,在科学决策、电子商务推荐、保密招标/拍卖、保密投票以及保密数据挖掘等方面有重要应用.目前已有的安全多方排序解决方案大多只能适用于隐私数据范围已知而且范围较小的情况,如果数据范围未知或者数据范围很大,还未见到有效的解决方案.首先,在数据范围已知情形下,针对同数据并列计位以及增位次计位两种不同排序方式设计保密计算协议,进一步设计基于关键词的增位次计位方式保密排序协议;其次,以这些协议为基础,在数据范围未知的情形下,针对上述两种不同排序方式分别构造有效的保密排序方案.应用该排序协议作为模块,可解决许多以排序为基础的实际应用问题.最后设计了一个安全、高效的保密Vickrey招投标协议,以解决实际保密招标问题.通过灵活运用编码技巧,并基于ElGamal门限密码体制设计协议,这些协议在半诚实模型下是安全、高效的.应用模拟范例严格证明了协议的安全性,并对协议的执行效率进行了实际测试.实验结果表明,该协议是高效的.  相似文献   

14.
Excel2000中排序?很容易的事嘛,常用工具栏有两个按钮(升、降序),复杂一点的,“数据”→“排序”不就搞定了。其实不然,用这种方法排序,有三大弊端:1.操作复杂,用过的人都知道,排序前需选定完整表格(尤其是列),否则会发生“张冠李戴”。2.排序后会改变数据的位置(除非输  相似文献   

15.
为了支持共识决策过程,引入最大共识排序概念,设计了基于共识排序树的群排序集结算法。该算法能够从排序数据中发现最大共识排序和需要进一步协商的冲突项目。应用模拟数据进行实验,结果表明了这种计算方法的有效性。  相似文献   

16.
将排序学习的方法应用于构件检索的研究中,首先,采用刻面描述的方法对构件进行全面的描述,并通过word2vec模型和权重设定的方法对刻面描述的构件进行特征提取;然后,对构件特征进行潜在语义分析和余弦相似度计算,得到构件训练数据集;最后,通过使用构件训练数据集和构件数据集对经过改进的Plackett-Luce概率排序模型用最大似然估计方法训练模型参数,从而得到一种构件排序模型.将构件排序模型应用到构件检索中开发实现了一个构件检索方法,通过实验验证了此方法的有效性,其查全率、查准率和效率都优于传统的构件检索方法.  相似文献   

17.
程序设计语言中数据排序是相对重要的部分,它涉及到数组、数据交换、分支、循环(包括双循环)这些知识点.学生通过学习可以掌握初步程序设计方法,对程序的3种结构(顺序,分支,循环)有较深的理解.老师应该循序渐进,激发学生的学习兴趣,为学生后续学习打下良好的基础.数据排序的学习方法尤其重要,旨在讨论冒泡排序与选择排序的学习方法.  相似文献   

18.
在ASP.NET提供的数据访问控件中,DataGrid具有功能强大的数据展示功能.本文就实现数据排序、自动编号、产生合计项、数据导出为EXCEL文件格式的功能,进行探讨.  相似文献   

19.
用户点击数据较文档的相关标签更易被获取且能反映用户兴趣,将其作为标签能够有效降低人工标注成本并且模型能随数据实时更新.但用户点击含有偏差和噪声,因此需设计有效的无偏排序方法.针对无偏排序中对偶学习方法收敛得到次优解从而无法完全消除偏差的问题,提出一种基于相关修正的无偏排序学习方法.首先,利用现有小规模相关标注数据训练排序模型,对候选文档进行较精准的相关得分预测;再基于用户点击和文档相关得分训练点击倾向模型;最后,将得到的模型参数设为对偶去偏初始值并联合训练.该方法不影响模型上线的计算速度,可用于在线学习场景,模拟不同程度偏差噪声并在真实点击场景下进行测试,结果表明该方案能够有效提升现有无偏排序学习方法表现.  相似文献   

20.
高效快速排序算法研究   总被引:2,自引:0,他引:2       下载免费PDF全文
快速排序是排序算法中性能较好的一种,但存在对数据有序或者基本有序的情形下的性能瓶颈问题。为此,对比效率同为O(nlbn)的其他排序算法,提出一种新的高效快速排序算法。理论分析和实验数据表明,其性能优于原有的快速排序算法,并且在数据基本有序的状况下依然具有高性能和较强的鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号