首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
李庆红 《计算机工程》2011,37(13):68-70
针对传统海量数据精确查询负载过大的问题,引入基于仿真的置信区间自动抽样方法(Bootstrap)对数据库提供支持。通过对部分或采样数据进行查询,将查询简化到基础数据上,在对整个数据集查询一次的时间内,完成对多个样本重复多次的查询,得到数据库查询的置信区间;再进行基础SQL查询,得到符合用户要求的近似结果。实验结果表明,引入Bootstrap方法进行数据查询是有效的。  相似文献   

2.
在信息检索领域的排序任务中, 神经网络排序模型已经得到广泛使用. 神经网络排序模型对于数据的质量要求极高, 但是, 信息检索数据集通常含有较多噪音, 不能精确得到与查询不相关的文档. 为了训练一个高性能的神经网络排序模型, 获得高质量的负样本, 则至关重要. 借鉴现有方法doc2query的思想, 本文提出了深度、端到端的模型AQGM, 通过学习不匹配查询文档对, 生成与文档不相关、原始查询相似的对抗查询, 增加了查询的多样性,增强了负样本的质量. 本文利用真实样本和AQGM模型生成的样本, 训练基于BERT的深度排序模型, 实验表明,与基线模型BERT-base对比, 本文的方法在MSMARCO和TrecQA数据集上, MRR指标分别提升了0.3%和3.2%.  相似文献   

3.
在深度学习模型训练中,提高输入样本数量能够有效解决样本不均衡和训练过拟合问题。为更好地处理数据集的小样本场景,提出了一种基于PolyLoss的StarGAN小样本图像增强方法(PolyStarGAN)。相比传统样本增强方法,该网络具有更高的样本学习、生成能力。该方法使用训练生成器和判别器提取图像的特征信息,生成图像与输入图像的内容和结构一致。通过计算峰值信噪比、结构相似性与视觉信息保真度3个方面评估PolyStarGAN网络生成结果;在ResNet50目标识别模型训练中验证数据集质量。实验结果表明,提出的模型对不同场景图像的增强效果较好,提高了自生长数据集的ResNet50模型识别精度,可为样本自生长中的小样本问题提供参考方案与技术支持。  相似文献   

4.
现有查询分析方法通常将实体识别作为线下预处理过程清洗整个数据集,然而,随着数据规模的不断增大,这种高计算复杂性的线下清洗模式已经很难满足实时性分析应用的需求。针对重复充电运营记录上的聚集查询问题,提出一种将近似聚集查询处理与实体识别相结合的方法。首先,通过基于块的采样策略采集样本;然后,在采集到的样本上利用实体识别方法识别出重复的实体;最后,根据实体识别的结果重构得到聚集结果的无偏估计。所提方法避免了识别全部实体的时间代价,通过识别少量样本数据即可返回满足用户需求的查询结果。真实数据集和合成数据集上的实验结果验证了所提方法的高效性和可靠性。  相似文献   

5.
在数据挖掘问题中,一个基本假设是训练集样本与测试集样本的数据分布一致,但随着数据量逐渐增加,如何在海量数据中找出具有代表意义的数据也变得尤为困难。对现有的数据选择方法研究发现,传统的简单随机抽样和渐进抽样等数据选择方法,由于没有和数据挖掘工具进行结合,采样结果具有偶然性和不确定性,抽样数据很难保证数据挖掘的基本假设,这也使得最终模型的泛化误差较大。为了解决数据采样过程中类间的不平衡问题,提出一种基于双决策树的结构化数据采样方法。首先通过C4.5算法生成一棵决策树,借助决策树在数据源中选择适合的数据和数据采集点,同时通过使用另一棵决策树对选择出的数据集的质量进行评估来达到高效率和高质量的数据采样。实验表明,与简单随机抽样相比,新采样数据下训练的模型准确率有明显提高。  相似文献   

6.
联邦SPARQL查询是通过构建查询计划来指导查询执行,数据摘要索引文件捕获了RDF数据集的结构和语义信息,对查询计划生成过程中子查询基数评估至关重要。现有的数据摘要生成方法需要远程遍历每个数据源的完整数据,该过程成本消耗较高,且在大部分环境中联邦查询无法完成对大数据集的统计工作。为在减少数据摘要索引文件生成时间和内存开销的同时捕获尽可能真实的计数信息,考虑主语和谓语的分布偏差,提出利用样图生成原始图近似数据摘要的方法。使用对RDF图出度特征加权的采样方法获取原始图的典型样图,通过改进的映射函数将样图中的信息映射到原始图上,从而生成原始图的近似数据摘要。实验结果表明,该方法相比于基线方法至少节省了70%的数据摘要索引文件生成时间,并且仅采样0.5%的原始图生成的近似数据摘要即可在查询正确率上与基线方法保持高度一致。  相似文献   

7.
现有基于近邻图的近似最近邻搜索(ANNS)算法通常将数据库中被检索向量组织成近邻图结构,根据用户设定参数搜索查询向量的近似最近邻。为提升基于近邻图的ANNS算法在给定召回率下的搜索效率,提出一种参数自适应方法AdaptNNS。采集数据库中的被检索向量并对采样结果进行聚类,利用聚类中心向量和最近邻分类器提取查询负载特征,同时将查询负载特征与不同的召回率相结合作为输入特征训练梯度提升决策树(GBDT)模型。在查询处理过程中,根据应用程序指定的召回率获取最终输入特征,并通过GBDT模型预测最优搜索参数,提升ANNS算法的吞吐量。在Text-to-Image、DEEP和Turing-ANNS数据集上的实验结果表明,当达到相同的目标召回率时,AdaptNNS方法相比于Baseline方法最多可将DiskANN和HNSW算法的吞吐量提升1.3倍,具有更高的近似最近邻搜索效率。  相似文献   

8.
滕南君    鲁华祥      金敏  叶俊彬    李志远   《智能系统学报》2018,13(6):889-896
用户名—密码(口令)是目前最流行的用户身份认证方式,鉴于获取真实的大规模密码明文非常困难,利用密码猜测技术来生成大规模密码集,可以评估密码猜测算法效率、检测现有用户密码保护机制的缺陷等,是研究密码安全性的主要方法。本文提出了一种基于递归神经网络的密码猜测概率模型(password guessing RNN, PG-RNN),区别于传统的基于人为设计规则的密码生成方法,递归神经网络能够自动地学习到密码集本身的分布特征和字符规律。因此,在泄露的真实用户密码集上训练后的递归神经网络,能够生成非常接近训练集真实数据的密码,避免了人为设定规则来破译密码的局限性。实验结果表明,PG-RNN生成的密码在结构字符类型、密码长度分布上比Markov模型更好地接近原始训练数据的分布特征,同时在真实密码匹配度上,本文提出的PG-RNN模型比目前较好的基于生成对抗网络的PassGAN模型提高了1.2%。  相似文献   

9.
以数据仓库应用为代表的交互式查询分析技术为智能决策提供了支持。随着数据规模的不断增大,准确计算聚合查询结果往往需要全局数据扫描,使得这类查询面临着实时响应能力不足的问题。基于预先抽取的样本数据,复杂聚合查询提供快速的近似答案,在许多场景下是解决该问题的可行方案。分析了分层抽样优于随机抽样的具体条件,提出了一种两阶段分层抽样方法。首先针对业务特征进行分组,每个分组中使用随机抽样方法进行随机抽样,并评估其抽样效果。再针对抽样效果较差的分组,利用自组织特征映射网络(Self-organizing feature mapping,SOM)对数值进行聚类分组,改进其近似查询效果。基于公开数据集和实际电网数据的实验结果表明:本文方法相比于随机抽样、分层随机抽样以及国会抽样算法在相同抽样率下可达到15%的性能提升;与使用K-means、基于密度的聚类算法(Density-based spatial clustering of applications with noise,DBSCAN)等聚类方法相比,自SOM具有较好的近似查询结果。  相似文献   

10.
为了解决现有安全帽佩戴数据集样本数量有限导致模型检测精度较低的问题,提出一种基于场景增强的样本扩充算法。该算法将训练集中随机抽取的图像中的检测目标随机缩放后,粘贴到另一随机场景图像上的任意位置,基于现有场景构建出拥有新的检测目标的增强场景,通过场景增强扩充安全帽佩戴训练数据集,增加训练数据集的多样性。为了验证该算法在安全帽佩戴检测中的有效性,使用场景增强算法扩充HelmetWear数据集,并用其训练基于YOLO v4的安全帽佩戴检测模型,通过检测精度评估场景增强算法。在HelmetWear数据集上检测精度达到93.81%,检测精度提升了6.39个百分点。实验结果表明该算法能有效提升安全帽佩戴检测的精度,特别是在样本最为欠缺的小目标上表现更为显著;场景增强算法对解决其他领域目标检测训练数据不足的问题有重要的借鉴意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号