排序方式: 共有78条查询结果,搜索用时 0 毫秒
21.
针对审计问题这种短文本所具有的特征稀疏、问题类别界限模糊问题,提出了一种改进的面向审计领域的短文本分类方法。该方法首先为审计问题构造了专门的特征集,以审计领域的同义词词集和法规库为基础,并结合特定规则来调整特征权重,然后以修改的SVM决策树作为多类分类器进行短文本分类。实验结果表明,该方法在对审计问题分类的应用上,具有较为满意的正确率,能满足实际的分类需求。 相似文献
22.
给出了 Ada并行任务模块的识别算法和Ada并行任务通信开销矩阵的计算方法,在此基础上,提出了分布式环境中Ada并行任务的调度算法。 相似文献
23.
24.
Web大数据环境下的不一致跨源数据发现 总被引:2,自引:0,他引:2
Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源Web数据的多源异构特性和Web大数据的5V特征,将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和Web对象数据模型;研究不同类型的Web数据不一致特征,建立不一致分类模型、一致性约束机制和不一致推理代数运算系统;从而在跨源Web数据一致性理论体系的基础上,实现通过约束规则检测、统计偏移分析的Web不一致数据自动发现方法,并结合这两种方法的特点,基于Hadoop MapReduce架构提出了基于层次概率判定的Web不一致数据的自动发现算法.该框架在Hadoop平台上对多个B2C电子商务大数据进行实验,并与传统架构和其他方法进行了比较,实验结果证明该方法具有良好的精确性和高效性. 相似文献
25.
26.
提出了分布式数据库中存在分段复制的情况下联系规则的挖掘方法,该方法采用局部候选集删减,有效地减少了大项目集的候选集,采用投票站点有效地减少了站点间的通信量 相似文献
27.
极限学习机ELM不同于传统的神经网络学习算法(如BP算法),是一种高效的单隐层前馈神经网络(SLFNs)学习算法。将极限学习机引入到中文网页分类任务中。对中文网页进行预处理,提取其特性信息,从而形成网页特征树,产生定长编码作为极限学习机的输入数据。实验结果表明该方法能够有效地分类网页。 相似文献
28.
29.
随着微博注册用户的增长,探测不活跃账号,自动判定用户活跃度有重要的商业价值。该文提出了一种自动检测算法并通过实验验证。算法核心是提出的影响用户活跃度的4个判定因子,可由用户行为计算得到。算法包含用户活跃度概率层次模型(ADPHM)和用户评分模型(USM)。ADPHM模型计算用户是不活跃用户的概率;USM模型计算用户活跃度得分。实验数据集包含了新浪微博2 316 281个用户信息和141 322 019条微博内容。实验结果表明,该算法能在线性时间复杂度下自动检测出不活跃账号,完善用户可信度评估体系。 相似文献
30.
基于数据质量的Deep Web数据源排序 总被引:1,自引:1,他引:0
Deep Web技术使得大量隐藏在接口背后的有用信息更容易被用户查找到.然而,随着数据源的增多,如何从众多的数据源中快速地找到合适的结果这一问题变得越来越重要.通过传统的链接分析方法和相关性评估方法来对数据源进行排序,已经不能满足高精度的要求.提出一种通过抽样方法和数据质量评估来判断数据源的优劣性的算法.本文提出的抽样方法,改进了分层抽样和雪球抽样,使得在较少的样本点时,能够准确的反映整体特征.定义了能基本反映数据源的优劣程度的6个主要质量标准,并给出计算方法;通过质量标准,结合权重向量来量化数据源的质量.实验通过对数据源进行抽样分析,求解数据源得分的期望值,并根据该期望值对数据源进行了整体排序.结果表明,利用抽样对数据源的数据质量进行估计和评分,具有很好的准确性和可操作性. 相似文献