首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 725 毫秒
1.
电网调度日志记录电网运行的各类信息,是分析调度过程、电网运行情况的重要数据来源。电网调度日志管理逐步智能化,调度日志分类任务也由人工操作转变为系统自动分类。为实现智能化分类,提出一种基于深度神经网络的电网调度日志分类方法。该方法基于电网调度日志训练出词向量,将词向量作为LSTM(Long Short-Term Memory)模型的输入。使用双向LSTM对电网调度日志进行分类。实验结果表明,该方法可以有效地对长度差别巨大的日志进行分类,并获得比传统分类方法更优的性能。  相似文献   

2.
智能电网的信息系统是保障电力行业正常运行的基础,而智能电网中各种时间序列数据的分析结果是衡量信息系统稳定运行的重要依据。传统的时间序列数据异常检测算法很难同时兼顾准确性和实时性。本文引入基于Isolation Forest和Random Forest相结合的智能电网时间序列数据异常检测算法,结合无监督学习算法和有监督学习算法的优点,实现机器自动标注和自动学习阈值,人工标注少量特征值,从一定程度上提高了时间序列数据异常检查准确性和实时性,可以满足智能电网时间序列数据异常检测需求,从而达到提升智能电网信息安全的目的。  相似文献   

3.
本文提出一种基于半监督主动学习的算法,用于解决在建立动态贝叶斯网络(DBN)分类模型时遇到的难以获得大量带有类标注的样本数据集的问题.半监督学习可以有效利用未标注样本数据来学习DBN分类模型,但是在迭代过程中易于加入错误的样本分类信息,并因而影响模型的准确性.在半监督学习中借鉴主动学习,可以自主选择有用的未标注样本来请求用户标注.把这些样本加入训练集之后,能够最大程度提高半监督学习对未标注样本分类的准确性.实验结果表明,该算法能够显著提高DBN学习器的效率和性能,并快速收敛于预定的分类精度.  相似文献   

4.
目前基于PU问题的时间序列分类常采用半监督学习对未标注数据集[U]中数据进行自动标注并构建分类器,但在这种方法中,边界数据样本类别的自动标注难以保证正确性,从而导致构建分类器的效果不佳。针对以上问题,提出一种采用主动学习对未标注数据集[U]中数据进行人工标注从而构建分类器的方法OAL(Only Active Learning),基于投票委员会(QBC)对标注数据集构建多个分类器进行投票,以计算未标注数据样本的类别不一致性,并综合考虑数据样本的分布密度,计算数据样本的信息量,作为主动学习的数据选择策略。鉴于人工标注数据量有限,在上述OAL方法的基础上,将主动学习与半监督学习相结合,即在主动学习迭代过程中,将类别一致性高的部分数据样本自动标注,以增加训练数据中标注数据量,保证构建分类器的训练数据量。实验表明了该方法通过部分人工标注,相比半监督学习,能够为PU数据集构建更高准确率的分类器。  相似文献   

5.
多数分类识别算法需要大量的已标注样本对分类模型进行训练。实际应用中,对大量样本进行标注枯燥耗时且代价昂贵,因此能够获得的已标注样本数量非常有限。将基于不确定性样本的主动学习和代表性样本的自学习方法引入到基于支持向量数据描述的分类模型中,提出了一种新的分类识别方法。通过主动学习去挖掘那些对当前分类模型最有价值的样本进行人工标注,并借助自学习方法进一步利用样本集中大量的未标注样本,使得在花费较小的标注代价下,能够获得良好的分类性能。在潜艇机械噪声源识别问题上的实验结果验证了该方法能有效降低样本标注代价。  相似文献   

6.
问题分类旨在对问题的类型进行自动分类,该任务是问答系统研究的一项基本任务。该文提出了一种基于问题和答案联合表示学习的问题分类方法。该方法的特色在于利用问题及其答案作为共同的上下文环境,学习词的分布式表示,从而充分利用未标注样本中问题和答案隐含的分类信息。具体而言,首先,我们引入神经网络语言模型,利用问题与答案联合学习词向量表示,增加问题词向量的信息量;其次,加入大量未标注的问题与答案样本参与词向量学习,进一步增强问题词向量表示能力;最后,将已标注的问题样本以词向量形式表示作为训练样本,采用卷积神经网络建立问题分类模型。实验结果表明,该文提出的基于半监督问题分类方法能够充分利用词向量表示和大量未标注样本来提升性能,明显优于其他基准半监督分类方法。  相似文献   

7.
目前深度学习在医学图像分析领域取得的良好表现大多取决于高质量带标注的数据集, 但是医学图像由于其专业性和复杂性, 数据集的标注工作往往需要耗费巨大的成本. 本文针对这一问题设计了一种基于深度主动学习的半自动标注系统, 该系统通过主动学习算法减少训练深度学习标注模型所需的标注样本数量, 训练完成后的标注模型可以用于剩余数据集的标注工作. 系统基于Web应用构建, 无需安装且能跨平台访问, 便于用户完成标注工作.  相似文献   

8.
在大规模的系统运维中,及时有效地发现系统事件中的异常行为,对于维护系统稳定运行有着重要作用.有效的异常检测方法可以使得系统的运维和开发人员快速定位问题并解决,保证系统快速恢复.系统日志作为记录系统运行信息的重要资料,是对系统进行异常检测的主要数据来源,因此基于日志的异常检测是当前智能运维的重要研究方向之一.本文提出了一种基于无监督的日志多维度异常检测算法,可在无需标注数据的前提下针对日志系统进行自动的数据解析和异常检测.通过使用基于频繁模板树的日志解析获取日志模板后,分别使用3种方法进行异常检测:以基于概率分布使用3-Sigma法判断单指标数值型异常,以基于主成分分析方法使用SPE统计量判断日志组异常,以基于有限自动机的方法判断日志序列异常.通过对超级计算机(Blue Gene/L)和Hadoop分布式文件系统(HDFS)的日志数据以及腾讯内部系统数据进行实验评估,结果表明本文提出算法在5个测试数据集上均有较好的表现.  相似文献   

9.
属性抽取可分为对齐和语义标注两个过程,现有对齐方法中部分含有相同标签不同语义的属性会错分到同一个组,而且为了提高语义标注的精度,通常需要大量的人工标注训练集.为此,文中提出结合主动学习的多记录网页属性抽取方法.针对属性错分问题,引入属性的浅层语义,减少相同标签语义不一致的影响.在语义标注阶段,基于网页的文本、视觉和全局特征,采用基于主动学习的SVM分类方法获得带有语义的结构化数据.同时在主动学习的策略选择方面,通过引入样本整体信息,构建基于不确定性度量的策略,选择语义分类预测不准的样本进行标注.实验表明,在论坛、微博等多个数据集上,相比现有方法,文中方法抽取效果更好.  相似文献   

10.
深度学习中多模态模型的训练通常需要大量高质量不同类型的标注数据,如图像、文本、音频等. 然而,获取大规模的多模态标注数据是一项具有挑战性和昂贵的任务.为了解决这一问题,主动学习作为一种有效的学习范式被广泛应用,能够通过有针对性地选择最有信息价值的样本进行标注,从而降低标注成本并提高模型性能. 现有的主动学习方法往往面临着低效的数据扫描和数据位置调整问题,当索引需要进行大范围的更新时,会带来巨大的维护代价. 为解决这些问题,本文提出了一种面向多模态模型训练的高效样本检索技术So-CBI. 该方法通过感知模型训练类间边界点,精确评估样本对模型的价值;并设计了半有序的高效样本索引,通过结合数据排序信息和部分有序性,降低了索引维护代价和时间开销. 在多组多模态数据集上通过与传统主动学习训练方法实验对比,验证了So-CBI方法在主动学习下的训练样本检索问题上的有效性.  相似文献   

11.
主动协同半监督粗糙集分类模型   总被引:1,自引:0,他引:1  
粗糙集理论是一种有监督学习模型,一般需要适量有标记的数据来训练分类器。但现实一些问题往往存在大量无标记的数据,而有标记数据由于标记代价过大较为稀少。文中结合主动学习和协同训练理论,提出一种可有效利用无标记数据提升分类性能的半监督粗糙集模型。该模型利用半监督属性约简算法提取两个差异性较大的约简构造基分类器,然后基于主动学习思想在无标记数据中选择两分类器分歧较大的样本进行人工标注,并将更新后的分类器交互协同学习。UCI数据集实验对比分析表明,该模型能明显提高分类学习性能,甚至能达到数据集的最优值。  相似文献   

12.
基于日志的协同图像自动标注   总被引:1,自引:0,他引:1  
反馈日志隐含的图像语义信息有助于图像自动标注,但日志数据中存在的噪声、片面性等问题制约了其作用,故提出基于日志的协同图像自动标注算法。根据日志获取的特点,采用增量关联规则挖掘处理日志信息去除其噪声,利用协同滤波思想扩展图像标注词数量,利用WordNet得到标注词间关系,并结合图像底层特征利用混合概率模型实现图像自动标注。在Corel5K和互联网数据集上的实验表明:该算法降低了日志噪声及片面性所带来的影响,提高了图像自动标注效率和质量。  相似文献   

13.
基于主动学习和半监督学习的多类图像分类   总被引:5,自引:0,他引:5  
陈荣  曹永锋  孙洪 《自动化学报》2011,37(8):954-962
多数图像分类算法需要大量的训练样本对分类器模型进行训练.在实际应用中, 对大量样本进行标注非常枯燥、耗时.对于一些特殊图像,如合成孔径雷达 (Synthetic aperture radar, SAR)图像, 对其内容判读非常困难,因此能够获得的标注样本数量非常有限. 本文将基于最优标号和次优标号(Best vs second-best, BvSB)的主动学习和带约束条件的自学习(Constrained self-training, CST) 引入到基于支持向量机(Support vector machine, SVM)分类器的图像分类算法中,提出了一种新的图像分类方法.通过BvSB 主动学习去挖掘那些对当前分类器模型最有价值的样本进行人工标注,并借助CST半 监督学习进一步利用样本集中大量的未标注样本,使得在花费较小标注代价情况下, 能够获得良好的分类性能.将新方法与随机样本选择、基于熵的不确定性采样主动学 习算法以及BvSB主动学习方法进行了性能比较.对3个光学图像集及1个SAR图像集分类 问题的实验结果显示,新方法能够有效地减少分类器训练时所需的人工标注样本的数 量,并获得较高的准确率和较好的鲁棒性.  相似文献   

14.
《软件工程师》2020,(1):7-11
命名实体识别是一项从非结构化大数据集中抽取有意义的实体的技术。命名实体识别技术有着非常广泛的应用,例如从轨道交通列车产生的海量运行控制日志中抽取日期、列车、站台等实体信息进行进阶数据分析。近年来,基于学习的方法成为主流,然而这些算法严重依赖人工标注,训练集较小时会出现过拟合现象,无法达到预期的泛化效果。针对以上问题,本文提出了一种基于强化学习的协同训练框架,在少量标注数据的情况下,无须人工参与,利用大量无标注数据自动提升模型性能。在两种不同领域的语料上进行实验,模型F1值均提升10%,证明了本文方法的有效性和通用性。同时,与传统的协同训练方法进行对比,本文方法F1值高于其他方法5%,实验结果表明本文方法更加智能。  相似文献   

15.
针对电网调度监控系统不能及时发现系统故障,提出了基于DSP的智能电网自动调度实时监控系统.以DSP芯片和以太网为基础构建系统,采用光耦隔离电路设计开关量,并提出功能扩展模块和子模块设计方案使系统更具适应性.实验结果表明,该系统能快速地处理数据信息,有效监控自动化系统的安全稳定运行,可协助值班人员快速找出故障,缩短处理时...  相似文献   

16.
对于建立动态贝叶斯网络(DBN)分类模型时,带有类标注样本数据集获得困难的问题,提出一种基于EM和分类损失的半监督主动DBN学习算法.半监督学习中的EM算法可以有效利用未标注样本数据来学习DBN分类模型,但是由于迭代过程中易于加入错误的样本分类信息而影响模型的准确性.基于分类损失的主动学习借鉴到EM学习中,可以自主选择有用的未标注样本来请求用户标注,当把这些样本加入训练集后能够最大程度减少模型对未标注样本分类的不确定性.实验表明,该算法能够显著提高DBN学习器的效率和性能,并快速收敛于预定的分类精度.  相似文献   

17.
问题分类旨在对问题的类型进行自动分类,该任务是问答系统研究的一项基本任务。提出了一种基于答案辅助的半监督问题分类方法。首先,将答案特征结合问题特征一起实现样本表示;然后,利用标签传播方法对已标注问题训练分类器,自动标注未标注问题的类别;最后,将初始标注的问题和自动标注的问题合并作为训练样本,利用最大熵模型对问题的测试文本进行分类。实验结果表明,本文提出的基于答案辅助的半监督分类方法能够充分利用未标注样本提升性能,明显优于其他的基准方法。  相似文献   

18.
三维模型语义自动标注的目标是自动给出最适合描述模型的标注词集合,是基于文本的三维模型检索的重要环节。语义鸿沟的存在使得相似匹配技术得到的标注效果有待提高。为了在用户提供的有限模型数量和对应的标注词信息下,在自动标注过程中利用大量的未标注样本改善三维模型的标注性能,提出了一种半监督测度学习方法完成三维模型语义自动标注。该方法首先使用基于图的半监督学习方法扩展已标注模型集合,并给出扩展集合中语义标签表征模型的语义置信度,使用改进的相关成分分析方法学习马氏距离度量,依据学习到的距离和语义置信度形成多语义标注策略。在PSB(Princeton Shape Benchmark)数据集上的测试表明,该方法利用了大量未标注样本参与标注过程,取得了比较好的标注效果。  相似文献   

19.
各公司在信息化的过程中会有大大小小的各种应用系统,为了监控这些应用系统,就需要产生大量的日志信息来反映系统状态.为了集中定义并管理这些日志信息,需要有一个日志系统的设计方案,它能集中管理公司各类应用系统的日志,进而帮助统一监控公司内运行的各种应用系统.  相似文献   

20.
本文依据电力调度实际运行情况和业务知识需求,考虑智能电网发展趋势,提出了利用数据挖掘技术建设智能电网调度运行分析系统的解决方案,讨论了调度运行业务分析系统的体系结构和数据挖掘模型,并说明了调度运行业务信息分析实例和系统实现技术。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号