首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 312 毫秒
1.
一种新的基于线性EIV模型的鲁棒估计算法   总被引:2,自引:0,他引:2  
提出了一种新的基于线性EIV模型的鲁棒估计算法——鲁棒扩充算法.该算法从结构化数据区域出发,逐渐扩充模型数据集,并不断更新模型参数的估计,直至找到所有模型数据.在每次迭代中,使用C-Step方法对集合进行调整,从而保证了算法的鲁棒性.同时,提出了关于粗差数据和结构化数据分布的结构化密度假设,结合Mean Shift算法,完成对算法的初始位置选取.仿真结果表明,该算法可以有效地处理含有多个结构和大量离群样本的混杂数据,与现有算法相比,具有更强的鲁棒性和更高的精度.  相似文献   

2.
陈宏建  陈崚  罗家奇 《计算机工程》2006,32(17):115-117
提出了RAPWBN模型上的整数前缀和与抽取压缩操作算法,并由此得到了RAPWBN模型上的快速高效Hough变换并行算法,对于大小为n×n的二值数字图像,p个θ参数值。可以使用pn2个处理器在O(1)时间完成。使算法的速度和效率达到了最优。  相似文献   

3.
研究Web文档服务的准确性和快速性,网络信息抽取成为处理海量网络信息的重要手段,而大量异构信息的有效抽取是非常困难的,为了改进和提高系统对于海量异构网页信息的抽取查全率和查准率,提出了一种新的信息抽取的方法,算法利用了隐马尔可夫模型在处理规则知识上的优势对每个页面构建HTML树,并利用Shannon熵来定位数据域,再用Maxi-mum Likelihood方法实现隐马尔可夫模型的构建,实现对Web信息的抽取。仿真结果表明,通过对大量学术论文头部结构信息的抽取,应用算法可以使信息抽取在召回率和准确率方面有明显的提高。  相似文献   

4.
信息抽取技术用于从非结构化文本数据中提取关注度较高的信息。事件抽取技术是信息抽取研究领域中具有挑战的研究方向。事件抽取的目的是从非结构化文本数据中抽取描述事件的关键元素,并以结构化的方式呈现。事件抽取被看作序列标注任务,首先采用ALBERT预训练模型学习特征,其次引入条件随机场CRF模型提高序列标注性能,最后完成事件类型以及事件要素的识别分类。在ACE2005标准语料库上的实验结果表明,与现有模型相比,ALBERT-CRF模型在触发词识别和分类任务上的召回率和F值均有所提高。  相似文献   

5.
目前,对小规模数据集进行预测时,主要使用传统机器学习算法,但传统单一模型预测效果不能达到预期准确率,且无法兼顾多项评价指标。因此,文中以小规模数据集为研究对象,融合决策树、逻辑回归、支持向量机三类模型,提出了一种多模型融合算法,并分析了其在小规模数据集上的应用效果。首先,简述了决策树、逻辑回归和支持向量机的算法原理;其次,使用决策树、逻辑回归和支持向量机作为基学习器并完成单独训练,将各模型输出结果用于下一阶段模型输入,同时使用最大似然估计迭代优化参数,从而完成多模型融合过程;最后,对数据集进行分析和处理,通过实验与单一模型进行指标对比。实验结果表明,多模型融合算法在预测精确率、召回率、准确率等方面有明显提升。  相似文献   

6.
采用主动学习策略的组织机构名识别   总被引:6,自引:0,他引:6  
组织机构名等命名实体的识别是信息抽取、机器翻译等任务的重要基础.为了克服识别器训练过程中对标注数据的依赖。本文提出了一种基于主动学习的训练策略。改进了基本的最大熵模型的解码算法和训练过程,实验表明采用主动学习策略的最大熵模型训练算法能够有效减少标注数据的使用。  相似文献   

7.
针对传统智能化网络安全防攻击检测平台处理数据效率低、误差大等问题,本研究提出一种新型的解决方案;该方案数据抽取模型和大数据分析构建智能化网络安全防攻击检测平台,采用特征模板、卷积神经网络算法模型和条件随机场算法3种方法结合构建出数据抽取模型来抽取网络安全检测数据;其中,利用特征模板提取局部特征向量并进行语句转换得到初始局部向量序列,通过CNN算法对每个网络安全检测数据样本进行卷积和聚合,并提取其特征信息,将语义特征和局部特征相结合经过条件随机场算法进行序列标记,并抽取最优的特征向量序列,最后通过置信传播改进的逻辑回归模型进行分析;实验表明,本研究所提方案克服了现有技术存在的不足,显著提高了处理数据效率和精准度,在数据量为2GB的环境下,经过对数最大似然损失函数得出的损失值只有0.35.  相似文献   

8.
无监督关系抽取旨在从无标签的自然语言文本中抽取实体之间的语义关系。目前,基于变分自编码器(VAE)架构的无监督关系抽取模型通过重构损失提供监督信号来训练模型,这为完成无监督关系抽取任务提供了新思路。针对此类模型无法有效地理解上下文信息、依赖数据集归纳偏置的问题,提出基于Prompt学习的无监督关系抽取(PURE)模型,其中包括关系抽取和链接预测两个模块。在关系抽取模块中设计了上下文感知的Prompt模板函数以融入上下文信息,并将无监督关系抽取任务转换为掩码预测任务,从而充分利用预训练阶段获得的知识完成关系抽取。在链接预测模块中则通过预测关系三元组中的缺失实体提供监督信号联合训练两个模块。在两个公开真实关系抽取数据集上进行了大量实验,得到的结果表明PURE模型能有效利用上下文信息并且不依赖数据集归纳偏置,相较于目前最优的基于VAE架构的模型UREVA(Variational Autoencoder-based Unsupervised Relation Extraction model)在NYT数据集上的B-cubed F1指标上提升了3.3个百分点。  相似文献   

9.
罗佳  李萌 《软件》2024,(1):18-20
针对文本实体信息抽取优化问题,本文以租赁行业为研究对象,首先,使用爬虫技术对客户发布的信息进行爬取,采用BiLSTM-CRF算法对信息进行实体提取和处理,将处理后的信息存储在数据库中,构建App数据来源的数据层,再基于数据层的数据开发App应用层。开发的App应用层模块包括用户认证模块和主页模块。BiLSTM-CRF模型比LSTM和Bi LSTM在实体边界的识别率更高,模型准确率、召回率和F1值分别可以达到96.58%,88.94%,92.60%。  相似文献   

10.
信息抽取是从大量的数据中准确、快速地获取目标信息,提高信息的利用率。考虑网页数据的特点,提出一种适用于网页信息抽取改进的隐马尔科夫模型(HMM),即结合最大熵模型(ME)在特征知识表示方面的优势,在HMM模型中加入后向依赖,利用发射单元特征来调整模型参数。改进后的HMM状态转移概率和观察输出概率不仅依赖于模型的当前状态值,而且可以以模型的前向状态值和后向特征值加以修正。实验结果表明,使用改进后的HMM模型应用到网页信息抽取中,可以有效地提高网页信息抽取的质量。  相似文献   

11.
基于前后文n-gram模型的古汉语句子切分   总被引:5,自引:0,他引:5       下载免费PDF全文
提出了基于前后文n-gram模型的古汉语句子切分算法,该算法能够在数据稀疏的情况下,通过收集上下文信息,对切分位置进行比较准确的预测,从而较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响。采用《论语》对所提出的算法进行了句子切分实验,达到了81%的召回率和52%的准确率。  相似文献   

12.
一种改进的隐马尔可夫模型在语音识别中的应用   总被引:1,自引:0,他引:1  
提出了一种新的马尔可夫模型——异步隐马尔可夫模型.该模型针对噪音环境下语音识别过程中出现丢失帧的情况,通过增加新的隐藏时间标示变量Ck,估计出实际观察值对应的状态序列,实现对不规则或者不完整采样数据的建模.详细介绍了适合异步HMM的前后向算法以及用于训练的EM算法,并且对转移矩阵的计算进行了优化.最后通过实验仿真,分别使用经典HMM和异步HMM对相同的随机抽取帧的语音数据进行识别,识别结果显示在抽取帧相同情况下异步HMM比经典HMM的识别错误率低.  相似文献   

13.
声纹识别中,提出基于隐马尔可夫-通用背景模型的识别算法。针对声纹密码中每个人的注册语音数据量很少的问题,提出使用大量其他人数据先建立话者无关的声韵母隐马尔可夫模型作为通用背景模型,再根据最大后验概率准则,以通用背景模型为基础使用训练语音自适应获得说话人模型。该方法解决在声纹密码识别中训练数据不足的问题。在讯飞桌面数据库Ⅱ上,采用该算法的系统的等错误率为6。8%。  相似文献   

14.
针对发电机使用的非线性最优化问题,通过对用户耗电数据进行初步分析和处理后,应用普遍的分段思想以及最优化思想,建立了二次规划模型。运用最优化算法,使每个时间段使用的发电机数量最少,以达到提高效率、降低成本的目的。  相似文献   

15.
关键短语抽取,即从文档中抽取能够表达文档主题和内容的关键短语集合,对于信息检索和文档分类等文本处理任务具有重要意义。然而,现有文献缺乏针对中文特点的关键短语抽取算法的研究。为此,该文提出了一种半监督式中文关键短语抽取模型,该模型采用预训练语言模型来表征短语及文章,以减少算法对大量标注训练数据的依赖;进而提出图模型描述候选短语间的相似性空间并迭代计算各短语的重要度;同时结合了多项统计特征来进一步提高短语评估的准确率。对比实验表明,该文提出的方法在中文关键短语抽取方面比基线方法具有明显的提升效果。  相似文献   

16.
一种基于数据挖掘的入侵检测模型   总被引:4,自引:0,他引:4  
现有入侵检测系统不但误报率高,且实时性差,这是由于入侵检测需要处理大量数据,数据挖掘技术的优势在于能从大量数据中发现特征和模式,本文提出了一种基于数据挖掘的入侵检测系统模型,并研究了建模过程的几个算法。  相似文献   

17.
传统的文本信息抽取算法通常基于词典、规则或其他模型实现,但由于词典建立困难、规则设定模糊或模型结构单一等原因,信息抽取的准确性通常较低。针对传统的文本信息抽取算法存在的多种不足,提出一种基于混合模型的文本信息抽取算法。该算法融合了多种信息抽取方法,引入支持向量机对信息进行分类,利用S型函数拟合调整模型参数,并采用数据平滑技术优化模型概率空间。实验结果表明,与传统的文本信息抽取算法相比,该算法信息抽取的精确度和召回率明显提高,具有较好的可行性。  相似文献   

18.
在模式挖掘应用于智能化方法过程中,为了提高数据变化模式的准确性和可用性,以FC闭包模型为基础,对专家界定的领域影响因子进行逻辑转化,采用距离均方差算法以时间序列为基础处理原始数据,并利用激巨判定函数摒弃无效元素,降低数据维度,完成数据准备。选定恰当可行的数学模型进行时序数据拟合,借鉴分类分析法的思想,引入CCM-ECM模型表达最终挖掘结果,完成时序下模式挖掘模型(TODM)设计,同时为该模型的置信度计算和自适应调整提出一套较为科学的计算方法,以此达到深度挖掘数据内部潜在规律,提高数据变化模式的高精细化描述程度的目的。最后结合油井施工作业过程,利用TODM模型实现了油井施工作业后模式挖掘系统的设计。  相似文献   

19.
郭彬  李喆  耿蓉 《计算机科学》2007,34(7):20-23
针对无线传感器网络的节能以及能耗均衡问题,本文提出了一种无线传感器网络混合路由网络模型,将平面路由和层次路由有机地结合在一起,在数据获取阶段采用层次路由,而在数据传输过程中使用平面路由。同时,论文提出了一种基于该模型的动态成簇自适应路由算法HDAR(Hybrid Dynamic Adaptive Routing algorithm)。在算法中设计了基于现场数据的动态成簇机制来完成数据的收集,使用自适应的路由选择算法将数据传输回Sink节点。仿真结果表明HDAR协议在节能和能耗均衡方面达到了良好的效果。  相似文献   

20.
针对海量微博信息,提出一种多步骤的热词抽取方法.首先,选择用户行为特性、微博信息的文本特征构建用户行为模型,并在此基础上提出一种基于规则的话题树生成过滤算法,筛除了微博中大量无关信息,进而对生成的话题树修剪优化;然后,根据话题树的节点内容,使用词频及其波动特性设计热词抽取算法,获取微博的热词信息.实验数据表明,该方法能大大减小输入的数据规模,同时较好的保留重要信息,有效实现热词抽取.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号