首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
基于文本分块提出一种新的文本信息抽取技术,该技术利用文本的语义特征和结构特征,抽取具有特征的状态,以此结果为基础,进一步运用改进的隐马尔可夫模型,抽取剩余的无特征状态.对美国CMU大学CORA搜索引擎研制组提供的数据集中的100篇进行测试,结果显示精确度和召回率比基于单词和传统隐马尔可夫模型的方法都有所提高,并进一步提高了效率.  相似文献   

2.
基于条件随机域的Web信息抽取   总被引:1,自引:0,他引:1  
为了获取隐藏在Internet中的信息,基于条件随机域模型(CRF),提出了一种Web信息抽取的方法。该方法对网页样本中的每一行加注标签,确定文本特征,建立条件随机域模型,采用拟牛顿迭代方法对样本进行训练,参照学习得到的条件概率分布模型,实现网页搜索结果的抽取。与HMM模型相比,CRF模型支持网页文本的语言特征,抽取准确率高。实验结果表明,使用CRF模型的抽取准确率达到90%以上,高于使用HMM模型的抽取准确率。  相似文献   

3.
提出一种启发式的信息抽取算法, 并利用该算法建立一个信息抽取系统. 该系统基于文本分块, 利用文本的语义特征和结构特征, 抽取具有特征的状态, 在此基础上, 利用反向动态规划和正向A*算法, 抽取剩余的无特征状态. 通过对100篇论文头部进行测试的结果表明, 精确度和召回率比基于单词和传统Viterbi算法的方法均有所提高, 启发式算法的性能优于Viterbi算法.  相似文献   

4.
通过构造人物关系数据集,将人物关系定义为14类,提出了基于Bert-BiGRU-CNN的人物关系抽取网络模型.该模型首先通过Bert预训练模型获取上下文语义信息的词向量,利用双向门限循环单元网络(BiGRU)进一步获取相关的文本特征,然后加入卷积神经网络(CNN)获取局部文本特征,最后通过全连接层加Softmax分类器进行关系分类.在构造的人物关系数据集中进行了实验,结果表明,本文模型相较于其他4种模型进一步提高了人物关系抽取的精确率和召回率.  相似文献   

5.
基于统计的中文关键短语自动抽取   总被引:1,自引:0,他引:1  
用统计的方法从单文本中自动抽取关键短语。在实验中验证了频度、首位置作为特征的有效性。用各种方法过滤非法词串,综合短语位置和统计特征对候选短语进行权重计算,并依据关键短语分布规律选择关键短语。另外,通过分析关键短语分布特点为Ⅳ元短语在过滤、按比例选择方面提供了依据。获得了比较好的实验结果:TOP5精确率21.80%,召回率28.27%,F-measure25%;TOP10精确率17.10%,召回率44.50%,F-measure30.80%。  相似文献   

6.
为解决中文网页主题特征项抽取不精确的问题, 对中文网页的主题特征项抽取算法进行了研究。网页的主题特征项抽取是主题网络爬虫进行网页相关度计算的基础, 结合主题网页的二分类情况对目前常用的文本特征项加权方法TF-IDF(Term Frequency-Inverse Document Frequency)进行了改进, 在此基础上结合网页的半结构化特征, 综合考虑特征项的位置信息及其包含的信息量, 提出了一种线性特征项加权计算方法。经实验验证, 该方法可有效提高主题网页的召回率和准确率。  相似文献   

7.
针对文本信息抽取中训练数据来源的多样化,不利于学习到最优的模型参数的问题,提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法. 新算法利用文本排版格式、分隔符等信息,对文本进行分块,在此基础上,通过对训练数据分成多个形式模板训练隐马尔可夫初始概率及转移概率参数,最后,结合统一训练的释放概率参数,对文本信息进行抽取. 实验结果表明,新算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能.  相似文献   

8.
董哲  王亚  马传孝  李志军 《科学技术与工程》2022,22(23):10162-10168
为解决食品安全领域关系抽取数据集体量小且关系种类复杂,普通网络模型无法充分进行特征学习的问题,提出了一种融合对抗训练(Adversarial Training)和胶囊网络(Capsule Network)的食品安全领域关系抽取模型GAL-CapsNet。该模型使用双向长短期记忆网络提取文本序列的全局特征,并通过胶囊网络的动态路由机制获取高层次的局部特征,具有较强的特征提取能力,同时在嵌入层加入对抗训练提升模型的鲁棒性,从而有效提高了关系抽取任务的效果。在本文所用的食品安全领域数据集上的实验结果显示:对比其他深度神经网络方法,GAL-CapsNet在关系抽取任务中的精确率、召回率和F1值均有明显提升,分别达到了85.91%、82.82%、84.33%,证明了模型在食品安全领域数据集上的有效性。  相似文献   

9.
随着"智能油田"的建设加快,构建基于海量石油数据的智能分析系统意义重大。然而,由于石油生产过程中产生的文本数据往往无结构且类型多样,从中抽取关键信息进行分析成为一个研究热点,而信息抽取又需要高质量的语义实体做支撑。根据这一特定问题,提出基于命名实体识别(Named Entity Recognition,NER)技术针对石油非结构化文本进行信息抽取,构建双向长短时记忆(Bidirectional Long Short-Term Memory,Bi LSTM)网络模型提取语料特征,并结合条件随机场(Conditional Random Field,CRF)做分类器,构建了基于Bi LSTM+CRF的高精度NER模型,针对石油工业领域的非结构化文本进行命名实体抽取。通过在修井作业文本数据集上进行对比实验表明,本方法具有较高的精确率和召回率。  相似文献   

10.
基于段长分布的隐含Markov模型(DDBHMM)可解决经典隐含Markov模型(HMM)的状态段长指数分布的问题,实现了基于凸性假设的搜索。为解决非齐次模型的搜索算法问题,提出采用混合Gauss分布来拟合非凸段长分布,用子状态拆分的方法来实现非凸段长分布DDBHMM识别算法。在音乐信号识别上的实验表明:该方法在召回率提高1.1%的情况下,使准确率提高约10%。该方法实现了非凸段长分布HMM的识别算法,并且对于其他非凸段长信号具有推广价值。  相似文献   

11.
针对传统Web信息抽取的隐马尔可夫模型对初值十分敏感和在实际应用中模型参数极易陷入局部最优的问题,提出了一种基于改进的粒子群优化算法的隐马尔可夫模型参数优化模型,用于Web信息抽取.以似然概率值作为适应度函数,使用改进的粒子群优化算法结合Baum-Welch算法对HMM模型参数进行全局优化,实现了Web页面信息的抽取.实验结果表明,该算法在精确率和时间等指标上与现有算法相比具有更好的性能.  相似文献   

12.
基于条件随机场的中文科研论文信息抽取   总被引:1,自引:1,他引:1  
科研论文头部信息和引文信息对基于域的论文检索、统计和引用分析是必不可少的.由于隐马尔可夫模型不能充分利用对抽取有用的上下文特征,因此文中提出了一种基于条件随机场的中文科研论文头部和引文信息抽取方法,该方法的关键在于模型参数估计和特征选择.实验中采用L-BFGS算法学习模型参数,并选择局部、版面、词典和状态转移4类特征作为模型特征集.在信息抽取时先利用分隔符、特定标识符等格式信息对文本进行分块,在分块基础上用条件随机场进行指定域的抽取.实验表明,该方法抽取性能明显优于基于隐马尔可夫模型的方法,且加入不同的特征集对抽取性能提升作用不同.  相似文献   

13.
典型隐马尔可夫模型对初始参数非常敏感,采用随机参数训练隐马尔可夫模型时常陷入局部最优,应用于W eb信息抽取时效果不佳.文中提出基于模拟退火算法与隐马尔可夫模型的W eb信息抽取算法.通过实验比较选择最佳的模拟退火算法参数,结合Baum-W elch算法优化隐马尔可夫模型并应用于W eb信息抽取.实验结果表明新算法在信息抽取的精确率和召回率都有明显的提高.  相似文献   

14.
实体关系抽取是信息抽取的重要组成部分.描述了一种融合多信息的实体语义关系抽取方法,充分利用中文的各种特征和信息来提高关系抽取的性能.该方法主要结合特征向量和树核函数两种方法;特征向量表示了文本的语言信息,树核方法表示了文本的结构化信息.并且在2005年的自主内容抽取(automatic content extraction,ACE)基准语料上进行关系检测和6个关系大类抽取的实验.实验结果表明,该方法能识别出大部分的非关系实例,各种关系类型识别的精确率和召回率也有一定提高.  相似文献   

15.
【目的】表格文档作为数据信息的主要载体,如何从海量表格中准确提取关键信息也是技术难点之一。【方法】现有的端到端方法和基于预训练模型的方法在训练过程中并未有效利用表格单元格的结构信息,影响了文本在模型中的向量表示,从而影响了最终的语义信息抽取精确率。故本文针对两类方法都存在的问题,提出了进一步利用单元格结构信息来改进OCR识别效果的端到端方法和增加单元格序列预测任务的预训练方法。【结果】实验结果表明,改进后的两种方法在表格语义信息抽取任务中取得了更好的效果,F1值分别提升了0.2046和0.0176。【结论】加强了单元格结构信息在表格中的重要性, 提高了表格语义信息抽取的精确率。  相似文献   

16.
对只能获得部分标记的训练文本,将主动学习方法应用到文本信息抽取中,提出了一种基于主动学习隐马尔可夫模型的文本信息抽取方法.在该方法中,通过主动学习,仅将对隐马尔可夫模型的训练最有价值的训练文本挑选出来进行标记.实验表明,通过选择模型信任值的最佳门槛值,该方法在保证文本信息抽取性能的前提下,大大减少了用户标记训练文本的工作量.  相似文献   

17.
基于隐马尔可夫模型人脸识别的研究   总被引:1,自引:1,他引:0  
提出了基于HMM的人脸识别方法.根据人脸的特点建立HMM模型,然后采用奇异值分解抽取观察序列.通过对观察向量的仿真结果表明,这种方法在提高识别率和缩短计算时间方面都有很大进步.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号