首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
基于自扩展与最大熵的领域实体关系自动抽取   总被引:2,自引:2,他引:0  
实体关系自动获取是信息抽取的难题之一。本文提出自扩展算法和最大熵机器学习算法相结合的方法,以旅游领域为研究对象进行实体关系的自动抽取。首先利用自扩展算法自动获取能体现实体对间大类关系的语义词汇,该词汇作为特征加入最大熵机器学习算法的特征集,并设定阈值实现训练语料的自动标注;然后使用最大熵机器学习算法对训练语料进行学习,构建实体关系抽取的分类器,实现实体关系的自动获取。在收集600篇旅游领域语料的基础上进行实验,4大类实体关系的抽取获得了较好的结果,其中地理位置关系和时节关系的F值分别为82.56%和81.17%。实验结果表明:在人工干预较少的情况下,加入实体对间的语义词汇能有效提高抽取效果。  相似文献   

2.
为缓解远监督关系抽取中的假阳性问题并进一步提高关系抽取的准确率和召回率,提出基于实体对弱约束的远监督关系抽取模型。首先,从知识库和文本中获取实体对的约束信息,约束信息由实体对关键词和实体类型两部分组成;然后,通过训练神经网络模型自动获取不同关系所对应的实体对约束信息的特征;最后,将这些特征用作弱约束联合语句特征一起进行关系预测。在对比实验中,基于实体对弱约束的模型达到了更高的准确率和召回率,表明了实体对弱约束能有效缓解假阳性问题、加强关系抽取。  相似文献   

3.
军事实体关系抽取是军事信息抽取的主要任务之一,目的在于识别非结构化军事文本中两个命名实体的关系类别.传统的军事关系抽取方法难以解决人工特征不充分、军事领域中文分词不准确以及未能充分利用句子间的实体关系特征等问题.因此,提出了一种融合预训练语言模型(BERT)和注意力机制的军事关系识别方法.该方法能够有效学习上下文语义特...  相似文献   

4.
针对自然语言处理中的中文命名实体消歧问题,提出一种基于异构知识库的层次聚类方法。利用中文信息抽取系统对中文维基百科等知识库进行抽取,形成包含人物信息、实体关系的实体信息对象,并在Hadoop平台上用分布式计算进行层次聚类,研究人物实体特征的选取和维基百科等知识库的使用对命名实体消歧结果的影响。结果表明加入百科知识库后,F值从91.33%增加到了92.68%。  相似文献   

5.
为了对半结构化文本实现自动抽取信息.介绍了一种基于Boosting算法的信息抽取方法,它能够自动对一个训练例生成规则,将该规则应用于正例集并改变正例集权重分布,找到权重最大的正例生成下一条规则.给出了一种能描述不符合英文词法的词的模式匹配约束.试验表明:在特征简单的抽取规则学习中,该方法精确度与召回率可达100%.在特征比较复杂的抽取规则学习中,该方法F1评估值也能达到80%以上.  相似文献   

6.
介绍了关键词抽取的相关工作,并对基于TFIDF的关键词抽取算法进行了分析。结合词语在文本中的分布均衡程度和首次出现位置等特征,提出了一种改进的TFIDF算法,并给出了相应的计算公式。在文档数量和文档平均长度不同的3个语料上进行了对比实验。实验结果表明,结合词语分布信息的TFIDF关键词抽取方法是可行和有效的。  相似文献   

7.
关系抽取作为信息抽取领域近年来的研究热点,从宏观上可具体分为基于流水线的关系抽取、联合抽取和远程监督等,其中各个类别的关键性问题并不相通。近年来深度神经网络因其强大的语义表征能力,逐渐取代传统的机器学习成为关系抽取的基本模型,又可根据抽取方法细分为基于特征、卷积神经网络和注意机制模型等的关系抽取任务。随着数据规模的不断增大,自动高效地从文本中抽取结构化信息并构建知识库具有重大意义,关系抽取的研究和发展更具有必要性。文章对深度学习模型在各类关系抽取任务中的应用进行系统性评述,先主要介绍了常用的语料集及其规模、构建方式等;然后介绍深度神经网络在基于流水线的关系抽取和联合抽取任务中的具体应用,并描述两类任务的重难点问题。最后,文章认为迁移学习和小样本学习在基于深度神经网络的关系抽取研究中更具挑战性和普遍性。  相似文献   

8.
针对现有文档数据抽取方法无法抽取多值属性且灵活性不高的问题,提出了一种面向非结构化表格文档的数据抽取方法与组织模型.在分析文档结构特征和数据流特征的基础上,定义了数据流生成基本规则,给出了一个基于规则的数据抽取流程,包括逻辑结构抽取、文档预处理、数据抽取和数据组织等主要步骤,设计实现了单值区域与多值区域数据抽取算法;从文档中抽取的数据被组织成适合于MapReduce分析的结构化数据模型,该模型能够为大数据分析提供模型支持.实验结果表明:该抽取方法具有较高的准确率与召回率,数据组织模型也能够有效地支持大数据分析.  相似文献   

9.
词的重要性评价是关键词抽取研究中比较重要的环节,其中一种比较常用的方法是对词的相关属性进行加权分析,并根据综合权值确定重要性程度.词所处的位置、词频、词性以及与线索词的同现信息等都是影响关键词抽取的重要因素.本文首先对可能影响关键词抽取的因素进行了探讨和分析,而后利用遗传算法对各个知识源参数进行了优化.在人工标注的语料上进行的测试结果验证了该方法的可行性.  相似文献   

10.
针对现有网络论坛信息抽取的不足,提出了一种基于重复模式发现算法的论坛信息抽取方法.该方法首先利用SgmlReader解析器将HTML文档转换为格式规范的XHTML文档,然后通过计算XHTML文档结构中DOM子树相似度,自动发现论坛页面结构的重复模式.该方法通过自动定位重复模式进行论坛信息抽取,较好地解决了在论坛信息抽取过程中需要人工查找、定位重复模式或者通过人工分析论坛页面代码定制抽取规则的问题.试验结果表明,该方法具有较好的准确性、通用性和实用性.  相似文献   

11.
针对LSTM网络进行主题词提取时因没有考虑中心词的下文对主题词的影响而导致提取准确率低的问题,提出了一种双向LSTM引入Attention机制模型(Att-iBi-LSTM)的主题词提取方法。首先利用LSTM模型将中心词的上文和下文信息在两个方向上建模;然后在双向LSTM模型中引入注意力机制,为影响力更高的特征分配更高的权重;最后利用softmax层将文档中的词分为主题词或非主题词。并且还提出了一种两阶段模型训练方法,即在自动标注的训练集上进行预训练之后,再利用人工标注数据集训练模型。实验在体育、娱乐和科技3种新闻文本上进行主题词提取任务,实验结果表明本文提出的Att-iBi-LSTM模型与SVM、TextRank和LSTM相比F1值分别提高了13.78%、24.31%和3.32%,使用两阶段训练方法的Att-iBi-LSTM比一阶段训练的F1值提高了1.56%。  相似文献   

12.
信息粒度原理是一种从多个角度来精确描述对象的物理学方法。本文将信息粒度的原理应用到垃圾邮件的过滤中,提出了一种基于信息粒度原理的垃圾邮件过滤方法。通过对原始样本空间更精细的划分来实现对邮件类别的更准确描述。本文在Ling-Spam语料库上进行了试验,结果表明,新方法具有较高的分类精度和良好的处理速度。  相似文献   

13.
Termextractionis ani mportant problemin nat-ural language processing.The goal istoextract sets ofwords with exact meaning in a collection of text[1].Automatic term extraction can be used in machinetranslation,automatic indexing,information retrievaland bu…  相似文献   

14.
基于贝叶斯算法的垃圾邮件过滤技术   总被引:8,自引:0,他引:8  
对基于朴素贝叶斯算法的垃圾邮件过滤技术进行了研究分析和实验验证.介绍了向量空间模型(VSM)方法以及特征向量抽取方法,推导和研究了引入“特征之间互相独立”假设的朴素贝叶斯分类算法.采用K次交叉验证的方法,以收集的一些邮件为语料,应用朴素贝叶斯分类算法,通过训练集计算得到类别的先验概率和特征项的类条件概率,并以此为基础对测试集中的邮件进行归属判断,以正确率和召回率为指标给出了实验结果.  相似文献   

15.

基于主成分分析的厚板电子束焊缝超声相控阵

扇形扫描图像特征提取

刚铁1,栾亦琳2,张弛1

(1.哈尔滨工业大学 先进焊接与连接国家重点实验室,哈尔滨 150001;

2.黑龙江科技大学 材料科学与工程学院,哈尔滨 150022)

摘 要:

为解决缺陷识别模型训练时高维数据引起的耗时巨大问题,提出一种基于主成分分析的特征提取算法。从Ti-6Al-4V厚板电子束焊缝超声相控阵扇形扫描图像中提取出7个特征值,代表了原始数据87.3%的信息量。将提取的特征值和原始数据均用于训练支持向量机缺陷识别模型,从缺陷识别准确性和训练时间两个方面评价特征提取算法的有效性。结果表明,采用特征值训练的缺陷识别模型,气孔、裂纹、未熔合和未焊透的识别率分别为93%、 90.7%、94.7% 和 89.3%,略高于采用原始数据训练的模型。采用特征值的模型训练时间相比于采用原始数据的模型训练时间大大降低了。

关键词:电子束焊缝;超声相控阵;扇形扫描图像;特征提取;主成分分析

  相似文献   

16.
针对未知恶意代码数量急剧增长,现有的检测方法不能有效检测的问题,提出一种基于属性相似度的恶意代码检测方法.该方法将样本文件转换成十六进制格式,提取样本文件的所有n-gram,计算每个n-gram的信息增益,并选择具有最大信息增益的N个n-gram作为特征属性,分别计算恶意代码和正常文件每一维属性的平均值,通过比较待测样本属性与恶意代码和正常文件两类别属性均值的相似度来判断待测样本类别.结果表明,该方法对未知恶意代码的检测性能优于基于n-gram的恶意代码检测方法.  相似文献   

17.
为解决广播自动识别问题,提出一种基于凝聚式层次聚类的调频广播自动识别方法。利用无线电监测设备获取正常广播和黑广播的音频数据,将音频数据转写成文本,对文本数据进行分析处理,计算文本数据的特征权重,构建向量空间模型并进行文本层次聚类分析。将各类文本提取关键词,作为识别广播属性和话题类别的初始语料库,同时在自动识别过程中,将属性未知的广播经过人工确认后进行关键词提取,进一步更新初始语料库。实测数据表明,该方法能够有效地识别出广播的属性和类别,可为相关无线电管理机构提供服务。  相似文献   

18.
关键词提取是中文信息处理的一个关键环节。提出一种关键词自动提取的有效方法,首先对普通词典进行了扩充,在普通词典的基础上结合大量的训练样本对词典进行训练得到一个带有TFxIDF值和互信息的优化词典。然后在此词典上按段落进行切词,对切词结果集根据词频、权重、同现关系和互信息排序后筛选出候选关键词。最后根据候选词的上位词和下位词进行词汇合并,设定一个阀值,取出其中的n个词作为文章的关键词。通过小数据测试样本集的抽取实验结果表明,文中方法在一定程度上能够提高关键词提取的正确率,得到了较为满意的效果.  相似文献   

19.
基于建筑物的OAR模型,建立一种在单视角高分辨率航空影像中自动提取高层建筑物的策略.以建筑物垂直边缘为关键属性,结合窗户纹理和屋顶轮廓直线段属性及它们之间的关系,综合推理出建筑物的位置.实验结果表明,该方法能有效实现高层建筑物的自动提取.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号