首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 671 毫秒
1.
基于自扩展与最大熵的领域实体关系自动抽取   总被引:2,自引:2,他引:0  
实体关系自动获取是信息抽取的难题之一。本文提出自扩展算法和最大熵机器学习算法相结合的方法,以旅游领域为研究对象进行实体关系的自动抽取。首先利用自扩展算法自动获取能体现实体对间大类关系的语义词汇,该词汇作为特征加入最大熵机器学习算法的特征集,并设定阈值实现训练语料的自动标注;然后使用最大熵机器学习算法对训练语料进行学习,构建实体关系抽取的分类器,实现实体关系的自动获取。在收集600篇旅游领域语料的基础上进行实验,4大类实体关系的抽取获得了较好的结果,其中地理位置关系和时节关系的F值分别为82.56%和81.17%。实验结果表明:在人工干预较少的情况下,加入实体对间的语义词汇能有效提高抽取效果。  相似文献   

2.
基于有监督的虚假评论检测方法受限于标注语料的规模,为了更好地利用未标注评论数据来提高分类器的正确率和泛化能力,本文提出一种基于半监督主动学习的虚假评论检测方法.首先,定义并提取评论内容特征以及评论者行为特征,结合这两类特征来对虚假评论进行检测.然后,采用基于熵的主动学习算法选择对学习最有帮助的评论样本,获得其类别标注,将其合并到基于Tri-training的半监督学习算法的训练集中,利用大量未标注评论数据进行学习,提升分类器性能.最后,在领域评论数据集上进行实验,结果表明,将半监督学习与主动学习相结合,能够更有效的利用未标注评论数据,从而有效地提高虚假评论检测的效果.  相似文献   

3.
癫痫病相关论文缺乏命名实体识别和关系抽取任务的标注数据,命名实体识别和关系抽取模型无法用常规方法训练。为解决该问题,针对癫痫病相关论文的数据特点,改进了命名实体识别和关系抽取模型,提出利用相近领域的医疗数据和预训练模型构建零资源癫痫病领域命名实体识别和关系抽取模型。评估了现有无监督和半监督模型在癫痫病领域论文数据集上的性能,并针对数据集特征引入域对抗网络和关系判别器,有效地提高了命名实体识别和关系抽取模型的性能。将癫痫患者的脑电特征以视觉模态嵌入知识图谱中,在提高脑电分析可解释性的同时,构建了更加直观的多模态知识图谱。  相似文献   

4.
针对Distant Supervision关系抽取方法训练语料存在大量噪声的问题,提出一种基于主题模型的噪声标注识别方法。该方法首先分析了中文Distant Supervision实体关系抽取方法面临的关系句子实例结构复杂的问题,然后利用自定义的模式以及模式聚类实现模式表示与聚合,最后使用主题模型识别噪声标注。实验结果表明,文章方法能有效识别噪声标注,用滤除噪声标注后的数据训练实体关系抽取模型,实验证明经过噪声滤除后实体关系抽取性能得到显著改善。  相似文献   

5.
基于半监督学习的蛋白质关系抽取研究   总被引:2,自引:2,他引:0  
使用半监督学习方法中的自训练、协同训练方法,利用少量已标注样本和大量未标注样本来完成蛋白质关系抽取的任务.首先使用基于词特征的SVM(support vector machine)模型进行自训练,然后使用基于词特征的SVM模型和基于依存树特征的SVM模型进行协同训练.通过对4个语料的实验,验证了自训练及协同训练方法在蛋白质关系抽取领域中的应用效果.相比于自训练,协同训练可以通过两个相对独立的视图相互补充、相互学习,进而可以有效利用未标注数据.  相似文献   

6.
&#  &#  &#  &#  &# 《西华大学学报(自然科学版)》2015,34(6):53-57
为提高网络入侵检测的分类效率,提出一种结合主动学习和半监督学习的入侵检测算法。结合入侵检测实际,对主动学习算法进行简化,用有标记样本训练生成2个分类器,实现对未标记样本的预测;将2个分类器预测不一致的未标记样本作为信息量丰富的样本,使用半监督学习算法进行标记;最后, 把新增加的新标记样本添加到主动学习和半监督学习的训练集中,训练各自分类器, 反复迭代直到未标记样本集为空, 并用最新的有标记样本集训练形成最终的分类器。使用KDD CUP 99数据集进行入侵检测实验,其结果表明,与SVM方法相比,其分类率提高了4.3%,且较好地缩减了问题规模。    相似文献   

7.
为了明确大气污染物、污染源、影响因素、评价指标、危害等之间的关系,分析大气污染传播路径,建立了一个较为清晰、完善的大气污染领域本体.首先,基于机器学习和自然语言处理等技术,提出一种基于注意力机制的序列标注联合抽取实体关系的方法,在双向长短时记忆(long short-term memory,LSTM)网络模型中加入注意力机制,并将实体和关系联合标注,从而进行实体关系抽取.其次,结合词频-逆文档频率(term frequency-inverse document frequency,TF-IDF)核心概念挖掘方法进行知识抽取,并将概念、属性、关系和实例组织起来,从而实现大气污染本体模型的半自动构建.最后,在本体和实例的基础上通过Protégé的SPARQL Query模块和HermiT推理机分别进行条件推理和可视化推理.结果表明,基于注意力机制的序列标注实体关系联合抽取方法所构建的大气污染领域本体包含核心实体68个,实例数360个,相较于现有的本领域本体,在全面性、有效性、准确性和可重用性方面都有较好表现,同时推理出了Ca2+和K+等污染离子的传播路径.因此,基于注意力机制的序列标注联合抽取实体关系的方法能够有效地半自动构建大气污染领域本体,推理出清晰的大气污染传播路径.  相似文献   

8.
远监督作为一种能够快速大量产生标注数据的技术,在关系抽取任务中的应用愈加广泛,但仍存在文本特征提取不足、包内噪声过多等问题.对此,提出了一种基于高速多核网络的远监督关系抽取方法.首先通过高速网络和多核卷积对句子特征进行深层提取;然后采用包内注意力机制提高包内正确标注的句子权重,降低包内噪声,实现包级向量化;使用包间注意力机制降低包间噪声,得到组级向量化;最后,将组作为训练样本训练分类器,实现关系抽取.实验结果表明,该方法比现有方法具有更好的关系抽取性能.  相似文献   

9.
针对材料领域没有适合材料实体关系抽取技术研究工作的公开数据集这一问题,通过研究高硅铝合金喷射沉积文献提出铝硅合金实体关系抽取数据集的构建方法. 在材料领域专家的指导下制定铝硅合金实体关系抽取数据集的构建标准,并根据构建标准对收集的数据进行实体标注和关系标注. 在标注完成后,通过数据预处理生成铝硅合金实体关系抽取数据集. 通过实体关系联合抽取模型进行实验,验证该数据集可以应用于实体关系抽取任务. 与公开数据集相比,材料数据集句子的语义和语法更为复杂,长句更多,导致实体关系联合抽取模型在材料数据集上的表现略差. 针对上述问题,在实体关系联合抽取模型上加入自注意力机制,使该模型整体的F1值提高了约5.8%. 该数据集的构建方法具有普适性,可以通过该构建方法构建材料数据集.  相似文献   

10.
针对Web图像标注问题,提出一种基于深度半监督跨模态学习的Web图像标注方法。该方法引入了堆栈式自编码网络(SAE)作为整体训练框架中的基分类器,首先,在有标签数据集上分别基于图像和文本训练得到各自的分类器,接着,通过多模态融合方法对图像和文本分类器进行融合得到一个多模态分类器,并利用该分类器预测出无标签的样本数据的类别标签,最后,将预测标签加入到原始数据集中,共同基于图像进行训练,得到一个单模态图像分类器,该分类器能够预测不含任何其它模态信息的单一图片数据的语义。实验结果表明,该方法有效地提高了图像标注效果且优于传统图像标注方法。  相似文献   

11.
针对评分数据的稀疏性制约协同过滤推荐性能的情况,提出一种新的相似性度量方法。首先,定义了用户的模糊信息熵以反映用户评分偏好的不确定程度;其次,利用两两用户的模糊互信息衡量用户之间的相似程度;最后,同时考虑用户之间的模糊互信息和用户的模糊信息熵,并设计一种基于模糊信息熵的相似性度量方法以计算用户之间的相似性。在两个公开数据集上的试验结果表明:基于模糊信息熵的相似性度量方法能够降低数据稀疏性的影响,并能显著提高推荐系统的推荐性能。  相似文献   

12.
以Shannon信息论为基础,详细分析了测量过程的物理机制和被测量与测量结果的映射关系,建立被测量、测量误差和测量结果的信息论数学模型。研究了用信息集合和信息熵模型表征测量数据不确定度、被测量值和测量结果的方法,以及被测量信息熵、测量误差熵和测量结果信息熵的内涵、相互关系和求解方法。并推导了典型分布下传统的不确定度理论中的不确定度、置信系数与测量信息论中信息熵的数学关系,为从传统不确定度理论到测量信息论的数据处理方法过渡做了一些前期预研。  相似文献   

13.
提出了一种基于改进的邻域粗糙集与概率神经网络的水电机组振动故障诊断方法.该方法将邻域粗糙集中的近似精度与信息论观点中的条件熵结合,提出近似条件熵的属性约简算法,减少故障冗余信息,得到最优决策表,并将得到的最优决策表作为概率神经网络(PNN)的训练样本,提高了PNN的训练速度和诊断效率,通过实验证明了所述方法的可行性和有效性.  相似文献   

14.
基于最大信息熵原理的居民出行分布模型   总被引:4,自引:2,他引:4  
为寻求居民出行分布的普适性模型,引入最大信息熵原理,据此建立了居民出行分布的熵模型。并通过改变约束条件推导出了居民出行分布中常见的几种模型。鉴于最大信息熵模型中参数标定比较困难,提出了确定系统分布的熵方法。实验验证表明这种方法简单可行,是对最大信息熵原理的扩充。本文的研究成果可以用于居民出行分布及其相关问题的研究。  相似文献   

15.
熵技术分析法及其在经济决策分析中的应用   总被引:4,自引:0,他引:4  
给出用分析熵值的大小预测状态的方法,由信息数量函数的定义引出熵-平均信息量的概念,并且特别指出熵与数学期望的不同。前者是非负的,且仅与概率有关而与信源(随机变量)的取值无关。介绍极大熵准则及其在实际问题中的应用。  相似文献   

16.
基于信息熵的水下航行器灰色评估方法研究   总被引:2,自引:0,他引:2  
利用信息熵具有客观性、确定性的良好特性,应用灰色聚类评估方法,结合水下航行器系统的自身特点,提出了基于信息熵的水下航行器灰色评估方法,解决了水下航行器传统评估方法中主观因素的干扰问题,提高了评估方法的客观性和可信性,为水下航行器系统的效能评估研究提供了一种新方法。采用该方法对水下航行器3种型号实例系统进行了应用分析,结果表明,该方法正确、可行,解决了存在的问题。可用于水下航行器系统的发展论证及实际应用,为水下航行器系统的设计、研发和使用提供了科学的理论决策依据。  相似文献   

17.
运用熵权模糊评判的方法对战时复杂环境下的器材调运方案进行评价,得出备选方案的合理优劣次序。首先建立评价问题的指标体系,采用熵权法得出评价指标体系的熵权;然后运用模糊理论得出所求问题的结论;最后通过实例对该方法的可行性和实用性进行了说明。  相似文献   

18.
为了有效的提高多个传感器的图像融合精度,该文提出了基于Haar小波变换的图像融合方法,首先分析了小波变换中不同频率分量对图像融合精度的影响,然后详细探讨了高频分量系数的确定方法。选取信息熵作为图像融合算法性能的评价指标,通过仿真实验定量分析了高频分量系数对图像融合精度的影响,实验结果表明高频分量系数并非越大越好,应根据融合后的图像信息熵确定高频分量系数。  相似文献   

19.
针对K-means异常检测算法检测性能低的问题,提出了一种结合信息熵与改进K-means算法的异常检测算法。该算法均匀地选出密度大于数据集平均密度的数据对象作为初始聚类中心,避免了初始中心的随机选择。在此基础上,引入了信息熵确定属性权重的方法来计算簇中数据点与该簇聚类中心的加权欧氏距离,通过对比簇中数据点的加权欧氏距离与该簇中所有数据点的平均加权欧氏距离来进行异常检测。实验表明,改进算法具有更高的检测率和更低的误检率,应用于电力负荷数据时检测率达到了90. 5%,能够有效地检测出异常的负荷数据。  相似文献   

20.
基于熵权的建筑方案模糊优选模型   总被引:3,自引:0,他引:3  
以建筑工程的综合评价为基础,结合建筑工程的特点,分析和归纳了影响建筑工程方案优选的因素指标,提出了熵值理论与模糊建模相结合的项目评价方法,建立了基于熵权的模糊评价模型.引用信息熵所反映数据本身的效用值来计算指标的权重系数,有效地避免了权重分配困难的问题.并以某建筑工程为背景,基于专家经验对该项目方案进行了优选,取得了预期的结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号