排序方式: 共有43条查询结果,搜索用时 15 毫秒
1.
在关系抽取中,神经网络模型是目前最常用的技术之一,然而现有神经网络模型很少考虑句子中两个实体之间的结构特征。该文针对关系抽取任务的特点,提出了基于神经网络模型的句子结构获取方法。该方法通过对关系实例中两个实体的位置进行特殊标记,使神经网络模型能够有效捕获句子中关于实体的结构信息。为了验证方法的有效性,分别采用两种主流的神经网络模型进行对比实验,实验结果表明,该方法在ACE 2005中文关系抽取数据集上的抽取性能得到显著提升,超出对比工作约11个百分点,表明该方法能有效提升关系抽取任务的性能。 相似文献
2.
为解决谓语中心词识别中的唯一性问题,提出一种基于回归模型的谓语中心词识别模型,使用回归网络与神经网络结合直接输出预测的谓语中心词结束位置与开始位置。对数据集进行预训练,利用BILSTM层捕捉句子上下文的信息,通过卷积神经网络对句子中的特征进行进一步提取,使用多元线性回归层对特征进行线性回归计算,预测唯一谓语中心词的位置,训练过程中不断修正预测值与真实值的距离。使用中国判决网上获取的判决文书作为数据集进行唯一谓语中心词识别的实验,结果达到了82.99%的F值评分,验证了该模型的可行性和有效性。 相似文献
3.
为改进传统特征方法很难获取中文句子中结构信息的问题,提出一种基于深度神经网络的句法要素识别模型。采用Bi-LSTM网络从原始数据中自动抽取句子中的结构信息和语义信息,利用Attention机制自动计算抽象语义特征的分类权重,通过CRF层对输出标签进行约束,输出最优的标注序列。经过对比验证,该模型能有效识别句子中的句法要素,在标注数据集上F1达到84.85%。 相似文献
4.
针对传统的动态文本聚类将描述方式不同的同类文本划分到不同组中;以及聚类类别个数与真实类别数之间差距明显等问题,该文提出了一种半监督语义动态文本聚类算法(SDCS)。该算法以语义表征文本的方式来捕获文本间的语义关系,在聚类过程中动态学习类别语义,让文本能根据语义准确聚类。同时该算法利用半监督聚类的方法对新类的产生进行监督,学习符合实际情况的聚类结果。实验结果表明该文提出的算法是有效可行的。 相似文献
5.
在狄利克雷多项回归(dirichlet-multinomial regression, DMR)模型的基础上,提出一个长文本辅助短文本理解的二元狄利克雷多项回归(dual dirichlet-multinomial regression, DDMR)模型。来自不同数据源的长短文本共享一个主题集合,并采用不同的狄利克雷先验产生长短文本的主题分配,使得长文本的主题知识能够迁移到短文本中,改善短文本的理解。试验表明,DDMR模型在短文本的主题发现效果上具有较大的提升作用。 相似文献
6.
针对现有命名实体识别方法存在的语义信息获取不全面问题,提出基于Affix-Attention的命名实体识别语义补充方法。将句子和句子中每个单词对应的词缀输入到编码层,使用Bi-LSTM提取上下文特征。在编码层设计特征融合模块、建模文本特征与词缀特征的对应关系,使用Affix-Attention同时关注文本信息和词缀信息进行语义补充。解码层使用CRF层得到目标序列。在生物医学领域的JNLPBA-2004和BC2GM基准数据集上的试验结果综合评价指标F1达到81.73%、84.73%;在公共数据集CONLL-2003中试验结果综合评价指标F1达到91.35%。试验结果表明,本研究方法能够有效获取词的内部语义特征,融合文本信息和词缀信息,达到语义补充的效果,提升命名实体识别的性能。 相似文献
7.
8.
为了解决短文本数据流的动态聚类问题,提出动态的狄利克雷多项混合(dynamic Dirichlet multinomial mixture,DDMM)模型。模型能够很好地捕获短文本数据流中主题随时间变化而变化的动态过程,同时考虑到已有历史主题和新主题之间的关系,能够对主题继承性的强弱进行调整,从而增大新主题产生的可能。在Gibbs采样过程中,能够自动估算出聚类个数。模拟数据和真实数据上的试验表明,DDMM模型是有效的。同时将提出的方法和传统动态聚类方法进行对比,结果表明DDMM模型能够进行有效的文本动态聚类,并且聚类效果表现良好。 相似文献
9.
针对司法领域标记数据匮乏、标注质量不高、存在强逻辑性导致裁判文书量刑情节识别效果不佳的问题,提出一种基于反绎学习的量刑情节识别模型ABL-CON。首先结合神经网络与领域逻辑推理,通过半监督学习方法,使用置信学习方法表征情节识别置信度;然后修正无标签数据经过神经网络产生的不合逻辑的错误情节,重新训练识别模型,以提高识别精度。在自构建的司法数据集上的实验结果表明,使用50%标注数据与50%无标注数据的ABL-CON模型在Macro_F1值和Micro_F1值上分别达到了90.35%和90.58%,优于同样条件下的BERT和SS-ABL,也超越了使用100%标注数据的BERT模型。ABL-CON模型通过逻辑反绎修正不符合逻辑的标签能够有效提高标签的逻辑合理性以及标签的识别能力。 相似文献
10.
随着文本数据来源渠道越来越丰富,面向多源文本数据进行主题挖掘已成为文本挖掘领域的研究重点。由于传统主题模型主要面向单源文本数据建模,直接应用于多源文本数据有较多的限制。针对该问题提出了基于狄利克雷多项分配(DMA)模型的多源文本主题挖掘模型——多源狄利克雷多项分配模型(MSDMA)。通过考虑主题在不同数据源的词分布的差异性,结合DMA模型的非参聚类性质,模型主要解决了如下三个问题:1)能够学习出同一个主题在不同数据源中特有的词分布形式;2)通过数据源之间共享主题空间和词项空间,使得数据源间可进行主题知识互补,提升对高噪声、低信息量的数据源的主题发现效果;3)能自主学习出每个数据源内的主题数量,不需要事先给定主题个数。最后通过在模拟数据集和真实数据集的实验结果表明,所提模型比传统主题模型能更有效地对多源数据进行主题信息挖掘。 相似文献