共查询到19条相似文献,搜索用时 78 毫秒
1.
话题模型已被广泛用于文本话题的发现.但是在案件话题领域,这些方法生成的话题与案件相关性不高,可解释性比较差,导致话题生成质量不高.为了解决这些问题,本文提出了基于案件要素指导下的话题优化方法:首先利用案件要素信息对话题模型进行改进,结合案件要素与BTM话题模型特征向量,将文档词与案件要素的相关性与BTM话题模型的话题分布结合,获得案件微博中与案件更相关的话题词,通过选取与案件相关的候选词来表征话题;最后再计算案件话题候选词与文本词之间的相关性和文档与案件要素的相似度,得到案件话题词集.通过对新浪微博数据集的对比实验及结果说明,能够显著改善案件话题的发现质量. 相似文献
2.
实体匹配可以判断两个数据集中的记录是否指向同一现实世界实体,对于大数据集成、社交网络分析、网络语义数据管理等任务不可或缺.作为在自然语言处理、计算机视觉中取得大量成功的深度学习技术,预训练语言模型在实体识别任务上也取得了优于传统方法的效果,引起了大量研究人员的关注.然而,基于预训练语言模型的实体匹配技术效果不稳定、匹配结果不可解释,给这一技术在大数据集成中的应用带来了很大的不确定性.同时,现有的实体匹配模型解释方法主要面向机器学习方法进行模型无关的解释,在预训练语言模型上的适用性存在缺陷.因此,以Ditto、JointBERT等BERT类实体匹配模型为例,提出3种面向预训练语言模型实体匹配技术的模型解释方法来解决这个问题:(1)针对序列化操作中关系数据属性序的敏感性,对于错分样本,利用数据集元特征和属性相似度实现属性序反事实生成;(2)作为传统属性重要性衡量的补充,通过预训练语言模型注意力机制权重来衡量并可视化模型处理数据时的关联性;(3)基于序列化后的句子向量,使用k近邻搜索技术召回与错分样本相似的可解释性优良的样本,增强低置信度的预训练语言模型预测结果.在真实公开数据集上的实验结果... 相似文献
3.
4.
提出了一种构造三维模型特征二叉树的算法,并根据特征二叉树匹配来获得三维模型的相似程度,特征二叉树与二维模型坐标系统系旋转和平移无关,且适合于三维模型累进牵引匹配,实验结果表明,文中算法能较好地匹配三维模型的相似性。 相似文献
5.
为满足装备故障快速诊断需求,将案例推理技术与文本语义相似度算法相结合,构建了一种基于句向量的装备故障案例的语义相似度匹配算法。根据装备故障信息的特点,结合面向对象的案例表示方法,在优选装备故障现象文本相似度计算方法和装备故障信息的权重合理分配的基础上,提出了基于句向量的装备故障案例相似度综合计算方法(综合法)。针对1 000个故障案例,在有无增加干扰项的情况下开展实验分析,结果表明,提出的综合法在有无干扰项情况下都能取得最好的故障案例匹配效果,既能根据案例相似度给出推荐案例的正确排序,又有较好的区分度。 相似文献
6.
7.
在数量庞大的司法案例文书中进行相似案例匹配可以有效地提升司法部门的工作效率。但司法案件文本不仅长,而且文本自身还具有一定程度的结构复杂性,因此司法案例文本匹配与传统自然语言处理任务相比,具有较高的难度。为解决上述问题,本文基于三元组深度哈希学习模型提出了一种司法案例相似匹配方法,首先使用预训练的BERT中文模型分组提取文书的特征;再利用文书三元组相似性关系,训练深度神经网络模型,用于生成文书的哈希码表示;最后,基于文书哈希码的海明距离来判断是否为相似案例。实验结果表明,本文采用哈希学习方法极大地降低了文书特征表示的存储开销,提高了相似案例匹配的速度。 相似文献
8.
9.
根据上下文语境选择恰当的成语,是自然语言处理领域的重要任务之一.现有的研究将成语完型填空任务看成是文本匹配问题,虽然预训练语言模型能够在文本匹配研究上取得较高的准确率,但也存在明显的缺陷:一方面,预训练语言模型作为特征提取器时,会丢失句子间相互信息;另一方面,预训练语言模型作为文本匹配器时,计算开销大,训练时间和推理时间较长.另外,上下文与候选成语之间的匹配是不对称的,会影响预训练语言模型发挥匹配器的效果.为了解决上述两个问题,利用参数共享的思想,提出了TALBERT-blank.TALBERTblank是将成语选择从基于上下文的不对称匹配过程转换为填空与候选答案之间的对称匹配过程,将预训练语言模型同时作为特征提取器和文本匹配器,并对句向量作潜在语义匹配.这样可以减少参数量和内存的消耗,在保持准确度的情况下,提高了训练和推理速度,达到了轻量高效的效果.在CHID数据集上的实验结果表明:作为匹配器, TALBERT-blank相较于ALBERT,在保证准确率的情况下,更大限度地精简了模型的结构,计算时间进一步缩短54.35%. 相似文献
10.
11.
基于事例推理是解决面向装配的设计和装配工艺规划问题的有效方法,装配体检索是应用此方法的关键步骤.为此提出一种基于子图同构与事例匹配的装配体局部结构相似性分析方法.该方法将装配体零件间的装配关系用属性邻接图来表示,通过对装配体中联结关系的定性分类及装配体属性邻接图预处理规则的定义,利用Ullmann算法匹配出相似的装配体图(子图)结构,并给出了装配体局部结构相似度计算公式.最后通过实例验证了文中方法的有效性. 相似文献
12.
知识库问答任务是自然语言处理领域中的研究热点之一,目前国内外学者对知识库问答方法的研究大多数是基于英文数据,基于中文数据的研究非常少。由于中文存在语言多变性、语法不明确性、语言歧义性等特点,导致很多英文知识库问答研究方法很难应用于中文数据。针对以上问题,该文提出一种基于信息匹配的中文知识库问答研究方法,探索方法在中文数据上的效果。首先对问题进行主语实体识别和属性值识别;其次将问句中的实体链接到知识库中的实体,使用逻辑回归对候选实体进行筛选;再次抽取其两跳内关系作为候选查询路径,将候选查询路径和问题进行相似度匹配得到匹配度最高的候选路径;最后使用实体拼接来得到多实体情况的查询路径,查询知识库获得最终答案。该方法在CCKS2019 CKBQA测试集上的F值达到了75.6%。 相似文献
13.
是指从与司法案件相关的舆情信息中抽取与案件相关的句子作为摘要。在案件舆情文本中通常包含如涉案人员、案发地点等案件要素,这些案件要素对于摘要生成有着重要的指导意义。因此,针对案件舆情文本的特点,提出一种基于案件要素异构图的抽取式摘要模型。首先通过基于图注意力机制融入案件要素的方法,构建一个由句子节点、词节点和案件要素节点组成的异构图,来捕捉句子间的关联关系,最后对句子进行分类,生成摘要。在基于百度百科构建的案件舆情数据集上进行实验,结果表明,模型相比基于注意力机制融入案件要素的方法在ROUGE-L上取得14.22个百分点的提升。 相似文献
14.
文本匹配是自然语言处理的一个核心研究领域, 深度文本匹配模型大致可以分为表示型和交互型两种类型, 表示型模型容易失去语义焦点难以衡量词上下文重要性, 交互型模型缺少句型、句间等全局性信息. 针对以上问题提出一种融合多角度特征的文本匹配模型, 该模型以孪生网络为基本架构, 利用BERT模型生成词向量进行词相似度融合加强语义特征, 利用Bi-LSTM对文本的句型结构特征进行编码, 即融合文本词性序列的句型结构信息, 使用Transformer编码器对文本句型结构特征和文本特征进行多层次交互, 最后拼接向量推理计算出两个文本之间的相似度. 在Quora部分数据集上的实验表明, 本模型相比于经典深度匹配模型有更好的表现. 相似文献
15.
文本匹配是自然语言理解的关键技术之一,其任务是判断两段文本的相似程度.近年来随着预训练模型的发展,基于预训练语言模型的文本匹配技术得到了广泛的应用.然而,这类文本匹配模型仍然面临着在某一特定领域泛化能力不佳、语义匹配时鲁棒性较弱这两个挑战.为此,本文提出了基于低频词的增量预训练及对抗训练方法来提高文本匹配模型的效果.本文通过针对领域内低频词的增量预训练,帮助模型向目标领域迁移,增强模型的泛化能力;同时本文尝试多种针对低频词的对抗训练方法,提升模型对词级别扰动的适应能力,提高模型的鲁棒性.本文在LCQMC数据集和房产领域文本匹配数据集上的实验结果表明,增量预训练、对抗训练以及这两种方式的结合使用均可明显改善文本匹配结果. 相似文献
16.
BERT通过遮掩语言模型、下一句预测等自监督学习任务学习通用语言规律,在自然语言理解任务中取得了良好效果。但BERT的下一句预测任务不能直接建模句子的语义匹配关系,且随机遮掩策略也不能高效处理句子的关键内容。针对上述问题,该文提出基于动态词遮掩的预训练模型: 基于预训练模型获得句子的向量表示,并通过近似语义计算获取大规模“句子对”预训练数据,最后遮掩重要字词训练遮掩语言模型。在4个句子匹配数据集上的实验表明,使用该文提出的预训练方法,RBT3和BERT base的效果都有一定提升,平均准确率分别提升1.03%和0.61%。 相似文献
17.
问句匹配是问答系统的重要任务,当前方法通常采用神经网络建模两个句子的语义匹配程度.但是,在法律领域中,问句常存在文本表征稀疏、法律词的专业性较强、句子蕴含法律知识不足等问题.因此,通用领域的深度学习文本匹配模型在法律问句匹配任务上效果并不好.为了让模型更好的理解法律问句的含义、建模法律领域知识,首先构建一个法律领域知识库,在此基础上提出一种融合法律领域知识(如法律词汇和法律法条)的问句匹配模型.具体地,构建了合同纠纷、离婚、交通事故、劳动工伤、债务债权等5种法律纠纷类别下的法律词典,并且收集了相关法律法条,构建法律领域知识库.在问句匹配中,首先查询法律知识库检索问句对所对应的法律词汇和法律法条,进而通过交叉关注模型同时建模问句、法律词汇、法律法条三者之间的关联,最终实现更精准的问句匹配,在多个法律类别下的实验表明提出的方法能有效提升问句匹配性能. 相似文献
18.
术语定义抽取是信息抽取研究领域的重要内容之一。文中提出了一种结合硬模板匹配和软模板匹配技术的综合术语定义自动抽取方法。文中首先使用硬模板库对待抽取文本进行了初步的定义句匹配抽取。接着,通过使用基于N元语言模型的软模板匹配模型来计算待匹配文本中每个句子与软模板之间的匹配度,并通过设定匹配得分阈值来抽取定义句或过滤掉错误召回的非定义句。实验结果表明文中的术语定义抽取方法远远优于单纯的硬模板匹配或软模板匹配方法。 相似文献
19.
论文对国内外关于模式匹配的研究进行综合分析,主要从模式匹配的角度对复杂模式匹配过程进行了研究,并着重对结构化的模式匹配进行了研究,对结构相似度和语言相似度进行综合;在语言匹配的基础上,对结构匹配进行分类匹配,采用自顶向下分别从非叶子节点和叶子节点进行模式匹配,非叶子节点匹配结果对叶子节点匹配结果有传递指导作用.该方法是一种利用元素间的结构信息来辅助模式匹配的新方法.最终达到提高模式匹配结果准确率的目的. 相似文献