共查询到20条相似文献,搜索用时 93 毫秒
1.
社区问答系统CQA(Community Question Answering),如雅虎问答是专门为了解决传统搜索引擎的局限来帮助用户获取有用信息的社区。问句检索在CQA中主要是针对用户提出来的新问题,在历史问答对中检索出与用户最相关的问题,从而减少用户等待的时间,给用户带来更好的体验。提出一种基于主题类别信息问句检索的新方法来解决问句检索问题,利用问句的主题类别信息对语言模型进行平滑,同时融入问句的语义信息来解决问句检索问题。实验在Yahoo!Answers上抽取的真实标注数据集上进行,对比实验结果表明,所提出的方法在性能上得到了较好的结果。 相似文献
2.
个性化信息检索是十分有用的检索方法,用户模型能够表示用户个人的爱好与兴趣,有许多研究工作以各种方式使用用户模型扩充问句.提出一种新的基于一元语言模型的方法.它通过对包含多个主题域的长期用户模型的学习得到相关的语义内容,对问句进行扩展后进行检索,得到更接近用户兴趣的结果,然后再与伪相关反馈模型相结合,进一步提高检索性能.通过实验证明,该方法取得了较好的效果. 相似文献
3.
基于互信息的问句语义扩展研究 总被引:1,自引:0,他引:1
用户习惯用很少的关键字来检索所需的信息,这必然会导致出现用户所检索的信息与得到的信息有所偏差.针对这一现象,提出了基于互信息的问句语义扩展模型(QSE_BMI).它的好处在于可以根据用户自己制定的兴趣模型和输入的查询问句,检索出与用户兴趣相匹配的并且符合用户需要的相关信息. 相似文献
4.
社区问答系统中充斥着大量的噪声,给用户检索信息造成麻烦,以往的问句检索模型大多集中在词语层面。针对以上问题构建句子层面的问句检索模型。新模型基于概念层次网络(hierarchincal network of concept,HNC)理论当中的句类知识,从句子的语用、语法和语义三个层面计算问句间相似度。通过问句分类算法确定查询问句和候选问句的问句类别,得到问句间的语用相似度,利用句类表达式的结构和语义块组成分别计算问句间的语法及语义相似度。在真实数据集上的实验表明,基于HNC句类的新模型提高了问句检索结果的准确性。 相似文献
5.
问句实体链接不仅需要大量的数据处理和特征选择工作,而且容易形成错误累积,降低链接效果.针对这种情况,文中提出基于注意力机制的编码器-解码器问句实体链接模型.模型使用双向的长短期记忆网络编码问句,经过注意力机制解码,生成对应的实体指称和消歧信息输出,最后链接到知识库实体.在有关汽车领域车系产品问句和实体数据集上的实验表明,文中模型仅利用较少的上下文信息便可取得良好效果. 相似文献
6.
《计算机应用与软件》2013,(7)
提出一个深层次的问句语义分析算法,实现问句从文字空间到语义空间的映射。在问句语义分析算法的基础上,提出面向海量问答数据的检索模型,该模型采用搜索引擎的检索技术,利用问句语义分析的结果,将问句相似度计算结合到信息检索过程中,既保证了检索的效率又保证了检索的精度。 相似文献
7.
基于文摘的信息检索模型 总被引:1,自引:0,他引:1
基于文摘的检索模型是基于一个假设。即出现在文摘中的词要比未出现在文摘中的词更能表达文章的主题,因此对检索贡献更大.提出了两个基于文摘的语言检索模型,一个是用文摘模型代替文档模型直接检索文件(SQL),另一个是用文摘模型平滑文档模型(SBDM).在TREC数据集上的实验表明,该模型能够提高检索的性能.其中,SBDM的性能一致接近或优于传统的标准文档查询相似模型.有两个方面的贡献,一方面提出了面向检索的文摘抽取方法并考察了这些文摘方法对检索性能的影响;另一方面提出了新的检索模型,即基于文摘的检索模型. 相似文献
8.
9.
一种基于统计语义聚类的查询语言模型估计 总被引:2,自引:0,他引:2
如何有效生成文档聚类并使用聚类信息提高检索效果是信息检索中的重要研究课题.如果假设文档中存在若干隐含的独立主题,那么文档可以看成是由这些隐含的独立主题混合噪声相互作用的结果.基于这个假设提出了一种基于独立分量分析的语义聚类技术,试图借助于独立分量分析的良好主题区分能力,将一组文档按照实际隐含的主题在语义空间上聚类.在语言模型的框架下,语义主题聚类将由用户初始查询按照一定的度量方式激活.利用激活语义聚类的信息估计一个反馈语义主题模型,并与初始查询模型一起形成新的查询模型.在5个TREC数据集上的实验结果表明:基于统计语义聚类估计的查询模型相比传统的查询模型以及其他基于聚类的语言模型在检索性能上有显著性提高.其主要原因是应用了和用户查询最相似的语义聚类信息来估计查询模型. 相似文献
10.
一种基于密度的自适应最优LDA模型选择方法 总被引:13,自引:0,他引:13
主题模型(topic models)被广泛应用在信息分类和检索领域.这些模型通过参数估计从文本集合中提取一个低维的多项式分布集合,用于捕获词之间的相关信息,称为主题(topic).针对模型参数学习过程对主题数目的指定和主题分布初始值非常敏感的问题,作者用图的形式阐述了LDA(Latent Dirichlet Allocation)模型中主题产生的过程,提出并证明当主题之间的相似度最小时模型最优的理论;基于该理论,提出了一种基于密度的自适应最优LDA模型选择方法.实验证明该方法可以在不需要人工调试主题数目的情况下,用相对少的迭代,自动找到最优的主题结构. 相似文献
11.
12.
问题生成旨在理解输入端的语义,从而自动生成疑问句。该文主要解决目标答案可知的问题生成任务,输入为陈述句和目标答案,输出为疑问句,该疑问句的答案为给定的目标答案。为了提高问题类型的准确率,使问句的表述更确切,该文提出一种融合问题类型及惩罚机制的问题生成模型,首先使用预训练BERT模型对问题类型进行分类,得到对应问题类型的表示。在编码端,通过门控机制将源端陈述句与问题类型进行融合,得到具有问题类型信息的源端表示。此外,在现有工作中观测到生成的问句和目标答案存在重复词的现象。为了缓解上述问题,该文提出一种惩罚机制,即在损失函数中加入对重复词的惩罚。实验证明,该文所提方法有效提高了问题类型的准确率,并在一定程度上降低了生成重复词的情况。在SQuAD数据集上BLEU-4值达到18.52%,问题类型的准确率达到93.46%。 相似文献
13.
14.
15.
16.
问答系统可以针对用户提出的自然语言问题给出精准的答案,是自然语言处理领域中一个重要的研究方向。对于具有复杂语义结构和句法结构的多跳问题,模型需要强大的自然语言理解能力。问题分解作为问题理解的一种技术,有着不可估量的作用。阐述了问题分解的研究背景与意义;根据问题特征提取的方式,将现有的方法分为传统机器学习方法和深度学习方法两大类,传统机器学习方法以规则模板匹配和基于分割的方法为主,深度学习方法以基于Transformer、图神经网络、注意力机制、查询图和强化学习为主,并分别从模型架构、优势、劣势等方面进行分析。结合目前研究的动态,初步展望了未来的研究方向。 相似文献
17.
18.
19.
在社区问答系统中,每天大量涌现的问题导致用户很难寻找自己感兴趣并且擅长的问题进行回答。为了更好地解决这一问题,本文根据用户兴趣,将用户的活跃度指数融入推荐算法。实验结果显示,该方法在一定程度上提高了问题推荐的效率。
相似文献
20.
智能答疑系统中基于聚类的问题分类研究 总被引:3,自引:0,他引:3
研究了智能答疑系统中的问题分类。针对基于章节目录的分类方式过于依赖特定教材的不足,提出了基于关键词聚类的问题模糊分类方法。此方法基于关键词的语义,采用NERF算法对关键词进行聚类。并利用聚类有效性的方法来弥补此算法过于依赖初始值的不足。最后通过实例进行分析,说明此分类方法的可行性和对基于章节目录的分类方式不足的弥补。 相似文献