首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 687 毫秒
1.
基于无监督学习的问答模式抽取技术   总被引:4,自引:0,他引:4  
本文提出了一种基于无监督学习算法的问答模式抽取技术从互联网上抽取应用于汉语问答系统的答案模式。该算法可以避免有监督学习算法的不足,它无需用户提供<提问,答案>对作为训练集,只需用户提供每种提问类型两个或以上的提问实例,算法即可通过Web检索、主题划分、模式提取、垂直聚类和水平聚类等步骤完成该类型提问的答案模式的学习。实验结果表明,论文提出的无监督问答模式学习方法是有效的,基于模式匹配的答案抽取技术能够较大幅度地提高汉语问答系统的性能。  相似文献   

2.
社区问答系统CQA(Community Question Answering),如雅虎问答是专门为了解决传统搜索引擎的局限来帮助用户获取有用信息的社区。问句检索在CQA中主要是针对用户提出来的新问题,在历史问答对中检索出与用户最相关的问题,从而减少用户等待的时间,给用户带来更好的体验。提出一种基于主题类别信息问句检索的新方法来解决问句检索问题,利用问句的主题类别信息对语言模型进行平滑,同时融入问句的语义信息来解决问句检索问题。实验在Yahoo!Answers上抽取的真实标注数据集上进行,对比实验结果表明,所提出的方法在性能上得到了较好的结果。  相似文献   

3.
一种基于统计语义聚类的查询语言模型估计   总被引:2,自引:0,他引:2  
如何有效生成文档聚类并使用聚类信息提高检索效果是信息检索中的重要研究课题.如果假设文档中存在若干隐含的独立主题,那么文档可以看成是由这些隐含的独立主题混合噪声相互作用的结果.基于这个假设提出了一种基于独立分量分析的语义聚类技术,试图借助于独立分量分析的良好主题区分能力,将一组文档按照实际隐含的主题在语义空间上聚类.在语言模型的框架下,语义主题聚类将由用户初始查询按照一定的度量方式激活.利用激活语义聚类的信息估计一个反馈语义主题模型,并与初始查询模型一起形成新的查询模型.在5个TREC数据集上的实验结果表明:基于统计语义聚类估计的查询模型相比传统的查询模型以及其他基于聚类的语言模型在检索性能上有显著性提高.其主要原因是应用了和用户查询最相似的语义聚类信息来估计查询模型.  相似文献   

4.
本文介绍了基于向量空间的常用距离的算法,并在概念语义空间的基础上,提出一种面向主题的距离和分类的算法。实验结果表明,该算法能有效地提高主题分类的准确度,可用于主题检索、搜索和聚类等方面。  相似文献   

5.
随着微博的快速发展,微博检索已经成为近年来研究领域的热点之一。微博检索与传统文本检索在两个方面明显不同: 一是微博具有自己的特点,表现在文本短和内容中具有主题概括词(称为Hashtag);二是微博排序中除了考虑文本和语义相似度,还需考虑时间信息。根据这两点区别,该文在统计语言模型的基础上,使用聚类进行文本扩展,并将Hashtag信息运用到聚类过程中。同时,因为微博数据集中具有Hashtag的微博个数不超过13%,针对这一现象,该文还提出了一种扩展微博Hashtag的方法,最终提出了基于聚类的三个模型。然后通过定义文档先验将时间信息加入到提出的三个检索模型中,得到融入聚类和时间信息的三个模型。最后基于TREC Microblog数据的实验结果证明,融合聚类信息和时间信息的模型在MAP和P@30上有明显提高,分别提高7.1%和11.6%。  相似文献   

6.
准确的文档语言模型估计对于改善语言模型检索系统的性能是非常重要的。在本文中我们提出了基于主题语言模型的信息检索系统,首先设计了“改进的两阶段K2Means 聚类算法”来对文档集合进行聚类,通过引入Aspect Model 结合聚类结果可以得到基于主题的语言模型。这个新的语言模型较深入地刻画了词汇在不同主题下的分布规律以及文档所蕴含不同主题的分布规律。将主题语言模型和文档本身的语言模型通过线性插值可以更准确地估计文档语言模型。实验结果表明我们提出的这个方法显著改善了检索系统的性能,与Jelinek2Mercer 模型方法相比较,主题语言模型检索系统的平均精度提高大约16117 % ,召回率提高大约 9164 %。  相似文献   

7.
汉语句子相似度计算方法比对之研究   总被引:1,自引:0,他引:1  
相似句子检索,在自然语言处理领域具有非常广泛的应用背景,如信息过滤技术中的句子模糊匹配,基于实例的机器翻译的原语言检索,自动问答系统中常问题集的检索以及问题与答案的匹配,基于双语语料库的英文辅助写作等。本文在介绍了汉语句子相似度计算的有关概念之后,对几种典型的汉语句子相似度的计算方法进行了介绍,并分析了各方法的优缺点。  相似文献   

8.
改进的VSM算法及其在FAQ中的应用   总被引:2,自引:0,他引:2       下载免费PDF全文
郑诚  李清  刘福君 《计算机工程》2012,38(17):201-204
现有的句子相似度算法的准确率较低。为此,提出一种改进的向量空间模型算法。在传统的向量空间模型中添加语义信息和句法信息,将其运用到句子相似度计算中,设计实现金融领域的FAQ自动问答系统,通过改进算法在FAQ中进行句子相似度计算,获取用户问题的答案。实验结果证明,该算法具有较高的准确率。  相似文献   

9.
本文在N层向量空间模型和主题树模型的基础上,通过分析两个模型的分层特性,提出了一种Web主题检索锋法。实验证明,在主题检索方面,该算法具有较快的速度和较高的查准率。  相似文献   

10.
为了解决搜索引擎检索结果中的主题混杂现象,帮助用户快速准确地定位到有价值的信息,提出基于主题短语的搜索引擎结果聚类方法。首先从检索结果中提取查询词并与相邻词语组成主题短语,建立包含高频独立词语及主题短语的混合向量空间模型,同时引入同义词词林对特征项进行语义扩充,最后采用改进的k-means聚类算法对搜索结果进行聚类,并为各个类别提取类别标签。实验结果表明,该算法能有效提高聚类结果的准确率。  相似文献   

11.
We propose a semantic passage segmentation method for a Question Answering (QA) system. We define a semantic passage as sentences grouped by semantic coherence, determined by the topic assigned to individual sentences. Topic assignments are done by a sentence classifier based on a statistical classification technique, Maximum Entropy (ME), combined with multiple linguistic features. We ran experiments to evaluate the proposed method and its impact on application tasks, passage retrieval and template-filling for question answering. The experimental result shows that our semantic passage retrieval method using topic matching is more useful than fixed length passage retrieval. With the template-filling task used for information extraction in the QA system, the value of the sentence topic assignment method was reinforced.  相似文献   

12.
王宇  王芳 《计算机应用研究》2020,37(6):1769-1773
社区问答系统中充斥着大量的噪声,给用户检索信息造成麻烦,以往的问句检索模型大多集中在词语层面。针对以上问题构建句子层面的问句检索模型。新模型基于概念层次网络(hierarchincal network of concept,HNC)理论当中的句类知识,从句子的语用、语法和语义三个层面计算问句间相似度。通过问句分类算法确定查询问句和候选问句的问句类别,得到问句间的语用相似度,利用句类表达式的结构和语义块组成分别计算问句间的语法及语义相似度。在真实数据集上的实验表明,基于HNC句类的新模型提高了问句检索结果的准确性。  相似文献   

13.
基于网络的中文问答系统及信息抽取算法研究   总被引:24,自引:3,他引:21  
问答系统(Question Answering System)能用准确、简洁的答案回答用户用自然语言提出的问题。目前多数问答系统利用大规模文本作为抽取答案的知识库,而网络上丰富的资源为问答系统提供了另外一种良好的知识来源,对于回答简短、基于事实的问题非常有效。本文对基于网络的问答系统研究现状作了简要的介绍,分析了网络信息的特点。我们提出了一种基于语句相似度计算的答案抽取方法,在此基础上实现了一个基于网络的中文问答系统。该系统只利用网络搜索引擎返回结果中的摘要部分作为答案抽取的资源,从而节省了下载、分析网络源文本的时间。实验结果表明该系统对人名、数量及时间类型的问题效果显著,对测试问题集的MRR值达到0.51。  相似文献   

14.
基于FAQ的自动答疑系统的设计与实现   总被引:1,自引:0,他引:1  
设计并实现了一个基于FAQ的自动答疑系统。阐述了自动答疑过程的主要环节和基本流程,介绍了系统实现的关键技术,包括改进的汉语自动分词算法、问句关键词的提取与同义词变换、疑问词分类与知识点分类相结合的问题分类法、根据用户问题建立候选问题集和问句相似度计算等。实验表明,答疑系统对用户问题的回答具有较高的准确率。  相似文献   

15.
自然语言文本的语法结构层次包括语素、词语、短语、小句、小句复合体、语篇等。其中,语素、词、短语等相关处理技术已经相对成熟,而句子的概念至今未有公认的、适用于语言信息处理的界定。该文重新审视了语言学中句子的定义和自然语言处理中句子的切分问题,提出了中文句子切分的任务;基于小句复合体理论将句子定义为最小的话头自足的标点句序列,也就是自足的话题结构,并设计和实现了基于BERT的边界识别模型。实验结果表明,该模型对句子边界自动识别正确率、F1值分别达到88.37%、83.73%,识别效果优于按照不同的标点符号机械分割的效果。  相似文献   

16.
Many well-known probabilistic information retrieval models have shown promise for use in document ranking, especially BM25. Nevertheless, it is observed that the control parameters in BM25 usually need to be adjusted to achieve improved performance on different data sets; additionally, the assumption in BM25 on the bag-of-words model prevents its direct utilization of rich information that lies at the sentence or document level. Inspired by the above challenges with respect to BM25, we first propose a new normalization method on the term frequency in BM25 (called BM25QL in this paper); in addition, the method is incorporated into CRTER2, a recent BM25-based model, to construct CRTER2QL. Then, we incorporate topic modeling and word embedding into BM25 to relax the assumption of the bag-of-words model. In this direction, we propose a topic-based retrieval model, TopTF, for BM25, which is then further incorporated into the language model (LM) and the multiple aspect term frequency (MATF) model. Furthermore, an enhanced topic-based term frequency normalization framework, ETopTF, based on embedding is presented. Experimental studies demonstrate the great effectiveness and performance of these methods. Specifically, on all tested data sets and in terms of the mean average precision (MAP), our proposed models, BM25QL and CRTER2QL, are comparable to BM25 and CRTER2 with the best b parameter value; the TopTF models significantly outperform the baselines, and the ETopTF models could further improve the TopTF in terms of the MAP.  相似文献   

17.
复杂类问题理解是中文问答系统研究的难点,基于组块的问句分析方法将整个问句转化为若干组块,降低了问句分析的难度和复杂性。针对以含有事件(动作)信息的复杂类问题,提出基于语义组块的中文问答系统问题语义表征模型,采用语义组块的思想将问题的语义成分定义为疑问焦点块、问题主题块和问题事件块三个语义组块,对问句中的事件语义信息,建立了问题事件语义结构,将一个问句表征为一个基于语义组块的问题语义表征结构,用于问答系统的问题理解。通过序列标注学习方法实现问题语义表征中语义组块自动标注。实验结果表明:问题语义组块标注效果较好,问题语义表征模型获取了问题的关键语义信息,为语义层面上的问题理解提供基础。  相似文献   

18.
食品安全领域的智能问答系统旨在对用户通过自然语言进行的食品安全方面的提问做出快速、简洁的反馈,其技术挑战主要在于语义分析和答案句子表示,尤其是在于如何消除问答之间的词汇差距以加强问答匹配能力,以及如何抓取准确的核心单词以增强句子表示能力。尽管基于"短语级别"和众多的注意力模型已经取得了一定的性能提升,但基于注意力的框架都没有很好的重视位置信息。针对上述问题,运用词林和word2vec相结合的方法,提出近义词-主词替换机制(将普通词映射为核心词),实现了语义表示的归一化。同时,受位置上下文提升信息检索性能的启发,假设如果问句中的一个词(称之为问题词)出现在答案句中,问题词的临近词对比偏离词应该被给与更高的权重。基于上述假设,提出了基于双向lstm模型的位置注意力机制(BLSTM-PA)。上述机制给与答案句中问题词的临近文本更高的注意力。以食品安全问答系统为语义分析验证和仿真的平台,通过在食品安全领域数据集(即FS-QA)上进行的对比实验,从MAP和MRR评价指标来看,与基于传统的注意力机制的RNN模型相比,BLSTM-PA实现了5.96%的提升,证明了BLSTM-PA模型的良好性能,同时,集成了提出的问答模型的食品安全问答系统性能也得到了显著的提升。  相似文献   

19.
反问句是以疑问的形式表达强烈情感的修辞方式,对其有效识别可为自然语言处理中的情感分析任务提供技术支持。该文提出了一种基于语言特征自动获取的反问句识别方法。首先,利用标签注意机制,建立了一个数据驱动的特征抽取模型,用于获取与任务相关的词汇、句法结构、符号标记和话题等语言特征。其次,利用Bi-LSTM模型分别对句子和语言特征进行表示,两者的交互注意被用于获取句子的各个词和符号的注意力权重向量。该权重向量作用于句子的表示,用于构建一个强化语言特征的反问句识别模型。在中文微博数据集上的实验结果表明,提出的方法与之前的工作相比,反问句识别性能有显著提升。  相似文献   

20.

Question answering is a subfield of information retrieval. It is a task of answering a question posted in a natural language. A question answering system (QAS) may be considered a good alternative to search engines that return a set of related documents. The QAS system is composed of three main modules; question analysis, passage retrieval, and answer extraction. Over the years, numerous QASs have been presented for use in different languages. However, the the development of Arabic QASs has been slowed by linguistic challenges and the lack of resources and tools available to researchers. In this survey, we start with the challenges due to the language and how these challenges make the development of new Arabic QAS more difficult. Next, we do a detailed review of several Arabic QASs. This is followed by an in-depth analysis of the techniques and approaches in the three modules of a QAS. We present an overview of important and recent tools that were developed to help the researchers in this field. We also cover the available Arabic and multilingual datasets, and a look at the different measures used to assess QASs. Finally, the survey delves into the future direction of Arabic QAS systems based on the current state-of-the-art techniques developed for question answering in other languages.

  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号