首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 515 毫秒
1.
基于改进贝叶斯模型的问题分类   总被引:11,自引:2,他引:11  
张宇  刘挺  文勖 《中文信息学报》2005,19(2):101-106
随着计算机及互联网络技术的发展,开放域问答系统越来越受到人们的关注,因为它能够给用户提供相对简洁、准确的结果。开放域问答系统通常包括问题分类、问题扩展、搜索引擎、答案抽取和答案选择五个主要部分。问题分类在问答系统中起着很重要的作用,它的准确性直接影响到最终抽取的答案的准确性。 本文在对已有的贝叶斯分类方法进行分析的基础上,对该方法进行了改进。为了验证该方法的效果,构造了问题的训练集和测试集。从实验结果可以看出,该方法在实际应用中获得了较好的效果。  相似文献   

2.
基于句法结构分析的中文问题分类   总被引:21,自引:3,他引:21  
问题分类是问答系统中重要的组成部分,问题分类结果的好坏直接影响问答系统的质量。本文提出了一种用于问题分类的特征提取的新方法,该方法主要使用句法分析的结果,提取问题的主干和疑问词及其附属成分作为分类的特征,此方法大幅度地减少了噪音,突出了问题分类的主要特征,利用贝叶斯分类器分类,有效地提高了问题分类的精度。实验结果证明了该方法的有效性,大类和小类的分类精度分别达到了86.62%和71.92%,取得了较好的效果。  相似文献   

3.
董才正  刘柏嵩 《计算机应用》2016,36(4):1060-1065
传统的问题分类体系大都基于事实类问题,传统的问题分类方法也比较依赖于疑问词这一分类特征,但问答社区(CQA)中非事实类问题居多,且许多问题并不包含疑问词,为此,提出一种面向问答社区的粗粒度分类体系,并在此基础上提出一种基于疑问词的层次化结构问题分类方法。该方法首先自动识别问题中的疑问词,若疑问词存在,则用支持向量机(SVM)模型进行分类;而对没有疑问词的问题,则用所构造的基于焦点词的分类器进行分类。通过在从中文问答社区知乎中所爬取的问题数据集上进行实验,与传统的基于SVM模型的分类方法相比,该方法的分类准确率提高了4.7个百分点。实验结果表明,这种根据问题是否含有疑问词而选择不同分类器的方法,减轻了分类方法对疑问词的依赖,能有效提高问答社区中问题分类的准确率。  相似文献   

4.
《软件工程师》2015,(11):30-31
近年来,问答系统被大量广泛的研究,问答系统的目标是给定一个问题,能够得到简短精确的答案;而问句分类在问答系统中有着重要的作用,为此本文用朴素贝叶斯算法对问句分类做了一定的研究。从实验结果来看,该方法在实际应用中取得了较好的效果。  相似文献   

5.
在问答系统中,只通过问题中所包含的词汇表达查询意图,难以从数据源中获得理想的答案。为此,针对基于知识图谱的问答系统,提出一种语义查询扩展方法。利用WordNet对问题三元组中的查询术语从同义词、上义词和下义词3个语义角度进行扩展,采用Microsoft Concept Graph对查询术语从上义词和下义词2个角度进行扩展。针对每种语义角度的扩展结果,设计不同的过滤策略进行筛选,根据查询术语的语义扩展结果实现对问题三元组的扩展。实验结果表明,该方法平均准确率大于83%,对问题三元组的多语义角度的扩展效果较好。  相似文献   

6.
问题理解是问答系统中的重要组成部分,尤其对于协作式问答。在协作式问答中用户对所提出的问题进行了详细的说明和描述。如何利用这些描述信息来提高系统的性能,是一个很重要的问题。该文提出了一种基于词典和句法分析的方法,来对用户的问题进行分析,从中提取出有价值的关键词,以提高包含候选答案网页的召回率。通过实验对比分析,该方法的MPP值和MAP值都有了较大的提高。  相似文献   

7.
基于知网的中文问题自动分类   总被引:15,自引:1,他引:15  
问答系统应能用准确、简洁的答案回答用户用自然语言提出的问题。问题分类是问答系统所要处理的第一步,分类结果的正确率直接影响后续工作的进行。本文提出了一种使用知网作为语义资源选取分类特征,并使用最大熵模型进行分类的新方法。该方法以问题的疑问词、句法结构、疑问意向词、疑问意向词在知网中的首义原作为分类特征。实验结果表明,在知网中选取的首义原能很好的表达问题焦点词的语义信息,可作为问题分类的一个主要特征。该方法能显著地提高问题分类的精度,大类和小类的分类精度分别达到了92.18%和83.86%。  相似文献   

8.
基于汉语框架网的中文问题分类   总被引:3,自引:0,他引:3       下载免费PDF全文
问题分类是问答系统中重要的组成部分,问题分类结果的准确性直接影响到问答系统的质量。基于汉语框架网(Chinese FrameNet,CFN)提出了一种用于中文问题分类的新方法。该方法通过构建一系列汉语框架语义特征来表达每个问句的语义信息,进而使用最大熵模型进行中文问题的自动分类,与传统的问题分类技术相比,汉语框架语义信息的加入使得中文问题分类的精度得到了显著提高。实验结果进一步验证了该方法的有效性,大类和小类的分类精度分别达到了91.38%和83.20%。  相似文献   

9.
问答系统能用准确、简洁的答案回答用户用自然语言提出的问题,很明显系统中问答对的规模是影响问答系统最终性能的主要因素。为了提高问答对的规模、充分利用互联网资源,本文提出了一种基于决策树和马尔科夫链的在互联网上自动抽取问答对的算法。先根据网页中的HTML标记把网页表示成一棵DOM树;然后利用树中每个节点的结构和文字信息,抽取相应的特征;最后将得到的节点特征通过由决策树和一阶马尔可夫链结合得出的分类模型进行分类。试验结果表明准确率达到了90.398%,召回率达到了86.032%。对大量网页抽取的结果表明该分类模型能够适应对各种各样的网页的抽取。  相似文献   

10.
属性分类是属性级情感分析中的一个重要任务。该任务旨在对文本包含的某些具体属性进行自动分类。已有的属性分类方法研究基本都是面向新闻、评论等文本类型。与已有研究不同的是,该文的研究主要面向问答文本的属性分类任务。针对问答文本的属性分类问题,该文提出了一种多维文本表示的方法。首先,该方法进行中文句子切分;其次,使用LSTM模型对每个子问题和答案学习一个隐层表示;再其次,通过融合多个隐层表示,形成多维文本表示;最后,使用卷积层处理多维文本表示,获得最终分类结果。实验结果表明该方法明显优于传统的属性分类方法。  相似文献   

11.
问句分类在问答系统领域有着重要的研究意义和应用价值。为了提高自动问句分类识别效率,本文提出了基于藏文疑问虚词的问句分类方法。该方法首先提取问句中的藏文虚词;然后根据所得的虚词进行问句分类;其次,进一步将问句细分为问题大类和小类;最后,给问题贴上分类标签。这种方法,既缩小了检索空间又提高了答案的准确性。最后对各种藏文问句分类的准确性进行了测试。结果表明基于藏文虚词问句的分类方法具有可行性和实用性。  相似文献   

12.
针对中文问题分类方法中布尔模型提取特征信息损失较大的问题,提出了一种新的特征权重计算方法。在提取问题特征时,通过把信息熵算法和医院本体概念模型结合在一起,进行问题的特征模型计算,在此基础上使用支持向量机方法进行中文问题分类。在城域医院问答系统的中文问题集上进行实验,证明了该方法的有效性,大类准确率及小类准确率分别达到89.0%和87.1%,取得了较好的效果。  相似文献   

13.
基于BERT的常见作物病害问答系统问句分类   总被引:1,自引:0,他引:1  
杨国峰  杨勇 《计算机应用》2020,40(6):1580-1586
问句分类作为问答系统的关键模块,也是制约问答系统检索效率的关键性因素。针对农业问答系统中用户问句语义信息复杂、差异大的问题,为了满足用户快速、准确地获取常见作物病害问句的分类结果的需求,构建了基于BERT的常见作物病害问答系统的问句分类模型。首先,对问句数据集进行预处理;然后,分别构建双向长短期记忆(Bi-LSTM)自注意力网络分类模型、Transformer分类模型和基于BERT的微调分类模型,并利用三种模型提取问句的信息,进行问句分类模型的训练;最后,对基于BERT的微调分类模型进行测试,同时探究数据集规模对分类结果的影响。实验结果表明,基于BERT的微调常见作物病害问句分类模型的分类准确率、精确率、召回率、精确率和召回率的加权调和平均值分别高于双向长短期记忆自注意力网络模型和Transformer分类模型2~5个百分点,在常见作物病害问句数据集(CCDQD)上能获得最高准确率92.46%,精确率92.59%,召回率91.26%,精确率和召回率的加权调和平均值91.92%。基于BERT的微调分类模型具有结构简单、训练参数少、训练速度快等特点,并能够高效地对常见作物病害问句准确分类,可以作为常见作物病害问答系统的问句分类模型。  相似文献   

14.
问题分类旨在对问题的类型进行自动分类,该任务是问答系统研究的一项基本任务。提出了一种基于答案辅助的半监督问题分类方法。首先,将答案特征结合问题特征一起实现样本表示;然后,利用标签传播方法对已标注问题训练分类器,自动标注未标注问题的类别;最后,将初始标注的问题和自动标注的问题合并作为训练样本,利用最大熵模型对问题的测试文本进行分类。实验结果表明,本文提出的基于答案辅助的半监督分类方法能够充分利用未标注样本提升性能,明显优于其他的基准方法。  相似文献   

15.
问答系统中问题模式分类与相似度计算方法   总被引:1,自引:0,他引:1  
基于FAQ库的限定域自动问答系统由于更具实用性而成为自然语言处理领域的研究热点,而问题之间的相似度计算是其中最关键的技术。现有的问句相似度计算技术在处理带有上下文情景描述的问题时效果较差。针对现有技术存在的问题,提出将用户问题分为简洁模式问题(SMQs)和情景模式问题(CMQs),并提出了基于规则的问题模式分类算法。在此基础上,进一步提出了综合考察情景相似度和问句相似度的情景模式问题(CMQs)相似度计算方法。实验结果表明,问题模式分类算法取得了90%以上的准确率和召回率,情景模式问题相似度计算方法在时间复杂度较低的情况下也取得了74.3%的正确率。  相似文献   

16.
自动问答系统问句相似度计算的准确率直接影响系统返回答案的准确率,对此提出一种基于Word2vec和句法规则的问句相似度计算方法。构造Text-CNN问句分类模型将问句进行分类,再构造Word2vec词向量模型将问句中词与词的空间向量相似度转换成语义相似度,并加入句法规则的分析。随机从搜狗公开问答数据集中抽取200条数据进行测试,结果表明,该方法与TF-IDF方法相比,自动问答系统返回答案的准确率和召回率分别提高了0.259和0.154。  相似文献   

17.
受限领域问答系统的中文问句分析研究   总被引:1,自引:0,他引:1       下载免费PDF全文
对用户所提问句的理解是受限领域问答系统实现的关键,该文提出一种基于本体和问句句型模板规则的中文问句分析方法,研究如何使用问句语义表征来表示问句分析的结果,将该方法应用于某受限领域问答系统中。实验结果表明,使用该方法进行中文问句分析,准确率达90%以上,可以在实际的问答系统中使用该方法。  相似文献   

18.
前沿相关研究将相似问句识别转化为二元问句匹配识别并取得很大进展。但是在自动问答系统的实际应用场景中存在大量数据,这些方法受限于二元问句匹配识别模式,导致时效性不高。针对这一问题,受人脸识别相关研究的启发,该文提出基于语义空间距离衡量的相似问句识别方法(Semantic Space Distance Method,SSDM)。该方法将相似问句识别作为多分类问题进行训练,通过利用人脸识别任务中Margin Softmax损失函数得到语义编码模型。该语义编码模型能够将相似问句在语义空间中聚合,不相似问句在语义空间中远离。SSDM方法将相似问句识别转化成语义空间中的向量距离计算,突破二元问句匹配的方式,保证了一定的高时效性,并且仍然能够在深层语义层面对相似问句进行识别。该方法在Biendata的ASQD数据集中实验测试,取得了比基线方法更优的性能,验证了SSDM方法的有效性。  相似文献   

19.
基于错误驱动算法组合分类器及其在问题分类中的应用   总被引:3,自引:0,他引:3  
开放领域问答系统(QA)能够给用户提供相对简洁、准确的结果,越来越受到人们的关注.问题分类把问题分成若干语义类型,是QA系统的一个重要的模块,它的准确性直接影响到QA系统的性能.为提高分类器性能,在问题分类任务中使用了集成学习方法,并且实验比较了词汇、句法、同义词集等不同的分类特征及错误驱动、投票法、BP神经网络等分类器集成方法,通过采用基于错误驱动集成分类器,用规则方法TBL作为统计方法SVM的补充;利用来自Wordnet的同义词集和名词的上位概念及Minipar的依存关系等语言知识作为分类特征,在公开测试集中取得了更高的分类精度.  相似文献   

20.
面向课程的中文FAQ自动问答系统作为网络教学平台中的子系统,可以实现课程自动答疑,具有较强的实用性,该类问答系统的FAQ库大都人工构建,费时费力,针对此种状况,本文提出一种新的问答系统模型,从"百度知道"自动获取不同课程FAQ库的问答对,并根据提出的融合语义词典和句法依存关系的句子相似度算法,实现学生问句与根据问句关键字向量得到的FAQ库检索子集中的问句之间的相似度计算,自动应答,其他情况采用人工解答,并更新FAQ库。实验结果表明,本系统模型,具备根据不同课程自动构建高质量FAQ库的能力,具备更高的应答准确率,具备不断增强答疑效果的能力,具有广阔的应用前景。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号