排序方式: 共有11条查询结果,搜索用时 15 毫秒
1.
知识共享型网站为自动问答系统带来了新的研究契机。但用户提供的问题及其答案质量参差不齐,在提供有用信息的同时可能包含各种无关甚至恶意的信息。对此类信息进行判别和过滤,并选取高质量的问题与答案对,有助于在基于社区的自动问答系统中重用相关问题的答案以提高问答系统的服务质量。首先从中文社区问答网站上抓取大量问题及答案,利用社会网络的方法对提问者和回答者的互动关系及特点进行了统计与分析。然后基于给定的问答质量判定标准,对3000多个问题及其答案进行了人工标注。并通过提取文本和非文本两类特征集,利用机器学习算法设计和实现了基于特征集的问答质量分类器。试验结果表明其精度和召回率均在70%以上。最后分析了影响社区网络中问答质量的主要因素。 相似文献
2.
基于增量型聚类的自动话题检测研究 总被引:1,自引:0,他引:1
随着网络信息飞速的发展,收集并组织相关信息变得越来越困难.话题检测与跟踪(topic detection and tracking,简称TDT)就是为解决该问题而提出来的研究方向.话题检测是TDT中重要的研究任务之一,其主要研究内容是把讨论相同话题的故事聚类到一起.虽然话题检测已经有了多年的研究,但面对日益变化的网络信息,它具有了更大的挑战性.提出了一种基于增量型聚类的和自动话题检测方法,该方法旨在提高话题检测的效率,并且能够自动检测出文本库中话题的数量.采用改进的权重算法计算特征的权重,通过自适应地提炼具有较强的主题辨别能力的文本特征来提高文档聚类的准确率,并且在聚类过程中利用BIC来判断话题类别的数目,同时利用话题的延续性特征来预聚类文档,并以此提高话题检测的速度.基于TDT-4语料库的实验结果表明,该方法能够大幅度提高话题检测的效率和准确率. 相似文献
3.
情感要素识别是情感分析的关键子任务之一,其目的是识别出文本情感所作用的情感对象。文本情感要素识别属于最细粒度的情感分析,吸引了大量研究者的关注。中文微博由于其语言简短灵活、文本不规范、噪声较大等特点,给中文微博情感分析研究工作带来了新的挑战。目前大部分情感要素识别方法都是基于规则的方法或者基于扁平化特征的统计学习方法,区分噪声的能力不强,性能提升有限。针对中文微博的特点,提出一种基于卷积树核的情感要素识别算法,即首先对句子进行词性标注与依存关系分析,将句子中的名词作为候选情感要素;然后基于两种不同的修剪策略对依存树进行修剪,以获取每个候选情感要素的结构化信息;最后采用卷积树核计算依存树的相似度,并在此基础上识别句子中的情感要素。NLPCC2012和NLPCC2013中文微博情感分析评测任务中的实验验证了该方法的性能,其准确率相比于传统方法有显著提升。 相似文献
4.
该文尝试从文本语义离散度的角度去提升自动作文评分的效果,提出了两种文本语义离散度的表示方法,并给出了数学化的计算公式。基于现有的LDA模型、段落向量、词向量等具体方法,提取出四种表征文本语义离散度的实例,应用于自动作文评分。该文从统计学角度将文本语义离散度向量化,从去中心化的角度将文本语义离散度矩阵化,并使用多元线性回归、卷积神经网络和循环神经网络三种方法进行对比实验。实验结果表明,在50篇作文的验证集上,在加入文本语义离散度特征后,预测分数与真实分数之间均方根误差最大降低10.99%,皮尔逊相关系数最高提升2.7倍。该表示方法通用性强,没有语种限制,可以扩展到任何语言。 相似文献
5.
证据作为认定案件事实的基础,在司法实践中起着重要的辅助判决作用。正常来说,一篇文书中相关的证据会被分为几个不相交子集,每个子集所证明的内容被视为司法分论点,这些分论点支撑了案件事实的不同方面,从而有利于法官的最终判决。然而,以前的工作主要集中在法庭观点生成,或其他法律助理系统(如法律判决预测和司法问答),忽视了法律文书中的证据推理。为了还原法律案件中完整的证据证明、推理过程,该文提出了基于自动证据推理的分论点生成任务,即基于证据子集生成司法分论点。该文为此任务提出了一个双重注意力网络模型,从事实描述中挖掘与证据相关的语义以及法律知识,并结合解码器自动生成分论点。为了进行评估,该文构建了一个司法分论点数据集,并进行了相关实验来证明所提出模型的有效性。 相似文献
6.
7.
在基于语料库的机器翻译系统中,相似句对的检索对于翻译的质量具有非常重要的作用。本文提出一种新颖的方法,可以利用双语例句来帮助度量待翻译句子与例句的相似度。为了提高检索的效率,我们还提供了一个双层的语料库索引方法。由于我们的相似度度量在计算相似度时考虑了例句对最终翻译结果的影响,因此在翻译实验中取得了较好好的效果。 相似文献
8.
跨语言知识链接是指在描述相同内容的不同语言的在线百科文章之间建立联系。跨语言知识链接可分为候选集选择和候选集排序两部分。首先,把候选集选择问题转换为跨语言信息检索问题,提出一种将标题与关键词相结合从而生成查询的方法,该方法将候选集选择的召回率大幅提高至93.8%;在候选集排序部分,提出一种融合双语主题模型及双语词向量的排序模型,实现了英文维基百科和中文百度百科之间军事领域的跨语言知识链接。实验结果表明,该模型取得了75%的准确率,显著提高了跨语言知识链接的性能,并且提出的方法不依赖于语言特性和领域特性,因此可以很容易地扩展至其他语言和其他领域的跨语言知识链接。 相似文献
9.
10.
随着社交媒体的发展与普及,如何识别短文本中事件描述的共指关系已成为一个亟待解决的问题。在传统的事件共指消解研究中,需要从NLP工具和知识库中获得丰富的语义特征,这种方式不仅限制了领域的扩展性,而且还导致了误差传播。为了打破上述局限,提出了一种新颖的基于事件触发词来选择性表达句子语义的方法,以判断短文本中事件的共指关系。首先,利用双向长短记忆模型(Bi-LSTM)提取短文本的句子级语义特征和事件描述级语义特征;其次,通过在句子级特征上应用一个基于事件触发词的选择门来选择性表达句子级语义,以产生潜在语义特征;然后,设计了触发词重叠词数和时间间隔两个辅助特征;最后,通过融合以上特征形成一个分类器来预测共指关系。为评估上述方法,基于Twitter数据标注了一个新的数据集EventCoreOnTweets(ECT)。实验结果表明,与两个基准模型相比,提出的选择性表达模型显著提升了短文本共指消解的性能。 相似文献