排序方式: 共有63条查询结果,搜索用时 15 毫秒
41.
为解决在开放领域问题回答问题中语料规模较小、难以满足问题分类训练需要的问题,用主动学习
方法来构建中文问题分类数据集,根据主动学习的方法进行中文问题类别标注,并且通过主动式特征选择方
法来提升性能.实验结果表明:在使用主动学习方法时可以快速收敛到最佳准确率(85%),在使用人工标注
特征下特征集明显的减小.基于主动学习的标注方法在需要较小人工标注同时取得很好的分类性能,并且在
一定程度上还可以明显提高问题分类的准确率 相似文献
42.
小样本文本分类任务同时面临两个主要问题: ①样本量少,易过拟合;②在元学习框架的任务形式下,监督信息被进一步稀疏化。近期工作中,利用图神经网络建模样本的全局信息表示(full context embedding)成为小样本学习领域中一种行之有效的方法,但将其迁移至小样本文本分类任务,由于文本多噪声,且特征易混淆,图神经网络往往出现过度平滑问题(over-smoothing)。该文提出了一种双通道图神经网络,在建模样本的全局特征的同时,充分利用标签传播机制,通过共享两通道的信息传播矩阵使得监督信息有效约束了图神经网络迭代过程。与基线的图神经网络相比,该方法在FewRel数据集上平均取得了1.51%的准确率提升;在ARSC数据集上取得了11.1%的准确率提升。 相似文献
43.
近年来,Hashtag推荐任务吸引了很多研究者的关注。目前,大部分深度学习方法把这个任务看作是一个多标签分类问题,将Hashtag看作为微博的类别。但是这些方法的输出空间固定,在没有进行重新训练的情况下,不能处理训练不可见的Hashtag。然而,实际上Hashtag会随着时事热点不断快速更新。为了解决这一问题,该文提出将Hashtag推荐任务建模成小样本学习任务。同时,结合用户使用Hashtag的偏好降低推荐的复杂度。在真实的推特数据集上的实验表明,与目前最优方法相比,该模型不仅可以取得更好的推荐结果,而且表现得更为鲁棒。 相似文献
44.
45.
机器学习的查询扩展在博客检索中的应用 总被引:1,自引:0,他引:1
该文介绍一种新的查询扩展方法,该方法结合了查询扩展技术和机器学习理论。通过机器学习的方法挑选出查询扩展词,以此提高检索结果的性能。对于输入的查询项,首先通过伪反馈技术生成候选扩展词集合,然后使用支持向量机对输入的候选词评分,挑选得分较高的候选词和原始查询项组成一个新的查询项。由于训练这个支持向量机的训练数据较难获得,我们利用评测会议的检索结果和检索工具自动地生成训练数据。这套查询扩展方法的优点在于通过对训练语料的学习,能够对候选扩展词作出更合理的选择。在TREC评测会议组织的观点检索任务中,相对于不采用任何扩展技术的基准系统,该方法提高了MAP指标33.1%。 相似文献
46.
47.
阅读理解(reading comprehension,RC)任务的目的在于理解一篇文档并对提出的问题返回答案句.提出了一种充分利用外部资源来提高RC系统性能的方法,使得RC系统性能在Remedia和ChungHwa两种语料上均得到提高.特别地,在对基于Remedia语料RC系统的性能分析表明,24.1%的性能提高归因于基于Web的答案模式匹配的运用,11.1%的性能提高归因于语言学特征匹配策略运用.同时也进行了t-test,结果表明答案模式匹配、语言学特征匹配和词汇语义关联推理的运用所得到的性能提高是显著的. 相似文献
48.
49.
文本自动综述系统的研究与实现 总被引:6,自引:0,他引:6
文本自动综述是自动文摘在多文档上的推广.提出了一种基于统计的文本自动综述方法,并描述了它的实现过程.该方法利用文档内和文档之间段落的语义相关性,实现多文档的自动综述.首先对文本进行分段实现信息分割;再对文本段进行聚类实现信息凝聚;最后抽取代表段产生综述结果实现信息压缩.实验结果表明,该方法是有效的,具有一定的实用价值. 相似文献
50.
一种利用链接信息检索关键资源的算法 总被引:2,自引:0,他引:2
随着互联网的发展,基于Web的信息处理技术越来越受到人们的重视,也是当前研究的前沿课题。本文探讨的是如何在现有检索技术的基础上,利用Web网页的链接信息,自动地得到更高质量的检索结果——关键资源。本文提出一种同时利用Web网页的结构和内容信息以及链接信息的新方法:先结合网页的结构信息和内容评分得到网页的文档评分,然后基于网页出链的文档评分计算网页的链接评分。实验表明,本文的方法减少了无用链接的干扰,比单纯利用链接信息的效果好得多。 相似文献