排序方式: 共有28条查询结果,搜索用时 0 毫秒
1.
2.
3.
4.
信息检索技术致力于从海量的信息资源中为用户获取所需的信息。相较于传统的简单模型,近些年来的大量研究工作在提升了检索结果平均质量的同时,往往忽略了鲁棒性的问题,即造成了很多查询的性能下降,导致用户满意度的显著下降。本文提出了一种基于排序学习的查询性能预测方法,针对每一个查询,对多种模型得到的检索结果列表进行预测,将其中预测性能最优的检索结果列表展示给用户。在LETOR的三个标准数据集OHSUMED、MQ2008和MSLR-WEB10K上的一系列对比实验表明,在以经典的BM25模型作为基准的情况下,与当前最好的检索模型之一LambdaMART相比,该方法在提升了检索结果平均质量的同时,显著地减少了性能下降的查询的数量,具备较好的鲁棒性。
相似文献
相似文献
5.
检测网页重要变化,判断页面核心内容是否发生变化,可有效降低数据采集中重复索引的数量,因此,文中提出基于视觉的网页重要变化检测方法,用于检测页面不同语义区域的变化,可将页面压缩表示为一个低维向量.从用户视觉的角度,理解页面不同区块语义重要度的差异.相比现有方法,文中方法独立于基于HTML类基础文档的分析方法,在新媒体,如移动互联网上,也有一定的适用性.实验也验证文中方法的有效性. 相似文献
6.
面对大规模异构网页,基于视觉特征的网页信息抽取方法普遍存在通用性较差、抽取效率较低的问题。针对通用性较差的问题,该文提出了基于视觉特征的使用有监督机器学习的网页信息抽取框架WEMLVF。该框架具有良好的通用性,通过对论坛网站和新闻评论网站的信息抽取实验,验证了该框架的有效性。然后,针对视觉特征提取时间代价过高导致信息抽取效率较低的问题,该文使用WEMLVF,分别提出基于XPath和基于经典包装器归纳算法SoftMealy的自动生成信息抽取模板的方法。这两种方法使用视觉特征自动生成信息抽取模板,但模板的表达并不包含视觉特征,使得在使用模板进行信息抽取的过程中无需提取网页的视觉特征,从而既充分利用了视觉特征在信息抽取中的作用,又显著提升了信息抽取的效率,实验结果验证了这一结论。 相似文献
7.
8.
9.
在给定的任务中分析各种数据时,目前大多数研究只针对单源数据进行分析,缺乏应用于多源数据的方法.但如今数据日益丰富,因此提出一种多源数据融合框架,用于融合多种网络平台数据.同一平台数据中包含文本与各种属性,同时不同平台的数据在内容与形式方面也存在很大差异.然而现有的网络信息挖掘方法大多仅使用同一平台中的部分数据进行分析,忽略了不同平台的数据之间存在的相互作用.因此文中提出一种数据融合框架,一方面,能基于图的强大表示能力融合同一平台不同类型的特征,从而提升单个平台的任务性能;另一方面能够利用不同平台的数据特征,使其相互补充,从而提升多个平台的任务性能.文中讨论的融合数据类型包括文本、时间、作者信息,这些特征涉及连续特征、离散特征以及非结构化特征.所提框架在事件分类任务上提升了 F1值,验证了提出的多源数据框架的有效性. 相似文献
10.