基于深度学习的科学数据集检索方法研究 |
| |
引用本文: | 罗鹏程,王继民,王世奇,郭鑫,高正,赵常煜.基于深度学习的科学数据集检索方法研究[J].情报理论与实践,2022(7):49-56. |
| |
作者姓名: | 罗鹏程 王继民 王世奇 郭鑫 高正 赵常煜 |
| |
作者单位: | 1. 北京大学信息管理系;2. 北京大学图书馆;3. 延世大学融合医学系 |
| |
基金项目: | 国家社会科学基金重点项目“开放科学数据集统一发现的关键问题与平台构建研究”的成果,项目编号:20ATQ007; |
| |
摘 要: | 目的/意义]为了支撑数据驱动研究范式,促进科学数据的共享与利用,提高数据仓储和发现平台中数据集检索功能的效果。方法/过程]将科学数据集检索过程分为候选数据集检索和候选数据集重排序两个主要阶段:在第一阶段,将BM25模型与基于SimCSE的稠密检索模型结合,获取潜在的相关数据集;在第二阶段,基于BERT排序模型对候选数据集的相关性进行评分,据此优化检索结果排序。结果/结论]从国内外13个人文社科相关的科学数据仓储平台采集约10万数据集的元数据进行检索实验和效果评价,结果表明:提出的检索模型效果最优,其NDCG@10的得分分别高于基准的向量空间和BM25模型23.6和11.7个百分点;对各模型检索结果分析发现,该模型相比基准模型具有更强的语义检索能力;此外,还对模型权重设置进行分析,可为实践应用中的参数设置提供参考。局限]仅在英文人文社科数据集上进行模型效果验证。
|
关 键 词: | 信息检索 数据集搜索 科学数据 神经网络 学习排序 BERT SimCSE |
|
|