首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 265 毫秒
1.
科研实体名称规范的关联数据模型构建   总被引:1,自引:0,他引:1  
[目的/意义] 旨在研究将国家科技图书文献中心(National Science and Technology Library,NSTL)的科研实体名称规范数据发布为关联数据的难点——关联数据的数据模型。科研实体名称规范数据的数据模型研究,有助于NSTL科研实体数据的共享、互联、质量提升,融入到互联网中,同时也为其他机构使用、发布关联数据提供模型参考。[方法/过程] 首先,分析比较国内外关联数据发布项目中所采用的数据模型,发现关联数据发布项目中的数据模型主要分为以Schema.org为核心和多种标准词表组合两类;结合NSTL名称规范数据的特点,设计两种形式的关联数据模型,并从关联数据模型对名称规范数据的表达程度、模型复杂度等角度进行比较,选择较优方案;最后以D2RQ为工具进行实验,将NSTL名称规范的样例数据发布为关联数据。[结果/结论] 分析发现两种方案中以Schema.org为核心标准词表的方案相对于多种标准词表组合的方案有较优的表达完整度、较低的模型复杂度,更易于融入互联网,因此更适合作为NSTL名称规范数据的关联数据模型。  相似文献   

2.
[目的/意义] 随着Altmetrics研究日益深入,有效识别Altmetrics评价的利益相关方需求对评价指标设计及数据基础设施建设具有重要意义。[方法/过程] 以高校科研人员为对象,利用半结构访谈法识别我国高校科研人员的Altmetrics评价需求,采用问卷调查法获取数据并检验识别出高校科研人员Altmetrics评价需求的差异性。[结果/结论] 研究发现,我国高校科研人员主要有7类Altmetrics评价需求,分别是:研究评价,成果展示,需求发现,学术认可,交流传播,成果操作,学科发展;不同年龄组别高校科研人员在"研究评价"方面有差异,"51-60岁"年龄组较其他年龄组在"研究评价"方面的需求明显偏低;除"交流传播"外,人文学科的6个Altmetrics评价功能需求强度均低于社会学科和自然学科,自然科学与社会科学间的评价需求完全一致;除"研究评价"功能需求在教师与学生存在差异外,6个Altmetrics评价需求对所有不同身份类别高校科学人员没有差异;7类Altmetrics评价需求对高校科研人员具有较高的普遍适用性。  相似文献   

3.
[目的/意义] 随着Altmetrics研究日益深入,有效识别Altmetrics评价的利益相关方需求对评价指标设计及数据基础设施建设具有重要意义。[方法/过程] 以高校科研人员为对象,利用半结构访谈法识别我国高校科研人员的Altmetrics评价需求,采用问卷调查法获取数据并检验识别出高校科研人员Altmetrics评价需求的差异性。[结果/结论] 研究发现,我国高校科研人员主要有7类Altmetrics评价需求,分别是:研究评价,成果展示,需求发现,学术认可,交流传播,成果操作,学科发展;不同年龄组别高校科研人员在"研究评价"方面有差异,"51-60岁"年龄组较其他年龄组在"研究评价"方面的需求明显偏低;除"交流传播"外,人文学科的6个Altmetrics评价功能需求强度均低于社会学科和自然学科,自然科学与社会科学间的评价需求完全一致;除"研究评价"功能需求在教师与学生存在差异外,6个Altmetrics评价需求对所有不同身份类别高校科学人员没有差异;7类Altmetrics评价需求对高校科研人员具有较高的普遍适用性。  相似文献   

4.
[目的/意义]以故事线梳理史实脉络,不仅对于描绘与把握历史发展方向具有一定的理论和现实指导意义,同时也为人文领域的知识发现提供新的技术实现方式和创新性研究视角.[方法/过程]提供一种基于文本数据的故事线构建及可视化、情感化、场景化的研究范式,通过爬梳《张学良口述历史》文本作为数据源进行实证探索.采用jieba分词对《张...  相似文献   

5.
[目的/意义]针对中文语言表达特点,提出一种含分词标签的字粒度词语特征提取方法,有效提升了中文临床病历命名实体识别任务的F1值,同时该方法可以为其他中文序列标注模型所借鉴。[方法/过程]选取汉语词语的词性标注、关键词权值、依存句法分析三个特征,构筑字粒度序列标注模型的临床病历训练文本,语料来源CCKS2017:Task2。在不同特征组合方式下,采用条件随机场算法验证两种字粒度词语特征提取方案Method1与Method2。[结果/结论]在四种不同词语特征组合下,Method2相对于Method1在临床病历命名实体识别任务中性能均有所提升,四折交叉测试中F1值平均提升了0.23%。实验表明在中文分词技术日趋成熟的环境下,Method2相对Method1能够获得更好的词语特征表示,对中文字粒度序列标注模型的处理性能具有提升作用。  相似文献   

6.
[目的/意义]现有新闻文档实体排序研究大多以文档或实体为中心,如文本分类、实体链接等,关注实体在文本中的重要性的研究较少,本研究探讨基于重要性的新闻文档实体排序。[方法/过程]给定一篇文档,判断文档中实体相对文档而言的重要性,并基于此对实体进行排序。在搜狗全网新闻数据集上进行实验,并利用NDCG和逆序对比率两个指标对实体排序结果进行评价。[结果/结论]实验结果表明,基于实体频率、TF*IDF、信息熵、TextRank等的方法以及集成方法都达到了较好的效果,基于聚集系数的方法效果一般。其中基于TF*IDF的方法NDCG值为95.86%,是该指标下的最好结果;基于集成方法的逆序对比率值为84.46%,是该指标下的最好结果。  相似文献   

7.
[目的/意义]在线医疗信息抽取是实现医疗信息检索、医疗信息推荐、个人医疗健康提醒及警示、疾病诊断、公众健康监控、药物不良反应挖掘等服务的基础环节,而医疗实体抽取则是在线医疗信息抽取的首要工作。本文拟解决传统医疗实体抽取严重依赖于人工特征提取且效率低的问题。[方法/过程]以网络文本为研究对象,首先对医疗实体类型和医疗实体抽取的目标进行描述。将在线医疗文本中的医疗实体抽取任务看作序列标注问题来解决,通过对CNN模型和BiLSTM模型基础理论的探讨,构建基于混合深度学习模型CNN-BiLSTM的医疗实体抽取框架。[结果/结论]通过三组对比实验,验证了本文所使用的CNN-BiLSTM模型在医疗实体抽取任务中的有效性。  相似文献   

8.
[目的/意义]关联数据的研究对于数据资源的描述、组织、发布、检索、利用等具有重要意义。医学相关领域拥有庞大的数据规模和发达的数据共享实践,对该领域开放关联数据集进行系统的调查研究,对关联数据集的共享、管理、应用而言有重要的参考价值。[方法/过程]从平台分布、主题、格式、链入链出关系、所用词表等维度就医学相关领域的85个开放关联数据集进行调查及统计分析;从药物知识发现、语义关联搜索、智慧医疗建设等方面研究关联数据集的实际应用问题。[结果/结论]归纳医学相关领域开放关联数据集在科学研究和实践应用中的特点,以及在推动语义网发展和支持智慧医疗等方面的欠缺之处,以期促进对语义网、关联数据网络等关联数据发展与应用相关问题的进一步思考、探索和解决。  相似文献   

9.
在线健康社区用户个人健康信息管理行为特征研究   总被引:3,自引:1,他引:2  
[目的/意义] 旨在对在线健康社区用户的个人健康信息管理行为特征进行分析,并在此基础上,对"平台-PHIM-健康目标"这一模式中的元素之间的关系进行探讨。[方法/过程] 选择患有红斑狼疮的在线健康社区用户作为调查对象。采用聚类方法对个人健康信息管理行为的总体测度水平不同的群体进行识别;利用单因素方差分析(One-way ANOVA)对不同群组进行比较研究。[结果/结论] 将依托在线健康社区进行的个人健康信息管理行为界定为健康信息发现、健康信息互动和健康信息分享。从数据分析结果来看,首先,在线健康社区的红斑狼疮患者在个人健康信息管理行为水平上存在显著的高低差异。第二,用户所感知到的社会支持与其个人健康信息管理水平存在正相关关系。第三,个人健康信息管理与用户健康目标之间存在正相关关系。本研究为在线健康社区完善其服务方式,促进慢性病人个人健康信息管理水平提高提供合理建议。  相似文献   

10.
[目的/意义]典籍是我国传统文化、思想和智慧的载体,结合数字人文的数据获取、标注和分析方法对典籍进行实体自动识别,对于后续应用研究具有重要意义。[方法/过程]基于经过自动分词与人工标注的25本先秦典籍构建古籍语料库,分别基于不同规模的语料库和Bi-LSTM、Bi-LSTM-Attention、Bi-LSTM-CRF、Bi-LSTM-CRF-Attention、Bi-RNN和Bi-RNN-CRF、BERT等7种深度学习模型,从中抽取构成历史事件的相应实体并进行效果对比。[结果/结论]在全部语料上训练得到的Bi-LSTM-Attention与Bi-RNN-CRF模型的准确率分别达到89.79%和89.33%,证实了深度学习应用于大规模文本数据集的可行性。  相似文献   

11.
[目的/意义] 在中医医案管理过程中存在中医医案元数据不统一、精度不足等问题,不利于中医医案知识库的信息检索、知识共享和挖掘,研究建立规范的中医医案元数据模型,对于支持中医医案的深度多维检索、知识共享和挖掘具有重要作用。[方法/过程] 通过文献调研法对现用中医相关标准规范、元数据标准进行总结;通过网络调查法收集中医医案实例,结合内容分析法对医案内容进行分析,初步界定医案元数据元素;再通过实地调查法,在中医诊疗现场对中医诊疗过程进行观察和访问,对初步界定的医案元数据元素进行优化,得到最终医案元数据元素集。[结果/结论] 构建了面向中医诊疗知识库的医案元数据模型,全面描述中医诊疗过程,为统一中医医案元数据提供参考。  相似文献   

12.
中文超声文本结构化与知识网络构建方法研究   总被引:1,自引:0,他引:1  
[目的/意义]超声检查是判断患者病情的重要依据,目前主要检查数据是以文本形式存在。本文提出一种基于超声检查数据的文本结构化和知识网络构建方法,为进一步挖掘临床知识奠定数据基础。[方法/过程]对自然语言处理技术在超声文本环境下的应用进行改进,包括分词处理、内容定位、结构化识别三个主要步骤,实现对超声文本的切分与标记,并且在此基础上建立其结构化知识网络。[结果/结论]真实数据测试结果显示,本文提出的面向超声检查文本的结构化方法具有较好的性能表现。该方法可以实现对批量超声文本结构化网络的自动构建,能够反映超声文本中结构化内容的层次关系与属性结构等潜在知识。  相似文献   

13.
[目的/意义] 在人文计算兴起这一背景下, 为了更加深入和精准地从古代典籍中挖掘出相应的知识, 针对先秦文献进行自动分词的探究。[方法/过程] 基于《汉学引得丛刊》中的《春秋经传注疏引书引得》制定词汇表, 在由《春秋左氏传》和《晏子春秋》所构成的训练和测试语料上, 通过条件随机场模型, 结合使用统计和人工内省方法确定的特征模板, 完成对先秦典籍进行自动分词的探究。[结果/结论] 在先秦典籍自动分词的整个流程基础上, 得到简单特征模板、内部特征模板和组合特征模板下的自动分词模型, 最好的分词模型调和平均值达到97.47%, 具有较强的推广和应用价值。在构建自动分词模型的过程中, 通过融入内部和外部的特征知识, 模型的精确率和召回率得到有效的提升。  相似文献   

14.
[目的/意义] 构建与新时代相适应的人民日报分词语料库,为中文信息处理提供最新的精标注语料,也为从历时的角度分析现代汉语提供新的语言资源。[方法/过程] 在分析已有汉语分词语料库的基础上,描述所构建新时代人民日报语料库的数据源、标注规范和流程,通过构建分词自动标注模型测评语料库的性能,并与已有语料库进行对比。[结果/结论] 新时代人民日报语料库遵循现代汉语语料库基本加工规范,规模大,时间跨度长。选取其中的2018年1月部分,基于条件随机场构建分词模型,与1998年1月人民日报语料进行性能测评与对比,所得到的各项具体测评指标表明,新时代人民日报语料整体性能突出,1998年语料无法替代,当前构建该语料库非常必要。  相似文献   

15.
[目的/意义] 在新时代人民日报分词语料库的基础上构建的深度学习自动分词模型,不仅有助于为高性能分词模型的构建提供经验,也可以借助具体的自然语言处理研究任务验证深度学习相应模型的性能。[方法/过程] 在介绍双向长短时记忆模型(Bi-LSTM)和双向长短时记忆与条件随机场融合模型(Bi-LSTM-CRF)的基础上,阐明汉语分词语料预处理、评价指标和参数与硬件平台的过程、种类和情况,分别构建Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型,并对模型的整体性能进行分析。[结果/结论] 从精准率、召回率和调和平均值3个指标上看,所构建的Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型的整体性能相对较为合理。在具体性能上,Bi-LSTM分词模型优于Bi-LSTM-CRF分词模型,但这一差距非常细微。  相似文献   

16.
[目的/意义] 中医药是中华文化的传承,对现代医学发展具有重要作用,应受到高度重视。利用数字技术组织中医古籍,对其进行保护与重用具有重要意义。[方法/过程] 以简帛医药文献为研究对象,分别构建简帛医药书目本体和内容本体,并通过书目本体和内容本体的连接形成简帛医药文献本体模型;利用命名实体识别模型抽取实体概念,利用依存句法分析和规则的方法抽取实体关系,最终将简帛医药文献数据存入图数据库,实现简帛医药文献知识图谱可视化与检索查询结果呈现。[结果/结论] 利用本体和知识图谱,提出简帛医药知识组织方法,建立具有逻辑关系的简帛医药知识链,形成中医药领域知识的语义网络,在中医古籍的智能化方面做出有益的探索,有助于中药知识的普及与传承。  相似文献   

17.
[目的/意义]实现学术查询意图的自动识别,提高学术搜索引擎的效率。[方法/过程]结合已有查询意图特征和学术搜索特点,从基本信息、特定关键词、实体和出现频率4个层面对查询表达式进行特征构造,运用Naive Bayes、Logistic回归、SVM、Random Forest四种分类算法进行查询意图自动识别的预实验,计算不同方法的准确率、召回率和F值。提出了一种将Logistic回归算法所预测的识别结果扩展到大规模数据集、提取"关键词类"特征的方法构建学术查询意图识别的深度学习两层分类器。[结果/结论]两层分类器的宏平均F1值为0.651,优于其他算法,能够有效平衡不同学术查询意图的类别准确率与召回率效果。两层分类器在学术探索类的效果最好,F1值为0.783。  相似文献   

18.
大规模中国历代存世典籍知识图谱构建研究   总被引:2,自引:1,他引:1  
[目的/意义]探索构建中国历代存世典籍知识图谱,以为研究者挖掘海量古籍书目数据背后隐藏的知识提供一站式平台,拓展古籍知识服务内涵,同时,大规模的典籍知识图谱也是机器智能的重要基础。[方法/过程]通过知识图谱技术对中国历代存世典籍进行知识组织,从需求层、模型层、应用层3部分构建一个典籍知识图谱框架模型,通过人机协作进行典籍数据抽取及多源数据融合,完成数据的整理,并对典籍知识图谱实体类型及属性、典籍知识图谱实体关系及类型进行分析与定义。[结果/结论]所构建的典籍知识图谱包含649549种古籍实体、221783位典籍责任者、1498383个古籍版本、13960个地名节点,形成了一个立体、多维、多用途的古籍知识关联网络,对全球目前存世的主要中国历代典籍书目信息进行了较全面描述。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号