首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
艰涩的古汉语文法和线性的内容呈现方式是普通读者从史籍原文获取所需信息的两大障碍。该问题的解决需要实现史书知识重组与形式再造,即支持从时间、人物、地点等多个维度出发获取史书中的知识,并以图结构的方式呈现所返回的结构化知识以及对应的史书原文,从而在降低相关信息的获取与理解难度的同时,拉近读者与史籍原文的距离。然而,目前基于史书原文获取结构化知识的研究较少,已有研究自动化程度较低,且多在可视化呈现上与史书原文相割裂。因此,本研究提出并实现了史书多维知识重组与可视化系统,该系统包括史书多维知识建模、基于古籍智能处理技术的史书多维知识库自动构建与多维知识可视化三部分。最终将该系统应用于我国第一部纪传体史书《史记》,实现了其以人物、时间、地点、社会集团、职官等不同维度为中心的自动重组与可视化。  相似文献   

2.
面向数字人文研究的大规模古籍文本可视化分析与挖掘   总被引:2,自引:1,他引:1  
传统的古籍开发与应用模式已难以适应人文学科研究的需要,人文学科研究者期待一个技术逻辑和人文逻辑相耦合的数字人文研究范式的出现。本文从古籍文献深层次开发与利用出发,利用新的信息技术与面向数字人文研究跨学科方法,以大规模中国古籍文本为研究对象,采用大数据研究理念,对古籍进行整理、标注、自动分词等处理,以词频分析统计为研究核心,采用数据降噪、基于窗口时间单位的统计分析计算、滑动窗口预测等分析与挖掘方法,采用大数据实时分析技术,实现了实时、在线、立体、可视化、定量分析字词的历史词频分布规律,创建了一个以语言学、历史文献学、历史地理学等人文学科研究为主的古籍实时统计分析平台,可辅助研究者在大量的古籍文献中发现新的模式、现象、趋势等,实现古籍开发与应用模式创新的初步尝试。图11。参考文献36。  相似文献   

3.
[目的/意义] 基于古籍数字化和古文智能处理的古籍人文计算研究,是近年来古文信息处理的新焦点,而以数据为基础的量化分析方法能为古籍相关的传统研究问题带来新的视角和思路。[方法/过程] 以《春秋》三传中女性人物为研究对象,以多角度的女性人物知识标注为数据来源,进行了包括女性人物"姓、国、氏"、排行、谥号、尊称和年份分布的女性人物知识量化分析,以及以女性人物知识为线索的以联姻参与度为主的诸侯国联姻关系量化分析。[结果/结论] 对《春秋》三传女性人物进行了新角度的解读,提供了一种可度量、可视化的研究思路,为相关研究提供了可信的数据验证。  相似文献   

4.
叙事性文本是对现实世界的记录,也是人文学者的研究对象与基础,对叙事性文本的阐释更是人文学术研究的基本任务。随着数字人文的发展,人文学者对远距离阅读与策略型阅读的需求与日俱增。作为构成叙事性文本的基本单元,事件和情节是文本解读的重点。为了更好地适应人文学者阅读需求的转变,建构叙事性文本智慧数据,支撑数字人文研究,以情节为视角,以事件为基础,对广泛存在的叙事性文本进行深层次语义表示与结构化处理显得尤为重要。但现阶段较为成熟的文本表示方法更适用于结构相对清晰、统一的科学文本,不能很好地表示叙事性文本中存在的复杂叙事结构,因此,以知识表示与知识组织为出发点,构建符合叙事性文本特征的语义结构化表示方法具有十分重要的意义。本文在梳理叙事学基本理论与概念,以及事件知识表示、事件本体与叙事本体等理论研究的基础上,对叙事文本中存在的事件、事件间关系进行语义建模与表示,同时完善了对情节的定义,构建了基于事件的情节本体EBPO,提出了叙事性文本的"层次-网络"结构模型,用以实现对叙事性文本的语义结构化表示。初步标注的实验结果表明,借助情节本体及结构模型,可以实现对叙事性文本的语义结构化处理。  相似文献   

5.
[目的 /意义]古籍引书的计算人文研究视角将带来数字化资源、量化分析内容以及可视化呈现结果。[方法 /过程]以《春秋左传正义》中引书为对象,对其中引书进行标注、组织、计量、可视化及主题挖掘研究。[结果/结论 ]通过古籍引书知识标注和补全,完成引书知识库的构建,以引书、篇章和作者为例进行计量分析,对结果进行可视化形式呈现,并尝试构建其知识图谱。此外,结合LDA主题模型,挖掘引书句子主题内容,得到生产生活、风俗礼仪、宗教祭祀、战争和政治5个主题类型,为古籍引书内容的深入探索提供技术借鉴和数据资源。  相似文献   

6.
“数字人文”是在传统人文研究中引入数字技术及方法来研究人类社会各种文化现象的新型跨学科研究范式。在涉及古代社会与文化研究领域,数字人文研究除了采用人工智能、大数据分析等研究方法以外,还需要一些基础条件,包括如何让计算机利用和理解古代文献和古代文化,古籍数字化和古典知识库建设就是数字人文研究所必须的基础条件。古籍数字化主要涉及两个方面的问题:一个是计算机编码汉字,尤其是异体字和异形字的编码问题;另一个是计算机图像识别并转换为字符的能力问题。古典知识库是对古籍内容进行数据统计、信息和知识挖掘的基础,需要从语言、时间、地理、体系化、联结古今等维度筹划古典知识库建设,以助力数字人文的研究。图1。表1。参考文献16。  相似文献   

7.
刘浏  齐月  刘雏菲  李文祺  王东波 《情报学报》2023,(12):1498-1512
古籍引书是古籍计算人文研究的重要内容,是探寻传统文化传承脉络的重要方式。本文阐述了计算人文下古籍引书研究的内涵,描述了该研究视角下目录典籍、经学注疏、史书及诗词歌赋四类对象的引书和引典现象的异同,并以此为出发点,探讨了古籍引书全文本知识库构建的技术现状。本文围绕知识表示、知识标注、知识补全与消歧,描述了古籍引书全文本知识构建的框架流程,并就目录典籍、经学注疏、史书及诗词歌赋四类对象进行了引书知识库的构建尝试,分析了古籍引书知识库的应用前景。  相似文献   

8.
"数字人文"是当代信息技术与人文研究融合而形成的一个新兴研究领域,在国内,其理论构建和应用研究都在初步探索阶段。但随着研究的深入,数字人文必将对图书馆工作产生重要的影响。由此,作为数字图书馆建设重要组成部分的古籍数字化工作,应该充分占有数字人文研究成果,从文本挖掘、GIS技术、文本可视化和古籍语料库四个方面进行古籍数字化的深度开发。  相似文献   

9.
传统编目分类和规则匹配方法存在工作效能低、过度依赖专家知识、缺乏对古籍文本自身语义的深层次挖掘、编目主题边界模糊、较难实现对古籍文本领域主题的精准推荐等问题。为此,本文结合古籍语料特征探究如何实现精准推荐符合研究者需求的文本主题内容的方法,以推动数字人文研究的进一步发展。首先,选取本课题组前期标注的古籍语料数据进行主题类别标注和视图分类;其次,构建融合BERT (bidirectional encoder representation from transformers)预训练模型、改进卷积神经网络、循环神经网络和多头注意力机制的语义挖掘模型;最后,融入“主体-关系-客体”多视图的语义增强模型,构建DJ-TextRCNN (DianJi-recurrent convolutional neural networks for text classification)模型实现对典籍文本更细粒度、更深层次、更多维度的语义挖掘。研究结果发现,DJ-TextRCNN模型在不同视图下的古籍主题推荐任务的准确率均为最优。在“主体-关系-客体”视图下,精确率达到88.54%,初步实现了对古籍文本的精准...  相似文献   

10.
[目的 /意义]针对历史古籍事件识别问题,对比序列标注方法和文本生成方法,探究两种方法在古汉语上的表现,构建模型实现历史古籍事件识别自动化,以提高面向历史古籍构建知识图谱的效率。[方法 /过程]选取《三国志》为原始语料,序列标注实验对《三国志》事件数据集进行BMES标注,构建BBCN-SG模型,文本生成实验构建T5-SG模型,对比两种方法的表现。接下来,构建RoBERTa-SG、NEZHA-SG模型展开生成模型的对比实验。最后,结合三个文本生成模型,融入Stacking集成学习的思想,构建Stacking-TRN-SG模型。[结果 /结论 ]在历史古籍事件识别建模问题上,文本生成方法的表现明显优于序列标注方法。而在文本生成方法中,RoBERTaSG模型的识别效果综合最好。Stacking集成学习能够大大提高生成模型的识别效果,构建的Stacking-TRN-SG模型达到70.35%的召回率,初步实现历史古籍的自动事件识别。  相似文献   

11.
在数字人文领域,通过语义网技术深度构建古籍知识库时,时间本体是关键应用之一。针对古代中国纪时方法繁复多变的事实,本文以“细化”为主导思想,在时间轴向上由粗至细系统梳理中国古代时间谱系,并结合历史语境和认识语境两个视角,构建了涵盖时间系统、时间表示、时间参照系、注释和转换五大主要模块的中国古代时间本体。通过案例展示、技术实现和应用探索,探索了该本体在以古籍数据库为典型代表的数字人文领域中的应用框架与场景。  相似文献   

12.
利用新的信息技术与面向数字人文研究的跨学科方法,采用大数据研究理念对古籍文本进行字词的历时词频分布规律可视化分析,以中国史定量研究为例,对部分中国史的经典宏观理论从量化角度进行了初步验证。认为大数据视域下的技术逻辑和人文逻辑相耦合的数字人文研究为人文社会科学经典理论的验证和拓展提供了更多研究空间与研究方法,有利于推进古籍文献深层次的开发与利用。  相似文献   

13.
数字人文概念的提出扩展了古文自动化处理的内涵与外延,实现古籍文本语义的深层理解成为首要任务。因此,本文重点探索古籍句读识别任务中的语义增强模式,以提升主流BBiC模型(BERT-BiLSTM-CRF)表征古籍文本语义的能力。本文融合结构特性从文本与模型两个维度实现古籍文本语义的深层表征,提出引入细粒度文本知识的BBiC-EK (BBiC-external knowledge)模型与融合文本结构特征的BBiCC-EK模型(BBiC-CNN-EK),并从模型结构化角度探究CNN与BiLSTM的最优连接方式以及外部知识编码的最优引入位置,多方位探究模型提升效果。研究结果表明,采用BBiC-EK模型中的最优外部知识组合模式,相较于基线BBiC模型能将句读识别准确率提升0.83个百分点;进一步融合CNN并探究最优模型结构下的BBiCC-EK (Se)模型能将BBiC模型的识别准确率提升1.36个百分点。本文通过融合结构特性的语义增强技术,实现了古籍文本句读识别准确率的提升,为古籍文本的自动化语义理解提供了新思路。  相似文献   

14.
古籍目录辨章学术,考镜源流,对古典学术研究具有重要的价值。本文提出古籍提要网络分析模型,用无向三部图整合古籍、人物和提要信息。在此基础上构建古籍目录智能分析工具,不仅可以自动挖掘提要中蕴藏的人物关系,与已有的古代人物知识库相关联,为知识库补充可靠而有价值的关系信息;而且综合考虑提要的元数据和正文的语义特征信息,并将其整合入推荐算法中,能为用户智能地推荐与被检索项内容、部类名、古籍名、古籍责任者相关的提要。以《四库全书总目》为实验数据集,一方面基于提要网络,从人物、古籍、提要三个层面探索不同实体间的内在联系,并就四部提要中出现的人名和古籍名开展定量研究;另一方面从作者简介、内容概述及学术评价这三种提要文本特征入手,结合元数据信息和三种常用的文献推荐算法,评估不同的语义特征对工具推荐功能准确性的影响。实验结果表明,提要文本中的内容概述及学术评价作为语义特征提炼,再结合元数据信息,效果良好,可推广应用到面向古籍的知识发现中。图4。表6。参考文献51。  相似文献   

15.
以古籍描述元数据著录规则为基础,提出一种基于本体语义的古籍知识库建设方案,给出知识库的结构框架,并以语义网为工具对方案作了简要的实现。  相似文献   

16.
注疏是对古代典籍注释及再注释而形成的文本,不仅反映注疏者对古籍文本的认知理解,也是后人理解、传承与传播思想与文化的重要基础。利用本体和纳米出版物等语义技术对注疏文本进行知识表示和语义化建模,可以揭示注疏文献中蕴含的知识间的语义关系,并实现注疏文献的语义化出版与再造。为验证注疏知识表示和语义化建模方法的可行性及实用性,本文设计了包含引用关系的阐释本体,并以部分注疏文本为语料,实现了以纳米出版物为独立出版单位的注疏语义化表示与引用关系推断。实验证明,阐释本体可作为单语篇注疏知识单元结构化和跨语篇注疏知识单元关联化的数据模型,助力注疏文献的数据化处理与价值增值。注疏知识的语义化表示路径可以为古籍知识库建设、语义出版和数字化再造提供参考。图6。表5。参考文献41。  相似文献   

17.
古籍资料库的自动超文本标注   总被引:3,自引:0,他引:3  
依据古籍文献正文、校勘、参考文献等部分之间的非线性结构特性和计算机超文本技术,以720万字的《续资治通鉴长编》文本资料库超文本标注为例,着重讨论了超文本自动标注及其实现方法,并简要介绍了超文本和超文本标注语言(HTML)。  相似文献   

18.
在互联网时代,对地方志文本进行可视化是方志数字化建设的一个重要部分,可以满足用户对历史文化知识服务多样化、个性化的需求。以我国地方志语料库中的文本为研究对象,采用文本可视化理念对地方志文本进行处理,一方面需要对地方志内容进行专题分类,并以时间-事件维度为主导将各种地方志中记载的事件结合具体描述信息通过WebGIS呈现出来;另一方面,还需通过知识地图展现事件之间的逻辑关系和知识网络,方便用户在观看知识地图的同时完成对知识的内化过程。通过案例研究,得到基于大量地方志文本的人物事件关系图谱,实现地方志文本可视化应用模式创新的一次初步尝试。图3。参考文献12。  相似文献   

19.
从相关概念、重要性以及构建路径等方面对对象人物知识库进行了构建研究。以地方历史文化名人"卞和"文献资源开发为例,对知识库的结构体系进行了设计,用基于对象人物显性知识关联的知识库构建方法,实现了对具体对象人物分散、无序知识信息的有效整合和管理。  相似文献   

20.
基于可视化技术的知识提取研究   总被引:2,自引:0,他引:2  
本文讨论了如何利用可视化技术实现知识提取。基于可视化技术的知识提取首先将隐性知识以可视化的形式表示出来;然后,对知识的内容、结构以及可行性等方面进行评价;最后,根据评价结果形成最终的显性知识,存入知识库。基于可视化技术的知识提取需要一定的沟通机制和促进机制。基于可视化技术的知识提取平台设计应遵循一定的原则;平台设计主要考虑可视化技术、沟通机制以及知识的结构化程度三个问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号