首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
为提高法院工作效率和判案的公正性,开发了案件辅助判决系统。将裁判文书分为刑事、民事、执行、赔偿、行政5大案件类型,便于对判决书的处理,存储和查询。系统采用SimHash算法,对用户提交的判决书提取关键信息,查找出数据库中同类型判决书中相似度最高的判决书推荐给用户。  相似文献   

2.
命名实体识别作为信息抽取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,在法院判决书信息抽取系统中也得到了广泛应用。然而,已有的技术模型在文本中存在大量专有名词或术语时,实体识别的提取效果会变得很差。双向循环神经网络—条件随机场判别模型可对现有的法院判决书条件随机场模型进行优化,实现自动化特征的选取过程,准确率比已有的条件随机场模型更高。  相似文献   

3.
基于XML的Web半结构化信息抽取   总被引:1,自引:0,他引:1  
Web信息抽取是信息抽取技术在B/S体系中的新发展,在增量信息存储与搜索中有着广泛的应用。本文阐述的基于XML的Web半结构化信息抽取,是将Web表示层作为信息源,基于XML、JTidy数据清洗及Xquare-bridge等技术及开源项目,实现Web中半结构化的隐式信息点抽取,生成结构化、语义更清晰的表示及存储形式。  相似文献   

4.
互联网的快速发展以及Web数据的日益庞大,使用户从Web中获取有用信息变得日益困难,如何快速有效地从Web中准确抽取信息已经成为亟待解决的问题,Web信息抽取技术应运而生.提出了一种新的基于XML的WEB信息自动抽取方法,采用数据转换算法将HTML文档标准化,通过学习样本实例的XPATH表达式,形成抽取规则库,并利用规则库对其它同类页面实现信息的自动抽取.实验结果表明,该方法具有较高的查全率和查准率,且抽取结果具有自描述性,方便于建立各个领域的数据抽取系统.  相似文献   

5.
针对Web挖掘中Web数据的抽取问题,设计了一种基于XML的Web数据抽取方法。由于Web数据的最大特点是半结构化,所以采用XML(半结构化的数据模型)来解决传统的关系数据库不适合Web数据存储的问题,从而将XML的档描述与关系数据库中的属性一一对应起来,实施精确地查询与模型抽取。由于Web数据的大量信息都与抽取无关,所以利用XSL过滤掉XML的无关数据,并进行实时抽取,最后将合并结果保存到XML档中。实验结果表明,此方法可以很好地解决Web数据的抽取和存储问题。  相似文献   

6.
基于隐马尔可夫模型的招聘网络信息抽取   总被引:1,自引:0,他引:1  
网络信息抽取是从半结构化的Web海量数据中,按用户要求抽取且形成相关的有效的结构数据处理过程。论文以隐马尔科夫模型(HMM)进行数据抽取中的若干关键问题进行研究,提出了基于数据挖掘聚类的模型合并方法生成隐马尔可夫模型,即可根据数据自动生成HMM,同时对一般的隐马尔可夫模型进行了扩展,为每个抽取域生成一个隐马尔可夫模型,用于获取更多的有用信息。  相似文献   

7.
面向结构的Web表格数据抽取系统   总被引:2,自引:0,他引:2  
针对Web数据挖掘预处理中,Web表格无结构化描述及缺乏清晰语义信息的问题,构建了面向结构的Web表格数据提取系统.利用HTMLParser库的解析原理,设计启发式规则对Web表格结构进行定位、识别、提取并剔除非数据型结构;以Xml规范化模型对提取表格数据进行存储.最后抽取9个中文网站171个数据表格进行验证试验,结果表明对于结构化完整的表格具有较高的识别率并有一定的容错能力.  相似文献   

8.
基于HTML结构特征的网页信息提取   总被引:1,自引:0,他引:1  
Web上的信息很多存储在HTML页面上,传统的网页数据抽取方法是使用包装器(Wrapper)来抽取网页中感兴趣的数据。包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。避开了使用Wrapper,针对新闻类网页的结构特点,从视觉角度对网页页面空间的构成进行了噪声与信息实体的划分与判断。讨论了一种根据新闻类网页层次结构和各层节点统计信息进行新闻主体提取的方法。改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,并对其节点添加了统计信息,利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反向降噪抽取新闻类网页得到结构化数据的方法。实验结果表明,用这种方法进行新闻类网页主体信息提取的有效性。  相似文献   

9.
根据目前我国企业在产品试验数据管理方面的不足,结合计算机网络和数据库技术,提出了构建产品试验数据管理系统的方案。针对产品试验过程的数据管理特点,经过系统的分析,使用系统C/S结构的客户端建立数据模型,通过客户端的web浏览器连接到系统服务器,根据不同的操作权限对系统数据库进行读写或者管理维护。采用结构化和非结构化相结合的方式对试验数据及相关技术文档、试验资源进行有效的管理,不仅减少了相关工作人员的工作量,而且提高了工作效率,快速得到真实有效的试验数据。  相似文献   

10.
针对现有文档数据抽取方法无法抽取多值属性且灵活性不高的问题,提出了一种面向非结构化表格文档的数据抽取方法与组织模型.在分析文档结构特征和数据流特征的基础上,定义了数据流生成基本规则,给出了一个基于规则的数据抽取流程,包括逻辑结构抽取、文档预处理、数据抽取和数据组织等主要步骤,设计实现了单值区域与多值区域数据抽取算法;从文档中抽取的数据被组织成适合于MapReduce分析的结构化数据模型,该模型能够为大数据分析提供模型支持.实验结果表明:该抽取方法具有较高的准确率与召回率,数据组织模型也能够有效地支持大数据分析.  相似文献   

11.
提出基于弱监督学习的属性抽取方法, 利用知识库中已有结构化的属性信息自动获取训练语料, 有效解决了训练语料不足问题. 针对训练语料存在的噪声问题, 提出基于关键词过滤的训练语料优化方法. 提出n元模式特征提取方法, 该特征能够缓解传统n-gram特征稀疏性问题. 实验数据源来自互动百科, 从互动百科信息盒中抽取结构化属性信息构建知识库, 从百科条目文本中自动获取训练数据和测试数据. 实验结果表明, 关键词过滤能有效提高训练语料的质量, 与传统n-gram特征相比, n元模式特征能够提高属性抽取的性能.  相似文献   

12.
基于分类语义的Web信息检索系统   总被引:2,自引:0,他引:2  
在海量数据空间中快速、准确地获取用户所需Web信息成为检索系统研究的焦点.将一种全新的网页自动分类技术引入WWW信息抽取领域来解决网上信息有效获取的问题。设计一个基于分类语义的搜索引擎系统——SESC系统.通过Web数据抽取机制以及Web信息分类技术实现检索结果的分类和层次化展示,使得用户快捷地从WWW上获取所需信息.  相似文献   

13.
基于HBase的输电线路综合数据存储方案设计   总被引:1,自引:0,他引:1  
输电线路综合数据具有复杂性、体量巨大及多源异构等特点。针对当前关系数据库对于视频图像、图片等非结构化数据处理能力不足的问题,结合大数据的相关理论,提出基于Hadoop和HBase的输电线路综合数据的存储方案,将结构化数据和非结构化数据均转化为Bytes数组存入HBase数据库,并阐明具体的存储原理和工作方式,有效地解决了原有数据信息共享性差、非结构化数据难以存储等难题,弥补了关系数据库的不足,为大数据时代下智能电网的信息化建设提供思路。  相似文献   

14.
根据不同结构、不同平台之间数据通信问题,分析了多平台综合电子政务系统的功能模块、软件体系结构,对系统中的DECS实时监控、智能化工作流引擎、异种数据数据库信息存取、结构化数据和非结构化数据的归一化处理等原理和技术作了探讨,提出了设计和实现的方法.  相似文献   

15.
在公检法、纪检监察等领域的大数据分析中,结构化数据和非结构化文本数据往往成为主要数据源. 基于这类数据进行业务分析时,需要重点提取数据背后的隐型关联,而事件抽取是对此类文本数据进行关联分析的核心基础. 过往事件抽取任务将事件触发词识别和事件要素识别分开进行,由事件触发词识别得到的事件触发词及事件类型进行后续的事件要素识别,存在误差传播的问题,且以往的基于表示的方法构建的词向量,对于句子级特征的提取能力存在缺失. 提出了一种RBBLC联合抽取模型,以序列标注的方式同时完成事件识别和事件要素识别. 所提RBBLC模型基于RoBERTa构建包含更丰富上下文信息的词向量,继而应用BiLSTM-CNN的网络结构捕捉语句内部关联信息进行事件触发词及论元标签预测和事件类型预测. 在CEC语料库上进行了抽取实验和归纳分析,本方法的F1值、准确率、召回率三项指标较基线方法分别提高了16%、28%和24%,有效提升了事件抽取任务性能.  相似文献   

16.
根据不同结构、不同平台之间数据通信问题,分析了多平台综合电子政务系统的功能模块、软件体系结构,对系统中的DECS实时监控、智能化工作流引擎、异种数据数据库信息存取、结构化数据和非结构化数据的归一化处理等原理和技术作了探讨,提出了设计和实现的方法。  相似文献   

17.
从文本大数据中快速准确地抽取文本的实体关系信息是构建知识图谱的关键.针对目前主流的远程监督关系抽取方法常常忽略实体对的类型信息和句子语法信息的问题,该文提出了一种基于深度强化学习的文本实体关系抽取方法.首先,利用结合实体周围词注意力机制的双向长短期记忆网络作为句子编码的第一个模块;然后,在此基础上加入实体类型嵌入模块,...  相似文献   

18.
正一、项目背景和意义2016年中央办公厅和国务院印发《国家信息化发展战略纲要》,"智慧法院"被列入国家信息化发展战略,将大数据、人工智能与司法体制改革结合起来。发展智能化服务技术是智慧法院建设的核心。本项目紧密围绕法院业务中司法智能服务技术的发展需求,针对当前司法案件审判服务智能化、司法审判风险防控智能化、司法工作人员绩效及廉政管理智能化、司法案件舆情监管智能化等4个智能化问题开展具体研究工作。研究成果将积极推动人民  相似文献   

19.
提出了融合产品静态特性信息和动态演变信息的集成化产品模型框架,该框架支持数据集成和设计过程集成。静态特性信息中的产品核心信息和领域公共信息封装在主模型中,包含领域相关信息的领域模型是外层衍生模型,通过对主模型进行信息抽取和补充来快速建立;动态演变信息记录领域模型的创建历史链,使一次生成的中间模型尽可能地为其他领域共享,从而显著提高模型的可重用性。讨论了主模型表达、从CAD模型抽取主模型、从主模型抽取领域模型等关键技术。在此基础上,开发了一个集成化产品建模原型系统SCC-ProModeling,可以有效提高领域模型的重构速度。该系统在中国航天“型号工程”中得到了初步应用。  相似文献   

20.
针对企业、校园等组织和机构中的信息安全保密工作,提出一个基于P2P的网络保密检查搜索系统NSSP。将非结构化的P2P网络和结构化P2P网络相结合,快速定位节点,有效及时查询硬盘上数据,实现网络内容审查。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号