首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
基于对深网(DeepWeb)网页公共框架的定义,提出一种在信息抽取算法中增加公共框架检测阶段,采用序列比对算法提取公共框架的方法.与原始网页数据相比,去除公共框架的数据域信息对模板抽取更有利.基于真实网站的数据密集型网页集合,测试和对比了序列比对算法中参数不同取值以及公共框架检测阶段在数据量和抽取准确率等方面对信息抽取算法的影响.实验结果表明了算法的有效性.  相似文献   

2.
提出了一种基于树形结构的Web结构化数据抽取算法.该算法基于HTML的树形层次结构,包括HTML树构造算法,数据区域挖掘算法,数据记录挖掘算法以及数据记录模式生成算法.算法引入了页面元素布局位置等信息用于清洗页面,采用层次划分思想实现页面数据区域的挖掘,并通过树匹配生成记录模式,实现最终数据项抽取.实验表明,该方法可以有效地实现Web结构化数据抽取.  相似文献   

3.
针对Web论坛的一种结构化数据自动抽取方法   总被引:1,自引:0,他引:1  
由于网页布局设计的复杂性和用户发表帖子的灵活性,从论坛网页中抽取结构化的数据是一项未能很好解决并非常具有挑战性的任务。本文提出了一种从任意的论坛站点中自动抽取结构化数据的通用解决方案,通过分析网页结构发现列表页和帖子页中的数据记录,并利用一组产生式规则从发现的数据记录中抽取结构化的数据。实验结果表明该方法在抽取论坛数据记录方面明显优于已有的方法,对论坛帖子的标题、作者、发表时间和内容文本块等元数据的抽取达到了较高的准确率。  相似文献   

4.
针对广告抽取系统的实际需求,该文提出了利用XPath规则从包含多个广告的页面中抽取广告记录数据的方法.该文主要阐述了广告抽取系统核心模块的实现机制和系统架构.实验结果表明,该方法能够准确定位页面广告数据块,并且能较好提取块内广告记录信息,具有一定的实用价值.  相似文献   

5.
提出一种基于模型匹配的深网(Deep Web)在线专业数据库查询接口特征抽取方法, 该方法通过分析网页结构中特征词的深度自动抽取查询接口特征向量, 同时考虑频度和集中度两种因素定义特征词向量空间中的权值, 并在传统向量模型的基础上加入特征词个数作为一个新的分量, 构建一个数据库查询接口, 使用模型匹配的分类方法对其进行分类. 实验验证了该方法的有效性.  相似文献   

6.
针对从模板生成的网页中自动抽取web数据的问题,提出了一种新的树对齐算法.该算法能够确定输入网页的最大匹配结构.经过一系列的对齐操作之后,多棵树被合并成为一棵记录着合并前多个网页上的统计信息的合并树,树对齐算法可以发现合并树中的重复模式,在最可能内容块上构建包装器,并按照重复模式从网页上抽取数据.实验结果表明,该算法的抽取结果具有较高的准确性和良好的稳定性.  相似文献   

7.
为实现简捷的信息抽取和信息利用,提出一种采用树型结构实现Web数据到XML文档的转换算法.使用基于树型结构的类型定义和信息抽取方法,可有效将Web文档中的数据抽取出来并表示为XML格式的文档,形成可用的XML数据源,便于其他应用程序使用结果数据,为实现Web中的信息共享与数据交换提供便利条件.  相似文献   

8.
药物相互作用是指药物之间存在的抑制或促进等作用. 针对目前方法在不同关系类别上的抽取结果差异较大的问题,论文提出了一种利用外部知识的关系抽取模型,该方法首先对外部药物数据库中的信息进行处理,构建带有药物描述信息的数据集,然后在该数据集上进行模型训练,并保存最优模型,最后将该最优模型与药物关系抽取模型相结合,进行药物关系抽取,从而更好的利用了药物数据库中已有的知识,缓解了不同关系类别抽取结果差异较大的问题,提高了抽取效果. 在DDIExtraction 2013数据集上的实验结果表明,论文方法的F1值优于目前最优方法2.47%.  相似文献   

9.
社会媒体数据的抽取,是社会舆论集散、新闻信息传播、企业品牌推广、商业营销拓展等研究和应用的基础,准确的抽取结果是数据分析有效性的重要保证.本文针对社会媒体数据的非结构、多主题特征,基于LDA(Latent Dirichlet Allocation)模型挖掘数据中的隐含主题,利用数据特征词序列和知识图谱描述的实体及实体间的关联关系,实现对特定领域数据的抽取.建立在"今日头条"新闻数据和新浪微博数据之上的实验结果表明,本文提出的方法能有效地实现社会媒体数据的抽取.  相似文献   

10.
介绍了基于索引路径的数据抽取算法的不足,从代码角度和用户需求角度2个方面进行考虑,提出了一种进改良措施,有效地提升了数据抽取的准确率,从而大大减少了数据冗余.由于补充了记录、有效数据等定义,使得抽取出的数据仍然保有其在网页中的结构关系,为之后的语义标注工作带来了极大的方便,为深度网页(Deep Web)数据集成奠定了良好的基础.  相似文献   

11.
“新红学”的基本构成是“实证与实录合一”.胡适以“科学精神”演述乾嘉学术方法,以“自然主义”、“自叙传”去演述传统的史学实录观念.实证研究体现一种科学精神,实录观念则是一种反科学的观念.  相似文献   

12.
对相似重复记录的检测是数据预处理中的关键环节。针对海量数据相似重复记录检测过程中,记录属性维度过高导致的查准率和时间效率较低的问题,提出了基于统一互信息的关键属性组查找算法,通过过滤噪音属性,降低属性维度,达到准确检测相似重复记录和提高时间效率的目的。最后,在真实数据集上通过对该算法和基于原始数据所有属性的相似重复记录检测算法在准确率和效率方面的比较,验证了所提出算法的有效性。  相似文献   

13.
一种基于聚类树的增量式数据清洗算法   总被引:2,自引:0,他引:2  
研究了在数据模式与匹配规则不变的前提下 ,数据集动态增加时近似重复记录的识别问题 ,提出了一种基于聚类树的增量式数据清洗算法IACT .该算法通过构建聚类树先对记录进行分区 ,然后在划分的区域内进行相似度的计算识别出近似重复记录 ,从而完成了增量式相似重复记录的检测 .实验结果证明了IACT算法在无损精度的情况下 ,在效率上优于多趟邻近排序 (MPN)算法 .  相似文献   

14.
Fan  DaiDu  Liu  Kam-biu 《科学通报(英文版)》2008,53(19):2907-2922
The recent increase in typhoon (tropical cyclone) activity has attracted great interest and induced heated debates over whether it is linked to global warming or only a return to an active phase of the well-known multi-decadal variability. Due to the short instrumental record, our knowledge is quite scarce on the complex processes and mechanism of typhoon generation, development, and evolution, especially for the rare but highly destructive super-typhoons. It is therefore very important to extend the time span of typhoon activity records. Paleotempestology, a young science that emerged in the early 1990s, studies past typhoon activity spanning several centuries to millennia before the instrumental era through the use of geological proxies and historical documentary records. This paper presents a brief review and synthesis on the major research advances and findings of paleotempestology with an emphasis on proxy technique development and applications. The methodology has been evolving from single geologic proxy to multi-proxy techniques by integrating microfossils, sedimentary organic elemental ratios, and stable isotopes, together with typical sedimentary textures and structures, for the diagnosis of storm deposits. A newly-developed proxy technique is employing oxygen isotopes preserved in growing laminae of tree rings, cave stalagmites, and reef corals to diagnose typhoon rainwater impacts. Historical documentary records have been systematically compiled and analyzed to reconstruct the history of typhoon activity in some regions. The extracted typhoon-proxy data show that there does not exist a simple linear relationship between typhoon frequency and Holocene climate (temperature) change. Typhoon activity should have a secular and constant linkage with ENSO fluctuations, in that more typhoons and hurricanes make landfalls in China, Central and North America during La Ni~↑na years than El Ni~↑no years. This finding is consistent with that derived from recent instrumental data. Shifts in positions of  相似文献   

15.
针对医疗信息系统中存在的医疗信息记录存储的安全和隐私保护问题,结合区块链和云存储技术,提出了一个医疗记录安全存储方案.该方案利用区块链来保存医疗记录的公共信息、匿名身份和访问权限,使医疗记录的真实数据加密保存在链下存储结构中,有效实现了病人对个人医疗数据的所有权和访问权限的控制以及对敏感医疗数据的安全存储.  相似文献   

16.
中国历史水灾案例数据库的建立及相关问题探讨   总被引:12,自引:2,他引:10  
结合利用历史洪水灾害文献建立全国七大江河历史洪水灾害案例数据库的实践,阐述了灾害案例数据库的基本特征。针对历史水灾文献资源的特点及灾害案例数据库的要求,讨论了影响灾害案例数据库质量的各种因素,对建库过程中的误差进行分类并给出相应的处理方法。  相似文献   

17.
面向相关多敏感属性的隐私保护方法   总被引:1,自引:0,他引:1  
将现有的敏感属性隐私保护方法直接应用于相关多敏感属性的隐私保护中会导致隐私数据的泄漏。本文借鉴有损连接对隐私数据进行保护的思想,对表中的记录进行聚类,保证了关系表中的记录按敏感等级划分。其次,对已划分的记录按照频率比较策略进行分组,提出了一种基于聚类的相关多敏感属性数据分组算法。实验结果表明该算法可以有效地防止隐私泄露,增强了数据发布的安全性。  相似文献   

18.
针对民用建筑“四节一环保”原始数据中存在的数据质量问题, 使用多种方法实现数据清洗与数据修复。数据清洗方面, 重点关注单栋建筑能耗数据中存在的相似重复记录及异常记录。其中, 识别异常记录采用3σ准则、DBSCAN聚类算法及箱线图内限3种方法。数据修复方面, 重点关注缺失值的填补及基于模型的数据修正。其中, 缺失值的填充使用简单填充、线性回归模型和基于用户的协同过滤推荐算法, 并以平均绝对误差为评估指标进行对比。基于多元线性回归、主成分回归、偏最小二乘回归、岭回归及Lasso回归5种模型, 拟合建筑运行能耗与各解释变量间的关系, 对上海市建筑运行能耗相关数据进行数据修复。结果显示, 单栋建筑能耗数据适合采用箱线图内限来识别异常记录, 并使用中位数填补缺失数据; 上海市建筑运行能耗相关数据中, 岭回归模型的拟合情况最好。  相似文献   

19.
 从温室气体清单估计的方法、数据及不确定性等几个方面,对刘竹等2015 年8 月发表在Nature 上的论文“Reducedcarbon emission estimates from fossil fuel combustion and cement production in China”的主要结论及观点进行了分析,指出了该文在计算与比较中的错误,因而该文有关中国国家温室气体清单高估中国排放的结论并不成立。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号