共查询到18条相似文献,搜索用时 93 毫秒
1.
2.
为了对学术动态、热点及学术发展趋势进行研究,需要对学术研究论文进行数据挖掘研究。首先需要从海量的学术论文中提取有兴趣的信息。针对目前学术论文大多采用PDF格式的现状,重点研究了PDF文件的格式以及对PDF格式操作的各种技术,采用开源函数库PDFBox对PDF格式的学术论文按照规则进行信息的提取,提取的信息主要包括学术论文的标题、作者、单位、关键词、发表时间、摘要等信息。最后对提取信息的正确率进行了统计,有助于针对学术研究的大数据研究。 相似文献
3.
随着互联网的普及,信息技术的发展,形成了大量的新闻信息资源。从海量的新闻信息中抽取出有用的资源,是当前迫切需要解决的问题。该文在分析新闻网页结构的基础上,结合了基于DOM的结构抽取和基于文本特征模式抽取两种处理技术的优点,提出了基于Web新闻网页的半自动化抽取技术,自动下载了有用的Web页面,抽取了所需的新闻信息。最后,该文描述了一个面向奥运新闻的信息抽取系统,并给出了该系统的实验结果。 相似文献
4.
由于缺乏对页面特征适应性的分析,现有的典型系统难以保障抽取规则的健壮性。提出一种优化的Web信息抽取方法,该方法引入了相互关联的三层规则,在分析页面特征适应性的基础上,从准确率和召回率两方面出发提出了抽取规则的优化算法,并用标准XQuery表达复杂对象抽取规则。实验证明,该方法有效地增强了抽取规则的健壮性及可用性。 相似文献
5.
表格信息抽取引擎的设计与实现 总被引:3,自引:0,他引:3
讨论针对Web表格的信息抽取,分析并给出了表格信息抽取引擎的系统结构,以及实现该系统所涉及的关键技术和数据模型,为用户提供一种以Web表格为信息抽取对象的、支持抽取方式选择的Web表格信息抽取工具。 相似文献
6.
本文介绍利用分装器和簇技术,在没有人工干涉和不知道其数据源的情况下,对含有标记的网页进行分割和查找我们所关心的数据段,最后借用匹配索引技术来抽取感兴趣的数据,并存入到数据库中去。通过对二次搜索和二级数据挖掘的研究,我们可以在不知道数据源的情况下对数据搜索和抽取,从而提供个性化的信息。 相似文献
7.
8.
随着网络技术的发展,互联网上出现了大量的就业信息,但信息数据零散的以不同的呈现方式展现在各种就业信息网站中。为了解决传统的Web信息抽取方法中准确率和效率相矛盾的问题,本文通过采用基于网页视觉特征的模板生成方法,提出了一种基于网页视觉特征的就业信息页面抽取方法,在保证抽取准确率的同时,尽可能减少人工干预。该方法通过分析网页视觉特征自动生成初始模板,并通过人工配置,生成最终网页抽取模板。通过此方法,实现了将互联网上零散的就业数据转换为统一的数据格式存储下来。实验结果表明,本文提出的抽取方法抽取的准确率和召回率都很高,取得了比较好的抽取结果。 相似文献
9.
为了获取分散Web页面中隐含信息,设计了Web信息抽取系统。该系统首先使用一种改进的HITS主题精选算法进行信息采集;然后对Web页面的HTML结构进行文档的数据预处理;最后,基于DOM树的XPath绝对路径生成算法来获取被标注结点的XPath表达式,并使用XPath语言结合XSLT技术来编写抽取规则,从而得到结构化的数据库或XML文件,实现了Web信息的定位和抽取。通过一个购物网站的抽取实验证明,该系统的抽取效果良好,可以实现相似Web页面的批量抽取。 相似文献
10.
基于规则归纳的信息抽取系统实现 总被引:2,自引:0,他引:2
面对Web信息的迅猛增长,信息抽取技术非常适合于从大量的文档中抽取需要的事实数据。通过文档对象模型(DOM)解析以及检索、抽取、映射等规则的定义,设计并实现了一种具有规则归纳能力的信息抽取系统,用于Web信息的自动检索。在用于抽取规则归纳的框架下,还重点对用于生成抽取模式的WHISK学习算法进行了实验对比分析,结果表明系统对于单槽和多槽数据都具有不错的归纳学习能力。 相似文献
11.
通用互联网信息采集系统的设计与初步实现 总被引:7,自引:0,他引:7
通过建立网页资源库,结合Spider技术、内容分析技术、引入用户数据项和替换抽取指令编辑器等,提供和定制可视化通用性较强的互联网信息采集系统,能定期自动跟踪相关网站或网页,进行比较分析、抽取、规整入库、分类等,从互联网上获取所需信息。 相似文献
12.
针对近年会展经济的蓬勃发展,各类展会对提高管理效率,降低交流成本的需求,开发会展网络信息管理系统,实现展前、展中和展后的全方位管理。系统包括展会筹备、网上填报、数据采集、现场管理四个模块,并提供展后数据挖掘和决策分析支持。重点分析RFID数据自动采集技术、C/S和B/S框架开发的系统集成技术、数据库安全保障,以及数据挖掘和决策分析等关键技术。会展系统的投入使用,简化了参展流程,增加了信息来源渠道和利用价值,提升了展会品牌价值。 相似文献
13.
文章针对远洋运输业业务邮件的特点,结合Ontology技术,信息抽取技术,通过建立领域Ontology,对领域本体进行解析,生成抽取规则,对业务邮件进行信息抽取。试图从繁多的业务邮件中,抽取我们需要的业务信息,以一种结构化的形式呈现在用户面前,提高远洋运输业办公效率。 相似文献
14.
15.
16.
管理信息系统的数据完整性约束及其实现方法 总被引:2,自引:0,他引:2
介绍了数据完整性的概念、类型以及管理信息系统实现数据的完整性的几种方法。对这几种方法进行了比较,并以远程教学管理系统为实例给予说明。 相似文献
17.
江务学 《电脑与微电子技术》2012,(2):74-77
设计并实现高校就业管理系统,本系统的设计充分考虑高校就业管理系统各方面的需求,采用功能模块化的设计结构,利用数据挖掘技术设计实际系统中的有效数据结构,基于.NET和SQL Server2005数据库系统环境实现。在系统的安全性方面,对应于每一个模块的数据库,充分利用Windows系统内嵌的安全机制,保证系统和数据的安全性。 相似文献
18.
基于J2EE的Web挖掘原型系统的研究与应用 总被引:4,自引:0,他引:4
首先分析了电子商务给数据挖掘系统设计带来的新特点,电子商务网站的网上业务量巨大,在每天的大量业务中蕴含了许多用户的隐藏信息。每个顾客在Web上的行为都会产生相关数据,这不只是包括购买的信息,而且还有利用搜索引擎和在站点内浏览的相关数据。所有的交互数据都呆以被网站后台的数据库记录下来,这些大量的数据集合包含了对历史记录的市场分析以及数据驱动的市场预测非常有益的潜在信息。然后提出了一个面向电子商务的Web Mining系统的设计与实现方案,并实现了一个基于J2EE平台的原型系统。 相似文献