共查询到20条相似文献,搜索用时 140 毫秒
1.
阮娟 《智能计算机与应用》2015,(2):58-61
随着互联网技术的迅猛发展,因特网成为目前新闻信息最丰富最主要的来源。本文在分析新闻网页的基础上,分析了目前现有的信息抽取技术和XML技术,提出了一个基于XML技术的Web新闻抽取系统。本文主要是充分运用XML中的XPath技术在数据定位方面的优势,并提出一种基于DOM树的XPath生成算法,使用XSLT语言用于描述抽取规则,并使用路径表达式XPath定位待抽取的信息点。 相似文献
2.
随着人类基因组计划的实施,生命科学研究已进入后基因组时代.人们基于指数形式增长的核酸、蛋白质序列和结构等数据,开发了数百种不同类型的数据库.由于不同数据库存贮和检索方式的极大差异,给研究者对它们的整合应用造成了一定的难度.本文建立了一个基于多Agent的生物信息数据整合系统-BioAgent,通过信息采集Agent、信息整合Agent、用户Agent的协调,完成数据抽取、数据标准化、数据存储、数据融合、Web显示等工作流程,以实现数据整合的自动化.同时利用BioAgent系统,开发了人类精神分裂症相关基因的突变信息多层次定位数据库. 相似文献
3.
数据抽取技术是近年来伴随着人工智能和数据库技术的发展而出现的一门新兴技术。文章结合作者在开发基于居民个人健康档案的区域卫生信息平台的实践,提出运用数据抽取技术从现有各类医疗应用系统中抽取居民个人健康档案所需的健康信息,实现居民健康信息共享、临床辅助诊断、双向转诊、个人保健等医疗应用目的。 相似文献
4.
事件抽取是信息抽取领域一个重要研究方向,对信息检索、自动问答、舆情分析等领域均有很高的应用价值.传统事件抽取方法大多采用人工构建的方式进行特征表示,并通过分类模型进行事件触发词分类和论元角色识别.近年来,神经网络方法在图像分类、语音识别和自然语言处理等领域展现了突出的效果.神经网络方法的优势在于能够自动学习构建特征,从而避免了繁琐的特征工程.本文将对神经网络事件抽取技术进行系统论述,并展望未来的研究方向. 相似文献
5.
6.
7.
为了提升密码算法中抽取、移位等位操作的处理效率,降低抽取和移位实现的硬件资源消耗,构建了以iButterfly网络为基础的高速可重构抽取移位硬件架构,提出架构所需的路由信息生成算法并进行高速硬件映射.最后对架构进行性能评估,结果表明,提出的抽取移位单元具有较高的处理效率和灵活性,在CMOS 65nm工艺下,32比特抽取移位工作频率可达到2GHz. 相似文献
8.
一种基于混沌粒子群算法的网页分类规则抽取方法 总被引:1,自引:1,他引:0
网页分类器设计的核心是对原始分类数据集进行分类规则挖掘,提出了基于混沌粒子群算法的分类规则抽取方法.该算法采用实数编码,令特征类别作为粒子的恒定属性,适应度函数从支持度、置信度和覆盖度三个不同的侧面评价规则的优劣,利用混沌特性提高种群的多样性和粒子搜索的遍历性,兼顾全局寻优和局部寻优,改变了基本粒子群在分类初期做大量无效工作、算法效率比较低的状况,简化了知识系统的处理过程,实验表明网页分类的查全率和查准率整体得到了提高. 相似文献
9.
基于特征组合的中文实体关系抽取 总被引:2,自引:0,他引:2
结合中文关系抽取的要求,以ACE2005的中文语料为数据进行关系抽取实验.在抽取中文词法、实体、句法,语法基本特征后,提出采用特征组合方法,使用支持向量机的机器学习(SVM)方法,在上关系探测和关系大类上F值分别提高了1.36%和3.97%,达到72.77和61.03,并分析出各部分组合特征的贡献.实验数据表明词语和实体组合特征对中文关系抽取的作用较大. 相似文献
10.
域名WHOIS数据包含域名所有权的相关信息,包括域名创建信息、注册者信息等,是网络空间实体与社会空间实体相关联的重要数据来源。然而,WHOIS协议仅在传输机制方面具有统一的标准,查询获得的域名注册信息在格式和内容上还存在较大差异,数据呈现多种模式。针对WHOIS数据存在多种模式,难以进行信息准确抽取的问题,设计实现了WHOIS信息的批量获取方法和基于规则的WHOIS信息解析器(rule-based parser),提升了域名WHOIS信息获取效率和分析准确率。通过合理设计解析字段,构建详尽的规则库,解决了不同模式下WHOIS信息解析效率不高的问题。与传统解析器对比,基于规则的WHOIS信息解析器能解析更多的顶级域名WHOIS信息,并能以更高的成功率和更低的时间开销完成对WHOIS信息的解析,能够为网络空间测绘、网络公害治理等方向提供技术和数据支撑。 相似文献
11.
12.
为了实现事前防御、事中检测、事后痕迹提取的安全系统,文中给出了一种动态混合蜜罐技术与实时的计算机痕迹提取相结合的安全保护系统的设计框架,通过动态混合蜜罐对计算机进行加强保护,并利用审计模块不断优化安全策略。同时,利用痕迹提取代理以及网络数据收集器对证据进行实时收集,将收集到的数据发送到服务器和分析器进行存储分析并提取犯罪证据。 相似文献
13.
14.
15.
16.
示功图特征值提取是在功图数据中挑选具有代表性的数据,经过计算处理得到最有效的特征值,作为故障诊断系统中神经网络的输入。而自组织竞争神经网络结构简单,可以通过自身训练,实现对油井故障的自动分类。该神经网络模型的训练速度快,而且诊断的准确性更高。该方法已在江苏油田的实际应用中取得了良好的效果。 相似文献
17.
军事标图系统是军队实施训练、作战和指挥的重要工具。实现军事标图系统自动化的关键是信息抽取技术。文中结合军事标图的特点,对常用的信息抽取技术在军事标图系统中的应用进行了比较与分析,给出了适合军事标图系统应用的信息抽取策略。 相似文献
18.
基于流的流媒体语义提取技术研究 总被引:1,自引:1,他引:0
提出了在流的基础上最大限度的挖掘流媒体途径各网络层的语义信息。对流媒体语义信息的提取主要包括以下几个方面:首先根据流媒体传输协议规范,对流媒体数据进行实时捕获;通过数据包的入口信息定位和区分不同的流媒体数据流;然后结合多层语义分析方法设计流媒体语义提取算法,最后将提取出的语义信息存入流媒体语义标签库。实验仿真表明,采用基于流的流媒体语义提取技术较好的完成了对流媒体信息的最大化理解。 相似文献
19.
Exploiting the Information Web 总被引:1,自引:0,他引:1
Gregg D.G. Walczak S. 《IEEE transactions on systems, man and cybernetics. Part C, Applications and reviews》2007,37(1):109-125
The World Wide Web is an increasingly important data source for business decision making; however, extracting information from the Web remains one of the challenging issues related to Web business intelligence applications. To use heterogeneous Web data for decision making, documents containing relevant data must be located, and the data of interest within the documents must be identified and extracted. Currently, most automatic information extraction systems can only cope with a limited set of document formats or do not adapt well to changes in document structure, as a result, many real-world data sources with complex document structures cannot be consistently interpreted using a single information extraction system. This paper presents an adaptive information extraction system prototype that combines multiple information extraction approaches to allow more accurate and resilient data extraction for a wide variety of Web sources. The Amorphic Web information extraction system prototype can locate data of interest based on domain knowledge or page structure, can automatically generate a wrapper for a data source, and can detect when the structure of a Web-based resource has changed and act on this to search the updated resource to locate the desired data. The prototype Amorphic information extraction system demonstrated improved information extraction accuracy for the four different extraction scenarios examined when compared with traditional data extraction approaches 相似文献
20.
针对现有职位信息抽取方法由于缺乏自适应性和并行性,存在冗余度高和抽取效率低的问题,提出了基于CSS模板的方式并行职位信息抽取方法。该方法根据职位信息页面特点使用CSS路径抽取方法,并制定抽取模板解决抽取的准确性和自适应性,使用了MapReduce编程模型实现职位信息的并行化抽取。使用MD5算法计算已抽取得到的职位信息的MD5值,结合MapReduce并行计算编程模型的特性实现职位信息去重,最终将去重后的职位信息存储在分布式数据库HBase。实验测试结果表明,并行计算与传统的非并行编程模型相比在处理的时间效率和采集的职位信息量上都有明显的提高。 相似文献