首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
随着互联网技术的迅猛发展,因特网成为目前新闻信息最丰富最主要的来源。本文在分析新闻网页的基础上,分析了目前现有的信息抽取技术和XML技术,提出了一个基于XML技术的Web新闻抽取系统。本文主要是充分运用XML中的XPath技术在数据定位方面的优势,并提出一种基于DOM树的XPath生成算法,使用XSLT语言用于描述抽取规则,并使用路径表达式XPath定位待抽取的信息点。  相似文献   

2.
基于多Agent的生物信息数据整合系统-BioAgent1   总被引:4,自引:1,他引:3       下载免费PDF全文
随着人类基因组计划的实施,生命科学研究已进入后基因组时代.人们基于指数形式增长的核酸、蛋白质序列和结构等数据,开发了数百种不同类型的数据库.由于不同数据库存贮和检索方式的极大差异,给研究者对它们的整合应用造成了一定的难度.本文建立了一个基于多Agent的生物信息数据整合系统-BioAgent,通过信息采集Agent、信息整合Agent、用户Agent的协调,完成数据抽取、数据标准化、数据存储、数据融合、Web显示等工作流程,以实现数据整合的自动化.同时利用BioAgent系统,开发了人类精神分裂症相关基因的突变信息多层次定位数据库.  相似文献   

3.
石炎生 《电子技术》2013,(3):50-51,29
数据抽取技术是近年来伴随着人工智能和数据库技术的发展而出现的一门新兴技术。文章结合作者在开发基于居民个人健康档案的区域卫生信息平台的实践,提出运用数据抽取技术从现有各类医疗应用系统中抽取居民个人健康档案所需的健康信息,实现居民健康信息共享、临床辅助诊断、双向转诊、个人保健等医疗应用目的。  相似文献   

4.
事件抽取是信息抽取领域一个重要研究方向,对信息检索、自动问答、舆情分析等领域均有很高的应用价值.传统事件抽取方法大多采用人工构建的方式进行特征表示,并通过分类模型进行事件触发词分类和论元角色识别.近年来,神经网络方法在图像分类、语音识别和自然语言处理等领域展现了突出的效果.神经网络方法的优势在于能够自动学习构建特征,从而避免了繁琐的特征工程.本文将对神经网络事件抽取技术进行系统论述,并展望未来的研究方向.  相似文献   

5.
李向阳  陆建江  张亚非 《电子学报》2004,32(11):1915-1917
提出一种基于竞争分类的Web信息抽取方法,以信息片段与样本之间的相似度作为竞争力,通过信息片段对信息模板槽的竞争实现对信息片段的分类和噪声信息的过滤,直接从分类的角度抽取Web信息.较之基于规则的信息抽取方法,竞争分类法只需用户提供少量的标记样本.测试表明,该方法在没有用户提供特征提示信息的情况下,抽取信息仍能保持较高的准确率,适应性强;对数据项缺失和顺序变化较大的数据源,竞争分类法也具有较好的健壮性.  相似文献   

6.
针对Web信息在抽取过程中数据精确率不足的问题,提出了一种基于领域本体的web信息抽取方法.该方法使得领域本体中概念的层次关系和属性的特点得到了充分利用,本体的构造在抽取过程中逐渐得到完善,从而增强本体对应用领域的描述能力.实验证明文中的方法对web页面的信息抽取具有较高的效率.  相似文献   

7.
为了提升密码算法中抽取、移位等位操作的处理效率,降低抽取和移位实现的硬件资源消耗,构建了以iButterfly网络为基础的高速可重构抽取移位硬件架构,提出架构所需的路由信息生成算法并进行高速硬件映射.最后对架构进行性能评估,结果表明,提出的抽取移位单元具有较高的处理效率和灵活性,在CMOS 65nm工艺下,32比特抽取移位工作频率可达到2GHz.  相似文献   

8.
一种基于混沌粒子群算法的网页分类规则抽取方法   总被引:1,自引:1,他引:0  
网页分类器设计的核心是对原始分类数据集进行分类规则挖掘,提出了基于混沌粒子群算法的分类规则抽取方法.该算法采用实数编码,令特征类别作为粒子的恒定属性,适应度函数从支持度、置信度和覆盖度三个不同的侧面评价规则的优劣,利用混沌特性提高种群的多样性和粒子搜索的遍历性,兼顾全局寻优和局部寻优,改变了基本粒子群在分类初期做大量无效工作、算法效率比较低的状况,简化了知识系统的处理过程,实验表明网页分类的查全率和查准率整体得到了提高.  相似文献   

9.
基于特征组合的中文实体关系抽取   总被引:2,自引:0,他引:2  
结合中文关系抽取的要求,以ACE2005的中文语料为数据进行关系抽取实验.在抽取中文词法、实体、句法,语法基本特征后,提出采用特征组合方法,使用支持向量机的机器学习(SVM)方法,在上关系探测和关系大类上F值分别提高了1.36%和3.97%,达到72.77和61.03,并分析出各部分组合特征的贡献.实验数据表明词语和实体组合特征对中文关系抽取的作用较大.  相似文献   

10.
域名WHOIS数据包含域名所有权的相关信息,包括域名创建信息、注册者信息等,是网络空间实体与社会空间实体相关联的重要数据来源。然而,WHOIS协议仅在传输机制方面具有统一的标准,查询获得的域名注册信息在格式和内容上还存在较大差异,数据呈现多种模式。针对WHOIS数据存在多种模式,难以进行信息准确抽取的问题,设计实现了WHOIS信息的批量获取方法和基于规则的WHOIS信息解析器(rule-based parser),提升了域名WHOIS信息获取效率和分析准确率。通过合理设计解析字段,构建详尽的规则库,解决了不同模式下WHOIS信息解析效率不高的问题。与传统解析器对比,基于规则的WHOIS信息解析器能解析更多的顶级域名WHOIS信息,并能以更高的成功率和更低的时间开销完成对WHOIS信息的解析,能够为网络空间测绘、网络公害治理等方向提供技术和数据支撑。  相似文献   

11.
从光谱提取和特征提取两个重要方面总结了目前城市道路信息提取的基本方法,讨论了这些方法的优缺点。根据昆明市QuickBird遥感影像的特点以及城市道路的特点,提出基于Sobel边缘检测算法提取城市道路的流程以及处理方法,对城市道路信息提取的方法进行研究和探索。  相似文献   

12.
为了实现事前防御、事中检测、事后痕迹提取的安全系统,文中给出了一种动态混合蜜罐技术与实时的计算机痕迹提取相结合的安全保护系统的设计框架,通过动态混合蜜罐对计算机进行加强保护,并利用审计模块不断优化安全策略。同时,利用痕迹提取代理以及网络数据收集器对证据进行实时收集,将收集到的数据发送到服务器和分析器进行存储分析并提取犯罪证据。  相似文献   

13.
杨睿  苏丹  刘超  高松  闫磊 《信息技术》2020,(4):107-110
针对医疗保险信息系统数据更新自适应性较差,导致更新过程中数据输出误码率及时延较大的问题,提出基于安全网络编码技术的医疗保险信息系统数据更新方法,采用分段线性编码技术进行数据的信息融合处理,根据谱特征提取及模糊控制方法控制统数据更新过程,完成医疗保险信息系统数据更新。仿真结果表明,采用该方法进行医疗保险信息系统数据更新的自适应性较好,降低了数据输出的误码率及时延,提高了医疗保险信息数据的传输准确率及效率。  相似文献   

14.
深度文件取证系统的设计与实现   总被引:1,自引:0,他引:1  
随着计算机犯罪事件的不断增加,计算机取证技术越来越受到人们的重视。文章分析和讨论了计算机取证技术,总结了计算机取证的一般流程和取证原则,在此基础上提出和分析了深入信息提取,并给出了深度文件取证系统的设计和实现。主要包括两个方面的内容:一是研究了办公文件的数据组织结构,设计出了元数据信息的提取方案;二是研究被删除文件的磁盘存储结构,利用磁盘上残留的文件信息恢复出被删除的文件,从而为司法鉴定取得有用信息。  相似文献   

15.
魏莎莎  陆慧娟  金伟  李超 《电信科学》2013,29(10):38-42
随着大规模基因芯片的应用,针对高维度的基因表达数据存在大量无关和冗余特征可能降低分类器性能的问题,提出了一种基于云平台的互信息最大化特征提取(CMI-Selection)方法。Hadoop云计算平台对基因表达数据划分后进行并行计算,同时结合互信息最大化方法对特征进行提取,实现了云计算平台上的特征过滤模型。实验结果表明,基于云平台的互信息最大化特征提取方法能够在保证较高分类精度的情况下,快速提取特征,节省大量时间资源,是一种高效的基因特征提取系统。  相似文献   

16.
示功图特征值提取是在功图数据中挑选具有代表性的数据,经过计算处理得到最有效的特征值,作为故障诊断系统中神经网络的输入。而自组织竞争神经网络结构简单,可以通过自身训练,实现对油井故障的自动分类。该神经网络模型的训练速度快,而且诊断的准确性更高。该方法已在江苏油田的实际应用中取得了良好的效果。  相似文献   

17.
孙师尧 《电子科技》2013,26(12):148-150
军事标图系统是军队实施训练、作战和指挥的重要工具。实现军事标图系统自动化的关键是信息抽取技术。文中结合军事标图的特点,对常用的信息抽取技术在军事标图系统中的应用进行了比较与分析,给出了适合军事标图系统应用的信息抽取策略。  相似文献   

18.
基于流的流媒体语义提取技术研究   总被引:1,自引:1,他引:0  
许学辉  吴静 《通信技术》2010,43(12):140-143
提出了在流的基础上最大限度的挖掘流媒体途径各网络层的语义信息。对流媒体语义信息的提取主要包括以下几个方面:首先根据流媒体传输协议规范,对流媒体数据进行实时捕获;通过数据包的入口信息定位和区分不同的流媒体数据流;然后结合多层语义分析方法设计流媒体语义提取算法,最后将提取出的语义信息存入流媒体语义标签库。实验仿真表明,采用基于流的流媒体语义提取技术较好的完成了对流媒体信息的最大化理解。  相似文献   

19.
Exploiting the Information Web   总被引:1,自引:0,他引:1  
The World Wide Web is an increasingly important data source for business decision making; however, extracting information from the Web remains one of the challenging issues related to Web business intelligence applications. To use heterogeneous Web data for decision making, documents containing relevant data must be located, and the data of interest within the documents must be identified and extracted. Currently, most automatic information extraction systems can only cope with a limited set of document formats or do not adapt well to changes in document structure, as a result, many real-world data sources with complex document structures cannot be consistently interpreted using a single information extraction system. This paper presents an adaptive information extraction system prototype that combines multiple information extraction approaches to allow more accurate and resilient data extraction for a wide variety of Web sources. The Amorphic Web information extraction system prototype can locate data of interest based on domain knowledge or page structure, can automatically generate a wrapper for a data source, and can detect when the structure of a Web-based resource has changed and act on this to search the updated resource to locate the desired data. The prototype Amorphic information extraction system demonstrated improved information extraction accuracy for the four different extraction scenarios examined when compared with traditional data extraction approaches  相似文献   

20.
针对现有职位信息抽取方法由于缺乏自适应性和并行性,存在冗余度高和抽取效率低的问题,提出了基于CSS模板的方式并行职位信息抽取方法。该方法根据职位信息页面特点使用CSS路径抽取方法,并制定抽取模板解决抽取的准确性和自适应性,使用了MapReduce编程模型实现职位信息的并行化抽取。使用MD5算法计算已抽取得到的职位信息的MD5值,结合MapReduce并行计算编程模型的特性实现职位信息去重,最终将去重后的职位信息存储在分布式数据库HBase。实验测试结果表明,并行计算与传统的非并行编程模型相比在处理的时间效率和采集的职位信息量上都有明显的提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号