首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 71 毫秒
1.
针对Web信息在抽取过程中数据精确率不足的问题,提出了一种基于领域本体的web信息抽取方法.该方法使得领域本体中概念的层次关系和属性的特点得到了充分利用,本体的构造在抽取过程中逐渐得到完善,从而增强本体对应用领域的描述能力.实验证明文中的方法对web页面的信息抽取具有较高的效率.  相似文献   

2.
网页结构化信息抽取技术方法研究   总被引:2,自引:0,他引:2  
分析了两种当前主流的网页结构化信息抽取技术方法:基于模版的分装器方法和不依赖模版的基于视觉的网页信息抽取技术方法,并在此基础上实现了一种新的网页结构化信息抽取算法,一定程度上提高了抽取效率和精度。  相似文献   

3.
齐嘉  傅骞 《电信科学》2005,21(7):54-56
随着移动上网业务的不断发展,WAP技术越来越受到人们的重视,为了解决WAP网站信息资源匮乏的问题,本文提出了一种实现WAP网关智能化的方法,在Web信息抽取技术的帮助下,可以将互联网上的普通网页资源以适当形式显示在用户手机的WAP浏览器中,从而达到扩大WAP浏览器使用范围的目的.  相似文献   

4.
随着互联网技术的迅猛发展,因特网成为目前新闻信息最丰富最主要的来源。本文在分析新闻网页的基础上,分析了目前现有的信息抽取技术和XML技术,提出了一个基于XML技术的Web新闻抽取系统。本文主要是充分运用XML中的XPath技术在数据定位方面的优势,并提出一种基于DOM树的XPath生成算法,使用XSLT语言用于描述抽取规则,并使用路径表达式XPath定位待抽取的信息点。  相似文献   

5.
本文针对中医医案的内容和结构特征,从段落、记录单元以及详细信息3个层面分步实现了医案文本的信息抽取,建立了层次化信息抽取模型,以供参考.  相似文献   

6.
基于汉语分词的信息抽取技术   总被引:2,自引:0,他引:2  
王鑫  王丁  李向宏 《信息技术》2003,27(4):101-101,104
随着信息时代的到来,如何将大量无序的信息及时准确地提取、整理、组织成便于查询检索的形式,巳成为研究开发的焦点。尤其是随着互联网技术的高速发展,为用户提供了更加丰富的信息。将基于汉语自动分词的综合信息抽取技术应用于信息检索,具有实际应用意义和价值。  相似文献   

7.
合同文本的智能化处理已成为企业信息化的一个重要需求。针对合同文本存在的凌乱、碎片化和无规则的问题,本文提出了基于深度学习的合同分类模型及要素抽取模型。合同分类从标题分类和文本分类两个方向展开研究,提出了基于注意力机制的BiLSTM模型进行标题分类,基于改进的HAN深度学习模型进行文本分类,有效地提升了文本分类的准确性;针对存在的合同信息难以抽取的问题,提出基于BiLSTM-CRF深度学习模型识别合同要素,以准确获取合同要素信息。实验表明,本文提出模型能够很好地应用在合同文本处理中,能够提升分类和要素抽取的性能。  相似文献   

8.
讨论了信息抽取的必要性及其现状,并提出一个基于多Agent技术的分布式信息抽取系统模型.系统主要有信息抽取Agent、数据清洗Agent、数据保存Agent等以及相应的知识库组成.并采用分而治之的思想,把信息抽取中遇到的问题分解,分配到各个Agent去完成.提出一种新的规则表示方法,抽取规则可以根据网页结构进行调整,该系统具有一定的自适应性.  相似文献   

9.
互联网的高速发展,导致网上应受限制的数据信息与日俱增,这给数据工作者带来了巨大的挑战和压力。为了响应国家加大对于网络舆情的监督号召,文章通过分析研究热点话题的信息抽取方法,并将这些方法应用在知乎上,以知乎为基础分析热点话题的信息抽取,以此推广到其他的网站。为网络舆情的监督提供支持。  相似文献   

10.
针对基于模板生成Web页的基本特点,结合Ontology知识,探索Deep Web垂直搜索中,复杂Web页面的Wrapper自动化生成的解决方案.对实际复杂Web页面抽取的实验结果表明,该方法达到了较高的抽取准确率.  相似文献   

11.
随着Internet/Intranet的快速发展和普及,丰富的Web资源构成一个巨大的全球信息仓库。在海量数据空间中快速、准确地获取用户所需成为Web检索系统研究的焦点。将一种全新的网页自动分类技术引入WWW信息抽取领域,解决网上信息有效获取的问题。获取网站分类体系,设计的Web信息自动归类算法,可通过Web数据抽取机制以及Web信息分类技术实现检索结果的分类和层次化展示,使用户快捷准确地从WWW上获取所需信息。  相似文献   

12.
领域术语自动抽取及其在文本分类中的应用   总被引:11,自引:1,他引:11       下载免费PDF全文
本文提出了一种基于信息熵的领域术语抽取方法,在给定领域分类语料的前提下,该方法既考虑了领域术语在不同领域类别间分布的不均匀性,又考虑了其在特定领域类别内分布的均匀性,并针对语料的不平衡性进行了正规化.人工评测显示该方法能更准确有效地抽取领域术语.本文还将该算法应用于文本分类,用于代替传统特征选择算法,实验表明,该算法能够显著提高文本分类的精度.  相似文献   

13.
随着我国信息化进程的推进,人们开始认识到互联网作为信息来源的重要性,如何更有效地从网络的海量信息中抽取所需要的内容并进行合理的组织和利用已经成为亟待解决的问题。本文通过对DSE算法和RoadRunner系统中的算法的探讨和改进,提出了一种新的自动生成模板的信息抽取方法,并且在确定同模板网页url的阈值时引入了生物信息学中的FDR方法,为阈值的确定提出了理论根据。实验结果表明,经过改进的抽取方法对抽取结果的准确率有着明显的改善作用。  相似文献   

14.
为了满足不同的图像分类需求,并考虑到单一显著特征能快速准确地分类差别大的图像,提出了图像多级分类方法.分析研究了多种特征提取方法,确定了各底层视觉特征的提取方法,以不同的特征向量作为SVM的输入对图像进行比较,研究不同的图像特征对图像分类的影响.通过实验验证,利用多级分类思想进行粗分类后,缩小了需要再进行细分类的图像范围,避免了不相关图像的干扰,使得多级分类方法的整体分类正确率较传统的单级分类方法得到有效提高.  相似文献   

15.
SAR图像建筑物三维信息提取方法研究   总被引:2,自引:0,他引:2  
为了能够从单一SAR图像中提取出建筑物的三维信息,基于SAR成像原理提出了从图像中建筑物叠掩和阴影区域计算平面矩形屋顶尺寸以及高度的方法。针对SAR平面矩形屋顶建筑物仿真图像,利用灰度直方图信息定位建筑物二次散射区域,通过线灰度累加分割出叠掩和阴影区域,再采用恢复公式计算屋顶尺寸和高度。实验结果表明,对于具有明显几何形变的平面矩形屋顶建筑物单一SAR图像,此方法有效恢复屋顶尺寸和高度,提高了建筑物检测识别的准确度和精度。  相似文献   

16.
李慧  施荣华 《信息技术》2007,31(12):73-76
网页过滤系统旨在帮助用户屏蔽不健康的网页。提出了基于混合模式的网页过滤模型,将传统的基于网址过滤和敏感词过滤的方法与基于文本分类的过滤方法结合起来。重点讨论了特征量选取、网页结构化信息利用等方面的改进措施。实验表明这种模型在保持易于实现的特点的同时,在速度和准确度方面都有不同程度的提高。  相似文献   

17.
魏莎莎  陆慧娟  金伟  李超 《电信科学》2013,29(10):38-42
随着大规模基因芯片的应用,针对高维度的基因表达数据存在大量无关和冗余特征可能降低分类器性能的问题,提出了一种基于云平台的互信息最大化特征提取(CMI-Selection)方法。Hadoop云计算平台对基因表达数据划分后进行并行计算,同时结合互信息最大化方法对特征进行提取,实现了云计算平台上的特征过滤模型。实验结果表明,基于云平台的互信息最大化特征提取方法能够在保证较高分类精度的情况下,快速提取特征,节省大量时间资源,是一种高效的基因特征提取系统。  相似文献   

18.
用于人脸识别的下颌轮廓线分类方法   总被引:3,自引:0,他引:3  
王俊艳苏光大  林行刚 《光电子.激光》2005,16(11):1368-13,721,377
研究了下颌轮廓线的分类方法,并通过下颌轮廓线分类改进人脸识别系统人脸识别系统的性能.将下颌作为人脸识别的新特征,并综合其他特征进行人脸分类,可以提高人脸识别的识别率;同时,人脸数据库根据下颌的类属分类,可以提高识别速度.通过对下颌轮廓线进行主元分析得到下颌的(PCA)特征字串,并用K mean自动聚类方法和两类划分进行了下颌轮廓线分类的尝试.实验结果表明,这种方法在人脸识别系统中取得了较好的应用,识别率和识别速度都有明显提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号