共查询到18条相似文献,搜索用时 71 毫秒
1.
2.
网页结构化信息抽取技术方法研究 总被引:2,自引:0,他引:2
分析了两种当前主流的网页结构化信息抽取技术方法:基于模版的分装器方法和不依赖模版的基于视觉的网页信息抽取技术方法,并在此基础上实现了一种新的网页结构化信息抽取算法,一定程度上提高了抽取效率和精度。 相似文献
3.
随着移动上网业务的不断发展,WAP技术越来越受到人们的重视,为了解决WAP网站信息资源匮乏的问题,本文提出了一种实现WAP网关智能化的方法,在Web信息抽取技术的帮助下,可以将互联网上的普通网页资源以适当形式显示在用户手机的WAP浏览器中,从而达到扩大WAP浏览器使用范围的目的. 相似文献
4.
阮娟 《智能计算机与应用》2015,(2):58-61
随着互联网技术的迅猛发展,因特网成为目前新闻信息最丰富最主要的来源。本文在分析新闻网页的基础上,分析了目前现有的信息抽取技术和XML技术,提出了一个基于XML技术的Web新闻抽取系统。本文主要是充分运用XML中的XPath技术在数据定位方面的优势,并提出一种基于DOM树的XPath生成算法,使用XSLT语言用于描述抽取规则,并使用路径表达式XPath定位待抽取的信息点。 相似文献
5.
6.
7.
合同文本的智能化处理已成为企业信息化的一个重要需求。针对合同文本存在的凌乱、碎片化和无规则的问题,本文提出了基于深度学习的合同分类模型及要素抽取模型。合同分类从标题分类和文本分类两个方向展开研究,提出了基于注意力机制的BiLSTM模型进行标题分类,基于改进的HAN深度学习模型进行文本分类,有效地提升了文本分类的准确性;针对存在的合同信息难以抽取的问题,提出基于BiLSTM-CRF深度学习模型识别合同要素,以准确获取合同要素信息。实验表明,本文提出模型能够很好地应用在合同文本处理中,能够提升分类和要素抽取的性能。 相似文献
8.
讨论了信息抽取的必要性及其现状,并提出一个基于多Agent技术的分布式信息抽取系统模型.系统主要有信息抽取Agent、数据清洗Agent、数据保存Agent等以及相应的知识库组成.并采用分而治之的思想,把信息抽取中遇到的问题分解,分配到各个Agent去完成.提出一种新的规则表示方法,抽取规则可以根据网页结构进行调整,该系统具有一定的自适应性. 相似文献
9.
10.
针对基于模板生成Web页的基本特点,结合Ontology知识,探索Deep Web垂直搜索中,复杂Web页面的Wrapper自动化生成的解决方案.对实际复杂Web页面抽取的实验结果表明,该方法达到了较高的抽取准确率. 相似文献
11.
12.
13.
14.
为了满足不同的图像分类需求,并考虑到单一显著特征能快速准确地分类差别大的图像,提出了图像多级分类方法.分析研究了多种特征提取方法,确定了各底层视觉特征的提取方法,以不同的特征向量作为SVM的输入对图像进行比较,研究不同的图像特征对图像分类的影响.通过实验验证,利用多级分类思想进行粗分类后,缩小了需要再进行细分类的图像范围,避免了不相关图像的干扰,使得多级分类方法的整体分类正确率较传统的单级分类方法得到有效提高. 相似文献
15.
16.
网页过滤系统旨在帮助用户屏蔽不健康的网页。提出了基于混合模式的网页过滤模型,将传统的基于网址过滤和敏感词过滤的方法与基于文本分类的过滤方法结合起来。重点讨论了特征量选取、网页结构化信息利用等方面的改进措施。实验表明这种模型在保持易于实现的特点的同时,在速度和准确度方面都有不同程度的提高。 相似文献
17.
18.
用于人脸识别的下颌轮廓线分类方法 总被引:3,自引:0,他引:3
研究了下颌轮廓线的分类方法,并通过下颌轮廓线分类改进人脸识别系统人脸识别系统的性能.将下颌作为人脸识别的新特征,并综合其他特征进行人脸分类,可以提高人脸识别的识别率;同时,人脸数据库根据下颌的类属分类,可以提高识别速度.通过对下颌轮廓线进行主元分析得到下颌的(PCA)特征字串,并用K mean自动聚类方法和两类划分进行了下颌轮廓线分类的尝试.实验结果表明,这种方法在人脸识别系统中取得了较好的应用,识别率和识别速度都有明显提高. 相似文献