首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 101 毫秒
1.
针对载有结构化数据的网页特点,提出了一种新的有效字段发现策略,据此设计了一个基于学习的自动去重方法.对样本网页集进行聚类分析并生成每类网页的包装器,识别出包装器中的有效数据字段;对有效数据字段进行映射,通过计算有效数据字段内容的相似度来判断网页是否重复.实验证明该方法对结构化Web数据的去重有很好的召回率和准确率.  相似文献   

2.
陈迎仁  郭莹楠  郭享  倪一涛  陈星 《计算机科学》2021,48(z2):218-224,257
随着大数据的发展,互联网数据呈现爆炸式的增长.Web作为一种重要的信息载体,包含了各种类型的信息,而包装器的提出就是为了从杂乱的Web信息中提取出目标数据.但是,随着网页更新的频繁,轻微的结构变化都可能导致原有的包装器失效,增加包装器的维护成本.针对包装器的健壮性以及维护成本问题,提出了一种基于特征相似度计算的网页包装器自适应技术.该技术主要通过解析新网页的特征集合和旧包装器所蕴含的特征信息,通过网页相似度计算,重定位旧包装器在新网页中的映射区域和映射数据项,并根据映射关系使旧包装器能够自适应新网页的数据提取.该技术主要针对各类型网站进行实验,其中包括了购物类、新闻类、资讯类、论坛类和服务类,从中选取了250对新旧版本网页,共500个网页,进行包装器自适应实验.实验结果表明,当网页结构改变时,该方法能够有效地自适应新网页的数据提取,且数据提取的平均精确度和平均召回值分别达到82.2%和84.36%.  相似文献   

3.
传统恶意网页识别缺乏全局性、系统性考量,没有将网页作为有机整体,而是独立针对标签结构、URL地址、文本内容等特定层面特征开展研究,导致准确率较低.虽然已有学者提出融合特征思想,但依旧使用机器学习算法予以实现,特征工程工作量巨大,识别效率低下.针对上述问题,提出一种基于多特征融合的Tri-BERT-SENet模型,用于完成恶意网页的识别任务.利用获取得到的HTML特征、网页URL特征以及网页文本特征,结合BERT模型的上下文感知能力,将特征转化为3个BERT模型输出;之后将模型输出作为特征通道,使用SENet进行加权计算,最终输出识别结果.实验结果表明,与传统机器学习模型以及使用BERT对单一特征的识别方法相比,该检测方法在恶意网页识别的准确率上有较大提升.  相似文献   

4.
一种基于模板的快速网页文本自动抽取算法*   总被引:1,自引:1,他引:0  
针对网页噪声和网页非结构化信息抽取模板生成复杂度高的问题,提出了一种快速获取非结构信息抽取模板的算法。该算法先对网页噪声进行预处理,将其DOM树结构进行标签hash映射,通过自动训练的阈值快速判定网页的主要部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验表明,该方法快速且具有较高的准确度。  相似文献   

5.
基于内容相似度的网页正文提取   总被引:6,自引:0,他引:6       下载免费PDF全文
提出一种将复杂的网页脚本进行简化并映射成一棵易于操作的树型结构的方法。该方法不依赖于DOM树,无须用HTMLparser包进行解析,而是利用文本相似度计算方法,通过计算树节点中文本内容与各级标题的相似度判定小块文本信息的有用性,由此进行网页清洗与正文抽取,获得网页文本信息,实验结果表明,该方法对正文抽取具有较高的通用性与准确率。  相似文献   

6.
基于多区域分割的步态表示与识别算法研究   总被引:3,自引:0,他引:3  
杨军  吴晓娟  彭彰  陈文刚 《计算机学报》2006,29(10):1876-1881
提出了一种基于多区域分割的步态表示方法,将视频中的目标人体区域部分按人体结构特点划分为多个子区,每个子区通过连接人体重心的椭圆进行拟和,建立多连接椭圆的人体结构模型,预处理阶段引入一个归一化过程以实现对各种视角下的步态序列进行表示.识别过程将模型参数作为步态特征,并引入了一定的融合机制对特征进行选择和融合.实验表明,该算法对于多个视角下的步态序列均具有较好的识别性能.  相似文献   

7.
互联网中的网页有较多商业广告,绿色网络系统无法过滤其中具有不良内容的网站.为解决该问题,提出一种绿色网络网页正文内容提取算法.通过文件对象模型树识别与提取网页正文内容模块,使用基于粒子群的权值优化算法对网页正文各个板块特征权值进行评分,利用与不良关键字的比较,确定并过滤不良网页.实验结果表明,经粒子群权值算法优化提取后,绿色网络系统对不良网页的识别准确率为86.9%,召回率为95.6%,F值为91.02%,比优化前有较大提高.  相似文献   

8.
为了提高语音识别中方言识别由于差异性小混淆度高造成识别率低的问题,针对汉语普通话、青海方言和藏语安多方言设计一个基于子空间映射和分数归一化技术的GSV-SVM方言识别系统.利用最大后验概率准则自适应生成KL核的GSV,对GSV进行低维子空间映射;再利用映射后的空间训练多SVM模型进行得分域规整与识别.实验结果表明,采用该系统可以有效对混淆度高的方言进行识别.  相似文献   

9.
针对由VRML构造的虚拟实体造型表面进行跨区域纹理映射所遇到的困难,利用分而治之的思想,提出了一种比较简单有效的多曲面纹理映射的方法,实现了虚拟实体具有根据用户要求动态改变实体表面纹理的功能,在实现区域分割的同时也使多曲面纹理映射更加容易实现.  相似文献   

10.
面向车牌识别的区域分割技术   总被引:3,自引:0,他引:3  
对车牌识别区域分割过程及相关算法进行了研究和讨论,针对某一类情况提出新的思路及方法:断点分析法确定字符区域位置;漫水法和边缘跟踪法结合进行区域分割。在此基础上,实现了一个汽车车牌识别应用系统。  相似文献   

11.
改进的PageRank在Web信息搜集中的应用   总被引:7,自引:0,他引:7  
PageRank是一种用于网页排序的算法,它利用网页间的相互引用关系评价网页的重要性·但由于它对每条出链赋予相同的权值,忽略了网页与主题的相关性,容易造成主题漂移现象·在分析了几种PageRank算法基础上,提出了一种新的基于主题分块的PageRank算法·该算法按照网页结构对网页进行分块,依照各块与主题的相关性大小对块中的链接传递不同的PageRank值,并能根据已访问的链接对块进行相关性反馈·实验表明,所提出的算法能较好地改进搜索结果的精确度·  相似文献   

12.
支宗良  陈少飞 《计算机应用》2008,28(1):152-154,
由于缺乏对页面特征适应性的分析,现有的典型系统难以保障抽取规则的健壮性。提出一种优化的Web信息抽取方法,该方法引入了相互关联的三层规则,在分析页面特征适应性的基础上,从准确率和召回率两方面出发提出了抽取规则的优化算法,并用标准XQuery表达复杂对象抽取规则。实验证明,该方法有效地增强了抽取规则的健壮性及可用性。  相似文献   

13.
Adapting Web pages for small-screen devices   总被引:3,自引:0,他引:3  
We propose a page-adaptation technique that splits existing Web pages into smaller, logically related units. To do this, we must first solve two technical problems: how to detect an existing Web page's semantic structure, and how to split a Web page into smaller blocks based on that structure. To date, we've implemented our technique in Web browsers for mobile devices, in a proxy server for adapting Web pages on the fly, and as an authoring tool plug-in for converting existing Web pages. The Web page can then be adapted to form a two-level hierarchy with a thumbnail representation at the top level for providing a global view and an index to a set of subpages at the bottom level for detailed information.  相似文献   

14.
The World Wide Web has spawned numerous standards initiatives that aim to facilitate more powerful and interoperable functionality based on text exchange, but beyond mere Web page transfers. Software can take a Web page's data as input to further value-added processing, such as filtering items of interest, comparison shopping, finding potential business partners, and executing transactions. But software can do this only if the page's meaning is formalized and explicit. We review various Web content metadata standards and offer observations on their development efforts. We're motivated both by the sheer number of standards and a concern that in our haste to advance these standards and their promised functionality, we might overlook key lessons learned in various disciplines, including software engineering, software reuse, and library science. We call particular attention to the apparent confluence of standards development and artificial intelligence, which raises additional possibilities and concerns.  相似文献   

15.
文章提出一种基于DOM的Web信息提取方法,通过归纳学习获得被提取信息的定位路径,利用XPath和XSLT在数据定位和数据转换方面的特点编写提取模式,根据网页元素与DOM节点对应关系,判断所获得信息源是否适用于已有提取模式。  相似文献   

16.
JSP页面常需使用自定义标签来满足特定的业务逻辑,而自定义标签的核心就是标签处理程序和标签额外信息(TEI)类.Web容器装填、运行JSP页面的servlet类, 进而servlet类会实例化和调用标签处理程序,然而软件理论未涉及标签额外信息类如何在Web容器内运行.通过写出标签处理程序和它的TEI类,观察Web容器的运行日志,给出了容器内创建标签处理程序实例和相应TEI类实例的顺序,阐明了TEI类中的方法在Web容器中的调用顺序和软件人员需注意的运行特点.  相似文献   

17.
18.
Web信息的自主抽取方法   总被引:12,自引:0,他引:12  
许建潮  侯锟 《计算机工程与应用》2005,41(14):185-189,198
提出了基于表格结构及列表结构的W eb页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够较好地适应网页信息的动态变化,实现信息的自动抽取。对列表结构信息源信息,通过对DOM树结构的分析,动态获得信息块在DOM层次结构中的路径,根据信息对象基本的抽取知识,获得信息对象值。采用自学习的方法以适应网页信息的动态变化。  相似文献   

19.
由于HTTP协议的无状态性,在开发基于HTTP的B/S结构的Web应用程序时,就需要解决状态管理的问题。在ASP.NET中有客户端状态管理和服务器端状态管理两种状态管理技术。本文中通过对ASP.NET的客户端状态管理技术的特点进行分析与比较,指出了各种技术的优缺点,并给出了一些实用的使用建议。  相似文献   

20.
浅析网页设计中的页面布局   总被引:1,自引:0,他引:1  
网页是网站构成的基本元素,决定网页是否吸引浏览者的重要因素之一是网页的合理布局。本文阐述了在整体上把握好页面布局的重要性,介绍了网页布局的常见类型,对网页布局的技术和方法做了详细地分析。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号