首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 171 毫秒
1.
文中提出了一种为了检索万维网上的信息机制并构建了一个关系数据库。解决这个问题分三步:处理了基于HTML的WEB页面的困难;从WEB页面上抽取指定的信息并整合成结构化的文档;给出了把结构化的文档转换成相关的数据表的算法。满足了用户以最小代价、最短时间买到适合自己的商品。  相似文献   

2.
从WEB文档中构造半结构化信息的抽取器   总被引:36,自引:0,他引:36  
为了对WEB上不规则的、动态的信息按照数据库的方式集成和查询,采用对象交换模型(object exchange model,简称OEM)建立了WEB信息模型.为了将页面中各个部分表示为对应的OEM对象,设计了半结构化信息的抽取算法,并给出测试结果.该方法可以抽取结构化和半结构化的信息,比现有的抽取方法通用性更强.  相似文献   

3.
从半结构化或者非结构化的Web文档中提取信息时通常要求指定记录集的边界符,如果不根据记录边界符将包含多记录的页面分成单个记录块,那么记录的提取就不能成功。介绍了一种根据启发式的规则发现Web文档中的记录分隔符的方法,能够很好地解决多记录页面记录分割的问题。  相似文献   

4.
基于约束的半结构化信息的抽取方法   总被引:1,自引:0,他引:1  
为了对WEB上不规则的动态信息按照数据库的方式集成和查询,本文采用对象交换模型(OEM)建立WEB上信息模型。为了将页面中各个部分表示为对应的OEM对象,本文(1)设计了半结构化信息的抽取算法;(2)定义了满足约束条件的数据抽取格式,并且设计了输出正确抽取格式的候选者算法;(3)给出测试结果。该方法可以抽取结构化和半结构化的信息,比现有的抽取方法通用性更强。  相似文献   

5.
WEB应用程序除了通过自身提供的菜单或者是按钮进行WEB页面的流转外,还可以通过URL输入框进行页面的流转。这种现象为WEB应用程序的设计带来了一定的难度,处理不当将会出现意想不到的错误。该文通过使用java servlet过滤器技术,xml文档,实现对WEB页面的访问控制,可以有效解决上述问题。  相似文献   

6.
基于Web中文检索系统SEARCH2000的设计与实现   总被引:3,自引:0,他引:3  
本文详细介绍Search 2000中文检索系统的设计思想及实现方法。与传统的全文检索系统相比,基于WEB的信息检索系统,具有许多全新的特征。页面为半结构化文档、页面通过超链接相互关联、页面的内容覆盖不同应用领域并且拥有大量专有名词和缩略词汇,这些特性成为影响查询精度的主要因素。针对Web的上述特性设计的Search2000全文检索系统,使用智能化的页面相关分析、评分技术,以及高效数据存取、压缩算法和知识库的支持,使其具有使用方便、查询时间短、查询精度高等特点。  相似文献   

7.
面向主题的Web信息收集系统的设计与实现   总被引:7,自引:0,他引:7  
随着互联网信息的持续爆炸性增长,通用搜索引擎的信息覆盖率和检索精度都在不断下降,发展面向主题信息的专用网络信息检索工具已经成为趋势。文中提出的面向主题的Web信息收集系统是这类工具的核心部件,该系统采用文档矢量模型进行文档相关度计算,并结合页面链接的上下文信息过滤页面;借鉴并修改了Shark启发式查找算法来查找相关页面;可采用多机并行下载提高收集效率;并依据站点的重要程度进行动态更新。在一个面向Internet的计算机教学资源检索的搜索引擎中具体实现了这个Web信息收集系统,整个系统在低性能的台式机上就能运行,并可获得较高的属于指定主题的页面的收集精度和收集效率。  相似文献   

8.
为了获取分散Web页面中隐含信息,设计了Web信息抽取系统。该系统首先使用一种改进的HITS主题精选算法进行信息采集;然后对Web页面的HTML结构进行文档的数据预处理;最后,基于DOM树的XPath绝对路径生成算法来获取被标注结点的XPath表达式,并使用XPath语言结合XSLT技术来编写抽取规则,从而得到结构化的数据库或XML文件,实现了Web信息的定位和抽取。通过一个购物网站的抽取实验证明,该系统的抽取效果良好,可以实现相似Web页面的批量抽取。  相似文献   

9.
Web的迅速发展,使其日益成为人们查找有用数据的重要来源,但是Web站点主题各异、形式多样、结构不同,其页面组织结构很难用系统的方法来有效抽取目标数据.文中将使用Asp. Net技术开发一种基于Web内容的数据自动抽取方法.首先选择目标数据源并自动调用获取其静态html文档内容,然后根据约定规则生成网页描述文件,分析html文档,设定目标锚,最后利用正则表达式和c#技术自动抽取目标数据并生成所需Web页面.这种数据自动抽取方法可以使Web用户快捷地从结构化、半结构化网页中抽取其所需的数据信息  相似文献   

10.
智能浏览器及其智能行为的实现   总被引:3,自引:2,他引:1  
使客户端浏览器软件具有自主信息搜索能力是提高因特网信息检索效率的一种可行方法。文中首先定义了智能浏览器及其三种智能行为:智能理解WEB页面信息、观察发现浏览器用户的兴趣爱好、自主收集与管理WEB页面信息。然后以浏览器HWT1.0为实现对象,根据信息反馈、阀值比较思想提出了实现智能浏览器的带反馈的WEB页面信息理解度算法、词根频数统计算法及信息源树搜索策略。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号