首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 296 毫秒
1.
信息技术的快速发展为各行业领域注入了新鲜的活力,然而伴随而来的不良网络信息问题又成为网络文化安全面临的重要挑战.以Web信息搜索与数据挖掘为例,可考虑引网络爬虫,利用其进行信息资源的获取,对网络文化内容管理与监测能够发挥重要作用.本次研究将对网络爬虫原理做简单介绍,并结合Web信息搜索与数据挖掘实际,分析网络爬虫在其中的具体应用.  相似文献   

2.
胡晟 《软件》2012,(7):145-147
本文首先分析了Web挖掘的实际必要性,介绍了数据挖掘体系结构中的关键技术和运行原理。并且介绍了一般爬虫所实现的功能,在此之上给出了一种网络爬虫设计,重点论述了此爬虫的原理、实现、性能以及该爬虫的优点。最后,经实验证明,设计的爬虫能够高效地获取互联网上的各种信息资源。  相似文献   

3.
从介绍Web挖掘与数据挖掘的差异入手, 分析Web挖掘中Web爬虫的必要性和现代Web挖掘技术的发展方向, 在深入了解Web爬虫的原理及其功能的基础上, 提出一个现代网站通用的挖掘模型, 并利用该模型设计一种网络爬虫. 经实例证明, 该爬虫能高效爬取更多的各种页面数据.  相似文献   

4.
网络爬虫技术是网络信息获取的重要手段,面向Web论坛的信息获取则是网络爬虫技术所面临的新课题.在分析和研究面向Web论坛信息获取技术的基础上,本文设计和实现了一种用于Web论坛信息获取的主题网络爬虫系统,根据Web论坛信息组织结构,提出了基于遍历策略的信息搜索技术;根据正文信息分布及论坛自身特点,提出了基于DOM与分块...  相似文献   

5.
基于Web数据挖掘的信息获取系统的研究及设计   总被引:1,自引:0,他引:1  
潘静  饶若楠 《计算机工程》2004,30(Z1):136-138
首先对数据挖掘的发展现状作了简要的阐述,然后就数据挖掘在Web上的应用进行讨论,并着重于Web文本挖掘技术的分析.同时,提出了一个在专业新闻信息获取系统的原型,以该系统原型为背景,利用Web信息搜索和Web文本挖掘的相关技术实现在Web上获取信息的应用.  相似文献   

6.
潘静  饶若楠 《计算机工程》2004,30(12):136-138
首先对数据挖掘的发展现状作了简要的阐述,然后就数据挖掘在Web上的应用进行讨论,并着重于Web本挖掘技术的分析。同时,提出了一个在专业新闻信息获取系统的原型,以该系统原型为背景,利用Web信息搜索和Web本挖掘的相关技术实现在Web上获取信息的应用。  相似文献   

7.
随着互联网的迅速发展,网络资源日益丰富,如何从Web尤其是Deep Web中获取信息成为人们关注的焦点,以Ajax为基础的新一代网页信息抓取问题也逐渐成为研究热点。通过分析支持Ajax的Deep Web爬虫关键技术,提出了支持Ajax的Deep Web爬虫的体系结构,阐述了一种自动爬行Ajax网站的算法,为该爬虫的总体框架设计奠定了基础。  相似文献   

8.
《软件》2016,(9):94-97
随着Web 2.0的兴起,网络上的海量信息迎来了爆发性地增长。从网络上的公开数据中提取有效信息成为了数据挖掘领域的新热点。数据获取是数据分析的第一步。Web 2.0时代的网站在内容和形态方面发生了深刻的变化,对传统的以静态页面分析为基础的网络爬虫提出了新的挑战。本文利用Web Driver实现了一个定向网络爬虫,该爬虫能够自动采集指定网页数据,支持Ajax等动态技术,能够对简单验证码进行识别,并绕过爬虫检测。利用该爬虫对全国企业信用信息系统进行爬取,取得了良好效果。  相似文献   

9.
基于众包的社交网络数据采集模型设计与实现   总被引:1,自引:0,他引:1  
社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题Deep Web爬虫系统4个模块。通过主题Deep Web爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题Deep Web爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。  相似文献   

10.
目前Web数据挖掘技术已得到广泛应用,通过对Web挖掘分类和挖掘基本理论的分析,提出网络爬虫原理内容挖掘方法,深入分析这种方法的原理和工作流程。爬虫原理的应用可满足特定用户的需求,实现高效、快捷、针对性强的查询。  相似文献   

11.
搜索引擎中的网络数据挖掘技术   总被引:4,自引:0,他引:4  
万维网包含大量的信息,而且随着其快速的增长而变得越来越复杂,这就导致了现在用户定位相关和高质量信息的搜索变得越来越难。将网络数据挖掘技术应用于搜索引擎将大大改善搜索引擎的搜索效率以及搜索质量。提出了具体的算法,并阐述了此算法在搜索引擎中的应用。  相似文献   

12.
环球网图象搜索引擎研究综述   总被引:4,自引:0,他引:4       下载免费PDF全文
提出了建立一个WWW图象搜索引擎的方案,搜索引擎在Internet上浏览主页,对遇到的图象进行特征计算,抽取出索引信息,存储索引向量,根据图象内容进行相似图象的查找。分析了颜色直方图、边缘方向直方图、纹理分析和形状不变性等基于图象内容查询的技术,并对WWW图象搜索引擎的发展作出了预测。  相似文献   

13.
External information search behaviour has long been of interest to consumer researchers. Experimental and post hoc survey research methodologies have typically used a large number of variables to record search activity. However, as these are usually considered in aggregate, there is little opportunity for the researcher to overview the search style of a consumer. To date, the diagrammatic illustration of search behaviour has been limited to experimental environments in which the available information was strictly bounded, for example, within databases or when information display boards have been used. This paper, which focuses largely on inter-site world wide web (WWW) search behaviour, discusses web search paradigms and the variables used to capture WWW search. It also provides a conceptual framework for the representation of external information search behaviour in diagrammatic form. The technique offers researchers an opportunity to holistically interpret information search data and search styles. The benefits include the identification of particular search styles, more precise interpretation of web search activity numeric data and the potential application for the training of web users to improve their search effectiveness.  相似文献   

14.
一个基于XML的WEB数据收集模型的研究   总被引:15,自引:0,他引:15  
目前研究的热门领域Web数据挖掘是从WWW资源上抽取信息(或知识)的过程,是对Web资源中蕴含的、未知的、有潜在应用价值模式的提取。其一般的过程可表示为:信息的发现、信息的选择和预处理、分析过程、产生结果犤1犦。WEB上的数据收集是对WEB数据挖掘的一种支持技术,是WEB数据挖掘的第一步。该文提出了一种基于XML技术的WEB数据收集模型,并实现了其中的一些主要功能。同时针对模型系统的不足做了一些有意义的改进探索。  相似文献   

15.
语义万维网是目前国际万维网联盟(world wide web consortium,W3C)为了解决因Web上的数据缺少语义信息而难以实现自动化处理的问题所开展的研究项目,其目的是为了对Web上发布的信息实现智能推理和自动化处理。Agent作为一种智能化主体,非常适合语义万维网环境下的各种应用。在语义万维网和智能Agent研究的基础上,综合信息检索、知识表示、Ontology建模等多方面技术,提出并实现了一个基于Ontology实现语义信息检索的多Agent系统框架,该系统包括信息收集、存储、查询和推理4个主要部分。  相似文献   

16.
毛忠民  周雪丽  赵慧芬  马磊 《微机发展》2012,(3):183-186,191
当今世界已经进入信息化数字化时代,建设网络地图公众服务平台旨在提供强大的网络地图服务功能,使地图这一社会基础公共信息更加高效地服务于社会民众。文中从网络地图服务引擎、矢量电子地图数据组织以及河南地图网Web发布平台等方面,重点介绍了如何采用WebGIS技术研建网络地图公众服务平台。并以河南地图网为例,详细描述了基于WebMap引擎的网络地图服务平台主要功能特点。总之,本平台借助网络地图服务引擎(WebMap1.0),利用ActiveX、COM、HTTP等综合技术,将地图以矢量格式在互联网进行发布,实现了地图信息查询、搜索、定位等多项功能,借以满足人们对地图应用的各项需求,方便实用。  相似文献   

17.
文中以网站为单位研究万维网的局部结构特征,检测包含3个节点的模体,发现全连通子图是绝大多数实验网站的模体,而连接稀疏的子图只属于极少数实验网站的模体,然后结合当前成熟的搜索引擎技术对上述结果做出理论分析。为了测试实验网站是否具有相同的局部结构,其后进行了三元组重要性剖面实验,发现所有实验网站中都包含3个网络超家族。  相似文献   

18.
Network system and world wide web security   总被引:1,自引:0,他引:1  
The Internet was developed in 1965 for academic and military use. Thirty-one years later, it is regarded as the ‘information superhighway’ with almost one billion computer networks and well over a billion users projected to be using the Internet by the end of the century [1]. In essence, the open design of the Internet, geared towards the ease of communication and rapid development, has led to a severe lax in system security. As new developments (for example, the world wide web) and application of information technology emerge, so do the possibilities of hostile attacks on local area networks (LANS) and wide area networks (WANs). Therefore, the security aspects of the Internet and the world wide web must be carefully scrutinized. This paper outlines the security aspects of network systems and the world wide web.  相似文献   

19.
田莉霞 《软件》2020,(4):67-71
随着信息化社会的来临,各种互联网技术应运而生,数字信息已然成为当今社会中商家必争的宝贵财富资源。众多数字信息中,怎样帮助用户精准筛选出有效信息是当前搜索引擎所面临的巨大挑战。传统的互联网搜索仅仅是基于本文的链接,搜索时仅单纯的给出包含搜索词的网页,让用户去网页中寻找答案,这种检索方法耗时耗力,还不能准确给出用户想要的答案。由此谷歌率先提出以知识图谱(Knowledge Graph)为技术基础的的搜索引擎,这是搜索引擎界的一次重大变革。它以图的形式表现客观世界中的概念和实体及其之间关系,现如今广泛应用于语义搜索、智能问答、决策支持等智能服务领域。本文针对什么是知识图谱、如何表示构建知识图谱及知识图谱的主要应用作了详细阐述,希望更多的读者可以了解知识图谱及其对人工智能发展的巨大贡献。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号