首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
Intenet的快速增长导致了个性化服务的需求急剧增加.基于页面结构的信息提取与推荐是Web数据挖掘中三大研究领域之一.该研究的关键技术是识别Web页面的组织形式,从中挖掘所需要的个性化页面信息.基于Web数据挖掘的个性化信息推荐系统可以满足互联网未来发展趋势的需要.与传统的以页面为单位的Web信息提取相比,基于页面结构分区的信息推荐更符合实际情况,粒度优势明显.以一组数据为实例阐述了基于Web挖掘的协同过滤推荐算法是如何进行数据表示、近邻查询以及产生推荐页面分区信息的.  相似文献   

2.
Web数据挖掘是当前数据挖掘的热点研究领域之一.由于Web页面数据的半结构化、不规则性和动态更新等特征,使得基于Web内容的数据挖掘研究具有一定的复杂性.本文首先简介如何从Web页面中提取半结构化数据,接着提出一种增量FP-Growth挖掘方法,使传统的FP-Growth方法适应于动态数据环境的关联规则挖掘,最后以中国汽车市场为例,挖掘消费者对不同类型、不同型号、不同价格轿车的购买偏好.  相似文献   

3.
基于页面结构的信息提取是Web数据挖掘中三大研究领域之一。该研究的关键技术是如何识别Web页面的组织形式,从中挖掘所需要的页面信息。文中基于页面的语义分块(Block)给出一个新的块主题提取算法,与传统的以页面为单位的Web信息提取相比,更符合实际情况,粒度优势明显。该算法针对页面中不同分块的重要性给予不同的权值,依据权值大小取舍页面信息提供给用户。针对该算法进行了模拟实验,从实验结果可以看出该算法具有一定的实用性和有效性。  相似文献   

4.
基于页面结构的信息提取是Web数据挖掘中三大研究领域之一。该研究的关键技术是如何识别Web页面的组织形式,从中挖掘所需要的页面信息。文中基于页面的语义分块(Block)给出一个新的块主题提取算法,与传统的以页面为单位的Web信息提取相比,更符合实际情况,粒度优势明显。该算法针对页面中不同分块的重要性给予不同的权值,依据权值大小取舍页面信息提供给用户。针对该算法进行了模拟实验,从实验结果可以看出该算法具有一定的实用性和有效性。  相似文献   

5.
Web日志是目前Web数据挖掘的重要研究方向。数据预处理是Web日志挖掘中的关键技术。详细的介绍了Web日志挖掘的预处理过程。数据预处理包括数据清理、识别用户、识别会话和框架页面清理、路径补充。用户识别后,框架页面降低了数据挖掘的效率,可以通过过滤框架页面大幅度减少产生的无效页面数。  相似文献   

6.
一种基于节点密度分割和标签传播的Web页面挖掘方法   总被引:1,自引:0,他引:1  
获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中文本和链接的内在语义关系,同时降低了页面处理的效率.文中提出了一种Web页面重要内容挖掘的统一框架,该框架主要由3个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为不同的页面块;第二,采用基于K最近邻标签传播的半监督方法自动扩展页面块训练集;第三,在扩展的页面块训练集上对SVM分类器进行训练,并用来对页面块进行分类.采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局.我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性.  相似文献   

7.
Web挖掘是针对包括Web页面内容、页面之间的结构、用户访问信息等在内的各种Web数据,应用数据挖掘的方法,提取抽象的、潜在的有用的知识。本文通过对远程教学系统中Web挖掘应用的分析,着重介绍了Web访问挖掘基本流程,并总结了Web挖掘结果在远程教学系统中的重要作用。  相似文献   

8.
随着Internet的飞速发展及Web在全球的进一步普及,WWW上的信息量呈指数级增长。面对这一情形,研究人员开始将数据挖掘技术用于Web,从而产生了一个新的研究方向——Web挖掘。Web挖掘即是对Web文档的内容、可利用的Web资源的使用情况以及Web资源间的关系进行分析。本文分析了Web页面的半结构化特点,介绍了国内外学者针对Web页面的半结构化特点提出的用于从Web页面中提取数据的构建包装器方法。在Web数据提取领域,包装器一般就是一个从Web页面中提取数据的程序。同时介绍了作者本人的一些工作,包括一个新闻下载浏览模块和一个信息…  相似文献   

9.
Web站点导航是Web数据挖掘的一个重要研究领域,是准确理解用户访问网站行为的关键;传统Web站点导航技术很难全面反映出用户对页面浏览的兴趣程度,找到用户感兴趣页面路径准确度比较低;为提高找到用户感兴趣页面路径准确度,提出一种基于蚁群算法的Web站点导航技术;将网络用户看作人工的蚂蚁,用户的浏览兴趣作蚂蚁的信息素,通过利用Web日志数据采用正负反馈机制和路径概率选择机制建立一个Web站点导航模型,挖掘用户感兴趣页面的导航路径;仿真实验结果表明,基于蚁群算法的Web站点导航技术提高了找到用户感兴趣页面路径准确度,更加能够准确反映出用户的浏览兴趣,用于Web站点导航是可行的。  相似文献   

10.
概念格作为一种用于数据组织和数据分析的形式化工具,有着广阔的应用领域,如信息检索、数字图书馆、软件工程、数据挖掘等方面。先对概念格进行了简单的介绍,然后讨论了Web日志挖掘过程的两个重要阶段:数据预处理和模式发现,并将概念格应用于模式发现以进行频繁页面之间的关联规则挖掘和频繁访问路径挖掘,减少了候选项集的产生,可有效提高挖掘效率。  相似文献   

11.
构建数字城市的元数据服务体系   总被引:1,自引:0,他引:1  
Metadata is one of the six key technologies of Digital Earth,which is also an important aspect in buildingand implementing the Digital City. Based on the technologies and standards of Web Services ,the author came up witha metadata services architecture in the distributed heterogeneous network environment of Digital City. In this paper,the metadata services architecture is described and explained in detail,including the related standards,technologies,and the practical experiences in the ‘Metadata Sharing Network Project of Digital Beijing‘ as well. It also points out that, based on the Web service ,to build the metadata service architecture will be practically meaningful for organizing,managing and sharing the information resources in Digital City.  相似文献   

12.
The Web is one of the most important information media and it is influencing in the development of other media, as for example, newspapers, journals, books, and libraries. In this paper, we analyze the logical extensions of traditional libraries in the Information Society. In Information Society people want to communicate and collaborate. So, libraries must develop services for connecting people together in information environments. Then, the library staff need automatic techniques to facilitate so that a great number of users can access to a great number of resources. Recommender systems are tools whose objective is to evaluate and filter the great amount of information available on the Web to assist the users in their information access processes. We present a model of a fuzzy linguistic recommender system to help the University Digital Libraries users to access for their research resources. This system recommends researchers specialized and complementary resources in order to discover collaboration possibilities to form multi-disciplinar groups. In this way, this system increases social collaboration possibilities in a university framework and contributes to improve the services provided by a University Digital Library.  相似文献   

13.
Internet化学信息的系统挖掘工具   总被引:1,自引:0,他引:1  
本文简要介绍中国科学院过程工程所(原化工冶金所)在Internet化学化工信息资源系统挖掘方面正在形成的一个较完整的化学专业信息获取平台,包括:(1)国家科学数字图书馆化学学科信息门户ChIN;(2)网络化学化工专业搜索引擎ChemEngine;(3)化学深层网挖掘工具ChemDB Portal.其中ChIN已经成熟,是国内权威、中国唯一被国际承认的网络化学资源导航系统;ChemEngine是通用搜索引擎技术与化学相关的领域知识相结合形成的化学化工专业搜索引擎,初步测试优于国际具有类似功能的系统:德国的ChemGuide和美国的Chemlndustry.ChemDB Portal则是正在进行的、基于XML对化学深层网数据进行提取和索引方法的研究,这一方法尚未见报道.这些工具可为检索网络化学相关信息提供更方便、更好的专业化解决方案.  相似文献   

14.
基于Web的文本挖掘系统的研究与实现   总被引:13,自引:0,他引:13  
1.引言 60年代,大的物理流伴随着大信息流。传统的文件方式不能适应信息处理的需求,因此出现了数据库技术。90年代,人类积累的数据量以高于每月15%(或每年5.3倍)的速度增加,但是数据海洋不能产生决策意志,为了进行决策,人们不断地扩大数据库能力,搜集海量数据,但这使得决策者更难于决策,因此出现了数据挖掘技术,以便从数据库中发现知识。数据挖掘技术包括特征、分类、关联、聚类、偏差、时间序列、趋势分析等。  相似文献   

15.
16.
基于Web企业竞争对手情报自动搜集平台   总被引:4,自引:1,他引:4  
从互联网中准确有效及时地自动搜索出需要的信息,是Web信息处理中的一个重要研究课题。本文在所提出的基于搜索路径Web网页搜索和基于多知识网页信息抽取方法基础上,给出基于Web企业竞争对手情报自动收集平台的实现方法,该平台可以有效地从多个企业门户网站中,自动搜索出所需要的目标网页,并能够从目标网页中自动抽取其中多记录信息。本文利用该平台进行了企业人才招聘信息的自动搜索实验。实验结果证实了该平台在信息自动搜集方面的有效性和准确性。  相似文献   

17.
基于向量空间的Web服务发现模糊方法   总被引:2,自引:0,他引:2  
彭敦陆  周傲英 《计算机应用》2006,26(9):2009-2012
Web服务已逐渐发展成为重要的分布式计算范式。在综合分析了现有的Web服务描述文档的基础上,提出了一种基于模糊集的服务特征项集选取算法以及Web服务向量空间的生成方法。利用生成的向量空间,对Web服务进行模糊聚类。基于此,文中给出了向量空间中进行Web服务发现的模糊方法。所提出的方法只需利用现有的Web服务描述信息,保证了服务发现的有效性。  相似文献   

18.
Web使用模式挖掘技术在网站营销中的应用   总被引:2,自引:0,他引:2       下载免费PDF全文
王玉珍 《计算机工程》2006,32(18):55-57
Web使用模式挖掘是Web数据挖掘的重要内容之一,其应用领域非常广泛。将Web数据挖掘技术应用于电子商务网站的营销中,可发现许多有用的信息,有效地使用这些信息可促进电子商务网站的发展。  相似文献   

19.
稳步推进数字图书馆工程是多数国家信息基础建设的重要任务,也是我国社会发展的重要战略之一.数字图书馆进入我国十余年,尚处于初级阶段。我国的数字图书建设在规划、定位、服务、资源管理等方面需要深入思考与探索,这是当前的我国数字图书馆建设的重要课题之一。  相似文献   

20.
基于Web服务的供应链信息沟通与共享   总被引:5,自引:0,他引:5  
秦天保  白庆华 《计算机工程》2003,29(22):184-186
有效降低供应链成本的关键是充分实现供应链上各实体闯的信息沟通与共享,传统的实现方法是采用EDI技术,但EDI系统开发复杂、成本较高,多数中小企业难以承担。近来兴起的Web服务技术由于采用了开放的互联网标准和XML,极大地简化了跨组织系统的开发,降低了开发成本,有望成为实现供应链信息共享的重要解决方案。该文阐述了Web服务的技术要点,并给出了一个利用Web服务实现供应链信息共享的实现案例。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号