首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 453 毫秒
1.
基于Web的文本挖掘研究   总被引:10,自引:6,他引:4  
基于Web的文本挖掘是数据挖掘的重要组成部分,文章重点对文本特征提取、文本分类、文本聚类等Web文本挖掘关键实现技术做了介绍,最后讨论了Web文本挖掘的价值及其对Web发展的重要性。  相似文献   

2.
本文以Web挖掘为基础。首先,从定义、功能、过程3方面介绍了Web内容挖掘中的文本挖掘;其次,重点探讨了Web文本挖掘的两种重要功能——分类及其它们常用的算法,并分别对算法做了比较;最后,得出结论并进行了展望。  相似文献   

3.
《现代电子技术》2017,(4):61-65
传统的信息挖掘方法挖掘面窄,扩展性差,无法有效挖掘出网络中的不安全信息。因此,设计并实现了网络信息安全防范与Web数据挖掘系统,其由Web文本采集模块、文本分类模块和类别判断模块构成。Web文本采集模块从网络Web网页中采集文本信息,并将信息反馈给文本分类模块。文本分类模块由训练模块、分类模块和分类器构成。训练模块采用完成分类的文本对文本分类模型进行训练,获取不同类别特征词间的关联性,塑造向量空间模型。分类模块对将要进行分类的Web文本进行分词处理,通过向量描述文本特征词。分类器运算待分类文本特征向量同各类中心向量间的相似度,确保Web文本被划分到具有最高相似度的文本类型中。类别判断模块辨识待分析的网络文本信息是否属于不安全信息类,并通过报警模块对不安全信息进行报警。软件部分给出了系统的功能结构以及文本分类模块的程序实现代码。实验结果表明,所设计系统具有较高的查全率、查准率和较高的检测性能。  相似文献   

4.
为了充分挖掘非结构化数据蕴含的信息价值,文章介绍了基于自然语言处理的文本挖掘技术,从原理到实践进行了探究。以电信运营商移动网络客户的体验与口碑为导向,利用文本挖掘技术在互联网舆情分析和客服部门投诉工单分析等方面进行探索,给出了基于非结构化文本数据的信息分类与呈现的方法,从而更好地聚焦客户需求和网络问题,支撑网络维护与优化工作,提升客户满意度。  相似文献   

5.
《现代电子技术》2016,(17):149-152
文本挖掘技术为文本分析提供了方法和技术支持,以文本挖掘中的文本分类技术为基础,简要介绍文本预处理、文本分类器模型构建的方法和过程,并以供电服务过程中客户通过供电服务中心反映的热点事件为实例,建立95598工单文本自动分类的模型,通过验证实现95598工单文本快速精准的自动分类,及时准确地挖掘出隐藏的重要信息,并且为分析供电服务对客户的用电诉求的影响提供依据和数据基础。  相似文献   

6.
网络提供了海量的共享资源,人们需要从网络上搜索出自己感兴趣的信息,由此产生了Web挖掘的问题。Web挖掘就是借用数据挖掘技术来实现的。Web挖掘主要是文本信息的挖掘,本文主要研究了实现文本挖掘的层次凝聚类算法,对于传统的算法存在的问题,提出了改进的算法,研究了相似度值对整个算法过程的影响,设计了一个动态改变相似度值的计算公式。  相似文献   

7.
基于支持向量机的Web文本分类方法   总被引:15,自引:8,他引:7  
Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结合决策树方法提出了一种基于决策树支持向量机的Web文本分类模型。并给出具体的算法。通过实验测试表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率(90.11%)和召回率(89.38%)。  相似文献   

8.
随着电子计算机技术和互联网的快速发展,网络知识资源呈爆炸式增长,人们往往不能有效地获取、利用所需的网络知识资源.为了更好地利用网络知识资源,需要应用自动化、智能化的数据挖掘、信息提取方法.Web文档作为网络知识资源的一种载体,有着自然语言非结构化的特点,所以在运用聚类、分类等挖掘技术进行文本挖掘之前,需要将Web文档转化为机器学习算法可以理解的格式,即将文本数据转换成数值数据.针对现有常用文本表示方法的局限性,本文提出了一种基于命名实体和词向量相结合的网络知识资源表示学习模型.并在算法知识领域内进行实现与应用探索,包括网络解题报告的聚类和对网络解题报告的搜索,实验结果显示本文提出的方法在这些任务上取得了较好的效果.  相似文献   

9.
随着互联网技术的快速发展和应用,很多领域已经积累了海量数据资源,文本数据占据了85.6%,因此文本数据挖掘和分析成为人们研究的热点,并且引起了百度、Google、京东、腾讯等互联网公司关注。可以在文本数据挖掘中引入支持向量机、BP神经网络、K均值算法,但是这些算法需要依赖经验知识,不能够从多维度挖掘文本数据。因此,为了解决上述问题,本文提出构建一种基于信息论的文本数据挖掘算法,该算法可以从海量文本数据集中发现潜在的有价值的信息,提高文本分类的准确度。  相似文献   

10.
本文主要讨论了聚类算法在Web文本挖掘中的应用研究情况.着重总结了Web文本挖掘的特点、一般过程和适用于Web文本聚类的算法条件,总结了当前的研究热点,并提出了Web文本聚类算法的发展方向.  相似文献   

11.
一种基于多Agent技术的Web挖掘模型及应用   总被引:1,自引:0,他引:1  
石福斌 《信息技术》2007,31(6):60-63
随着因特网的迅猛发展,计算机拥有了海量的资源,但也困扰着人们获取其中有用的信息。提出了一个基于Multi—agent技术的Web挖掘模型,利用多Agent体系实现数据的收集。最后给出根据该模型设计和实现的某企业人才素质评价系统的实例,系统运行结果证明了模型的有效性和科学性。  相似文献   

12.
随着互联网的飞速发展,互联网和人们日常的生活、工作、学习等各方面的结合越来越紧密,为使互联网更好的服务于用户(通过Web个性化服务等方式),首先需要了解用户使用互联网的规律性特点,基于Web日志的Web用户行为模式挖掘能解决此问题.目前,Web用户行为模式挖掘仍然是一个新兴的研究领域,其中包含若干需要解决的问题.针对这些问题,在该领域已开展了大量的研究工作.从模式挖掘合理性、模式挖掘结构体系、模式挖掘过程三个方面对Web用户行为模式挖掘中关键问题的研究现状进行了介绍:Web日志中包含了用户访问互联网的一些规律性特征,这些特征可通过Web用户行为模式挖掘的方法得到;为改进模式挖掘、应用的效果,可以采用改进的挖掘结构比如结合内容、结构挖掘的整合结构;Web用户行为模式挖掘过程分为数据预处理、模式挖掘、模式应用三个阶段,这是一个正在发展的研究领域.  相似文献   

13.
沈明  邓玉芬  张博 《现代电子技术》2010,33(9):180-183,186
频繁模式挖掘应用广泛,是数据挖掘中的一个重点研究领域,频繁模式挖掘应用的其中一个领域就是基于网页日志的数据挖掘。在网页日志中发现频繁模式的目的是获得用户的网络浏览行为模式,这些信息可以为广告设计以及创建动态用户日志提供参考。从网页数据挖掘的角度研究了三种频繁模式挖掘方式,这三种方式分别是:网页设置、网页序列以及网页图片挖掘。  相似文献   

14.
基于Web使用模式挖掘的个性化电子商务策略   总被引:1,自引:0,他引:1  
徐嘉莉  付平 《信息技术》2005,29(10):65-68
电子青务是新兴的现代商业模式,Web数据挖掘是先莲的信息处理技术。随着商业信息和数据的急剧增加,如何有效地分析和利用信息成为企业共同关注的问题。本文介绍了Web数据挖掘技术的定义、应用流程以及几种主要技术,并对Web使用模式挖掘在个性化电子商务中的客户细分、驻留客户、站点改进和交叉销售等应用策略进行了探讨。  相似文献   

15.
针对互联网的数据挖掘在“棱镜”计划中扮演着至关重要的角色.文中首先对数据挖掘的基本技术原理进行了分析,包括关联分析和机器学习的常用算法.然后介绍了互联网信息检索和挖掘的主要技术.接下来提出了一种基于开源云计算平台的互联网大数据挖掘系统架构.最后,对互联网大数据挖掘的发展指出了方向.  相似文献   

16.
互联网络的蓬勃发展使得信息的数量急剧膨胀,如何从大量的信息中获取为企业决策有用的信息成为企业面临的棘手问题。数据挖掘技术的出现给信息的加工和获取提供了强有力的工具和手段。本文从企业信息化面临的困境谈起,探讨数据挖掘技术在企业信息攫取中的应用。  相似文献   

17.
面对发展飞速的电子商务,如何将传统的统计学方法与新兴的数据挖掘技术、计算机技术、互联网技术联系起来,使统计学更广泛地服务于社会生活和经济的各个领域,已经成为众多专家学者讨论和研究的课题。本文对统计科学在网络时代的发展"Web"技术进行了一定的研究,并对此在实际中的应用进行了探讨,并建立了相关的数学模型。  相似文献   

18.
Web数据挖掘研究   总被引:3,自引:0,他引:3  
Web数据挖掘是数据挖掘技术与Web的结合。介绍了Web数据挖掘的概念、Web数据挖掘的流程、Web数据挖掘的分类以及3类Web数据挖掘的应用问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号