首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 343 毫秒
1.
网页分类技术是Web数据挖掘的基础与核心,是基于自然语言处理技术和机器学习算法的一个典型的具体应用。基于统计学习理论和蚁群算法理论,提出了一种基于支持向量机和蚁群算法相结合的构造网页分类器的高效分类方法,实验结果证明了该方法的有效性和鲁棒性,弥补了仅利用支持向量机对于大样本训练集收敛慢的不足,具有较好的准确率和召回率。  相似文献   

2.
基于支持向量机的中文网页自动分类   总被引:5,自引:0,他引:5  
贾泂  梁久祯 《计算机工程》2005,31(10):145-147
研究了支持向量机在中文网页分类中的应用,给出了基于关键词的中文网页特征提取和选择方法,阐述了统计学习理论中的支持向理机模型及其在分类问题应用中的特点,给出了设计支持向量机分类器的二次规划学习算法。  相似文献   

3.
Web分类是在分析了网页的内容后,按照一定的规则将它分到一个或者多个合适的类别中去.支持向量机是在统计学习理论基础上发展起来的一种新的非常有效的机器学习方法.由于其出色的学习性能,该技术已成为分类领域新的研究热点.将支持向量机的理论应用到Web分类中,首先对网页进行了预处理,然后对网页文本进行特征提取和向量表示,最后将二叉树多分类支持向量机应用到Web分类中.通过实验对算法进行了验证,结果表明取得了良好的分类效果.  相似文献   

4.
提出基于人工鱼群优化的直推式支持向量机分类算法。该算法使直推式学习思想的优势得到充分的展现,在部分UCI标准数据集和20-Newgroups文本实验数据集上的对比实验表明,该算法较经典支持向量机算法和基于蚁群算法的直推式支持向量机算法具有更高的分类性能。  相似文献   

5.
中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势.提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取和多分类算法等关键技术的介绍.实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率.  相似文献   

6.
基于蚁群算法的支持向量机参数选择方法研究   总被引:2,自引:1,他引:1  
研究支持向量参数选择优化问题,常用的支持向量机参数优化算法和遗传算法分别存在耗时长和易陷入局部最优值的缺陷,导致支持向量机的分类精度低.为了解决支持向量机参数优化问题,提出了基于蚁群算法的SVM分类器泛化方法.蚁群算法是一种优化搜索方法,具有较强的鲁棒性、优良的分布式计算机制,SVM参数的选取看作参数的组合优化,建立组...  相似文献   

7.
本文从网页分类方面对万维网上的数据处理技术进行了分析,对中文网页/文本分类技术进行了介绍,阐述了基于支持向量机的网页自动分类算法。  相似文献   

8.
基于最小二乘支持向量机的网页主题语义分类的研究   总被引:1,自引:0,他引:1  
提出了对网页主题进行语义扩展的方法,利用最小二乘支持向量机LSSVM(least squares support vector machines)来代替传统的支持向量机SVM(support vector machine)的分类技术。在建立LSSVM模型的多类别分类算法基础上,将其应用到网页主题语义分类。实验表明,最小二乘支持向量机学习速度快,在小样本情况下具有良好的非线性建模和泛化能力,对网页主题语义分类具有很好的效果。  相似文献   

9.
网页分类算法中,KNN算法的缺陷之一是分类效率较低,分类的效果很大程度上依赖于相似度函数和参敷K的选择.同时,基于支持向量机(SVM)网页分类器的限制在于要求处理的向量是数值型向量,而网页特征向量往往是词条特征向量.利用KNN算法生成训练样本,进而将词务特征向量数值化,再利用支持向量机分类器对测试网页进行分类,构建了一种新的分类器--KNN-SVM分类器.  相似文献   

10.
杨斌  路游 《微机发展》2006,16(11):56-58
支持向量机是一种新型机器学习方法,由于其出色的学习性能,该技术已成为机器学习领域新的研究热点。介绍用于分类的支持向量机的统计学习理论基础,在此基础上提出了支持向量机的分类算法,讨论了支持向量机存在的问题,对用于分类的支持向量机的应用前景进行了展望。  相似文献   

11.
传统网络爬虫为基于关键字检索的通用搜索引擎服务,无法抓取网页类别信息,给文本聚类和话题检测带来计算效率和准确度问题。本文提出基于站点分层结构的网页分类与抽取,通过构建虚拟站点层次分类树并抽取真实站点分层结构,设计并实现了面向分层结构的网页抓取;对于无分类信息的站点,给出了基于标题的网页分类技术,包括领域知识库构建和基于《知网》的词语语义相似度计算。实验结果表明,该方法具有良好的分类效果。  相似文献   

12.
为了网页信息的有效组织和检索,针对网页中的超文本结构特征,在研究网页间的超链接、超文本标记对信息提取的作用的基础上,阐述了一种基于“超文本标记加权”和“超链接森林”的因特网信息提取方法,并与传统方法进行了对比。实验结果表明,该方法用于网页的自动分类具有较好的效果。  相似文献   

13.
An intelligent categorization engine for bilingual web content filtering   总被引:1,自引:0,他引:1  
It is important to protect children and unsuspecting adults from the harmful effects of objectionable materials, such as pornography, violence, and hate messages, which are now prevalent on the World-Wide Web. This calls for effective tools for web content analysis and filtering of objectionable contents. Our study of existing web content filtering systems has identified a number of deficiencies in these systems. Using the analysis of pornographic web pages as a case study, we present an intelligent bilingual web page categorization engine that can determine if an English or Chinese language web page contains pornographic materials. We have implemented the categorization engine to perform offline web page analysis and near-instantaneous online filtering. Performance evaluation of our system has verified its effectiveness.  相似文献   

14.
探讨基于体裁的中文网页分类的特征项选取问题.词汇特征方面,结合自动抽取和人工归纳的方式来获得.通过改进PAT树存储结构,进行序列挖掘来获得频繁字符串特征,使得文本分类系统摆脱对切词处理和词典的依赖,并提出了模糊字符串模式的特征表达方式.此外,特征集中融入了文本的形式特征,并根据网页的特点,引入链接信息特征.实现了基于体裁的中文网页分类系统,结果表明分类效果得到了有效的改善.  相似文献   

15.
设计了一个web文本分类系统,采用了基于统计分析和粗糙集组合的方法进行降维;降维时考虑了属性的位置信息,采用加权方式标注属性的不同重要性,以达到提高分类速度和分类准确度的目的。  相似文献   

16.
The tamper-proof of web pages is of great importance. Some watermarking schemes have been reported to solve this problem. However, both these watermarking schemes and the traditional hash methods have a problem of increasing file size. In this paper, we propose a novel watermarking scheme for the tamper-proof of web pages, which is free of this embarrassment. For a web page, the proposed scheme generates watermarks based on the principal component analysis (PCA) technique. The watermarks are then embedded into the web page through the upper and lower cases of letters in HTML tags. When a watermarked web page is tampered, the extracted watermarks can detect the modifications to the web page, thus we can keep the tampered one from being published. Extensive experiments are performed on the proposed scheme and the results show that the proposed scheme can be a feasible and efficient tool for the tamper-proof of web pages.  相似文献   

17.
一种中文网页自动分类方法的实现及应用   总被引:6,自引:0,他引:6  
为了有效地组织和分析海量的Web信息,文章应用有指导的机器学习方法实现了一个中文网页分类器,并应用该分类器在“天网”搜索引擎上实现了大规模中文网页的目录导航服务。实验结果表明该分类器有较高的分类质量,满足了中文网页自动分类的要求。  相似文献   

18.
WEB文本自动分类在很多方面都有着重要的应用,如信息检索,新闻分类等。决策树算法是一种简单并且广泛使用的分类方法,具有很多优点如:分类精度高,分类速度快等。主要研究了运用C4.5决策树构建Web页面分类器的基本方法和过程,并提出了一个基于C4.5决策树的Web页面分类器的框架。在此基础上实现了一个运用于网络爬虫的Web页面分类器,实验结果表明该算法是非常有效的。  相似文献   

19.
This paper addresses new and significant research issues in web page design in relation to the use of graphics. The original findings include that (a) graphics play an important role in enhancing the appearance and thus users' feelings (aesthetics) about web pages and that (b) the effective use of graphics is crucial in designing web pages. In addition, we have developed a web page design support database based on a user-centered experimental procedure and a neural network model. This design support database can be used to examine how a specific combination of design elements, particularly the ratio of graphics to text, will affect the users' feelings about a web page. As a general rule, the ratio of graphics to text between 3:1 and 1:1 will give the users the best feelings of ease-to-use and clear-to-follow. A web page with a ratio of 1:1 will have the most realistic look, while a ratio of over 3:1 will have the fanciest appearance. The result provides useful insights in using graphics on web pages that help web designers best meet users' specific expectations and aesthetic consistency.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号