首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 127 毫秒
1.
网页分类技术是web数据挖掘的一个重要分支,是基于自然语言处理技术和机器学习学习算法的一个典型的具体应用。基于统计学习理论和蚁群算法理论,该文提出了一种基于支持向量机和改进蚁群算法相结合的构造网页分类器的高效分类方法,实验结果证明了该方法的有效性和鲁棒性,弥补了仅利用支持向量机对于大样本训练集收敛慢的不足,具有较好的准确率和召唤率。  相似文献   

2.
基于支持向量机的中文网页自动分类   总被引:5,自引:0,他引:5  
贾泂  梁久祯 《计算机工程》2005,31(10):145-147
研究了支持向量机在中文网页分类中的应用,给出了基于关键词的中文网页特征提取和选择方法,阐述了统计学习理论中的支持向理机模型及其在分类问题应用中的特点,给出了设计支持向量机分类器的二次规划学习算法。  相似文献   

3.
基于蚁群算法的支持向量机参数选择方法研究   总被引:2,自引:1,他引:1  
研究支持向量参数选择优化问题,常用的支持向量机参数优化算法和遗传算法分别存在耗时长和易陷入局部最优值的缺陷,导致支持向量机的分类精度低.为了解决支持向量机参数优化问题,提出了基于蚁群算法的SVM分类器泛化方法.蚁群算法是一种优化搜索方法,具有较强的鲁棒性、优良的分布式计算机制,SVM参数的选取看作参数的组合优化,建立组...  相似文献   

4.
Web分类是在分析了网页的内容后,按照一定的规则将它分到一个或者多个合适的类别中去.支持向量机是在统计学习理论基础上发展起来的一种新的非常有效的机器学习方法.由于其出色的学习性能,该技术已成为分类领域新的研究热点.将支持向量机的理论应用到Web分类中,首先对网页进行了预处理,然后对网页文本进行特征提取和向量表示,最后将二叉树多分类支持向量机应用到Web分类中.通过实验对算法进行了验证,结果表明取得了良好的分类效果.  相似文献   

5.
本文从网页分类方面对万维网上的数据处理技术进行了分析,对中文网页/文本分类技术进行了介绍,阐述了基于支持向量机的网页自动分类算法。  相似文献   

6.
网页分类算法中,KNN算法的缺陷之一是分类效率较低,分类的效果很大程度上依赖于相似度函数和参敷K的选择.同时,基于支持向量机(SVM)网页分类器的限制在于要求处理的向量是数值型向量,而网页特征向量往往是词条特征向量.利用KNN算法生成训练样本,进而将词务特征向量数值化,再利用支持向量机分类器对测试网页进行分类,构建了一种新的分类器--KNN-SVM分类器.  相似文献   

7.
中文网页分类技术是数据挖掘中一个研究热点领域,而支持向量机(SVM)是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势.提出了基于支持向量机的中文网页分类方法,其中包括对该过程中的网页文本预处理、特征提取和多分类算法等关键技术的介绍.实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率.  相似文献   

8.
提出基于人工鱼群优化的直推式支持向量机分类算法。该算法使直推式学习思想的优势得到充分的展现,在部分UCI标准数据集和20-Newgroups文本实验数据集上的对比实验表明,该算法较经典支持向量机算法和基于蚁群算法的直推式支持向量机算法具有更高的分类性能。  相似文献   

9.
基于决策支持向量机的中文网页分类器   总被引:10,自引:0,他引:10  
提出了基于决策支持向量机的中文网页分类算法。把支持向量机方法和二叉决策树的基本思想结合起来构成多类别的分类器,用于中文网页分类,从而减少支持向量机分类器训练样本的数量,提高训练效率。实验表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率和召回率。  相似文献   

10.
一种基于支持向量机的专业中文网页分类器   总被引:4,自引:1,他引:4  
文中提出了一种基于支持向量机的专业中文网页分类算法,利用支持向量机对网页进行二类分类,找出所需专业的中文网页;然后利用向量空间模型,对分类好的专业网页进行多类分类。在构造支持向量机的过程中,为了提高分类的召回率,采用了一种偏移因子。该算法只需要计算二类SVM分类器,实验表明,它不仅具有较高的训练效率,同时能得到很高的分类精确率和召回率。  相似文献   

11.
收视率是电视行业重要的指标之一,对电视机构运营决策具有重要参考价值。针对收视率数据影响因素众多,变化趋势复杂等特点,提出了一种基于半模糊核聚类的超球支持向量机分类方法,基于半模糊核聚类生成模糊类,在其边缘样本信息基础上,利用超球支持向量机进行多类分类,从而有效提高分类器性能。实验表明,该方法比传统方法具有更高的速度和精度。  相似文献   

12.
基于MVC模式的分页组件应用   总被引:1,自引:0,他引:1       下载免费PDF全文
张俐 《计算机工程》2011,37(21):255-257
针对Web数据库系统中的数据分页问题,提出一种基于模型-视图-控制器(MVC)模式的三层分页组件。在数据层中引入Java持久化API和Spring技术,在业务逻辑层中引入泛型DAO模式和桥接模式,在显示层中引入JSP和Struts2标签,并给出部分程序源代码。应用结果表明,与其他分页方法相比,该模型的执行效率较高,稳定性和移植性较好。  相似文献   

13.
基于主动学习支持向量机的文本分类   总被引:2,自引:0,他引:2       下载免费PDF全文
提出基于主动学习支持向量机的文本分类方法,首先采用向量空间模型(VSM)对文本特征进行提取,使用互信息对文本特征进行降维,然后提出主动学习算法对支持向量机进行训练,使用训练后的分类器对新的文本进行分类,实验结果表明该方法具有良好的分类性能。  相似文献   

14.
基于微阵列表达数据,探索新的有效特征提取和分类方法。采用小波多分辩率分析方法提取基因表达的特征,利用支持向量机和BP神经网络方法进行分类。基因表达具有明显的多尺度特征,分类率最大达到98.61%,结果稳定。采用多尺度理论对基因表达数据进行分析是一种新的有效的生物信息学方法,值得进一步探索与研究。  相似文献   

15.
传统网络爬虫为基于关键字检索的通用搜索引擎服务,无法抓取网页类别信息,给文本聚类和话题检测带来计算效率和准确度问题。本文提出基于站点分层结构的网页分类与抽取,通过构建虚拟站点层次分类树并抽取真实站点分层结构,设计并实现了面向分层结构的网页抓取;对于无分类信息的站点,给出了基于标题的网页分类技术,包括领域知识库构建和基于《知网》的词语语义相似度计算。实验结果表明,该方法具有良好的分类效果。  相似文献   

16.
The ability to automatically detect fraudulent escrow websites is important in order to alleviate online auction fraud. Despite research on related topics, such as web spam and spoof site detection, fake escrow website categorization has received little attention. The authentic appearance of fake escrow websites makes it difficult for Internet users to differentiate legitimate sites from phonies; making systems for detecting such websites an important endeavor. In this study we evaluated the effectiveness of various features and techniques for detecting fake escrow websites. Our analysis included a rich set of fraud cues extracted from web page text, image, and link information. We also compared several machine learning algorithms, including support vector machines, neural networks, decision trees, naïve bayes, and principal component analysis. Experiments were conducted to assess the proposed fraud cues and techniques on a test bed encompassing nearly 90,000 web pages derived from 410 legitimate and fake escrow websites. The combination of an extended feature set and a support vector machines ensemble classifier enabled accuracies over 90 and 96% for page and site level classification, respectively, when differentiating fake pages from real ones. Deeper analysis revealed that an extended set of fraud cues is necessary due to the broad spectrum of tactics employed by fraudsters. The study confirms the feasibility of using automated methods for detecting fake escrow websites. The results may also be useful for informing existing online escrow fraud resources and communities of practice about the plethora of fraud cues pervasive in fake websites.  相似文献   

17.
基于LDA模型的文本分类研究   总被引:3,自引:0,他引:3       下载免费PDF全文
针对传统的降维算法在处理高维和大规模的文本分类时存在的局限性,提出了一种基于LDA模型的文本分类算法,在判别模型SVM框架中,应用LDA概率增长模型,对文档集进行主题建模,在文档集的隐含主题-文本矩阵上训练SVM,构造文本分类器。参数推理采用Gibbs抽样,将每个文本表示为固定隐含主题集上的概率分布。应用贝叶斯统计理论中的标准方法,确定最优主题数T。在语料库上进行的分类实验表明,与文本表示采用VSM结合SVM,LSI结合SVM相比,具有较好的分类效果。  相似文献   

18.
CC(Challenge Collapsar)攻击通过模拟用户正常访问页面的行为,利用代理服务器或僵尸主机向服务器发送大量http请求,造成服务器资源耗尽,实现应用层DDoS。目前,对于CC攻击的检测已经取得了一些进展,但由于CC攻击模拟用户正常访问页面,与正常网页访问特征较为相似,导致攻击识别较为困难,且误报率较高。根据CC攻击的特点,结合包速率、URL信息熵、URL条件熵三种有效特征,提出一种基于误差逆向传播(Back Propagation,BP)神经网络的CC攻击检测算法。在真实网络环境中的实验结果证明,该模型对中、小型网站能准确地识别正常流量与CC攻击流量,对大型网站也有较为准确的检测结果。  相似文献   

19.
为有效提高血细胞识别的性能,提出一种基于核函数的彩色血细胞识别方法。利用血细胞图像的颜色直方图和局部密度直方图对血细胞图像进行归一化表示。将核主成分分析用于非线性特征和数据降维提取,采用支持向量机(SVM)对特征进行加权,SVM和最近邻构成多分类器进行分类。整个系统构成一个支持向量网络,为自动进行网络训练和参数寻优,给出一套自动相关的反馈训练方法。在相关血细胞数据库上的实验结果表明了该方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号