首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
机器学习方法不依赖匹配协议端口或解析协议内容,而是利用网络流的各种统计特征识别网络应用,近年来得到了广泛关注和快速发展.本文总结了基于机器学习的网络流量分类方法自2004年来的研究进展,并且按有监督、无监督与半监督的区别进行分类、分析与比较.重点讨论了基于机器学习的网络流量分类研究的挑战与方向,即解决样本标注瓶颈、样本分布不平衡与动态变化、实时与连续分类以及分类算法可扩展性等核心问题.  相似文献   

2.
提出了基于机器学习的Internet流量分类框架,研究了支持向量机(SVM)在权威流量数据集全部子集上的分类效果和特征选择对分类效果的影响.实验结果表明,SVM对流量分类问题具有较高的分类精度和稳定性,通过特征选择,可以有效降低数据的维数,并一定程度上提高分类的精度.  相似文献   

3.
基于机器学习的IP流量分类研究   总被引:3,自引:1,他引:3  
刘琼  刘珍  黄敏 《计算机科学》2010,37(12):35-40
IP流量分类是Internet研究和流量工程的重要基础,近年来网络应用类别和Internet流数量在快速增长。流量分类技术不断面临新的挑战。对基于机器学习的IP流量分类方法进行了系统性研究。给出了这类流量分类方法的数学描述;通过深入研究有监督和无监督机器学习方法在流量分类中的应用,从数据预处理、模型构建和模型评估3个方面评述这类技术的研究现状,并指出存在的问题;总结得出现阶段基于机器学习的IP流量分类技术存在数据偏斜、标识瓶颈、属性变化和实时分类等4个方面的共性问题;最后展望了流量分类技术的未来发展方向并介绍了作者正在进行的工作。  相似文献   

4.
《软件》2019,(9):94-97
随着科学技术的不断发展,机器领域得到了越来越广泛的应用。作为机器学习中最重要的组成部分,要实现对信息的有效检索以及对数据的充分挖掘就必须要全面掌握文本自动分类技术。在社会持续发展的过程中,文本分类技术也取得了显著的发展。但是在其实践过程中也尚存在一些问题,需要从多方面入手对其进行深入研究与综合评判。本文就对基于机器学习的几种文本分类技术进行了系统的研究,并指出了文本分类技术的未来发展方向。  相似文献   

5.
精确有效的网络流量分类技术对提高网络服务质量、优化网络带宽分配、加强网络安全管理以及网络相关研究具有重要意义。目前,网络流量分类技术主要按照应用类型或者协议类型对网络流量分类,不能够对未知流量和加密流量进行分析和识别。因此提出一种基于n-gram多特征的流量载荷类型分类方法来实现对网络数据包中传输内容的类型的识别,即将流量按照其载荷类型分为文本、音频、视频、图片、可执行文件、压缩加密七类。首先利用阈值筛选出高频连续子串集合,进而在该集合上提取多样化的特征来刻画连续子串的频数分布,最后基于C 4.5决策树对流量载荷类型进行准确分类。实验验证表明,在仅使用每条流1 KB数据的情况下,分类载荷类型的平均准确率和平均召回率分别达到了92.7%和91.9%,与基于熵值的分类方法相比,平均准确率和平均召回率分别提高近10.8%和12.1%。  相似文献   

6.
使用机器学习算法分类P2P流量的方法*   总被引:4,自引:0,他引:4  
P2P应用的快速增长,带来网络拥塞等诸多问题,而传统的基于端口与有效载荷的P2P流量分类方法存在着很多缺陷。以抽取独立于端口、协议和有效载荷的P2P流的信息作为特征,用提出的基于ReliefF-CFS的方法选择流的特征子集,研究使用机器学习算法对P2P流量进行分类的方法,也研究了利用流的前向N个报文的统计信息作为特征,分类P2P流量的方法。实验结果显示提出的方法取得了较好的分类准确率。  相似文献   

7.
基于机器学习的中文微博情感分类实证研究   总被引:3,自引:0,他引:3  
使用三种机器学习算法、三种特征选取算法以及三种特征项权重计算方法对微博进行了情感分类的实证研究。实验结果表明,针对不同的特征权重计算方法,支持向量机(SVM)和贝叶斯分类算法(Nave Bayes)各有优势,信息增益(IG)特征选取方法相比于其他的方法效果明显要好。综合考虑三种因素,采用SVM和IG,以及TF-IDF(Term Frequency-Inverse Document Frequency)作为特征项权重,三者结合对微博的情感分类效果最好。针对电影领域,比较了微博评论和普通评论之间分类模型的通用性,实验结果表明情感分类性能依赖于评论的风格。  相似文献   

8.
孙凯  姚旭峰  黄钢 《软件》2020,(10):98-101+134
鉴于现有机器学习白细胞分类方法难以验证网络泛化性与鲁棒性,本研究提出了一种联合多类型特征的白细胞分类方法。首先使用图像剪裁与中心化及改进型颜色阈值分割完成11865张六种类别白细胞图像的预处理与分割操作。随后在特征提取部分筛选出细胞几何、纹理、小波三部分共63个特征;通过主成分分析法实现了降维后得到8个主成分。最后使用支持向量机、多层感知机与决策树分别进行分类工作,结果为高质量图像最高88.6%;噪声图像最高84.5%;低分辨率图像最高87.6%的分类精度。实验结果验证了所提出方法的鲁棒性和泛化性好,可实现白细胞的准确分类。  相似文献   

9.
混合模式的网络流量分类方法   总被引:2,自引:0,他引:2  
胡婷  王勇  陶晓玲 《计算机应用》2010,30(10):2653-2655
为了更好地满足用户对各类Internet业务服务质量越来越精细的要求,流量分类是网络管理的重要环节之一。通过分析、对比基于端口号匹配、特征字段分析和流统计特征的机器学习分类方法的应用现状及其优缺点,针对单一分类方法存在的分类准确度不高、分类时间长等问题,提出一种混合模式的网络流量分类方案。此方案结合端口号匹配和机器学习分类方法,采用输出结果可视化的自组织映射网络算法实现网络流量在应用层的分类。实验表明,该方案能有效地实现对网络流量应用类型的分类,分类结果可视化效果好。  相似文献   

10.
《软件》2019,(7):205-208
机器学习是一门综合性较强的学科,对该学科的研究多集中在分类问题和算法方面。基于此点,文章从机器学习的内涵及发展历程介绍入手,分析了机器学习中的分类问题及学习步骤,在此基础上对机器学习的算法分类进行论述。  相似文献   

11.
陈盛双 《计算机工程》2011,37(19):177-178,182
研究基于极限学习机(ELM)的XML文档分类方法。为优化文档的相似性计算,在结构链接向量模型的基础上,提出一种改进的特征向量模型RS-VSM,将有效的结构化信息合并到向量模型中。应用ELM对XML文档进行分类,为提高ELM分类的准确率,提出一种基于投票机制的Voting-ELM算法。实验结果证明,该算法的分类效果较优。  相似文献   

12.
通过对极限学习机的改进,运用基于岭回归的极限学习机分类器进行垃圾用户的分类,通过比对SVM等分类法,针对爬虫得到的新浪用户数据集为研究对象,达到了速度快且精确度相对较高的分类.对于原本就信息过载,信息质量层次不齐的社交网络,具有一定的借鉴意义.  相似文献   

13.
基于统计学习理论的支持向量机的分类方法   总被引:2,自引:5,他引:2  
支持向量机是一种新型机器学习方法,由于其出色的学习性能,该技术已成为机器学习领域新的研究热点。介绍用于分类的支持向量机的统计学习理论基础,在此基础上提出了支持向量机的分类算法,讨论了支持向量机存在的问题,对用于分类的支持向量机的应用前景进行了展望。  相似文献   

14.
张天伦  陈荣  杨溪  祝宏玉 《软件学报》2019,30(5):1386-1406
在所有的软件系统开发过程中,Bug的存在是不可避免的问题.对于软件系统的开发者来说,修复Bug最有利的工具就是Bug报告.但是人工识别Bug报告会给开发人员带来新的负担,因此,自动对Bug报告进行分类是一项很有必要的工作.基于此,提出用基于极速学习机的方法来对Bug报告进行分类.具体而言,主要解决Bug报告自动分类的3个问题:第1个是Bug报告数据集里不同类别的样本数量不平衡问题;第2个是Bug报告数据集里被标注的样本不充足问题;第3个是Bug报告数据集总体样本量不充足问题.为了解决这3个问题,分别引入了基于代价的有监督分类方法、基于模糊度的半监督学习方法以及样本迁移方法.通过在多个Bug报告数据集上进行实验,验证了这些方法的可行性和有效性.  相似文献   

15.
杨斌  路游 《微机发展》2006,16(11):56-58
支持向量机是一种新型机器学习方法,由于其出色的学习性能,该技术已成为机器学习领域新的研究热点。介绍用于分类的支持向量机的统计学习理论基础,在此基础上提出了支持向量机的分类算法,讨论了支持向量机存在的问题,对用于分类的支持向量机的应用前景进行了展望。  相似文献   

16.
基于极限学习机的文本分类方法在对输入的文本特征进行随机映射时,会呈现一种非线性的几何结构,利用最小二乘法无法对其进行求解,影响文本的分类性能。为此,引入一种新的流形正则化思想,提出基于极限学习机的改进算法。利用拉普拉斯特征映射保持输入文本特征的几何结构。基于样本的类别信息对样本点之间的距离进行修正,优先选择类别相同的样本点,以改善分类性能。在Reuters和20newsgroup数据集上的实验结果表明,与正则化极限学习机算法、AdaBELM算法等相比,该算法分类性能较好,F1-measure值可达91.42%。  相似文献   

17.
基于监督学习的中文情感分类技术比较研究   总被引:6,自引:0,他引:6  
情感分类是一项具有较大实用价值的分类技术,它可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。目前针对中文情感分类的研究相对较少,其中各种有监督学习方法的分类效果以及文本特征表示方法和特征选择机制等因素对分类性能的影响更是亟待研究的问题。本文以n-gram以及名词、动词、形容词、副词作为不同的文本表示特征,以互信息、信息增益、CHI统计量和文档频率作为不同的特征选择方法,以中心向量法、KNN、Winnow、Nave Bayes和SVM作为不同的文本分类方法,在不同的特征数量和不同规模的训练集情况下,分别进行了中文情感分类实验,并对实验结果进行了比较,对比结果表明: 采用BiGrams特征表示方法、信息增益特征选择方法和SVM分类方法,在足够大训练集和选择适当数量特征的情况下,情感分类能取得较好的效果。  相似文献   

18.
Sentiment Analysis (SA) is one of the subfields in Natural Language Processing (NLP) which focuses on identification and extraction of opinions that exist in the text provided across reviews, social media, blogs, news, and so on. SA has the ability to handle the drastically-increasing unstructured text by transforming them into structured data with the help of NLP and open source tools. The current research work designs a novel Modified Red Deer Algorithm (MRDA) Extreme Learning Machine Sparse Autoencoder (ELMSAE) model for SA and classification. The proposed MRDA-ELMSAE technique initially performs preprocessing to transform the data into a compatible format. Moreover, TF-IDF vectorizer is employed in the extraction of features while ELMSAE model is applied in the classification of sentiments. Furthermore, optimal parameter tuning is done for ELMSAE model using MRDA technique. A wide range of simulation analyses was carried out and results from comparative analysis establish the enhanced efficiency of MRDA-ELMSAE technique against other recent techniques.  相似文献   

19.
极限学习机因具有高效处理、性能优越以及更少人工参数设定等优点,已成功应用于批处理多标签分类问题.然而,实际应用领域涌现的数据流呈现海量快速、多标签和概念漂移等特点,使得这些传统的多标签分类算法面临精度与时空的挑战.本文提出一种基于核极限学习机的多标签数据流集成分类方法.首先,为适应数据流环境,利用滑动窗口机制将数据流划...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号