首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 172 毫秒
1.
有效发现异常数据对于保护大数据网络安全具有重要意义。针对常规分类检索算法准确性不高、时间开销大的问题,设计一种大数据网络中异常数据的分类检索算法。通过计算影响程度,选取网络大数据特征,包括源IP信息熵、目的端口信息熵、出入度比值、单边连接密度、数据流持续时间、TCP总量、包长度、空闲时间平均值,并实施标准化处理。由数据特征构成特征向量,用于描述网络数据样本。利用改进密度峰值聚类算法对网络大数据样本分类。基于相似度构建检索模型,利用计算异常数据参考样本与每个类别之间的相似度,将相似度最大值对应的簇作为异常簇,由此完成了对异常数据的检索。结果表明:所研究分类检索方法的CH指标更好、Jaccard系数更大以及分类检索总时间开销更少,由此说明所研究分类检索方法的分类检索能力更强,能在更短的时间内完成更为准确的异常数据检索。  相似文献   

2.
《软件工程师》2019,(10):36-43
针对目前基于维基百科的相似度计算方法预处理过程烦琐、计算量大的问题,本文以维基百科为本体引入基于特征的词语语义计算,提出了一种基于维基百科的快速词语相似度计算方法。根据维基百科页面链接结构的特点,该方法把页面的入链接和出链接作为页面特征值构建特征向量模型,通过计算页面的特征向量相关系数计算对应词语的语义相似度。本文还改进了维基百科消歧处理算法,在一词多义的处理中减少社会认知度低的义项页面的干扰,进一步提高了计算准确度。经Miller&Charles(MC30)和Rubenstein&Goodenough(RG65)测试集的测试,测试结果表明了基于维基百科链接特征的方法在计算相似度方面的可行性,也验证了本文的计算策略和消歧改进算法的合理性。  相似文献   

3.
针对分辨率不同、品质不同的同源①图像,提出一种基于Haar小波的图像消冗技术.该技术在Haar小波分解提取图像特征的基础上,利用图像特征向量的1-范数建立B+树索引,在B+树中通过范围查询计算不同图像的曼哈顿距离D1.同时为保证消冗的精确性,当D1≤T时,提取图像特征向量的部分数据构建集合,通过阈值t和不同集合中相同元素的个数v来判断是否进行消冗.实验表明,当t=5,T≤7000,消冗率②达到85%,消冗精度③为100%.  相似文献   

4.
该文针对中文实体消歧中的特征项部分匹配和协同消歧问题,提出基于特征加权重叠度的中文实体协同消歧方法。该方法利用实体指称上下文中多种特征的加权重叠度计算实体指称相似度,针对实体链接与消歧聚类约束,分类定义实体指称相似度计算方法,构建待消歧实体相似度矩阵,采用近邻传播聚类算法实现中文实体协同链接与消歧。基于CLP-2012评测数据的实验表明,提出的方法取得了较好的消歧效果,准确率、召回率和F值分别达到了84.01%、87.75%和85.65%。  相似文献   

5.
李辉  张琦  卢湖川  杨德礼 《计算机工程》2008,34(23):62-64,6
句子相似度算法是基于常问问题集的问答系统(FAQ)的关键。针对汉语中一词多义现象,提出一种改进的基于知网的词义消歧算法,确定词语在不同上下文环境的义项号,利用知网系统及义项号,使用改进的相似度计算方法进行相似度计算模块设计。结合实际应用,实现一个实际的FAQ系统。实验证明,改进的词义消歧方法提高了消歧的精度和速度。而词义消歧的引入提高了问答系统的精度和速度。  相似文献   

6.
实际应用中,数据常常表现出不完备性和动态性的特点。针对动态不完备数据中的特征选择问题,提出了一种基于相容粗糙集模型和信息熵理论的增量式特征选择方法。首先,建立了不完备信息系统中特征值动态更新时论域上条件划分与决策分类的动态更新模式,分析了作为特征重要度评价准则的不完备相容信息熵的增量计算机制,并将该机制引入到启发式最优特征子集搜索过程中特征重要度的迭代计算,进一步设计了不完备数据中面向特征值动态更新的增量式特征选择算法。最后,在标准UCI数据集上从分类精度、决策性能和计算效率3个方面对文中所提出的增量算法的有效性和高效性进行了实验验证。  相似文献   

7.
两个新的数字图像加密效果评价准则   总被引:1,自引:0,他引:1  
图像信息熵和灰度变化平均值是两个常用的图像加密效果评价准则。分析指出,图像信息熵和灰度变化平均值受图像尺寸大小的影响较大,为此提出了两个新的图像加密效果评价准则:直方图均衡度和游程统计量。直方图均衡度可用于基于像素灰度值变换的加密过程的评价,游程统计量可用于图像坐标置换的加密过程的评价。新方法表达简单,计算便捷,其显著优点是与图像大小无关,不需要借助原图像。  相似文献   

8.
针对异常轨迹检测多特征检测和检测单元造成的检测效率低等问题。提出一种基于轨迹信息熵分布的异常轨迹检测方法。该算法根据轨迹偏转角与速度将轨迹分割成若干轨迹段,计算轨迹段间加权多特征距离判断轨迹间相似度,进而完成轨迹聚类并计算出每类代表性轨迹,然后对待检测轨迹进行分割,利用代表性轨迹计算每个轨迹段的信息熵,通过比较轨迹信息熵大小及其分布特点实现异常轨迹检测。大西洋飓风数据仿真实验结果表明该方法提高了聚类效果,克服以整条轨迹检测效率低的缺点,提升了异常轨迹检测算法的有效性。  相似文献   

9.
基于动态权值的关联数据语义相似度算法研究   总被引:1,自引:0,他引:1  
贾丽梅  郑志蕴  李钝  王振飞 《计算机科学》2014,41(8):263-266,273
语义相似度计算对关联数据的信息检索有重要作用,直接影响数据的语义挖掘效果。实例的属性信息是关联数据语义相似度计算的一个重要因素。针对传统的关联数据语义相似度算法未考虑属性的重要性和取值类型导致计算精度较低的问题,提出基于动态权值的关联数据语义相似度计算方法,即根据待匹配的数据集中属性不同取值的数量、属性值的分布以及属性的有效性3个因素动态计算属性的权值,然后依据属性取值类型选用匹配相似度算法,最后结合属性的动态权值对概念进行实例的相似度计算。实验表明,基于动态权值的相似度计算方法与传统方法相比,实例相似度的计算精度得到了一定的提高。  相似文献   

10.
基于大规模语料库的汉语词义相似度计算方法   总被引:1,自引:0,他引:1  
词义相似度的计算是自然语言处理领域的关键问题之一,它在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用。该文研究了基于大规模语料库的汉语词义相似度计算方法,系统地比较分析了上下文特征权值的选择、向量相似度计算方法、基于窗口和基于依存关系的表征形式、新闻语体和网络语体的差异。实验结果表明,在网络语言语料上,基于窗口选取上下文特征,用互信息PMI来计算权值,采用cosine来计算相似度,取得了最好的词义相似度结果。  相似文献   

11.
特征选择就是从特征集合中选择出与分类类别相关性强而特征之间冗余性最小的特征子集,这样一方面可以提高分类器的计算效率,另一方面可以提高分类器的泛化能力,进而提高分类精度。基于互信息的特征相关性和冗余性的评价准则,在实际应用中存在以下的问题:(1)变量的概率计算困难,进而影响特征的信息熵计算困难;(2)互信息倾向于选择值较多的特征;(3)基于累积加和的候选特征与特征子集之间冗余性度量准则在特征维数较高的情况下容易失效。为了解决上述问题,提出了基于归一化模糊互信息最大的特征评价准则,基于模糊等价关系计算变量的信息熵、条件熵、联合熵;利用联合互信息最大替换累积加和的度量方法;基于归一化联合互信息对特征重要性进行评价;基于该准则建立了基于前向贪婪搜索的特征选择算法。在UCI机器学习标准数据集上的多组实验,证明算法能够有效地选择出对分类类别有效的特征子集,能够明显提高分类精度。  相似文献   

12.
Unsupervised feature selection using feature similarity   总被引:23,自引:0,他引:23  
In this article, we describe an unsupervised feature selection algorithm suitable for data sets, large in both dimension and size. The method is based on measuring similarity between features whereby redundancy therein is removed. This does not need any search and, therefore, is fast. A new feature similarity measure, called maximum information compression index, is introduced. The algorithm is generic in nature and has the capability of multiscale representation of data sets. The superiority of the algorithm, in terms of speed and performance, is established extensively over various real-life data sets of different sizes and dimensions. It is also demonstrated how redundancy and information loss in feature selection can be quantified with an entropy measure  相似文献   

13.
贾娴  刘培玉  公伟 《计算机应用》2011,31(8):2156-2158
基于信息增益算法的特征选择虽然能够较好地解决入侵取证中存在的数据高维海量问题,但由于没有考虑特征之间的关系,导致特征子集中存在着冗余特征,从而影响了入侵取证的速度和精度,由此提出一种改进的基于特征冗余度的信息增益算法。通过添加对特征之间冗余度的判断,在删除无关特征的同时过滤了冗余特征,使特征子集得到有效精简。经实验验证,该算法能有效地选择特征向量,保证检测精度,提高检测速度。  相似文献   

14.
由于网络混合属性集的冗余数据量多,影响数据检测的查全率,为此提出结合粗糙集理论的网络大数据混合属性特征检测方法。首先构建一个四元组,利用四元组的任意邻域信息测算其长度函数,以判断信息特征的相似性,结合粗糙集理论求解相似信息特征的邻域熵,以检测并分类重复数据属性。为优化数据分类效率,引入支持向量机分类思想,将大数据混合属性的分类问题变换为线性可分问题,实现网络大数据混合属性特征检测与分类。实验结果表明,所提方法能够有效根据数据特征筛选出无关数据信息,使用经过训练后的分类装置对约简后的特征集进行分类,与基于特征和分类器参数组合优化的网络属性特征检测方法比较,证明了所提方法的有效性,为网络大数据混合特征检测技术提供一种新的有效解决方式。  相似文献   

15.
李杰  侯锐 《计算机仿真》2020,37(3):148-151,177
针对传统的大数据访问中信息传输冗余量消除方法存在查全率、信息传输冗余量消除效率以及速率较低等问题,提出了基于Hamming距离值的大数据访问中信息传输冗余量消除方法。利用滑动以及滚动相结合的窗口移动模式减少窗口计算量,将Rsync滚动校验算法以及MD5算法相结合,在文件任意位置开始计算滚动校验值,通过递进关系,获取连续数据块的校验值,根据不同数据块的校验值进行数据匹配。将经过匹配后的数据块利用CDC分块检测算法进行检测,根据余弦相似度计算公式以及Hamm距离值计算相似度,实现大数据访问中信息传输冗余量消除。实验结果表明,所提方法有效提高了冗余信息查全率、信息传输冗余量消除效率以及速率,能够快速、准确地消除多余的信息。  相似文献   

16.
大数据冗余信息过多,数据迁移融合过程中会出现大量损耗,获取数据信息结果的准确率低。针对上述问题,提出基于模糊矩阵的大数据自适应迁移融合方法。构建模糊矩阵模型,根据构建的模糊矩阵求出其隶属度;通过迭代计算求出细分模糊矩阵边长,以求出的细分模糊矩阵边长为筛选标准,去除数据中的冗余部分,提高数据精度的同时减少后续运算量。在此基础上利用数据自适应度值来选择数据最优迁移路径,并根据数据相关性节点的聚合度完成融合。仿真结果证明,所提方法有效去除冗余数据,降低了数据迁移融合能耗,能够大幅提高大数据融合时的准确性和效率。  相似文献   

17.
大数据时代,文本数据量的爆炸式增长使得特征选择成为文本挖掘领域最关键的任务之一。文档中的词语和模式规模庞杂,故需保证所挖掘特征的质量充满挑战。“基于模式”特征选择方法具有传统“基于词语”方法所没有的优越特性,可以进行有效地信息去噪,提升文本挖掘性能。该文提出基于包含度和频繁模式的文本特征选择方法: 首先,定义基于包含度的相似性度量原理;然后,提出基于包含度的冗余文本频繁模式过滤方法。基于包含度度量文本频繁模式间相似性,以此去除子模式及相似度较高的交叉模式。再通过冗余模式去噪,提升文本频繁模式挖掘性能;提出基于关联度的文本特征选择方法。以经过过滤处理后的非冗余文本频繁模式为基础,进行文本特征选择,并利用词语与文档的关联度进行词语类别划分及权重分配。使所选特征与文档关联度更加清晰,分类效果更好。通过在数据集Reuters-21578上的实验得知,基于包含度和频繁模式的文本特征选择算法性能,优于当前普遍应用的传统文本特征选择方法和新的特征选择及特征抽取方法。  相似文献   

18.
特征选择是邮件过滤重要的环节,特征的好坏不仅影响分类的准确率,还直接影响到分类器训练和分类的开销。比较了常用的CHI选择、互信息(MI)、信息增益(IG)和SVM 特征选择算法在垃圾邮件过滤中的效果,针对这些方法只排序而未消除特征间冗余的缺点,提出了利用特征词间条件概率和分类区分度消除冗余的混合邮件特征选择方法。实验结果表明:方法效果良好,提高了邮件分类准确率。  相似文献   

19.
针对大数据环境下随机森林算法存在冗余与不相关特征过多、特征子空间信息含量不足以及并行化效率低等问题,提出了结合增益率与堆叠自编码器的并行随机森林算法PRFGRSAE(parallel random forest algorithm combining gain ratio and stacked auto encoders)。首先,提出了结合非线性归一化增益率和堆叠自编码器的降维策略DRNGRSAE(dimension reduction combining nonlinear normalization gain ratio and stacked auto encoders),通过过滤特征集中的冗余和不相关特征,并利用堆叠自编码器提取特征,有效减少了冗余以及不相关特征数;其次,提出了结合拉丁超立方抽样与归一化相关度的子空间选择策略SSLF(subspace selection strategy combining Latin hypercube sampling and feature class correlation),通过对特征集进行多层划分抽样,形成空间表达度较高的特征子空...  相似文献   

20.
Feature selection is one of the most important machine learning procedure, and it has been successfully applied to make a preprocessing before using classification and clustering methods. High-dimensional features often appear in big data, and it’s characters block data processing. So spectral feature selection algorithms have been increasing attention by researchers. However, most feature selection methods, they consider these tasks as two steps, learn similarity matrix from original feature space (may be include redundancy for all features), and then conduct data clustering. Due to these limitations, they do not get good performance on classification and clustering tasks in big data processing applications. To address this problem, we propose an Unsupervised Feature Selection method with graph learning framework, which can reduce the redundancy features influence and utilize a low-rank constraint on the weight matrix simultaneously. More importantly, we design a new objective function to handle this problem. We evaluate our approach by six benchmark datasets. And all empirical classification results show that our new approach outperforms state-of-the-art feature selection approaches.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号