首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
针对传统日志模板挖掘时需要日志聚类数目作为先验信息的问题,提出了一种基于归一化特征判别的日志模板挖掘算法.首先,对日志数据进行压缩,以提高后续处理效率;其次,进行日志聚类过程,使用归一化的日志统计特征判断聚类是否满足要求,若满足,则聚类成功;若不满足,则采用二分搜索的方式调整日志聚类的数目,重新进行聚类;最后,从聚类结果中提取日志模板,设计了一种衡量模板挖掘效果的评价指标.在真实数据集上的实验结果表明,算法的模板挖掘匹配度优于基准方法,并且具有良好的泛化性能.  相似文献   

2.
现有的基于语义依存的汉语句子相似度算法仅考虑了基于核心词的有效搭配对,根据两个句子有效搭配对的对应词是否是相同词和同义词将匹配权重简单地处理为0,0.5和1,而且未考虑不直接依存于核心词的其他词语,导致在计算句子相似度时区分度较低.改进算法通过综合计算核心词、关键词的语义相似度来确定更为精确的匹配权重,并且将不直接依存于核心词的其他词语对句子的影响也纳入句子相似度计算,以期达到全面刻画句子语义、提高算法的准确率和区分度的目的.实验结果表明改进算法比原算法具有更高的准确率以及更好的对句子的区分能力.  相似文献   

3.
基于同义词词林的词语相似度计算方法   总被引:1,自引:0,他引:1  
为解决词语相在语义网自适应学习系统中相似度计算不清的问题,以同义词词林为基础,提出并实现了一种基于同义词词林的词语相似度计算方法,充分分析并利用了同义词词林的编码及结构特点。该算法同时考虑了词语的相似性,和词语的相关性。进行人工测试,替换测试以及与当前流行的基于"知网"的词语相似度算法对比测试的结果表明,该算法与人们思维中的相似度值基本一致,有较高的准确性。  相似文献   

4.
为了解决传统意象定位中感性意象部分信息丢失及用户模糊的个性化需求不完全表达的问题,提出基于改进加权SO(WSO)算法的集群用户个性意象预测研究. 建立用户特征域,基于K-modes算法计算用户差异度,确立用户集群. 对甄选样本实施兴趣度排序及自主性意象评价,创建集群意象因子集. 引入用户相似度优化WSO算法,增强集群用户间的内在联系,精准预测目标用户黑箱的个性意象分值. 基于语义差异问卷及平均绝对误差分析验证黑箱意象,输出集群中单一用户的个性化意象,实现意象预测. 以无人机为例,预测用户的个性意象,误差小于0.5被舍去,表明该方法能够较好地实现用户模糊的意象黑箱透明化,且预测的意象符合用户的个性化需求,可以有效辅助设计师有针对性地设计.  相似文献   

5.
为了有效地从W eb日志数据中提取出相似用户的浏览模式,提出了一种应用于W eb日志挖掘中用户聚类的新的混合遗传聚类算法。这种算法是遗传算法和K-中心点聚类算法的有机结合。该算法是一个具有全局最优解的聚类算法,其结果明显优于模糊聚类算法和简单遗传聚类算法。该算法能够有效地剔除噪音,得到较好的用户聚类的效果,为网站设计者优化网站结构,提高信息服务质量提供了有效的决策依据。  相似文献   

6.
针对以往的搜索引擎日志分析都主要集中在用户行为分析、查询推荐及搜索引擎评价等方面,采用社会网络分析法对搜索引擎进行日志分析。以不确定图的方式逻辑表示搜索引擎的日志中查询词和网页的链接关系,通过基于不确定图的SimRank算法,计算查询词与网页的相似度,最终以相似度和查询词的加权方式建立网页描述库。针对概率抽样的3点基本要求,提出一种渐进式的抽样策略,从而保证采用抽样技术对于不确定图中SimRank值计算的准确性。实验表明该算法具有较好的准确率和可行性。  相似文献   

7.
针对词语相似度这一问题,在大规模语料库上,通过分布相似对汉语词相似进行了研究.实现了一个词相似计算平台,可灵活组合各种计算词相似算法,新增加语料库可以被增量式用于计算;对比研究了基于距离的度量和基于概率的度量2类算法的性能,通过和人工创建的黄金标准进行比较,基于概率的度量算法要优于基于距离的度量算法.  相似文献   

8.
多源异构日志分析技术是目前国内外网络安全领域的研究热点.首先,提出了一种包括聚焦分析、统计分析和因果关联分析在内的多源异构日志综合分析模型,引入重要度评价方法对日志信息进行聚焦分析,并通过实例加以说明;然后探讨了多源日志因果关联分析算法;最后利用网络实例数据,对所提出的综合分析模型和算法进行了验证.结果表明该模型和算法...  相似文献   

9.
查询日志的发布会泄露用户的隐私。提出一种基于差分隐私的查询日志匿名化算法:首先构建用户查询项模型进行相似度计算并利用所求结果对用户查询项模型进行聚类,其次在聚类过程中添加指数噪音来满足差分隐私,最后发布匿名化数据。实验表明:该算法有效地提高了查询日志的实用性和隐私保护程度。  相似文献   

10.
以DNS服务器的日志为数据源,提取出二级域名的熵、子域名个数、缓存命中率等多维日志统计特征, 将日志量化为特征向量集;以特征向量集为数据源,使用随机森林算法进行模型训练,并使用十折交叉验证的方法对模型参数进行调整,对模型进行优化,提高整体检测精度;在不同分类算法下进行对比实验,并将实验结果与已有研究方法进行比较. 实验结果表明,提出的检测方法在召回率达到98.5%的情况下,有不低于90%的准确率,检测精度有所提高,即提出的算法能有效检测DNS隧道.  相似文献   

11.
DNS(domain name system) query log analysis has been a popular research topic in recent years. CLOPE, the represented transactional clustering algorithm, could be readily used for DNS query log mining. However, the algorithm is inefficient when processing large scale data. The MR-CLOPE algorithm is proposed, which is an extension and improvement on CLOPE based on Map Reduce. Different from the previous parallel clustering method, a two-stage Map Reduce implementation framework is proposed. Each of the stage is implemented by one kind Map Reduce task. In the first stage, the DNS query logs are divided into multiple splits and the CLOPE algorithm is executed on each split. The second stage usually tends to iterate many times to merge the small clusters into bigger satisfactory ones. In these two stages, a novel partition process is designed to randomly spread out original sub clusters, which will be moved and merged in the map phrase of the second phase according to the defined merge criteria. In such way, the advantage of the original CLOPE algorithm is kept and its disadvantages are dealt with in the proposed framework to achieve more excellent clustering performance. The experiment results show that MR-CLOPE is not only faster but also has better clustering quality on DNS query logs compared with CLOPE.  相似文献   

12.
Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理,以发现相似客户群体、相关Web页面和频繁访问路径等,其目的在于从用户访问Web系统的行为中发现用户的访问模式.在对Web日志挖掘的原理和技术进行讨论的基础上,重点探讨了如何将Apriori改进算法应用于对Web日志的挖掘,提出了一种基于该算法的Web日志挖掘实现方法,实验结果表明了算法的有效性.  相似文献   

13.
针对视频中运动人体的跟踪,提出了一种基于均值偏移粒子滤波的自适应跟踪算法。该算法首先对所要跟踪的人体目标进行分块,并选择与周围环境颜色相似度最小的块模板作为跟踪区域;然后使用基于均值偏移的粒子滤波方法进行跟踪,并设计了自适应更新块模板尺度的方法;最后在粒子滤波的状态估计阶段后,加入自适应观测模型,根据块模板尺度的变化情况,自适应地选择高斯噪声方差和粒子数目。实验证明,在出现遮挡或人体运动方向改变的情况下,本文算法的跟踪效果比传统均值偏移粒子滤波更好。  相似文献   

14.
在特征词提取算法中,TF-IDF算法是最常见的特征权重计算方法。在传统TF-IDF算法的基础上,提出新的基于文本词语长度的关键词提取算法。利用中文短语分词技术,识别文本中的长词与普通词汇,对于不同长度的词语利用提出的TF-IDF-WL方法重新计算权重,按权值排序结果得到关键词。实验对比发现,新的特征词提取算法能够更加精确地反映出特征词的词长情况,该算法与传统的TF-IDF算法相比,在准确率和召回率上都有较大的提升。  相似文献   

15.
传统Web挖掘技术面向所有Web用户,而访问网站时活跃用户与非活跃用户表现特征不同.基于此,提出一种面向活跃用户的访问模式挖掘方法,包括活跃用户会话提取算法(AUSM)和树型访问模式挖掘算法(WAPBUM).AUSM扫描一遍日志数据即可挖掘Web活跃用户并提取会话信息,在提取的用户会话信息基础上,利用网站拓扑结构给出了一种基于树结构的频繁访问模式挖掘算法(WAPBUM).WAPBUM针对Web日志挖掘特点,通过对子树构造等价类,自下而上产生频繁子树.人工数据集和真实数据集上的实验都证明AUSM算法的运行时间与Web日志数据量成线性关系,且运行过程中内存保持稳定;WAPBUM在处理带根子树挖掘时明显快于FREQT算法,所挖掘结果可有效应用于网站结构分析.  相似文献   

16.
为提高关键词自动抽取的准确率,提出了基于字同现频率的关键词自动抽取算法。根据词的位置和文本长度改进TF/IDF算法,由字同现频率计算词的信息量,运用特征加权计算词的权重,选取权重大的词作为关键词。给出了关键词自动抽取的过程,设计了关键词抽取的对比实验,验证该算法的有效性。实验结果表明该算法在准确率和召回率上具有优势。  相似文献   

17.
为提取计算机非法入侵的证据,选取了日志作为证据来源。由于日志记录的容量通常都较大,所以结合了数据挖掘和模糊数学的相关知识,对基于Chame-leon聚类的日志分析算法进行了探讨和研究。然后根据Linux系统日志文件的特性,提出了具体的日志特征提取算法,并从日志采集性能上进行了模拟入侵测试和分析。  相似文献   

18.
测井时间序列的解释和测井相识别是油田开发工作中的首要难题,极大地影响后续工作的成效.应用混沌理论,以相空间重构为基础,研究了油层组的混沌吸引子的特点.在此基础上,给出了一种改进的测井时间序列的最大Lyapunov指数求取方法.改进后的算法缩小了最近邻点的搜索范围,提高了运算效率.实验结果表明,不同的油层组具有不同的最大Lyapunov指数,所有油层组的最大Lyapunov指数均大于0.  相似文献   

19.
基于系统调用的日志系统的设计与实现   总被引:2,自引:2,他引:0  
为提高Linux系统安全性,在逐步分析Linux系统调用机制的基础上,设计并实现了基于系统调用的日志系统。通过在内核添加新的系统调用,从内核实时截获日志信息,并导出到用户态,使系统能够实时获取与系统安全相关的各种信息,从而分析系统的行为,审计系统的安全性。为尽可能减少内核代码的修改,核心功能模块以内核可加载模块机制实现,减少了调试难度,加大了系统的可扩充性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号