首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 484 毫秒
1.
朴素贝叶斯分类方法由于其简单快速的特点,被广泛应用于文本分类领域。但是当训练集中各个类别的样本数据分布不均匀时,朴素贝叶斯方法分类精度不太理想。针对此问题,提出一种基于加权补集的朴素贝叶斯文本分类算法,该算法利用某个类别的补集的特征来表示当前类别的特征,且对特征权重进行归一化处理。通过实验对比了该方法与传统的朴素贝叶斯方法对文本分类效果的影响,结果表明,基于加权补集的朴素贝叶斯算法具有较好的文本分类效果。  相似文献   

2.
为提高朴素贝叶斯分类器的分类性能,考虑决策分类过程中条件属性的不同重要程度,提出了一种基于特征选择权重的贝叶斯分类算法。采用卡方值和文档频数相结合的数值来表示特征词的重要程度,对该值进行处理获得每个特征词权重,建立加权贝叶斯分类器。在研究维文特点的基础上,利用该算法构建了一个维文文本分类模型。在搜集到的维文语料库上进行的实验结果表明,该算法比朴素贝叶斯拥有更好的分类性能。  相似文献   

3.
随着网络技术的发展,人们对网络的依赖性越来越强,但同时网络攻击给网络用户造成了严重的信息泄露和巨大的经济损失。如何从浩瀚的用户访问信息中发现对网站具有恶意攻击行为的用户就成为了Web服务管理者亟需解决的重要问题。对Web服务日志的深入分析后,发现攻击访问用户与正常访问用户在访问Web服务时形成的日志记录具有不同的特征。通过特征提取并且进行必要假设后,利用朴素贝叶斯分类算法构建异常检测分类模型,取得了较好的检测效果。  相似文献   

4.
针对页面特征提取实时性差的问题进行了研究,提出将特征分类,并行提取、检测、再融合结果的方法。首先提取三个类别的主要特征,包括文本、视觉和网络链接;然后,分别利用了贝叶斯算法、EMD算法以及网络爬虫来进行分类;并且基于后验概率来确定权值的最终选取。最后,把这三个分类结果进行融合。通过对贝叶斯、加权和加权贝叶斯的比较,从正确率、漏报率和误报率对算法进行评估,实验表明采用加权贝叶斯的方法来进行融合计算效果最佳,能够提供较高的准确率和较低的误报和漏报,提高检测的精度和实时性。  相似文献   

5.
为进一步提高多关系朴素贝叶斯方法的分类准确率,分析了已有的特征加权方法,并在将特征加权方法扩展到多关系的情况下结合元组ID传播方法和面向元组的统计计数方法,建立了基于特征加权的多关系朴素贝叶斯分类模型(MRNBC-W)。标准数据集上的实验结果显示,新方法可以在不增加算法时间复杂度的前提下,有效提高金融数据集的分类准确率。文中也给出了结合扩展互信息标准对属性进行过滤后,加权方法和不加权方法的分类比较。  相似文献   

6.
基于局部加权朴素贝叶斯算法和处理混合型属性距离度量方法的研究,针对局部加权算法中存在的一些问题,将两种相似性距离度量方法运用于局部加权朴素贝叶斯方法,构造出VDMLWL和IVDMLWL两种算法。通过在WEKA中的实验将这两种算法的分类结果进行分析与比较,发现改进的局部加权朴素贝叶斯的距离函数,能更精确地对不同类型属性数据进行分类,有效提高了局部加权朴素贝叶斯算法分类的效率和可靠性。  相似文献   

7.
针对物流新闻类别分布不均衡,分类器容易倾向大类别而忽略小类别的问题,提出基于加权补集的朴素贝叶斯分类模型.构建物流新闻语料库,结合卡方检验进行特征选择,基于局部、全局和类内、类间的思想,分析并改进传统特征加权算法,设计适用于类别分布不均衡物流新闻的加权补集朴素贝叶斯模型.实验结果表明,相较传统分类方法,加权补集朴素贝叶...  相似文献   

8.
针对传统朴素贝叶斯分类模型在入侵取证中存在的特征项冗余问题,以及没有考虑入侵行为所涉及的数据属性间的差别问题,提出一种基于改进的属性加权朴素贝叶斯分类方法。用一种改进的基于特征冗余度的信息增益算法对特征项集进行优化,并在此优化结果的基础上,提取出其中的特征冗余度判别函数作为权值引入贝叶斯分类算法中,对不同的条件属性赋予不同的权值。经实验验证,该算法能有效地选择特征向量,降低分类干扰,提高检测精度。  相似文献   

9.
张亚萍  胡学钢 《微机发展》2007,17(11):33-35
将K-means算法引入到朴素贝叶斯分类研究中,提出一种基于K-means的朴素贝叶斯分类算法。首先用K-means算法对原始数据集中的完整数据子集进行聚类,计算缺失数据子集中的每条记录与k个簇重心之间的相似度,把记录赋给距离最近的一个簇,并用该簇相应的属性均值来填充记录的缺失值,然后用朴素贝叶斯分类算法对处理后的数据集进行分类。实验结果表明,与朴素贝叶斯相比,基于K-means思想的朴素贝叶斯算法具有较高的分类准确率。  相似文献   

10.
基于K-means的朴素贝叶斯分类算法的研究   总被引:1,自引:0,他引:1  
将K-means算法引入到朴素贝叶斯分类研究中,提出一种基于K-means的朴素贝叶斯分类算法。首先用K-means算法对原始数据集中的完整数据子集进行聚类,计算缺失数据子集中的每条记录与k个簇重心之间的相似度,把记录赋给距离最近的一个簇,并用该簇相应的属性均值来填充记录的缺失值,然后用朴素贝叶斯分类算法对处理后的数据集进行分类。实验结果表明,与朴素贝叶斯相比,基于K-means思想的朴素贝叶斯算法具有较高的分类准确率。  相似文献   

11.
电力无线通信网支撑用户量大面广、业务高并发、运行环境复杂,表现为异构多网混合共存。为了支持智能电力终端动态选择网络接入,必须首先执行网络发现与识别。针对TD-LTE无线通信专网、WiMAX无线通信专网、智能电网邻域网和230 MHz电力无线专网异构多网共存场景,提出一种融合物理层信号时频特征和MAC层协议特征的网络识别算法。该算法结合改进的窗口滑动能量检测和多周期特性加权循环平稳特征检测执行网络发现与识别。仿真结果表明,该算法能有效识别异构的多种电力无线通信网络。  相似文献   

12.
虚拟空间中在线同源用户具有相似行为特征,但现有相似性度量算法难以对其进行有效识别。提出一种基于序列对齐的在线同源用户识别算法,根据在线用户行为日志提取点击流数据,采用序列对齐方法计算在线用户的行为相似度,将其用行为相似度矩阵表示并对用户进行层次聚类,以识别虚拟空间中的在线同源用户,同时分析不同维度的用户特征属性对用户行为相似性的影响程度。实验结果表明,该算法能准确识别出在线同源用户,用户行为相似性受性别、户籍和教育程度3种特征属性影响较大,受年龄、社会阶层和收入水平的影响较小。  相似文献   

13.
从Web日志中挖掘用户浏览兴趣路径,对于网站重构和产品推荐等商业用途具有重要意义。传统的挖掘算法一般基于用户访问频度,并不能真正体现用户的兴趣点。访问时间是一个能反应用户浏览兴趣的重要因素,用预设的访问时间阈值剔除无效数据,得出有效访问时间。本文对蚁群算法加以改进,用浏览频度和权值因子作为兴趣函数,有效访问时间因子作为信息素函数,提出有效-兴趣度的概念。对算法进行具体模拟,结果表明,本文提出的挖掘算法比传统的算法更能体现用户的浏览兴趣。  相似文献   

14.
通过对电子商务中服务器上的日志文件等Web数据进行客户访问信息的分析,重点研究了客户分析系统的数据采集、数据处理以及跟踪客户在Web上的浏览行为并进行模式分析,并构建了用户访问模式的挖掘模型及算法的分析与实现。  相似文献   

15.
5G边缘计算靠近用户侧提供服务,而边缘侧汇聚着用户的敏感信息,用户非法接入或合法用户自身的恶意行为威胁到整个边缘网络的安全。将机器学习算法应用于边缘计算架构,提出一种基于行为的用户异常检测方案。对用户行为进行建模,采用独热编码和互信息进行数据预处理和特征选择,并利用极限梯度提升算法训练一个多分类器分类识别进入园区的用户,根据识别结果与用户身份是否一致来判定用户是否异常。在此基础上,通过孤立森林算法对授权用户历史行为数据进行模型训练,从而检测可信任用户的行为是否异常,实现对小型固定园区内未授权用户的识别以及对授权用户异常行为的检测。实验结果表明,该方案可满足边缘计算场景的时间复杂度要求,并且能够有效区分不同用户,分类准确率达到0.953,而对异常行为样本的误报率仅为0.01。  相似文献   

16.
在互联网智能化的过程中,互联网用户行为的分析是一个必要的工作.通过架设网络代理,记录用户在互联网上发出的HTTP请求,建立用户行为日志库,并根据Web访问的特性对用户行为日志进行过滤、聚类,缩减数据规模,最后利用开放式分类目录ODP(Open Directory Project)对用户行为进行分类统计,将没有语义信息的...  相似文献   

17.
方彬  胡侠  王灿 《计算机工程》2011,37(15):271-273
为帮助盲人更有效便捷地通过网络获取所需书籍资源,提出一种基于用户行为的图书推荐方法。该方法在考虑用户兴趣随时间变化的基础上,通过分析用户日志,建模表达访问书籍、访问书籍类别、使用书签3类用户行为,实现盲人用户的图书推荐,同时缓解盲人数字图书馆中的用户数据稀疏问题。实验结果证明,该方法推荐效果良好。  相似文献   

18.
With the wide availability of high-speed network access, we are experiencing high quality streaming media delivery over the Internet. The emergence of ubiquitous computing enables mobile users to access the Internet with their laptops, PDAs, or even cell phones. When nomadic users connect to the network via wireless links or phone lines, high quality video transfer can be problematic due to long delay or size mismatch between the application display and the screen. Our proposed solution to this problem is to enable network proxies with the transcoding capability, and hence provide different, appropriate video quality to different network environment. The proxies in our transcoding-enabled caching (TeC) system perform transcoding as well as caching for efficient rich media delivery to heterogeneous network users. This design choice allows us to perform content adaptation at the network edges. We propose three different TeC caching strategies. We describe each algorithm and discuss its merits and shortcomings. We also study how the user access pattern affects the performance of TeC caching algorithms and compare them with other approaches. We evaluate TeC performance by conducting two types of simulation. Our first experiment uses synthesized traces while the other uses real traces derived from an enterprise media server logs. The results indicate that compared with the traditional network caches, with marginal transcoding load, TeC improves the cache effectiveness, decreases the user-perceived latency, and reduces the traffic between the proxy and the content origin server.  相似文献   

19.
The degree of personalization that a Web site offers in presenting its services to users is an important attribute contributing to the site's popularity. Web server access logs contain substantial data about user access patterns. One way to solve this problem is to group users on the basis of their Web interests and then organize the site's structure according to the needs of different groups. Two main difficulties inhibit this approach: the essentially infinite diversity of user interests and the change in these interests with time. We have developed a clustering algorithm that groups users according to their Web access patterns. The algorithm is based on the ART1 version of adaptive resonance theory. In our ART1-based algorithm, a prototype vector represents each user cluster by generalizing the URLs most frequently accessed by all cluster members. We have compared our algorithm's performance with the traditional k-means clustering algorithm. Results showed that the ART1-based technique performed better in terms of intracluster distances. We also applied the technique in a prefetching scheme that predicts future user requests.  相似文献   

20.
传统的基于麦克风阵列的声源定位方法,往往容易受到低信噪比或高混响等不利的声学条件的影响。近年来,基于模式识别和机器学习技术的方法被用来在恶劣环境下进行声源定位。引入了一种基于Fisher判别理论的加权方法,实现了基于Fisher加权朴素贝叶斯分类器(Fisher Weighted Naive Bayes Classifier,FWNBC)的声源定位。通过基于相位变换(Phase Transformation,PHAT)加权的互相关函数来计算每个位置的特征向量,利用Fisher加权朴素贝叶斯分类器估计声源位置。在实际的定位系统中进行实验,验证改进算法的性能。实验结果表明,与使用朴素贝叶斯分类器(Naive Bayes Classifier,NBC)相比,FWNBC算法有效提高了声源定位的精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号