首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
从Web中快速、准确地检索出所需信息的迫切需求催生了专业搜索引擎技术。在专业搜索引擎中,网络爬虫(Crawler)负责在Web上搜集特定专业领域的信息,是专业搜索引擎的重要核心部件。该文对中文专业网页的爬取问题进行了研究,基于KL距离验证了网页内容与链接前后文在分布上的差异,在此基础上提出了以链接锚文本及其前后文为特征、Nave Bayes分类器制导的中文专业网页爬取算法,设计了自动获取带链接类标的训练数据的算法。以金融专业网页的爬取为例,分别对所提出的算法进行了离线和在线测试,结果表明,Nave Bayes分类器制导的网络爬虫可以达到近90%的专业网页收割率。  相似文献   

2.
3.
基于改进Na(i)ve Bayes的垃圾邮件过滤模型研究   总被引:2,自引:0,他引:2       下载免费PDF全文
分析了目前在垃圾邮件过滤中广泛应用的Na(i)ve Bayes过滤模型(NBF),指出了期望交叉熵(ECE)特征词选取方法的不足.提出了改进的Na(i)ve Bayes垃圾邮件过滤模型(A-NBF),用改进的期望交叉熵(AECE)选取垃圾邮件特征词,并在邮件分类过程中对特征词进行加权,从而提高对垃圾邮件过滤的精度.实验结果可以看出A-NBF比NBF在过滤精度方面有明显的提高.  相似文献   

4.
Naive Bayes方法在文本分类中的决策强烈依赖于主观选择的样本关于类别的分布。本文利用层次式分类的特点并引入概率条件改进Naive Bayes方法,使其在每个内部类别所属的子类局部数据中进行决策,缓解了全局数据分布对分类器的影响,部分克服了数据偏斜问题。实验表明,改进方法在层次式分类中的效果较Naive Bayes方法有显著提高  相似文献   

5.
现在是信息时代,互联网为我们提供了丰富的信息资源。只要我们有需要就能通过网络得到。但是正因为网络上的资源太丰富了,如果想得到需要的内容,用户就要做大量筛选和甄别工作。网络信息筛选和抓取有很多方法,比如Java、Python等语言,还有一些专门的公司为用户提供网络爬虫程序做信息的定向抓取。目前使用较多的是Python语言,文章要研究的内容是:通过使用Python库中的Beautiful Soup库快速、简捷地抓取所需信息。  相似文献   

6.
研究了非监督学习Na(i)ve Bayes分类的原理和方法,并将其应用到文本数据--网络安全审计数据的分析中.为了提高分类准确率,根据分类的效果对数据的属性集进行选择,使用能提高分类准确性的属性作为分类的依据.对KDD CUP99数据集进行了基于不同属性集的实验,发现了与分类结果相关的属性,分类效果良好.  相似文献   

7.
基于Python的网页数据爬取与可视化分析是Python爬虫的应用及Python数据分析的应用实战.该文首先介绍了有关Python网络爬虫的相关知识,其次运用Requests和BeautifulSoup爬取旅游景点信息,并运用Excel和Tableau对数据进行分析,将分析结果进行可视化呈现,得出有关旅游景点价格、销量...  相似文献   

8.
《软件工程师》2016,(2):43-46
在大数据获取中面临着如何采集动态评论网页的问题,这篇论文使用静态网页信息构造动态链接,提出了基于Python的动态网页评论爬虫算法。在此基础上实现了评论收集程序。最后将它与通用爬虫算法进行比较,证实了该算法具有针对性强、数据采集速度快、易嵌入开发、简单等优点,为不善于编程的新闻、文学、管理等学科的研究者提供了快速获取评论信息的方法。  相似文献   

9.
面向主题爬取的多粒度URLs优先级计算方法   总被引:1,自引:0,他引:1  
垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个问题一是计算当前页面与给定主题的相关度, 二是计算待爬取URLs的访问优先级。对第一个问题,给出利用页面的主题文本块和相关链接块的相关度计算方法; 对第二个问题, 给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法。在此基础上, 提出基于上述方法的主题爬取算法。实验证明, 新算法在不增加时间复杂度的前提下, 在查准率和信息量总和方面明显优于其他三种经典的爬取算法。  相似文献   

10.
基于投影寻踪的中文网页分类算法   总被引:7,自引:1,他引:7  
随着Web 信息迅猛发展,网络用户对网页自动分类器的需求日益增长。为了提高分类精度,本文提出了一种新的基于投影寻踪(Projection Pursuit , 简称PP) 的中文网页分类算法。我们首先利用遗传算法找到一个最好的投影方向,然后将已被表示成为n 维向量的网页投影到一维空间。最后采用KNN 分类算法对其进行分类。此方法能解决“维数灾难”问题。实验结果表明,我们提出的算法是可行而且是有效的。  相似文献   

11.
为进一步提高多关系朴素贝叶斯方法的分类准确率,分析了已有的特征加权方法,并在将特征加权方法扩展到多关系的情况下结合元组ID传播方法和面向元组的统计计数方法,建立了基于特征加权的多关系朴素贝叶斯分类模型(MRNBC-W)。标准数据集上的实验结果显示,新方法可以在不增加算法时间复杂度的前提下,有效提高金融数据集的分类准确率。文中也给出了结合扩展互信息标准对属性进行过滤后,加权方法和不加权方法的分类比较。  相似文献   

12.
朴素贝叶斯分类器在地形评估中的应用方法   总被引:3,自引:0,他引:3  
针对目前流行的评估方法的缺点以及实际问题的具体情况,提出将朴素贝叶斯分类器应用在地形评估中。具体方法是从用专家函数评估的数据库中提取训练样本,通过基于分布熵最小原则进行特征约减,再基于最优性条件进行属性离散化,最后基于共轭分布进行参数学习得到一个的分类器。待分类样本可以直接由贝叶斯分类器得出分类结果,并且根据增量学习理论,将分类结果作为训练新的分类器的训练样本,可以进一步提高分类精度。试验表明该方法的应用减少了评估时间,并且分类精度也令人满意。  相似文献   

13.
朴素贝叶斯分类器(NBC)是一种简洁而有效的分类模型。介绍了NBC模型的基本原理,并着重分析了该模型的独立性假设条件。在总结现有独立性假设研究的基础上,通过例子和实验分析得出结论:NBC模型的表现和独立性假设是否满足没有必然联系。  相似文献   

14.
本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数的选取,讨论了分类系统的若干重要问题,研究了训练集的规模和质量对分类系统的影响。根据863计划文本分类测评组所提供的测试标准、训练集以及测试集对本文所设计的分类系统进行测试,实验结果表明该分类系统有良好的分类效果。  相似文献   

15.
一种基于朴素贝叶斯的微博情感分类   总被引:1,自引:0,他引:1  
本文基于二次情感特征提取算法,利用句法依存关系进行一次文本情感特征提取,在此基础上,利用情感词典,进行二次情感特征提取。构建朴素贝叶斯分类器,对采集的热门话题微博和酒店评论进行文本情感倾向性分类。主要比较了表情符号、标点符号,基于情感词典的特征提取和基于二次情感特征提取方法,在不同的组合下的分类性能,寻找更佳的微博文本情感分类预处理方法。并与酒店评论情感分类结果对比、分析,发现影响微博情感分类性能的原因。实验结果表明,二次特征提取方法在分类上取得更高的F1。实验最佳的分类预处理方式是"表情符号+标点符号+二次情感特征提取+BOOL值"。同时发现,朴素贝叶斯在酒店评论情感分类取得更高的分类性能,主要是微博评价对象多样化造成的。  相似文献   

16.
宿娇娜  李程  李巍  唐发根  李云春 《计算机工程》2008,34(5):148-149,152
随着计算机网络和分布式应用的复杂化和多样化,智能化网络异常检测技术逐渐成为有效监测和控制系统的重要方法.该文提出基于改进NB分类方法的网络异常检测算法,采用互信息的方法对网络属性进行关键特征提取.实验结果表明,该异常检测方法对DoS和Probing类攻击的检测率较高,具有较低的虚警率.  相似文献   

17.
针对当前入侵检测中存在检测率低,误检率和漏报率高的问题,提出了一种基于K-means聚类的贝叶斯分类算法(IKMNB).用改进的K-means聚类算法对原始数据集中的完整数据进行聚类,然后计算缺失数据集中的每条记录与k个簇中心之间的近似度距离,把记录归属为距离最近的一个簇,使得该记录的缺失值被相应簇中的属性值填充,最后运用贝叶斯分类算法对处理后的完整数据集进行分类.通过仿真实验验证了该算法与朴素贝叶斯算法相比提高了检测率,降低了误检率和漏报率.  相似文献   

18.
在深入研究网络异常行为及异常检测系统相关现状的基础上,提出了基于NB分类方法的网络异常检测模型,并详细论述了该模型的工作原理.实验结果表明该方法是有效的.  相似文献   

19.
徐光美  杨炳儒  钱榕 《计算机工程》2008,34(13):49-50,53
众多研究者致力于将朴素贝叶斯方法与原有的ILP系统结合,形成各种各样的多关系朴素贝叶斯分类器(MRNBC).该文提出形成朴素贝叶斯分类器的一阶扩展的一般方法.现实中关系数据库广泛存在,可以直接作用于数据库表,而无须转换表示形式的MRNBC则是研究的重点,该方法主要基于关系数据库理论,分析了进行一阶扩展的关键问题.  相似文献   

20.
陶建斌  舒宁  沈照庆 《遥感信息》2010,(2):18-24,29
提出了一种新的嵌入高斯混合模型(GMM,Gaussian Mixture Model)遥感影像朴素贝叶斯网络模型GMM-NBC(GMMbased Na ve Bayesian Classifier)。针对连续型朴素贝叶斯网络分类器中假设地物服从单一高斯分布的缺点,该方法将地物在特征空间的分布用高斯混合模型来模拟,用改进EM算法自动获取高斯混合模型的参数;高斯混合模型整体作为一个子节点嵌入朴素贝叶斯网络中,将其输出作为节点(特征)的中间类后验概率,在朴素贝叶斯网络的框架下进行融合获得最终的类后验概率。对多光谱和高光谱数据的分类实验结果表明,该方法较传统贝叶斯分类器分类效果要好,且有较强的鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号