共查询到20条相似文献,搜索用时 109 毫秒
1.
从Web中快速、准确地检索出所需信息的迫切需求催生了专业搜索引擎技术。在专业搜索引擎中,网络爬虫(Crawler)负责在Web上搜集特定专业领域的信息,是专业搜索引擎的重要核心部件。该文对中文专业网页的爬取问题进行了研究,基于KL距离验证了网页内容与链接前后文在分布上的差异,在此基础上提出了以链接锚文本及其前后文为特征、Nave Bayes分类器制导的中文专业网页爬取算法,设计了自动获取带链接类标的训练数据的算法。以金融专业网页的爬取为例,分别对所提出的算法进行了离线和在线测试,结果表明,Nave Bayes分类器制导的网络爬虫可以达到近90%的专业网页收割率。 相似文献
2.
3.
分析了目前在垃圾邮件过滤中广泛应用的Na(i)ve Bayes过滤模型(NBF),指出了期望交叉熵(ECE)特征词选取方法的不足.提出了改进的Na(i)ve Bayes垃圾邮件过滤模型(A-NBF),用改进的期望交叉熵(AECE)选取垃圾邮件特征词,并在邮件分类过程中对特征词进行加权,从而提高对垃圾邮件过滤的精度.实验结果可以看出A-NBF比NBF在过滤精度方面有明显的提高. 相似文献
4.
Naive Bayes方法在文本分类中的决策强烈依赖于主观选择的样本关于类别的分布。本文利用层次式分类的特点并引入概率条件改进Naive Bayes方法,使其在每个内部类别所属的子类局部数据中进行决策,缓解了全局数据分布对分类器的影响,部分克服了数据偏斜问题。实验表明,改进方法在层次式分类中的效果较Naive Bayes方法有显著提高 相似文献
5.
现在是信息时代,互联网为我们提供了丰富的信息资源。只要我们有需要就能通过网络得到。但是正因为网络上的资源太丰富了,如果想得到需要的内容,用户就要做大量筛选和甄别工作。网络信息筛选和抓取有很多方法,比如Java、Python等语言,还有一些专门的公司为用户提供网络爬虫程序做信息的定向抓取。目前使用较多的是Python语言,文章要研究的内容是:通过使用Python库中的Beautiful Soup库快速、简捷地抓取所需信息。 相似文献
6.
研究了非监督学习Na(i)ve Bayes分类的原理和方法,并将其应用到文本数据--网络安全审计数据的分析中.为了提高分类准确率,根据分类的效果对数据的属性集进行选择,使用能提高分类准确性的属性作为分类的依据.对KDD CUP99数据集进行了基于不同属性集的实验,发现了与分类结果相关的属性,分类效果良好. 相似文献
7.
基于Python的网页数据爬取与可视化分析是Python爬虫的应用及Python数据分析的应用实战.该文首先介绍了有关Python网络爬虫的相关知识,其次运用Requests和BeautifulSoup爬取旅游景点信息,并运用Excel和Tableau对数据进行分析,将分析结果进行可视化呈现,得出有关旅游景点价格、销量... 相似文献
8.
9.
面向主题爬取的多粒度URLs优先级计算方法 总被引:1,自引:0,他引:1
垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个问题一是计算当前页面与给定主题的相关度, 二是计算待爬取URLs的访问优先级。对第一个问题,给出利用页面的主题文本块和相关链接块的相关度计算方法; 对第二个问题, 给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法。在此基础上, 提出基于上述方法的主题爬取算法。实验证明, 新算法在不增加时间复杂度的前提下, 在查准率和信息量总和方面明显优于其他三种经典的爬取算法。 相似文献
10.
11.
12.
朴素贝叶斯分类器在地形评估中的应用方法 总被引:3,自引:0,他引:3
针对目前流行的评估方法的缺点以及实际问题的具体情况,提出将朴素贝叶斯分类器应用在地形评估中。具体方法是从用专家函数评估的数据库中提取训练样本,通过基于分布熵最小原则进行特征约减,再基于最优性条件进行属性离散化,最后基于共轭分布进行参数学习得到一个的分类器。待分类样本可以直接由贝叶斯分类器得出分类结果,并且根据增量学习理论,将分类结果作为训练新的分类器的训练样本,可以进一步提高分类精度。试验表明该方法的应用减少了评估时间,并且分类精度也令人满意。 相似文献
13.
朴素贝叶斯分类器(NBC)是一种简洁而有效的分类模型。介绍了NBC模型的基本原理,并着重分析了该模型的独立性假设条件。在总结现有独立性假设研究的基础上,通过例子和实验分析得出结论:NBC模型的表现和独立性假设是否满足没有必然联系。 相似文献
14.
基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统 总被引:1,自引:2,他引:1
本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数的选取,讨论了分类系统的若干重要问题,研究了训练集的规模和质量对分类系统的影响。根据863计划文本分类测评组所提供的测试标准、训练集以及测试集对本文所设计的分类系统进行测试,实验结果表明该分类系统有良好的分类效果。 相似文献
15.
一种基于朴素贝叶斯的微博情感分类 总被引:1,自引:0,他引:1
本文基于二次情感特征提取算法,利用句法依存关系进行一次文本情感特征提取,在此基础上,利用情感词典,进行二次情感特征提取。构建朴素贝叶斯分类器,对采集的热门话题微博和酒店评论进行文本情感倾向性分类。主要比较了表情符号、标点符号,基于情感词典的特征提取和基于二次情感特征提取方法,在不同的组合下的分类性能,寻找更佳的微博文本情感分类预处理方法。并与酒店评论情感分类结果对比、分析,发现影响微博情感分类性能的原因。实验结果表明,二次特征提取方法在分类上取得更高的F1。实验最佳的分类预处理方式是"表情符号+标点符号+二次情感特征提取+BOOL值"。同时发现,朴素贝叶斯在酒店评论情感分类取得更高的分类性能,主要是微博评价对象多样化造成的。 相似文献
16.
17.
18.
19.
20.
基于高斯混合模型的遥感影像连续型朴素贝叶斯网络分类器 总被引:1,自引:0,他引:1
提出了一种新的嵌入高斯混合模型(GMM,Gaussian Mixture Model)遥感影像朴素贝叶斯网络模型GMM-NBC(GMMbased Na ve Bayesian Classifier)。针对连续型朴素贝叶斯网络分类器中假设地物服从单一高斯分布的缺点,该方法将地物在特征空间的分布用高斯混合模型来模拟,用改进EM算法自动获取高斯混合模型的参数;高斯混合模型整体作为一个子节点嵌入朴素贝叶斯网络中,将其输出作为节点(特征)的中间类后验概率,在朴素贝叶斯网络的框架下进行融合获得最终的类后验概率。对多光谱和高光谱数据的分类实验结果表明,该方法较传统贝叶斯分类器分类效果要好,且有较强的鲁棒性。 相似文献