首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
互联网法律咨询平台为公众提供了便捷的咨询服务,公众在平台进行法律咨询后,平台精准地将咨询问题推送给相关律师进行解答.然而平台在推送前,需要先对咨询问题文本进行自动分类.针对法律咨询文本分类这一问题,从互联网法律咨询平台采集数据建立语料库,通过TF-IDF算法对经过预处理的文本进行特征提取,通过朴素贝叶斯分类算法进行分类.实验结果表明,在一定程度上能实现法律咨询文本的自动分类.  相似文献   

2.
该文主要探讨如何通过朴素贝叶斯算法对中文论坛中的文本信息进行自动分类,文中首先介绍了朴素贝叶斯算法的基本原理,并分析了该算法在文本分类中存在的不足之处,然后针对中文论坛的文本信息进行研究,结合中文论坛文本的特点对朴素贝叶斯算法提出了两点修正,给出了修正后的分类算法公式,最后介绍了如何借助Lucene开源框架、Berkeley DB数据库及IKAnalyzer分词器等工具对修正朴素贝叶斯算法进行技术实现。  相似文献   

3.
朴素贝叶斯是一种用于不确定性推理的方法,其原理简单,但是适用性却很强。将朴素贝叶斯用在文本分类中。在传统的文本分类方法的基础上,对文本特征的选择做了改进,通过实验,达到了比较满意的效果。  相似文献   

4.
贝叶斯算法在文本自动分类系统中的应用   总被引:3,自引:0,他引:3  
文本自动分类系统是信息处理的重要研究方向。它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。本文将基于贝叶斯算法的文本分类技术。应用于Web文档进行自动分类,实验结果表明效果显著。  相似文献   

5.
文本分类是处理与组织文本数据的一项重要技术,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。本文建立的朴素贝叶斯分类器,是在已知类别的训练集的基础上,通过分析训练数据样本,产生关于类别的精确描述,用于对其它数据进行分类和预测。  相似文献   

6.
文本分类是处理与组织文本数据的一项重要技术,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。本文建立的朴素贝叶斯分类器,是在已知类别的训练集的基础上,通过分析训练数据样本,产生关于类别的精确描述,用于对其它数据进行分类和预测。  相似文献   

7.
面对海量的文本信息,有效的存储与管理、快速和准确的分类从而提取有用信息成为了当前的一个研究方向.文本挖掘和信息检索的重要基础是自动化文本分类技术,朴素贝叶斯分类器是机器学习在文本自动化分类领域重要的一种分类器.朴素贝叶斯分类快速而精确,只需扫描一次数据集,具有较强的抗干扰能力.介绍了自动化文本分类的相关背景,论述了自动...  相似文献   

8.
云计算的诞生,有效地解决了海量数据集的存储和分析处理。在云计算实现的开源Hadoop分布式系统集群上,使用MapReduce并行编程模型,设计并实现了一种对TFIDF改进的分布式朴素贝叶斯文本分类算法。实验结果表明,基于Hadoop框架的分布式朴素贝叶斯文本自动分类器不仅能处理节点失效,同时具有高效性和易扩展性的优势。  相似文献   

9.
采用分布式编程MapReduce模型研究了文本统一格式预处理、训练、测试以及分类等基于朴素贝叶斯文本分类算法主要计算过程的MapReduce并行化方法,并在Hadoop云计算平台进行了实验。实验结果表明:朴素贝叶斯文本分类算法MapReduce并行化后在Hadoop云计算平台上部署运行,具有较好的加速比,对中文网页文本分类识别率达到了86%。  相似文献   

10.
针对朴素贝叶斯分类算法的特点,提出一种改进的特征选择方法。现代大规模数据分类在单机计算机上训练和测试时间过长,对此,在hadoop分布式平台下设计并实现了基于朴素贝叶斯的数据分类算法。实验结果表明,改进的算法能有效提高分类的正确率,所设计的并行朴素贝叶斯数据分类算法具有较高的执行效率,适用于海量数据的处理与分析。  相似文献   

11.
文本分类是信息检索和文本挖掘的重要基础,朴素贝叶斯是一种简单而高效的分类算法,可以应用于文本分类.但是其属性独立性和属性重要性相等的假设并不符合客观实际,这也影响了它的分类效果.如何克服这种假设,进一步提高其分类效果是朴素贝叶斯文本分类算法的一个难题.根据文本分类的特点,基于文本互信息的相关理论,提出了基于互信息的特征项加权朴素贝叶斯文本分类方法,该方法使用互信息对不同类别中的特征项进行分别赋权,部分消除了假设对分类效果的影响.通过在UCIKDD数据集上的仿真实验,验证了该方法的有效性.  相似文献   

12.
由于朴素贝叶斯算法的特征独立性假设以及传统TFIDF加权算法仅仅考虑了特征在整个训练集的分布情况,忽略了特征与类别和文档之间关系,造成传统方法赋予特征的权重并不能代表其准确性.针对以上问题,提出了二维信息增益加权的朴素贝叶斯分类算法,进一步考虑到了特征的二维信息增益即特征类别信息增益和特征文档信息增益对分类效果的影响,并设计实验与传统的加权朴素贝叶斯算法相比,该算法在查准率、召回率、F1值指标性能上能提升6%左右.  相似文献   

13.
基于朴素贝叶斯分类器邮件分类系统的改进   总被引:1,自引:0,他引:1  
目前朴素贝叶斯分类方法在电子邮件分类起到了良好的效果,但是并不能100%区分垃圾邮件与非垃圾邮件,然而在商业应用中,我们不能遗漏任何一封重要邮件。本文先简单介绍Bayes方法,然后提出一种对目前的Bayes分类方法的改进思想和方法。  相似文献   

14.
Due to being fast, easy to implement and relatively effective, some state-of-the-art naive Bayes text classifiers with the strong assumption of conditional independence among attributes, such as multinomial naive Bayes, complement naive Bayes and the one-versus-all-but-one model, have received a great deal of attention from researchers in the domain of text classification. In this article, we revisit these naive Bayes text classifiers and empirically compare their classification performance on a large number of widely used text classification benchmark datasets. Then, we propose a locally weighted learning approach to these naive Bayes text classifiers. We call our new approach locally weighted naive Bayes text classifiers (LWNBTC). LWNBTC weakens the attribute conditional independence assumption made by these naive Bayes text classifiers by applying the locally weighted learning approach. The experimental results show that our locally weighted versions significantly outperform these state-of-the-art naive Bayes text classifiers in terms of classification accuracy.  相似文献   

15.
基于自助平均的朴素贝叶斯文本分类器   总被引:1,自引:1,他引:1       下载免费PDF全文
针对单词簇上训练朴素贝叶斯文本分类器概率估计偏差较大所导致的分类精度较低问题,在概率分布聚类算法得到的单词簇的基础上,根据单词与簇间互信息建立有序单词子序列,采用有放回随机抽样对序列构造规模相当的样本集,并将估计出的参数的平均值作为训练得到的参数对未知文本进行分类。公共文本实验数据集上的实验结果表明,该文提出的训练方法相对于传统的朴素贝叶斯分类器训练方法能够获得更高的分类精度且过程相对简单。  相似文献   

16.
朴素贝叶斯(NB)算法应用于文本分类时具有简单性和高效性,但算法中属性独立性与重要性一致的假设,使其在精确度方面存在瓶颈.针对该问题,提出一种基于泊松分布的特征加权NB文本分类算法.结合泊松分布模型和NB算法,将泊松随机变量引入特征词权重,在此基础上定义信息增益率对文本特征词加权,削弱传统算法属性独立性假设造成的影响.在20-newsgroups数据集上的实验结果表明,与传统NB算法及其改进算法RwC-MNB和CFSNB相比,该算法可使文本分类的准确率、召回率和F1值得到提升,并且执行效率高于K-最近邻算法和支持向量机算法.  相似文献   

17.
一种新型朴素贝叶斯文本分类算法   总被引:1,自引:0,他引:1  
针对在文本分类中先验概率的计算比较费时而且对分类效果影响不大、后验概率的精度损失影响分类准确率的现象,对经典朴素贝叶斯分类算法进行了改进,提出了一种“先抑后扬”(抑制先验概率的作用,扩大后验概率的影响)的文本分类算法。算法中去掉了对先验概率的计算,并在后验概率的计算中引入了一个放大系数。实验结果表明,分类时不计算先验概率对分类精度影响甚微但可以明显加快分类的速度,在后验概率的计算中引入放大系数减少了误差传播的影响,提高了分类精度。  相似文献   

18.
针对Naive Bayes方法中条件独立性假设常常与实际相违背的情况,提出了CLIF_NB文本分类学习方法,利用互信息理论,计算特征属性之间的最大相关性概率,用变量集组合替代线性不可分属性,改善条件独立性假设的限制,并通过学习一系列分类器,缩小训练集中的分类错误,综合得出分类准确率较高的CLIF_NB分类器.  相似文献   

19.
目前对以朴素贝叶斯算法为代表的文本分类算法,普遍存在特征权重一致,考虑指标单一等问题。为了解决这个问题,提出了一种基于TF-IDF的朴素贝叶斯改进算法TF-IDF-DL朴素贝叶斯算法。该算法以TF-IDF为基础,引入去中心化词频因子和特征词位置因子以加强特征权重的准确性。为了验证该算法的效果,采用了搜狗实验室的搜狗新闻数据集进行实验,实验结果表明,在朴素贝叶斯分类算法中引入TF-IDF-DL算法,能够使该算法在进行文本分类中的准确率、召回率和F 1值都有较好的表现,相比国内同类研究TF-IDF-dist贝叶斯方案,分类准确率提高8.6%,召回率提高11.7%,F 1值提高7.4%。因此该算法能较好地提高分类性能,并且对不易区分的类别也能在一定程度上达到良好的分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号