首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
面对海量的文本信息,有效的存储与管理、快速和准确的分类从而提取有用信息成为了当前的一个研究方向.文本挖掘和信息检索的重要基础是自动化文本分类技术,朴素贝叶斯分类器是机器学习在文本自动化分类领域重要的一种分类器.朴素贝叶斯分类快速而精确,只需扫描一次数据集,具有较强的抗干扰能力.介绍了自动化文本分类的相关背景,论述了自动化文本分类技术的一般流程,设计和实现了一个基于朴素贝叶斯的自动化中文文本分类器,并通过两个实验对分类器进行了测试与验证.实验结果表明,该分类器具有良好的分类效果和分类速度.  相似文献   

2.
一种快速的文本聚类-分类法   总被引:4,自引:0,他引:4  
本文提出了文本分类的一种新方法,该方法是将部分文献的内容词进行聚类,根据聚类的结果生成分类模型,再根据朴素的贝叶斯原理将文献进行归类。  相似文献   

3.
该文基于朴素贝叶斯分类器对朝鲜语文本分类进行了研究。首先,利用基于类别选择的特征选择方法对朝鲜语文本进行特征选择,并使用类TF-IDF估算方法计算权重;其次,构造朴素贝叶斯分类器;最后,利用分类器实现对朝鲜语文本的分类。实验表明,该方法在朝鲜语文本分类中具有较好的效果,为朝汉结合文本分类提供了一定的依据。  相似文献   

4.
在文本分类中获得有类别标记训练样本的代价是很高昂的,本文针对这个问题对传统的模糊聚类方法进行改进,提出模糊划分聚类方法FPCM,将聚类的无监督性和样本的先验知识结合起来,通过相似度度量聚类相关文本,取得比较客观的簇和少量标记文本,为监督学习找到分类依据,并结合朴素贝叶斯增量学习方式进行分类器的学习.本文进一步用估计分类误差损失的方法平衡选取候选样本,提高了分类准确率,实现了应用范围更加广泛的无标记文本分类学习模型.  相似文献   

5.
基于自助平均的朴素贝叶斯文本分类器   总被引:1,自引:1,他引:1       下载免费PDF全文
针对单词簇上训练朴素贝叶斯文本分类器概率估计偏差较大所导致的分类精度较低问题,在概率分布聚类算法得到的单词簇的基础上,根据单词与簇间互信息建立有序单词子序列,采用有放回随机抽样对序列构造规模相当的样本集,并将估计出的参数的平均值作为训练得到的参数对未知文本进行分类。公共文本实验数据集上的实验结果表明,该文提出的训练方法相对于传统的朴素贝叶斯分类器训练方法能够获得更高的分类精度且过程相对简单。  相似文献   

6.
本文提出了一种基于朴素贝叶斯和遗传算法的两类文本分类方法,该方法将朴素贝叶斯分类器变换为在二维空间中的一条分割线,在分割线临近的文本分类不可靠区间内,利用遗传算法搜索最优文本分割线,从而使分类器达到最佳性能.在由12600篇文本构成的中文语料数据集上的实验表明,该方法具有较高的分类性能和效率,查准率、查全率和F1值分别达到97.98%,91.05%和94.39%.  相似文献   

7.
一种高性能的两类中文文本分类方法   总被引:35,自引:0,他引:35  
提出了一种高性能的两类中文文本分类方法.该方法采用两步分类策略:第1步以词性为动词、名词、形容词或副词的词语作为特征,以改进的互信息公式来选择特征,以朴素贝叶斯分类器进行分类.利用文本特征估算文本属于两种类型的测度X和Y,构造二维文本空间,将文本映射为二维空间中的一个点,将分类器看作是在二维空间中寻求一条分割直线.根据文本点到分割直线的距离将二维空间分为可靠和不可靠两部分,以此评估第1步分类结果,若第1步分类可靠,做出分类决策;否则进行第2步.第2步将文本看作由词性为动词或名词的词语构成的序列,以该序列中相邻两个词语构成的二元词语串作为特征,以改进互信息公式来选择特征,以朴素贝叶斯分类器进行分类.在由12600篇文本构成的数据集上运行的实验表明,两步文本分类方法达到了较高的分类性能,精确率、召回率和F1值分别为97.19%,93.94%和95.54%.  相似文献   

8.
基于贝叶斯模型的专利分类   总被引:5,自引:5,他引:0  
郭炜强  文军  文贵华 《计算机工程与设计》2005,26(8):1986-1987,1996
朴素贝叶斯分类器理论基础好,分类精度高。利用特征词权重函数修改朴素贝叶斯分类器,进而利用它实现专利文本的自动分类,不仅减少了专利人工分类的工作量和分类错误,而且为技术跟踪、竞争分析等提供了有效支持。实验与应用表明改进的朴素贝叶斯分类器用来解决专利分类是有效的。  相似文献   

9.
针对中文评论分类问题,采用朴素贝叶斯算法进行深入研究.首先,根据中文评论分类的需求设计了朴素贝叶斯分类器;然后,使用WEKA以不同特征提取方式对其功能性进行了对比分析.通过一系列的实验数据的横向对比表明,在朴素贝叶斯分类器下采用集成特征选取时文本分类的准确率最佳,准确率达97.65%,验证了朴素贝叶斯分类器在处理中文评论分类问题的可应用性.  相似文献   

10.
用Matlab语言建构贝叶斯分类器   总被引:2,自引:1,他引:2  
文本分类是文本挖掘的基础与核心,分类器的构建是文本分类的关键,利用贝叶斯网络可以构造出分类性能较好的分类器。文中利用Matlab构造出了两种分类器:朴素贝叶斯分类器NBC,用互信息测度和条件互信息测度构建了TANC。用UCI上下载的标准数据集验证所构造的分类器,实验结果表明,所建构的几种分类器的性能总体比文献中列的高些,从而表明所建立的分类器的有效性和正确性。笔者对所建构的分类器进行优化并应用于文本分类中。  相似文献   

11.
Each type of classifier has its own advantages as well as certain shortcomings. In this paper, we take the advantages of the associative classifier and the Naïve Bayes Classifier to make up the shortcomings of each other, thus improving the accuracy of text classification. We will classify the training cases with the Naïve Bayes Classifier and set different confidence threshold values for different class association rules (CARs) to different classes by the obtained classification accuracy rate of the Naïve Bayes Classifier to the classes. Since the accuracy rates of all selected CARs of the class are higher than that obtained by the Naïve Bayes Classifier, we could further optimize the classification result through these selected CARs. Moreover, for those unclassified cases, we will classify them with the Naïve Bayes Classifier. The experimental results show that combining the advantages of these two different classifiers better classification result can be obtained than with a single classifier.  相似文献   

12.
贝叶斯分类算法是基于贝叶斯全概率公式的分类算法,是一种简单有效的分类方法.本文系统的介绍贝叶斯分类算法的原理及贝叶斯分类算法的特点,并重点阐述两种常用的贝叶斯分类算法模型及应用.  相似文献   

13.
朴素贝叶斯分类是一种简单而高效的方法,但是它的属性独立性假设,影响了它的分类性能。针对这种问题,本文提出一种基于属性加权的朴素贝叶斯分类算法。通过分析研究属性之间的相关性,求出条件属性与决策属性的相关系数,同时结合信息论中所涉及的互信息概念,获得新的权重,对不同的条件属性给予不同的权值,从而在保持简单性的基础上有效地提高了朴素贝叶斯算法的分类性能。实验结果表明,该方法可行而且有效。  相似文献   

14.
针对单词簇上训练朴素贝叶斯文本分类器概率估计偏差较大所导致的分类精度较低问题,在概率分布聚类算法得到的单词簇的基础上,根据单词与簇间互信息建立有序单词子序列,采用有放回随机抽样对序列构造规模相当的样本集,并将估计出的参数的平均值作为训练得到的参数对未知文本进行分类.公共文本实验数据集上的实验结果表明,该文提出的训练方法相对于传统的朴素贝叶斯分类器训练方法能够获得更高的分类精度且过程相对简单.  相似文献   

15.
基于属性加权的朴素贝叶斯分类算法   总被引:3,自引:0,他引:3       下载免费PDF全文
朴素贝叶斯分类是一种简单而高效的方法,但是它的属性独立性假设,影响了它的分类性能。通过放松朴素贝叶斯假设可以增强其分类效果,但通常会导致计算代价大幅提高。提出了属性加权朴素贝叶斯算法,该算法通过属性加权来提高朴素贝叶斯分类器性能,加权参数直接从训练数据中学习得到。权值可以看作是计算某个类的后验概率时,某属性取值对该类别的影响程度。实验结果表明,该算法可行而且有效。  相似文献   

16.
An increasing number of computational and statistical approaches have been used for text classification, including nearest-neighbor classification, naïve Bayes classification, support vector machines, decision tree induction, rule induction, and artificial neural networks. Among these approaches, naïve Bayes classifiers have been widely used because of its simplicity. Due to the simplicity of the Bayes formula, the naïve Bayes classification algorithm requires a relatively small number of training data and shorter time in both the training and classification stages as compared to other classifiers. However, a major short coming of this technique is the fact that the classifier will pick the highest probability category as the one to which the document is annotated too. Doing this is tantamount to classifying using only one dimension of a multi-dimensional data set. The main aim of this work is to utilize the strengths of the self organizing map (SOM) to overcome the inadvertent dimensionality reduction resulting from using only the Bayes formula to classify. Combining the hybrid system with new ranking techniques further improves the performance of the proposed document classification approach. This work describes the implementation of an enhanced hybrid classification approach which affords a better classification accuracy through the utilization of two familiar algorithms, the naïve Bayes classification algorithm which is used to vectorize the document using a probability distribution and the self organizing map (SOM) clustering algorithm which is used as the multi-dimensional unsupervised classifier.  相似文献   

17.
基于树桩网络的贝叶斯文本分类算法   总被引:2,自引:0,他引:2       下载免费PDF全文
杨延娇  王治和 《计算机工程》2009,35(16):201-202
分析贝叶斯文本分类算法的不足,提出相应的改进算法。放宽朴素贝叶斯文本分类模型中的属性独立性假设,采用一种改进的基于贝叶斯定理的文本分类模型“树桩网络”,改进朴素贝叶斯文本分类模型。实验证明,改进后的文本分类模型适合于文本分类的需要,改善了原有分类器的性能。  相似文献   

18.
基于TF-IDF和余弦相似度的文本分类方法   总被引:1,自引:0,他引:1  
文本分类是文本处理的基本任务。大数据处理时代的到来致使文本分类问题面临着新的挑战。研究者已经针对不同情况提出多种文本分类算法,如KNN、朴素贝叶斯、支持向量机及一系列改进算法。这些算法的性能取决于固定数据集,不具有自学习功能。该文提出一种新的文本分类方法,包括三个步骤: 基于TF-IDF方法提取类别关键词;通过类别关键词和待分类文本关键词的相似性进行文本分类;在分类过程中更新类别关键词改进分类器性能。仿真实验结果表明,本文提出方法的准确度较目前常用方法有较大提高,在实验数据集上分类准确度达到90%,当文本数据量较大时,分类准确度可达到95%。算法初次使用时,需要一定的训练样本和训练时间,但分类时间可下降到其他算法的十分之一。该方法具有自学习模块,在分类过程中,可以根据分类经验自动更新类别关键词,保证分类器准确率,具有很强的现实应用性。  相似文献   

19.
We demonstrate a text-mining method, called associative Naïve Bayes (ANB) classifier, for automated linking of MEDLINE documents to gene ontology (GO). The approach of this paper is a nontrivial extension of document classification methodology from a fixed set of classes C={c1,c2,…,cn} to a knowledge hierarchy like GO. Due to the complexity of GO, we use a knowledge representation structure. With that structure, we develop the text mining classifier, called ANB classifier, which automatically links Medline documents to GO. To check the performance, we compare our datasets under several well-known classifiers: NB classifier, large Bayes classifier, support vector machine and ANB classifier. Our results, described in the following, indicate its practical usefulness.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号