排序方式: 共有39条查询结果,搜索用时 15 毫秒
31.
32.
33.
一种基于信息熵建立决策树的算法 总被引:2,自引:0,他引:2
信息论给出了信息的数学本质,提出了用热力学中的熵来度量信息量的大小。分类是一个重要的数据挖掘问题,在训练数据集上建立分类树的关键是如何选择决策树每一个内部结点的测试属性。传统的决策树建立算法利用信息论中熵的概念选择属性,具有偏向于取值较多属性的缺点。本文分析了信息论中有关熵的一些基本概念和含义,讨论了它们在挖掘分类树中的应用,利用互信息设计了一个建立分类树的算法,克服了传统算法的缺点。 相似文献
34.
数据流高速、连续无限和动态的特性使得传统的数据分析和挖掘技术无效或需要改进。以数据流分类为重点,分析了数据流分类中的一些关键问题,综述了典型的数据流分类技术;针对现有方法的不足,给出了应用主动学习和半监督学习的新思路。 相似文献
35.
36.
37.
38.
在数据流上建立有效的分类模型具有许多应用.流数据的动态性给业界提出了两个关键问题:如何监测数据流的变化;一旦发生显著变化,如何高效地组织足够的训练数据,调整无效的模型.提出了一个基于半监督学习的分类算法,较好地解决了这些问题.设计了一种识别显著变化的可靠方法;提出了一个基于naive Bayes的EM算法,利用较少的类标数据来扩大训练数据集,从而极大地降低类标数据的需求量.基于新的训练数据可以构建一个有效的分类器.实验结果证明了算法的优势. 相似文献
39.
用户通过检索平台能获得大量信息,但搜索结果往往会出现主题漂移、偏重旧网页的现象,不能满足用户实际需求.为改善这种现象,提出了一种改进的PageRank算法.该算法采用BM25相似度算法对主题相似度进行计算,根据相似度评分来赋予不同的影响权重,可以提相似度高的网页的排名;利用网页在搜索引擎周期内被搜索到的次数来表示网页存... 相似文献