摘 要: | 为了应对大数据环境下图书馆个性化信息服务的发展趋势,提供更加精准的用户服务,构建基于Hadoop云计算平台的图书馆数据挖掘系统,并设计一种新型混合决策树算法。首先,设计包含4个层次的数据挖掘系统架构。然后,在算法层提出一种采用混合策略的决策树算法,该算法结合分布式改进的SPRINT算法和并行化的朴素贝叶斯算法,以便满足HDFS和MapReduce的运作方式,从而能够在Hadoop平台上进行实现。Hadoop集群环境的用户信息测试结果表明,相比单一的SPRINT算法和朴素贝叶斯算法,提出的新型混合决策树算法具有最佳的数据挖掘分类性能。
|