摘 要: | 根据用户观看的视频时长与视频的实际时长信息来计算用户对该视频的喜好度,在spark内存计算框架下,以喜好度作为特征项,使用朴素贝叶斯,TF-IDF和改进了的TFC-IDFC分类算法,对视频用户属性进行分析,建立用户年龄区间的分类模型。此分类模型适合视频网站运营商将信息准确的推荐给用户,同时可提高信息的利用率。考虑到传统的TF-IDF算法没有体现特征项在类内和类间的分布特点,提出了改进的TFC-IDFC算法,通过正确率和F1值两个指标对以上三种分类算法的评价,证明了加权的分类算法比不加权的算法分类效果更好,改进的TFC-IDFC算法比传统的TF-IDF算法效果更优。
|