首页 | 官方网站   微博 | 高级检索  
     

基于无监督学习的数据清洗算法
引用本文:孙铁民,于杰,尚程,田大新,张丽华.基于无监督学习的数据清洗算法[J].吉林大学学报(信息科学版),2008,26(6).
作者姓名:孙铁民  于杰  尚程  田大新  张丽华
作者单位:1. 吉林大学科技处,长春,130012
2. 吉林大学通信工程学院,长春,130012
3. 吉林大学计算机科学与技术学院,长春,130012
摘    要:为了解决数据仓库中相似重复记录的数据问题,提出了基于无监督学习的数据清洗算法.该算法采用基于Hebbian假设的自适应学习方法,并通过相似度确定奖励和惩罚等级.在学习过程中根据需要增加新的聚类,在学习结束后,通过分析聚类情况删除错误的聚类,从而避免了死神经元问题并使聚类更加准确.实验表明,该算法能准确地完成实体识别.

关 键 词:数据仓库  数据抽取  数据转换  数据清洗  数据装载

Data Cleaning Algorithm Based on Unsupervised Learning
SUN Tie-min,YU Jie,SHANG Cheng,TIAN Da-xin,ZHANG Li-hua.Data Cleaning Algorithm Based on Unsupervised Learning[J].Journal of Jilin University:Information Sci Ed,2008,26(6).
Authors:SUN Tie-min  YU Jie  SHANG Cheng  TIAN Da-xin  ZHANG Li-hua
Abstract:
Keywords:
本文献已被 维普 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号