排序方式: 共有9条查询结果,搜索用时 15 毫秒
1
1.
4.
5.
6.
在数据仓库构建和数据集成中,面临着大量的数据清洗任务。要把数据清洗过程做得灵活并不容易,已有的工具过于依赖特定的应用。该文分析了数据质量中存在的问题,数据清洗技术的现状、发展趋势,同时提出了一个可交互的数据清洗框架。 相似文献
7.
中文Web检索中聚类算法的改进 总被引:8,自引:7,他引:1
对基于混合相似度的HTFC算法进行改进,要做的预处理是:建立向量空间模型,计算文档和链接的混合相似度。算法过程是:首先随机选取、√kn个文档进行层次聚类,直到剩k个聚簇为止;对这k个聚簇不断迭代直到集合元素不再变化为止;然后表示出每类;最后通过用户对结果的反馈使得新生成的簇继续迭代,最终满足用户需求。算法第1步采用的是改进的k-means算法,可提高运行效率。反馈机制对原有模型进一步修正,从而提高精度。 相似文献
8.
为便于从大量组织松散动态性强的Web文本集合中快速有效地发现知识,提出了一种基于Agent的聚类系统,它以聚类算法为核心,自动聚合相似内容的网页,并最终提交给用户界面显示,通过模糊聚类得到的样本属于各种类的不确定性程度,表达了样本类属的中介性,能更客观地反映现实世界,因而更有效地改善了查询结果,使其更具客观性。 相似文献
9.
一种可交互的数据清洗系统 总被引:5,自引:1,他引:4
对于各个领域的信息资源而言,数据质量一直是一个非常关键的问题,而现实世界中的数据往往存在着各种各样的质量问题,从简单的拼写错误到复杂的语义不一致错误。数据清洗的目标就是检测并去除数据中存在的各种错误和不一致,提高数据质量。在归纳总结数据质量问题和数据清洗相关研究的现状的基础上提出一个可交互的数据清洗框架的定义。系统提供了方便、易用的可视化的数据清洗流程定义环境。 相似文献
1