期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

对基于混合相似度的HTFC算法进行改进,要做的预处理是：建立向量空间模型,计算文档和链接的混合相似度。算法过程是：首先随机选取、√kn个文档进行层次聚类,直到剩k个聚簇为止;对这k个聚簇不断迭代直到集合元素不再变化为止;然后表示出每类;最后通过用户对结果的反馈使得新生成的簇继续迭代,最终满足用户需求。算法第1步采用的是改进的k-means算法,可提高运行效率。反馈机制对原有模型进一步修正,从而提高精度。相似文献

中文网页聚类系统的设计与实现

于铁军耿玉良《工程地质计算机应用》2005,(3):26-28,42

为便于从大量组织松散动态性强的Web文本集合中快速有效地发现知识，提出了一种基于Agent的聚类系统，它以聚类算法为核心，自动聚合相似内容的网页，并最终提交给用户界面显示，通过模糊聚类得到的样本属于各种类的不确定性程度，表达了样本类属的中介性，能更客观地反映现实世界，因而更有效地改善了查询结果，使其更具客观性。相似文献

一种可交互的数据清洗系统 总被引：5，自引：1，他引：4

王咏梅陈家琪耿玉良《计算机工程与设计》2005,26(4):955-957

对于各个领域的信息资源而言,数据质量一直是一个非常关键的问题,而现实世界中的数据往往存在着各种各样的质量问题,从简单的拼写错误到复杂的语义不一致错误。数据清洗的目标就是检测并去除数据中存在的各种错误和不一致,提高数据质量。在归纳总结数据质量问题和数据清洗相关研究的现状的基础上提出一个可交互的数据清洗框架的定义。系统提供了方便、易用的可视化的数据清洗流程定义环境。相似文献