排序方式: 共有7条查询结果,搜索用时 0 毫秒
1
1.
基于Web挖掘的网页清洗技术 总被引:1,自引:0,他引:1
随着互联网上信息的大量增多,Web挖掘技术越来越重要。而在Web挖掘过程中,基于Web的信息抽取的主要部分是如何去除网页中的噪音数据,它是Web数据的预处理的过程,这个预处理结果影响了Web挖掘的结果。在文中先分析了噪音数据的特点,然后根据实际观察提取规则并且用于模型统计的方法,去除噪音数据,抽取相关可利用的信息。 相似文献
2.
3.
基于概率统计技术和规则方法的新词发现 总被引:9,自引:1,他引:8
新词/短语的识别是自然语言处理、信息检索和机器翻译等领域的一项基础研究。该文分析了已有短语抽取技术,并结合汉语特点,提出了基于概率统计技术和规则方法相结合的概念抽取方法。该方法包括高效的“二元语法”统计模型、统计算法、统计选词策略、丰富的规则知识和规则过滤算法。实验证明该方法适用于从大规模语料库中自动高效地发现新词/短语。 相似文献
4.
一种基于动态进化模型的事件探测和追踪算法 总被引:16,自引:2,他引:16
在大量分析网络新闻特点的基础上,借鉴Single-Pass聚类思想,并结合新闻要素给出了一种基于动态进化模型的事件探测和追踪算法.该动态模型是基于新闻事件的生存特点提出的,包括:基于时间距离的相似度计算模型、事件模板进化策略以及动态阈值设置思想.该算法可以自动对新闻资料进行组织生成新闻专题,进而为用户提供个性化服务.实验结果验证了算法的有效性. 相似文献
5.
6.
数据仓库中ETL技术的研究 总被引:43,自引:0,他引:43
作为数据仓库的关键部件,支持数据抽取、清洗、转换和装载的工具集对任何数据仓库工程都是一个必不可少的成功因素。该文简单介绍了ETL技术,包括ETL的相关概念、ETL在数据仓库中的功能和重要地位以及现有的研究成果,然后重点介绍了ETL的具体设计和实现方法。 相似文献
7.
一种基于Rough集的层次聚类算法 总被引:13,自引:0,他引:13
Rough集理论是一种新型的处理含糊和不确定性知识的数学工具,将Rough集理论应用于知识发现中的聚类分析,给出了局部不可区分关系、个体之间的局部不可区分度和总不可区分度、类之间的不可区分度、聚类结果的综合近似精度等定义,在此基础上提出了一种基于Rough集的层次聚类算法,该算法能够自动调整参数,以寻求更优的聚类结果。验结果验证了该算法的可行性,特别是在符号属性聚类方面有较好的聚类性能。 相似文献
1