排序方式: 共有114条查询结果,搜索用时 15 毫秒
81.
82.
随着网络的发展,Web论坛成为Web用户信息共享和分组合作的新平台.Web论坛上积累了海量的知识,由此成为互联网上进行数据挖掘的宝贵资源.在Web论坛上的应用常受到论坛上低质量帖子(垃圾贴)的影响.因此针对在Web论坛上进行垃圾贴过滤的问题,提出了基于隐含狄利克雷分布的CJTM和CAJTM模型,CJTM和CAJTM模型利用了论坛帖子的文本内容,帖子间的回复链接信息和作者信息,和传统的分类方法及基于规则的方法相比,CJTM和CAJTM模型不需要训练集和规则集.在实际Web论坛数据中进行的实验显示出较好的效果. 相似文献
83.
寻找网络的社区结构对于理解真实网络的自组织机制、可视化大网络有重要的作用.然而,现有的社区挖掘算法由于性能较低,还难以处理大型网络,特别是有着百万顶点的网络.然而,百万规模的大网络却在越来越多的真实应用中大量涌现,这对于高效的有效社区识别算法提出新的需求.为此,一种新颖的随机算法被提出,能够在接近线性时间内,从大型网络上高效地挖掘质量较高的网络社区:新算法的核心思路是在每一随机步骤中对网络中的顶点进行基于深度优先顺序的编码,这样的编码有助于有效地识别社区之间的边.最后,通过针对模拟网络和真实网络的一系列实验验证了新算法的高效性和有效性. 相似文献
84.
路径表达式查询是XML数据查询处理的核心研究问题之一,研究者开展了大量的研究工作.但这些研究更多关注XML数据上路径表达式的匹配,忽略了谓词"包含".研究XML查询处理中谓词"包含"的查询处理方法.采用了两种方法,第一种是采用跳跃表的方法,在XML分枝模式匹配时动态地对结点数据进行读取和关键字匹配.第二种是为XML文档中的词语建立倒排索引,来实现关键字的匹配.并从分枝模式路径长度、查询关键的数量和"包含"谓词判断结点的类型,对两种方法进行了分析和比较. 相似文献
85.
基于代价模型的不一致XML 数据修复启发式计算 总被引:1,自引:1,他引:0
在实际应用中,为不一致的XML 文档计算最优修复意义重大.但求解最优修复是一个NP 完全问题,特别是在XML 文档同时违反函数依赖约束和主键约束时.提出一个基于代价模型的、可以在多项式时间内完成的启发式修复求解算法.该算法首先借助索引表,在一遍扫描原始XML 文档的情况下寻找不一致数据集,然后为每一类约束的不一致数据集构造候选修复,同时计算其修复代价,最后启发式地求解一个代价最小的修复方案.实验结果表明,该算法的时间复杂度不超过冲突类的3 次方,即便是在不一致数据量很大、噪声比例很大以及涉及多类语义约束时,也能较快地完成修复. 相似文献
86.
87.
各种Web服务器和大数据框架每天都会生成大量日志,在服务管理中,会将原始日志转换为结构化格式,然后应用数据挖掘模型来分析服务状态,其中最为关键的步骤之一是日志解析.细粒度的解析和LCS可以提供更好的日志解析质量,而粗粒度的解析和简单的相似性度量可以达到更好的解析性能.对此,提出一个基于两层框架的在线日志解析方法(ML-... 相似文献
88.
事件序列中蕴藏的频繁情节刻画了用户或系统的行为规律.现有的频繁情节挖掘算法在各自支持度定义下具有较好的挖掘效果,但在支持度定义发生变化时却很难甚至无法直接挖掘频繁情节.针对用户多变的支持度定义需求,提出了一种频繁情节挖掘算法FEM-DFS(frequent episode mining-depth first search).该算法通过单遍扫描事件序列,以深度优先搜索方式来发现频繁情节,以共享前/后缀树来存储频繁情节,以单调性、前缀单调性或后缀单调性来压缩频繁情节的搜索空间.实验评估证实了所提出算法的有效性. 相似文献
89.
90.
求包含点集的最小圆是计算机图形学中的一个重要问题 ,本文提出了一种时间复杂性最差为o(n2 )的算法 ,并证明了其正确性。 相似文献