共查询到18条相似文献,搜索用时 562 毫秒
1.
一种新的分形树递归算法的研究 总被引:1,自引:0,他引:1
树木种类繁多,形态各异,在虚拟场景建模中具有广泛的应用,分形递归算法能够比较简单快捷的建立起分形树模型,但现有的分形树递归算法缺乏通用性,针对不同分枝形态的分形树需要建立不同的算法模型。本文对递归算法进行了改进,通过每次产生不同的随机数控制生成多种分枝形态各异的分形树。实验结果表明,该算法具有很好通用性,高效简洁,能生成形态更加丰富自然的分形树。 相似文献
2.
一般地,从HTML网页中提取正文信息,应先将HTML、网页解析成DOM树,然后遍历DOM树,依据目标信息在DOM树中的分布规律,将信息从DOM树中提取。这种传统方法将解析DOM树和从DOM树中提取信息看成两个独立的过程,制约了提取信息的速度。事实上,在准确提取目标信息的过程中,独立解析整个DOM树是没有必要的。在此,提出了逆序解析DOM树算法,并结合DOM树相似理论和传统的顺序解析算法,从部分目标信息开始分别向后顺序和向前逆序解析DOM树,同时定位并获取其他目标信息。利用该方法提取网页正文信息,一方面只需解析部分DOM树,从而减少了解析树结构花费的时间,另一方面不需要遍历整个DOM树查找目标信息,从而节省了查找时间,大大提高了信息提取速度。最后,通过实验证实了该方法的优越性。 相似文献
3.
Web信息抽取中需要对目标网站的网页进行聚类分析,以检测并生成信息抽取所需的模板。传统的基于DOM树编辑距离的网页聚类算法不适合文档对象模型(DOM)树结构复杂的动态模板网页,提出了一种基于局部标签树匹配的改进网页聚类算法,利用标签树中模板节点和非模板节点的层次差异性,根据节点对布局影响的大小赋予节点不同的匹配权值,使用局部树匹配完成对网页结构相似性的有效计算。实验结果表明,改进的算法较传统的基于DOM树编辑距离的网页聚类算法,在对采用模板生成的动态网页进行聚类分析时具有更高的准确率,且时间复杂度低。 相似文献
4.
讨论了利用队列来生成二叉链表树的非递归算法,通过借助了二叉树的顺序存储方法以及构建一个临时的队列来实现这个算法,该算法的提出丰富了由递归算法转换成非递归算法的方法。 相似文献
5.
6.
传统的Hilbert Packed R-树是利用Hilbert值对空间实体依次进行压缩,算法简单快速,然而空间位置上邻近的空间实体的Hilbert值并不一定相邻,使得在数据分布不均匀时,查询效率开始下降;递归聚类的算法虽然解决了以上问题,但是它计算复杂,而且容易造成R-树的不平衡,以至降低了存储利用率和检索的效率。文中对两种方法加以综合,提出了一种新的批量加载R-树的算法—HilCluster。实验结果表明,新算法不仅继承了Hilbert Packed R-树构造过程时间消耗低、存储利用率高的优点,还使得查询效率进一步提高。 相似文献
7.
传统的Hilbert Packed R-树是利用Hilbert值对空间实体依次进行压缩,算法简单快速,然而空间位置上邻近的空间实体的Hilbert值并不一定相邻,使得在数据分布不均匀时,查询效率开始下降;递归聚类的算法虽然解决了以上问题,但是它计算复杂,而且容易造成R-树的不平衡,以至降低了存储利用率和检索的效率。文中对两种方法加以综合,提出了一种新的批量加载R-树的算法—HilCluster。实验结果表明,新算法不仅继承了Hilbert Packed R-树构造过程时间消耗低、存储利用率高的优点,还使得查询效率进一步提高。 相似文献
8.
9.
严格平衡二叉排序树及其构造 总被引:1,自引:0,他引:1
论文对一直沿用至今的平衡二叉树和平衡二叉排序树概念的合理性提出质疑,给出了二叉树结点的严格平衡因子和严格平衡二叉树及严格平衡二叉排序树的新概念。论文给出的构造严格平衡二叉排序树的递归算法及二叉排序树元素插入和删除的严格平衡化过程比动态构造平衡二叉排序树的传统Adelson-Velskii和Landis算法更加简单而自然。 相似文献
10.
基于IS+-树模型的频繁模式挖掘 总被引:1,自引:0,他引:1
IS-树是一种新型的全文存储索引模型.提出一种基于扩展ISL树模型的频繁模式挖掘算法.和FP—growth方法一样,算法直接构造频繁项集,不进行Apriori算法所采用的代价很高的候选集产生与测试操作.然而它比FP-树模型具有更多的优点:只需扫描一遍事务库;挖掘任务只局部关联于一棵根树;动态更新性好,仅做增量变化.实验表明,其具有与FP—growth算法相当甚至更高的效率.更重要的是,iS^ -树模型同时是一种事务库的良好索引形式,具有高效支持事务查询的能力. 相似文献
11.
问答系统能用准确、简洁的答案回答用户用自然语言提出的问题,很明显系统中问答对的规模是影响问答系统最终性能的主要因素。为了提高问答对的规模、充分利用互联网资源,本文提出了一种基于决策树和马尔科夫链的在互联网上自动抽取问答对的算法。先根据网页中的HTML标记把网页表示成一棵DOM树;然后利用树中每个节点的结构和文字信息,抽取相应的特征;最后将得到的节点特征通过由决策树和一阶马尔可夫链结合得出的分类模型进行分类。试验结果表明准确率达到了90.398%,召回率达到了86.032%。对大量网页抽取的结果表明该分类模型能够适应对各种各样的网页的抽取。 相似文献
12.
基于DOM的网页主题信息自动提取 总被引:43,自引:0,他引:43
Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性,信息提取有助于解决这一问题.基于DOM规范,针对HTML的半结构化特征和缺乏语义描述的不足,提出含有语义信息的STU-DOM树模型.将HTML文档转换为STU-DOM树,并对其进行基于结构的过滤和基于语义的剪枝,能够准确地提取出主题信息.方法不依赖于信息源,而且不改变源网页的结构和内容,是一种自动、可靠和通用的方法.具有可观的应用价值,可应用于PAD和手机上的web浏览以及信息检索系统. 相似文献
13.
14.
基于DOM模型扩展的Web信息提取 总被引:5,自引:0,他引:5
提出了一种基于DOM模型扩展的Web信息提取方法.将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容.该方法不要求对网页的结构有预先认识,具有自动和通用的特点.提取结果除可以直接用于Web浏览外,还可用于互联网数据挖掘、基于主题的搜索引擎等应用中. 相似文献
15.
16.
拟态Web服务器中表决器通过计算并比较异构执行体响应网页的相似性来判断响应是否为合法输出,达到网页防篡改的目的.目前表决器中将网页整体作为字符串输入,采用字符串编辑距离方法计算网页的相似性,存在计算量大忽略网页原有结构信息等问题.本文采用改进简单树匹配方法,通过对网页DOM树匹配判别得到网页的相似性,DOM树节点匹配程度由节点字符串的编辑距离决定.将本文算法应用于拟态Web服务器上,进行网页篡改实验验证,与现使用算法相比,本文所采用算法在适应执行体异构性的基础上,提高了表决器的计算效率和准确性. 相似文献
17.