首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
提出了一种基于二叉树结构的LaTeX格式数学公式匹配算法。首先根据数学公式的LaTeX格式生成其二叉树表示,并对树形结构作归一化处理,然后先序遍历二叉树得到公式元素序列,并对序列中的变量名称作归一化处理。对于待匹配的两个数学公式,根据两个公式元素序列对应位相同的公式元素数计算两个公式的相似度。实验结果表明,该算法实现了数学公式的准确匹配,是一种较实用的算法。  相似文献   

2.
《软件》2019,(11):4-8
为了检测出数据库实验课程中结构化查询语言(StructuredQueryLanguage,SQL)语句代码的抄袭行为,发现因SQL语句篇幅较短,使用现有的技术进行代码检测却没有得到预期的结果,于是提出了一种基于编码习惯的SQL语句抄袭检测算法。获取学生历史的编码数据并分类,判定待检测代码的类别并将其与之类别相同的代码依照学生的编码习惯进行特征提取,进而得到特征矩阵并对比代码之间的相似程度,对涉嫌抄袭的代码进行过滤,判断该代码是否为该学生编写。实验结果表明,该算法能够有效地判断出学生的抄袭行为,同时也解决因编码篇幅较短而带来的难以检测是否为抄袭代码这一问题。  相似文献   

3.
特征提取是文本抄袭检测的重要环节,文本特征的数量和质量严重影响文本抄袭检测的准确率。针对现有方法的不足,提出一种基于依存句法的文本抄袭检测算法。该算法在依存句法分析的基础上,通过分析句子中词语间的关系以及合并短小词语建立句法框架,进而提取文本特征。其中,短小词语的合并能够使无意义词语合并成为有意义实体来表示文本特征,使文本特征更全面。实验结果表明,该文本特征提取算法能够准确选择文本的特征集,解决了文本特征数量多的问题,检测的准确率也有所提高。  相似文献   

4.
在计算机科学与工程中,二叉树是一类十分重要的数据结构,有着广泛的应用。本文介绍二叉树的主要操作:遍历二叉树,和遍历算法;对于后序遍历,提出一种新的改进的非递归算法。传统的后序遍历非递归算法,需要为二叉树的结点建立标志位,用以判断该结点是否应进行访问。标志位随同结点的指针一起存入栈中。标志位的使用无疑增加了存贮空间。我们提出的改进算法,无须为二叉树的结点建立标志位,从而节省了存贮空间,但并不增加算法的时间复杂度。算法中所采用的思想与技巧亦可以推广应用到一般树(多叉树)的遍历算法中。  相似文献   

5.
本文源于一个手写数学公式识别系统,该系统实现了手写数学公式到文本公式的自动转化。文中提出了一种基于分块树的数学公式结构分析方法,该方法首先根据其内部结构特征将数学表达式分解为若干子模块,并采用树型结构对每个子模块内部字符之间的结构关系进行表示,最终形成整个表达式的树型表示。该方法定义了一系列的字符结构属性,将字符及属性值作为结构分析的结果,这些属性值再现了公式的结构特征,并很容易被系统的公式文本显示部分所利用。另外,该方法对传统的字符空间关系类型进行了简化,减小了识别误差,而引入的分块处理方式更加适合具有根式和分式等多层嵌套结构公式的处理,并且具有较强的可扩展性。  相似文献   

6.
李希春 《计算机学报》1996,19(7):554-557
本文提出了一种可简单、高效地表示二叉树的存储结构。该结构:(1)显著地提高了寻找给定结点的父/兄结点等基本操作的时间效率,达到O(1),高于传统结构树下的效率;(2)使遍历操作不再显式或隐式地使用辅助堆栈;(3)提高了存储结构中指针字段利用率;(4)保持其它基本操作的效率不变。  相似文献   

7.
针对目前代码抄袭检测方面的研究大多是基于程序源码层面进行相似度比较,不需要对代码进行语法分析,由于忽略程序语法语义,对稍加结构修改的抄袭行为无法有效检测的现状,提出一种基于AST的代码抄袭检测方法.先将代码进行格式化预处理,再进行词法分析、语法分析,得到对应的AST;然后遍历AST生成代码序列,对代码序列进行相似度计算,从而得到代码的抄袭检测报告.实验结果表明,该方法能够有效检测出C程序代码的抄袭行为,并对C++、Java等多种程序代码的抄袭检测具有一定的通用性和可扩展性.  相似文献   

8.
传统的多模式匹配算法是用树型结构的有限自动机实现的 ,它具有很多缺点 .本文提出的多模式匹配算法是基于有序二叉树的多模式匹配算法 .实验证明 ,本文算法不但具有和传统算法相当的查找速度 ,而且构造速度快、内存耗费少 .因此 ,本文提出的算法特别适用于要求动态构造自动机的情况  相似文献   

9.
基于XML的C代码抄袭检测算法   总被引:3,自引:0,他引:3       下载免费PDF全文
主要研究一种基于XML文本的C代码抄袭检测算法。将C程序源代码转化为XML文本,提取XML文本各行标记的属性,计算XML文本行的相似值,得到程序对的相似度。并对抄袭检测算法实行分类测试:按十二种抄袭手段分类;按复杂语义和复杂数据结构分类。测试结果对比验证了抄袭检测算法的有效性。  相似文献   

10.
提出一种基于局部词频指纹的论文抄袭检测算法。将句子看成文档的基本构成元素,对其进行有效关键词提取排序重构,根据编码和词频联合方式获取句子指纹,以此计算文本间相似度。在新闻网页精简集SOGOU-T上的实验结果表明,该算法在一定程度上克服了现有论文抄袭检测算法检测精度低的缺点,具有较快的检测速度。  相似文献   

11.
剽窃是目前学术界和教育界面临的普遍问题,成熟的商业化剽窃检测系统运行时间和经济代价高,不适合实时性、轻量级的学生作业等日常检测。对基于文本指纹的Winnowing剽窃检测算法进行扩展,在提取指纹的同时记录文本定位及其长度信息,给出了指纹提取、文本定位、剽窃指纹索引合并等算法,实现了剽窃文本的检测、定位、标记。实验结果及算法在应用系统中实际运行状况表明,算法的扩展对其性能影响不大,普通硬件配置条件下即可满足中小规模应用需求。扩展算法在原算法轻量级、高效率、可靠性和灵活度高等特点基础上,进一步拓展了Winnowing的功能,增强了原算法的适应性和应用价值。  相似文献   

12.
针对单处理器后序遍历二叉树的时间复杂度为O(n)问题,提出了在EREW PRAM并行计算模型下一种后序遍历二叉树的算法。将后序遍历二叉树的边构造一个单链表,使用指针跳越技术对单链表进行表序问题求解,从而得到后序遍历二叉树结点的顺序。得出了运用该算法将时间复杂度从O(n)减少到O(logn)的结论。  相似文献   

13.
Unauthorized re‐use of code by students is a widespread problem in academic institutions, and raises liability issues for industry. Manual plagiarism detection is time‐consuming, and current effective plagiarism detection approaches cannot be easily scaled to very large code repositories. While there are practical text‐based plagiarism detection systems capable of working with large collections, this is not the case for code‐based plagiarism detection. In this paper, we propose techniques for detecting plagiarism in program code using text similarity measures and local alignment. Through detailed empirical evaluation on small and large collections of programs, we show that our approach is highly scalable while maintaining similar levels of effectiveness to that of the popular JPlag and MOSS systems. Copyright © 2006 John Wiley & Sons, Ltd.  相似文献   

14.
一种基于静态词法树的程序相似性检测方法*   总被引:1,自引:0,他引:1  
传统的程序相似性检测工具并不能有效地检测出一些常见的高级词法、语义理解变换的抄袭方式。首先归纳了学生常用的三类抄袭手段,然后给出了基于词法树的程序相似性检测方法。以C语言为例,总结了生成词法树的结构体,并对程序的词法树进行主数据流、结构控制流和时序流分析后得出结构体依赖图;使用形式化的图同型方法来判断代码是否相似,还给出了一个聚类方法以获得彼此相似的程序子集。通过与JPlag、BuaaSim系统针对一组典型的抄袭样本集进行评测结果对比,本方法具有更好的检测效果。  相似文献   

15.
在分析现有程序代码抄袭检测系统的特点及局限性的基础上,提出一种综合文本分析、结构度量和属性计数技术的混合式程序抄袭检测方法。应用文档指纹技术和Winnowing算法计算程序的文本相似度;将程序代码表示成动态控制结构树(Dynamic Control Structure tree,DCS),运用Winnowing算法计算DCS树相似度,从而得到结构相似度;收集并统计程序中的每个变量信息,应用变量相似度算法分析变量信息节点获取变量相似度;分别赋予文本相似度、结构相似度和变量相似度一个权值,计算得到总体的代码相似度。实验结果表明,所提出的方法能够有效检测出各种抄袭行为。针对不同的抄袭门槛值,使用该方法的检测结果准确度和查全率高于JPLAG系统。特别对于结构简单的程序组,此方法和JPLAG系统检测结果的平均准确度分别为82.5%和69.5%,说明所提的方法更加有效。  相似文献   

16.
跨语言剽窃一直是学术不端现象发生的重灾区,也是极难发现的一种剽窃行为。跨语言剽窃的检测和识别技术是目前最亟待发展的技术,也是反剽窃抄袭领域的最大技术难点。在总结和分析了单语剽窃检测和跨语言剽窃检测国内外研究现状的基础上,针对跨语言剽窃检测存在的问题,提出了一种基于指纹融合的跨语言剽窃检测技术,并将所提出的技术在人工构建的剽窃集上进行实验验证,对实验结果进行详细分析和对比分析,验证了该技术的有效性。  相似文献   

17.
基于多维二进制搜索树的异常检测技术   总被引:1,自引:0,他引:1  
将多维二进制搜索树(kd树)应用于异常检测,用kd树对网络数据进行组织、建立用户轮廓并以此为基础实现了一个异常检测系统,通过实验给出了系统对不同种类攻击的检测效果。实验结果表明,kd树在异常检测中具有很高的适用性。  相似文献   

18.
为提高输入信息较长时重复累积码的编码效率,对重复累积码的交织器进行优化改进。按照满二叉树子节点的奇偶排列方式对交织器的输入序列依次分组,并利用叶子节点对分组信息重新组合获得输出序列,与S随机交织器相比,大大降低输入信息之间的相关性,避免了RA码校验矩阵中I、II类4环的产生,保证了译码的准确性。仿真结果表明,在输入信息序列较长时,改进的交织器编码速度快且误码率远低于行列规则交织器;与S随机交织器相比,改进的交织器可以显著提高编码速率,且在误码率同为1×10-4时约有0.3dB的增益。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号