首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
提出一种基于局部词频指纹的论文抄袭检测算法。将句子看成文档的基本构成元素,对其进行有效关键词提取排序重构,根据编码和词频联合方式获取句子指纹,以此计算文本间相似度。在新闻网页精简集SOGOU-T上的实验结果表明,该算法在一定程度上克服了现有论文抄袭检测算法检测精度低的缺点,具有较快的检测速度。  相似文献   

2.
文本复制检测是这样一种行为:它判断一个文档的内容是否抄袭、剽窃或者复制于另外一个或者多个文档。文档复制检测领域的算法有很多,基于句子相似度的检测算法结合了基于字符串比较的方法和基于词频统计的方法的优点,在抓住了文档的全局特征的同时又能兼顾文档的结构信息,是一种很好的算法。本文在该算法的基础上对相似度算法进行了改进,提出了一种新的面向中文文档的基于句子相似度的文档复制检测算法。本算法充分考虑了中文文档的特点,选择句子作为文档的特征单元,并解决了需要人工设定阈值的问题,提高了检测精度。实验证明,无论是在效率上,还是在准确性上,该算法都是可行的。  相似文献   

3.
基于句子相似度的文档复制检测算法在抓住了文档的全局特征的同时又兼顾文档的结构信息,在该算法的基础上对相似度算法进行了改进,解决了人工设定阈值的问题,并提高了检测精度。实验证明,该算法是可行的,并减少了响应时间。  相似文献   

4.
应用图模型来研究多文档自动摘要是当前研究的一个热点,它以句子为顶点,以句子之间相似度为边的权重构造无向图结构。由于此模型没有充分考虑句子中的词项权重信息以及句子所属的文档信息,针对这个问题,该文提出了一种基于词项—句子—文档的三层图模型,该模型可充分利用句子中的词项权重信息以及句子所属的文档信息来计算句子相似度。在DUC2003和DUC2004数据集上的实验结果表明,基于词项—句子—文档三层图模型的方法优于LexRank模型和文档敏感图模型。  相似文献   

5.
在分析现有程序代码抄袭检测系统的特点及局限性的基础上,提出一种综合文本分析、结构度量和属性计数技术的混合式程序抄袭检测方法。应用文档指纹技术和Winnowing算法计算程序的文本相似度;将程序代码表示成动态控制结构树(Dynamic Control Structure tree,DCS),运用Winnowing算法计算DCS树相似度,从而得到结构相似度;收集并统计程序中的每个变量信息,应用变量相似度算法分析变量信息节点获取变量相似度;分别赋予文本相似度、结构相似度和变量相似度一个权值,计算得到总体的代码相似度。实验结果表明,所提出的方法能够有效检测出各种抄袭行为。针对不同的抄袭门槛值,使用该方法的检测结果准确度和查全率高于JPLAG系统。特别对于结构简单的程序组,此方法和JPLAG系统检测结果的平均准确度分别为82.5%和69.5%,说明所提的方法更加有效。  相似文献   

6.
多文档自动文摘能够帮助人们自动、快速地获取信息,使用主题模型构建多文档自动文摘系统是一种新的尝试,其中主题模型采用浅层狄利赫雷分配(LDA)。该模型是一个多层的产生式概率模型,能够检测文档中的主题分布。使用LDA为多文档集合建模,通过计算句子在不同主题上的概率分布之间的相似度作为句子的重要度,并根据句子重要度进行文摘句的抽取。实验结果表明,该方法所得到的文摘性能优于传统的文摘方法。  相似文献   

7.
信息数字化后使抄袭、剽窃变得更加容易了,为了杜绝学生作业中出现的抄袭现象,急需高效的剽窃检测技术,帮助教师对学生作业的抄袭情况实施监督检测。本文分别用具有除噪和过滤功能的Winnowing算法和动态规划算法对学生作业进行剽窃检测。通过对文档间相似度的对比,实现了对作业剽窃程度的检测。实验结果表明,Winnowing算法更加有效、更加可靠。  相似文献   

8.
提出了基于LDA(latent Dirichlet allocation)重要主题的多文档自动摘要算法。该算法与已有的基于主题模型的多文档自动摘要算法主要有两点区别:第一,在计算句子主题与文档主题相似度问题上,引入并定义了主题重要性的概念,将LDA模型建立的主题分成重要和非重要主题两类,计算句子权重时重点考虑句子主题和文档重要主题的相似性;第二,该方法同时使用句子的词频、位置等统计特征和LDA特征组成的向量计算句子的权重,既突出了传统的统计特征的显著优势,又结合了LDA模型的主题概念。实验表明,该算法在DUC2002标准数据集上取得了较好的摘要效果。  相似文献   

9.
从抄袭的定义和法律规定出发,在分析比较国内外主要的论文抄袭判定方法基础上,提出存在的问题和改进策略,最后给出一种基于段落相似度的论文抄袭判定算法。此算法可以检测出抄袭者将论文的段落顺序打乱或者将段落文字打乱重新组合的情况,并将确认抄袭和疑似抄袭的抄袭论文和原论文的相应内容输出,方便用户进一步审查。  相似文献   

10.
句子相似度的计算在自然语言处理的各个领域占有很重要的地位,一些传统的计算方法只考虑句子的词形、句长、词序等表面信息,并没有考虑句子更深层次的语义信息,另一些考虑句子语义的方法在实用性上的表现不太理想。在空间向量模型的基础上提出了一种同时考虑句子结构和语义信息的关系向量模型,这种模型考虑了组成句子的关键词之间的搭配关系和关键词的同义信息,这些信息反应了句子的局部结构成分以及各局部之间的关联关系,因此更能体现句子的结构和语义信息。以关系向量模型为核心,提出了基于关系向量模型的句子相似度计算方法。同时将该算法应用到网络热点新闻自动摘要生成算法中,排除文摘中意思相近的句子从而避免文摘的冗余。实验结果表明,在考虑网络新闻中的句子相似度时,与考虑词序与语义的算法相比,关系向量模型算法不但提高了句子相似度计算的准确率,计算的时间复杂度也得到了降低。  相似文献   

11.
Digital plagiarism is a problem for educators all over the world. There are many software tools on the market for uncovering digital plagiarism. Most of them can work only with text submissions. In this paper, we present a new architecture for a plagiarism detection tool that can work with many different kinds of digital submissions, from plain or formatted texts to audio podcasts. The open architecture is based on converting the digital submission into text form for processing by a plagiarism detection algorithm. To process non-text submissions, the system is extended with the appropriate converter. Such an open architecture makes the anti-plagiarism toolbox universal and easily adaptable for processing virtually any kind of digital submissions. This paper describes a software prototype based on the proposed architecture and presents the results of its implementation on a large archive of student papers.  相似文献   

12.
传统论文自动推荐算法仅从单视图角度实现分类,缺乏特征融合及多视图语义知识,上下文信息和长距离依赖利用不明显,较难挖掘到深层次文本特征,从而限制学术论文推荐的准确度。针对这些问题,提出了一种基于多视图融合TextRCNN的论文自动推荐模型,该模型融合论文标题、关键词和摘要三个视图特征,利用卷积神经网络(CNN)、双向长短时记忆网络(BiLSTM)和注意力机制构建模型,实现对不同学科方向论文的自动分类及推荐。实验结果表明,设计的论文推荐模型在精确率、召回率和F1值上均有所提升,比机器学习方法平均提高3.40%、3.57%和3.49%,也优于单视图和已有经典的深度学习方法。该方法有效利用多视图知识和上下文语义信息,提高论文推荐的准确率,进而节约科研工作者检索所需论文所花费时间和精力,进一步提高科研人员的效率,推荐符合其研究需求的学术论文,具有良好的学术价值和应用扩展。  相似文献   

13.
The problems of evaluating verbal models in economics are discussed in terms of their testing for plagiarism, artificially generated texts, etc. It is noted that the scientific community is primarily interested in the adequate evaluation of verbal models, including books, theses, and scientific reports.  相似文献   

14.
主题检测是互联网舆情分析任务中不可或缺的工作,在话题发现、热点话题等方面会遇到大量的不同种类的文本,它们有着不同的特性,却包含着相同的主题。有效地利用不同源的特性具有重要的科研和实践意义。大多数主题模型都是检测单一来源的文档,但媒体消息都是从多种平台进行传播,而且消息长度不一,不同平台都有其各自的属性,从而导致难以进行统一的舆情监控。为此,提出了一个基于共现关系的多源主题融合模型(Multi-source Topic Fusion Model,MTFM),该模型将共现(同一内容在不同地方出现)纳入到多源主题融合模型中实现异类源的准确话题提取。实验结果表明,与当前用于不同源主题检测的经典模型相比较,MTFM提供了另一种挖掘主题的方法。  相似文献   

15.
为使题注生成模型生成流畅、连贯和信息丰富的特定信息题注,在Transformer架构的基础上提出了Transformer Chart to Text(TransChartText)模型。通过筛选各种科研论文和新闻文章网站,制作了基于图表的题注描述数据集,该数据集的英语题注描述涵盖了丰富的数据类别和逻辑推理。引入数据变量替换图表数据值,有效提高了模型生成题注的内容选择,促使模型生成了连贯的题注内容。为进一步增强模型学习词与词之间位置关系的能力并降低错误词序频率,模型分别对编码器和解码器引入空间位置嵌入编码和集束搜索算法。实验结果表明,TransChartText模型在内容选择(CS)、内容排序(CO)、ROUGE、BLEU指标上取得了更好的分数,生成了高质量的基于图表的英语题注。  相似文献   

16.
中文文本中抽取特征信息的区域与技术   总被引:30,自引:3,他引:30  
本文探讨了各种从中文文本中抽取特征信息的区域和技术。本文以新闻语料、科技论文、公文类文献为例,详细论述了从各类文本中抽取特征信息的区域与技术,对科技论文,还给出了一些可操作的产生式规则。无论对自动标引、自动分类,还是自动文摘的研究者而言,本文的方法与结论都有一定的参考价值。  相似文献   

17.
针对以维吾尔语书写的文档间的相似性计算及剽窃检测问题,提出了一种基于内容的维吾尔语剽窃检测(U-PD)方法。首先,通过预处理阶段对维吾尔语文本进行分词、删除停止词、提取词干和同义词替换,其中提取词干是基于N-gram 统计模型实现。然后,通过BKDRhash算法计算每个文本块的hash值并构建整个文档的hash指纹信息。最后,根据hash指纹信息,基于RKR-GST匹配算法在文档级、段落级和句子级将文档与文档库进行匹配,获得文档相似度,以此实现剽窃检测。通过在维吾尔语文档中的实验评估表明,提出的方法能够准确检测出剽窃文档,具有可行性和有效性。  相似文献   

18.
针对司法领域关系抽取任务中模型对句子上下文理解不充分、重叠关系识别能力弱的问题,提出了一种基于刑事Electra(CriElectra)的编-解码关系抽取模型.首先,参考中文Electra的训练方法,在1000000份刑事数据集上训练得到了CriElectra;然后,在双向长短期记忆网络(BiLSTM)模型上加入Cri...  相似文献   

19.
在智能问诊中,为了让医生快速提出合理的反问以提高医患对话效率,提出了基于深度神经网络的反问生成方法。首先获取大量医患对话文本并进行标注;然后使用文本循环神经网络(TextRNN)、文本卷积神经网络(TextCNN)二种分类模型分别对医生的陈述进行分类;再利用双向文本循环神经网络(TextRNN-B)、双向变形编码器(BERT)分类模型进行问题触发;设计六种不同的问答选取方式来模拟医疗咨询领域情景,采用开源神经机器翻译(OpenNMT)模型进行反问生成;最后对已生成的反问进行综合评估。实验结果表明,使用TextRNN进行分类优于TextCNN,利用BERT模型进行问题触发优于TextRNN-B,采用OpenNMT模型在Window-top方式下实现反问生成时,使用双语评估替补(BLEU)和困惑度(PPL)指标进行评价的结果最好。所提方法验证了深度神经网络技术在反问生成中的有效性,可以有效解决智能问诊中医生反问生成的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号