排序方式: 共有15条查询结果,搜索用时 15 毫秒
1.
代码相似度检测是代码抄袭检测的核心组成部分,对于营造良好的学习氛围、提高知识产权保护意识具有重要作用。总结了应用指纹技术检测代码相似度的基本思路,分析了几种常见的指纹选取方法的优缺点,提出一种改进的面向代码相似度检测的指纹选取方法。该方法能够从疑似抄袭代码集中去除由代码编写规则产生的虚假相似代码对,有效获得代码之间准确的相似度值。 相似文献
2.
指代消解处理是自然语言处理的关键环节,也是众多语言工程项目的核心任务。本文针对指代消解的一些基本问题进行阐述,按照时间线索,对国内外各类指代消解技术方法的研究情况进行分析,阐明了指代消解技术目前的主流方法和技术线路,最后对未来汉语指代消解技术的研究前景加以展望。 相似文献
3.
This paper proposes a hierarchical word domain assignment algorithm to automatically build domain dictionaries from Machine-Readable Dictionary (MRD). The process for word domain assignment can be divided into three steps: 1) Hierarchical structure constructing; 2 ) Classifier training; 3 ) Word domain assigning. Compared with the traditional methods, the hierarchical word domain assignment algorithm enhances the accuracy of word domain assignment while reducing human efforts on collecting corpus. Experiments on WordNet 2.0 show that 62.53% of the first domain labels are matched with the WordNet Domains 3.0 by using gloss-based word domain assignment, and the performance can be further improved by utilizing the hierarchical relationships among the domain sets. 相似文献
4.
5.
未登录词词性猜测是未登录词识别的重要步骤.论文中应用条件随机域模型,使用词的外部和内部特征(组合特征),进行中文未登录词的词性猜测.文中提出增加一种新颖的内部特征-汉字偏旁,来提高词性猜测效果.试验表明,使用组合特征的词性猜测方法是有效的,汉字偏旁的加入能显著提高词性猜测的准确性,开放试验的准确率达到94.67%.实验还初步证明,将汉字偏旁作为内部特征,在词法分析方面,具有一定的实用价值. 相似文献
6.
7.
8.
面对日益激增的信息量,人们迫切希望能够拥有快速、便捷获取有用信息的技术或方法。信息检索及稍晚发展起来的信息抽取技术应运而生。本文旨在介绍并分析比较信息抽取与信息检索技术各自的发展历程、相关研究方法等重要问题,为笔者及相关研究人员今后研究提供一项基础性调研报告。 相似文献
9.
神经网络模型可以有效地处理通用领域命名实体识别,然而在标注语料匮乏和包含大量噪声的特定领域,其性能通常会下降.针对这一问题,提出一种迁移学习神经网络模型TL-BiLSTM-CRF.利用双向长短时记忆网络提取具有字符级别形态特征的字符向量,结合具有语义、语序等特征信息的词向量作为输入,构建基本模型;在基本模型中引入词适应... 相似文献
10.