首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 265 毫秒
1.
专利和期刊隶属于不同的知识组织体系,要实现专利与期刊文献的交叉浏览和检索必须解决两种分类法(中国图书馆分类法(CLC)和国际专利分类法(IPC))之间的映射问题。在调研现有分类法类目映射方法的基础上,讨论了基于机器学习实现中国图书馆分类法和国际专利分类法之间类目映射的方法。通过对中图法某个类目标识的语料进行训练得到该类目的分类器,然后用其对国际专利分类法标识的语料进行分类,对分类结果进行分析得出类目间的映射关系。对比实验证明了该方法的有效性。  相似文献   

2.
周林志  齐建东  王建新  朱礼军 《计算机工程》2010,36(23):274-276,279
专利作为一种具有特殊性质的文献,包含先进的技术方案,但存在管理困难、相对孤立、使用率低等弊端。针对该问题,定义分类法类目的概念模型,通过计算类目之间的概念相似度,为国际专利分类法与中国图书分类法建立类目映射。在计算类目相似度中引入与类目相关的词汇语义相似度计算,综合考虑类目的上下文环境对类目间关系的影响,降低专利数据的孤立性,实现专利数据与其他期刊数据的交互操作。实验表明,该方法能有效提高类目间相似度计算的准确率。  相似文献   

3.
提出一种基于支持向量机和自扩展的实体关系抽取方法,用于解决实体关系抽取研究中测试语料库缺乏的问题.采用自扩展方法自动学习未标注语料库,减少人工标注的时间;从标注语料中构造特征向量;支持向量机对特征向量进行学习,得到分类模型,实现实体关系的自动抽取.  相似文献   

4.
类中心分类法是非常有效的分类算法。但由于向量空间产生空间扭曲,导致类中心分类法处理某些界限不明显的类别精确度不高。对此引入仿射几何和力的正交分解的方法,提出基于仿射几何和力的正交分解模型的类中心分类法的改进算法。在降低了计算维度的同时解决了由于向量空间特征项维被认为是正交带来的空间扭曲引起的误差。  相似文献   

5.
多分类孪生支持向量机研究进展   总被引:3,自引:0,他引:3  
孪生支持向量机因其简单的模型、快速的训练速度和优秀的性能而受到广泛关注.该算法最初是为解决二分类问题而提出的,不能直接用于解决现实生活中普遍存在的多分类问题.近来,学者们致力于将二分类孪生支持向量机扩展为多分类方法并提出了多种多分类孪生支持向量机.多分类孪生支持向量机的研究已经取得了一定的进展.本文主要工作是回顾多分类孪生支持向量机的发展,对多分类孪生支持向量机进行合理归类,分析各个类型的多分类孪生支持向量机的理论和几何意义.本文以多分类孪生支持向量机的子分类器组织结构为依据,将多分类孪生支持向量机分为:基于“一对多”策略的多分类孪生支持向量机、基于“一对一”策略的多分类孪生支持向量机、基于“一对一对余”策略的多分类孪生支持向量机、基于二叉树结构的多分类孪生支持向量机和基于“多对一”策略的多分类孪生支持向量机.基于有向无环图的多分类孪生支持向量机训练过程与基于“一对一”策略的多分类孪生支持向量机类似,但是其决策方式有其特殊的优缺点,因此本文将其也独立为一类.本文分析和总结了这六种类型的多分类孪生支持向量机的算法思想、理论基础.此外,还通过实验对比了分类性能.本文工作为各种多分类孪生支持向量机之间建立了联系比较,使得初学者能够快速理解不同多分类孪生支持向量机之间的本质区别,也对实际应用中选取合适的多分类孪生支持向量机起到一定的指导作用.  相似文献   

6.
冯建周  马祥聪 《自动化学报》2020,46(8):1759-1766
细粒度实体分类(Fine-grained entity type classification, FETC)旨在将文本中出现的实体映射到层次化的细分实体类别中. 近年来, 采用深度神经网络实现实体分类取得了很大进展. 但是, 训练一个具备精准识别度的神经网络模型需要足够数量的标注数据, 而细粒度实体分类的标注语料非常稀少, 如何在没有标注语料的领域进行实体分类成为难题. 针对缺少标注语料的实体分类任务, 本文提出了一种基于迁移学习的细粒度实体分类方法, 首先通过构建一个映射关系模型挖掘有标注语料的实体类别与无标注语料实体类别间的语义关系, 对无标注语料的每个实体类别, 构建其对应的有标注语料的类别映射集合. 然后, 构建双向长短期记忆(Bidirectional long short term memory, BiLSTM)模型, 将代表映射类别集的句子向量组合作为模型的输入用来训练无标注实体类别. 基于映射类别集中不同类别与对应的无标注类别的语义距离构建注意力机制, 从而实现实体分类器以识别未知实体分类. 实验证明, 我们的方法取得了较好的效果, 达到了在无任何标注语料前提下识别未知命名实体分类的目的.  相似文献   

7.
HNC语义标注模型的构建   总被引:1,自引:0,他引:1  
谢法奎  张全 《计算机科学》2009,36(5):238-240
介绍一种基于HNC理论的、人机结合的汉语语料语义标注模型.首先分析了HNC语义标注的内容,在此基础上定义了标注的流程.因标注十分复杂,在流程的主要环节使用机器标注来帮助人工标注.具体地说,在语义块切分问题上采用最大熵模型,其正确率和召回率分别达到了83.78%和91.17%;在句类判断问题上采用基于实例的模型,其正确率达到了51.64%.运用此标注模型建设了HNC语义标注语料库,目前语料规模已达到40万字.  相似文献   

8.
建立手语汉语平行语料库的目的是用于机器翻译和语言对比研究,并且能够系统地保存手语资源,保护手语和聋人文化。手语汉语平行语料库存储的内容主要包括手语视频、被采集者信息和标注者信息,以及通过多媒体标注软件ELAN转写的十四层标注信息,包括手控和非手控信息。该文采用基于向量空间的余弦相似性算法,实现了用手语语料相似度的计算来帮助语料库去重,并取得了较明显的效果;同时用此算法进行专家相似度测试以确保语料库的质量。  相似文献   

9.
一种基于词义向量模型的词语语义相似度算法   总被引:1,自引:0,他引:1  
李小涛  游树娟  陈维 《自动化学报》2020,46(8):1654-1669
针对基于词向量的词语语义相似度计算方法在多义词、非邻域词和同义词三类情况计算准确性差的问题, 提出了一种基于词义向量模型的词语语义相似度算法.与现有词向量模型不同, 在词义向量模型中多义词按不同词义被分成多个单义词, 每个向量分别与词语的一个词义唯一对应.我们首先借助同义词词林中先验的词义分类信息, 对语料库中不同上下文的多义词进行词义消歧; 然后基于词义消歧后的文本训练词义向量模型, 实现了现有词向量模型无法完成的精确词义表达; 最后对两个比较词进行词义分解和同义词扩展, 并基于词义向量模型和同义词词林综合计算词语之间的语义相似度.实验结果表明本文算法能够显著提升以上三类情况的语义相似度计算精度.  相似文献   

10.
为了得到实用性强的垃圾邮件过滤方法,将距离函数分类法首次引入到垃圾邮件过滤中.在通用邮件语料库上进行测试,并与目前过滤性能较好的KNN算法进行比较,实验结果显示距离函数分类法中的类中心向量法不适合用于垃圾邮件的过滤,而类重心向量法在保持较高过滤性能的同时,具有训练和过滤速度快的优点,是一种理想实用的垃圾邮件过滤方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号