首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
专利和期刊隶属于不同的知识组织体系,要实现专利与期刊文献的交叉浏览和检索必须解决两种分类法(中国图书馆分类法(CLC)和国际专利分类法(IPC))之间的映射问题。在调研现有分类法类目映射方法的基础上,讨论了基于机器学习实现中国图书馆分类法和国际专利分类法之间类目映射的方法。通过对中图法某个类目标识的语料进行训练得到该类目的分类器,然后用其对国际专利分类法标识的语料进行分类,对分类结果进行分析得出类目间的映射关系。对比实验证明了该方法的有效性。  相似文献   

2.
国际专利分类法(international patent classification,IPC)和中国图书馆分类法(Chinese library classification,CLC)作为重要分类标识,分别在专利信息和期刊文献的组织以及管理中发挥着重要作用.如何准确地建立它们之间的映射关系对实现专利信息、期刊资源交叉浏览和检索有着重要的意义.提出了基于BERT预训练上下文语言模型的孪生网络用于建立IPC类目和CLC类目之间的映射关系,利用孪生网络模型分别抽象这2个分类法类目描述文本,通过平均池化抽象后的向量表示计算得到它们相同维度的甸子向量,基于余弦相似度计算句子之间的相似度得分,完成类目映射.在人工标注一定规模的IPC类目和CLC类目之间的映射语料库上进行实验验证,结果表明提出的方法显著优于基于规则的方法和Sia-Multi,Bi-TextCNN,Bi-LSTM等深度神经网络的方法.相关的代码、模型和人工标注语料库已经公开发布.  相似文献   

3.
利用高维海量数据点的自身特性和所属类别的唯一性,提出一种改进的无监督分类算法。计算高维点间的互相似度,利用相似性图像处理技术,在每次迭代计算中对数据集进行分割与分类,对数量较少的孤立点进行重分类。实验结果表明,该算法可在没有人工干预的情况下实现高维数据的自适应分类,相比K-means和Isodata算法,所需的计算迭代次数与计算时间较少。  相似文献   

4.
基于项目的协同过滤推荐算法在电子商务中有着广泛的引用,该算法的核心是计算项目之间的相似度.传统的计算项目相似度算法仅仅通过项目间共同用户评分值差异来计算,在数据稀疏情况下,项目间共同用户评分值很少,导致此类算法性能严重下降.针对此问题,从项目间的整体评分角度出发,提出争议相似度的概念,争议相似度从项目间评分方差差异的角度衡量项目间相似性.将争议度特征融合到基于项目之间共同用户评分的传统相似度算法中,进而提出了融合项目争议度特征的协同过滤推荐算法,最终缓解了传统算法在稀疏数据情况下相似度计算不准确的问题.实验结果表明该算法在数据稀疏环境下可以明显提升推荐质量.  相似文献   

5.
针对传统基于距离度量的聚类算法难以适合高维数据聚类以及高维数据之间相似度难定义的问题,提出了一种新的高维数据聚类算法.该算法基于一个能够更准确地表达出高维对象之间相似性的度量函数,首先计算对象两两之间的相似度并得出一个相似度矩阵,然后根据该相似度矩阵和阈值大小自底向上对数据进行聚类分析.实验结果显示,该算法能够获得质量更高的聚类结果,并且不受孤立点影响,对输入数据顺序也不敏感.  相似文献   

6.
针对同一机构实体对应多个机构名称的问题,提出了一种基于Jaccard相似度数据空间转换的机构别名挖掘方法。根据机构与作者间的隶属关系,建立机构-作者二部图模型;采用Jaccard相似度度量两机构名称所对应作者姓名集合间的相似度;根据机构间的相似度矩阵,将集合型数据转换成数值型数据;通过计算机构名称对应的相似度向量间的余弦相似度,实现了机构别名的有效挖掘。最后用真实数据进行对比实验验证了该方法的优越性。  相似文献   

7.
为更加精确的计算科学数据共享工程中科学元数据间的相似度,提出了一种内容与结构相结合的科学元数据相似度计算方法。在综合分析各个领域元数据特点的基础上,把科学元数据相似度的计算分为两个方面:内容相似度和结构相似度。其中内容相似度基于改进的向量空间模型计算而得,结构相似度包含元数据树的节点相似度和层次相似度两个方面,两者叠加计算出相似度值,并通过实验证明了该方法具有更高的准确性和有效性。  相似文献   

8.
工业设计领域中,对外观设计知识产权保护的需求日益增大,为解决外观设计专利图像检索数据的快速增长与检索实时性之间的矛盾,将基于内容的图像检索技术应用于MapReduce框架中,开发了外观设计专利智能检索系统.Map任务提取示例图像的形状、纹理以及颜色特征,与专利特征库中的特征进行相似度匹配计算,Reduce任务对Map任务的匹配结果进行相似度排序,得到检索结果.实验表明,该方法能够均衡系统负载,提高资源利用率,有效降低了在大数据集上进行图像检索的时间.  相似文献   

9.
顾军华    谢志坚    武君艳    许馨匀    张素琪 《智能系统学报》2019,14(4):743-751
针对目前协同过滤推荐算法存在的数据稀疏性问题和可扩展性问题,本文进行了相关研究。针对稀疏性问题,在传统的皮尔逊相关相似度中引入交占比系数计算用户间直接相似度,该方法缓解了用户间共同评分项的占比问题;提出一种基于图游走的间接相似度计算方法,该方法根据用户间的直接相似度建立用户网络图,在用户网络图上通过游走计算用户间的间接相似度,并进行推荐。在Spark平台上实现本文方法的并行化,缓解了数据规模增加带来的可扩展性问题。实验结果表明:本文提出的算法在不同数据集上均取得了良好效果,有效地提高了推荐准确度,并且在分布式环境下具有良好的可扩展性。  相似文献   

10.
一种基于本体的概念语义相似度方法的研究   总被引:6,自引:0,他引:6       下载免费PDF全文
提出了一种计算不同本体中概念间语义相似度的方法,该方法通过比较实例间的相似度获得初始概念间语义相似度,结合影响概念间语义相似度的两个系数,计算出最终的概念间语义相似度。与概率统计方法进行比较,验证了该方法的有效性。该研究工作可以应用于面向Web的知识检索领域。  相似文献   

11.
基于国际专利分类号的层次结构,利用自身的类别描述信息,建立了不同层次的类别特征向量,结合现有专利进行修正训练,分别在各层次上采用经典的KNN算法实现专利的自动分类。实验结果表明:该方法的分类效果在部、大类、小类层次上表现较好。经过修正训练后的分类性能有所提高。  相似文献   

12.
在复杂的非人脸成分干扰以及训练样本过大、训练样本之间相似度较高的条件下,原始稀疏表示分类(SRC)算法识别准确率较低。针对上述问题,提出一种基于主动表观模型的稀疏聚类(CS-AAM)人脸识别算法。首先,利用主动表观模型快速、准确地对人脸特征点进行定位,获取主要人脸信息;然后,对训练样本进行K-means聚类,将相似程度高的图像分为一类,计算聚类中心,将该中心作为原子构造过完备字典并进行稀疏分解;最后,计算稀疏系数和重构残差对人脸图像进行分类、识别。将该算法与最近邻(NN)、支持向量机(SVM)、稀疏表示分类(SRC)、协同表示分类(CRC)人脸识别算法在ORL和Extended Yale B人脸数据库上对不同样本数及不同维数的人脸图像分别进行识别率测试,在相同样本数或相同维数情况下CS-AAM算法识别率均高于其他算法。在ORL人脸库中选取样本数为210时,相同维数条件下CS-AAM算法识别率为95.2%;在Extended Yale B人脸库上选取样本数为600时,CS-AAM算法识别率为96.8%。实验结果表明,该算法能够有效地提高人脸图像的识别准确率。  相似文献   

13.
当前专利是按照领域划分的,而基于功效特征可以实现跨领域的专利聚类,这在企业创新设计中具有重要意义,而精确提取专利功效特征和快速获得最优聚类结果是其中的关键任务。为此提出一种信息实体语义增强表示(ERNIE)和卷积神经网络(CNN)相结合的功效特征联合提取(FEI-Joint)模型来提取专利文献的功效特征,并且改进自组织神经网络(SOM)算法,从而提出具有早期拒绝策略与类合并思想的自组织神经网络(ERCM-SOM)来实现基于功效特征的专利聚类。对FEI-Joint模型与TF-IDF、狄利克雷分布(LDA)、CNN在特征提取后的聚类效果上进行比较和分析,结果表明其F-measure值比其他模型有明显提高。ERCM-SOM算法与K-Means算法、SOM算法相比,在F-measure值提高的同时,其时间较SOM算法有明显缩短。对比使用专利分类号(IPC)的专利分类,采用基于功效特征的聚类方法可实现跨领域的专利聚类效果,为设计者借鉴其他领域的设计方法奠定了基础。  相似文献   

14.
刘子辰  李小娟  韦伟 《计算机应用》2021,41(9):2532-2538
专利价格评估是知识产权交易的重要内容,现有方法在进行专利价格评估时没有有效地考虑专利的市场、法律、技术维度对专利价格的影响,而专利的市场因素对专利价格的评估起到关键作用。针对上述问题,提出一种基于循环神经网络(RNN)的专利价格自动评估方法。该方法以市场法为基础,对其他各种因素进行综合考虑,并利用门控循环单元(GRU)构建RNN的方法实现对专利价格的自动评估。实例测试表明,以专家定性评估结果为基准,所提方法的相对准确度平均为0.85,与层次分析法(AHP)、粗糙集理论方法和逆向传播(BP)神经网络方法相比,所提方法这一相对准确度均值分别提升了3.66%、4.94%和2.41%。  相似文献   

15.
专利网络是复杂网络领域重要的组成部分,研究专利网络对理解和把握技术创新方向具有重要指导作用。利用专利文本数据构建无向加权专利网络图,并基于启发式社团发现模型提出一种创新态势研判算法。为了缓解专利标题和摘要短文本引发的文本向量稀疏问题,采用非监督的稀疏向量稠密化方法;为了解决专利网络构建过程中的相似度阈值自动化选择问题,以实验驱动的方法对比相似度阈值与专利网络常用统计指标的变化关系,最终选用平均聚类系数这一指标实现了最优相似度阈值的自动化判定。以我国数字中国及大数据领域真实发明专利数据为驱动,验证了方法的有效性并分析了数字中国及大数据领域创新态势。  相似文献   

16.
一种协调的科技文献分类方法   总被引:1,自引:0,他引:1  
科技文献之间的相互引证关系反映了一种科学交流活动,显示了科学文献之间(甚至是学科之间)的内在联系,而通过追溯文献之间的这种关系,可以改善和提高传统的基于内容的科技文献的分类的方法。论文利用有相互引证关系,有同引关系,以及有耦合关系的两篇文献一般是属于同一类的这一特点,提出了文献之间的引用相似度,同引相似度,耦合相似度这三个概念,再利用这三个概念生成了文献之间的“结构相似度”,并将它用于K-NN分类法中得出一种基于结构的分类法。最后,论文将这种基于结构的分类法和基于内容的NaveBayes分类法结合起来提出了一种新的协调分类法。  相似文献   

17.
International patent corpus is a gigantic source containing today about 80 million of documents. Every patent is manually analyzed by patent officers and then classified by a specific code called Patent Class (PC). Cooperative Patent Classification CPC is the new classification system introduced since January 2013 in order to standardize the classification systems of all major patent offices. Like keywords for papers, PCs point to the core of the invention, describing concisely what they contain inside. Most of patents strategies are based on PC as filter for results therefore the selection of relevant PCs is often a primary and crucial activity. This task is considered particularly challenging and only few tools have been specially developed for this purpose. The most efficient tools are provided by patent offices of EPO and WIPO.This paper analyzes their PCs search strategy (mainly based on keyword-based engines) in order to identify main limitations in terms of missing relevant PCs (recall) and non-relevant results (precision). Patents have been processed by KOM, a semantic patent search tool developed by the authors. Unlike all other PC search tools, KOM uses semantic parser and many knowledge bases for carrying out a conceptual patent search. Its functioning is described step by step through a detailed analysis pointing out the benefits of a concept-based search vis-à-vis a keyword-based search. An exemplary case is proposed dealing with CPCs describing the sterilization of contact lenses. Comparison could be likewise conducted on other PCs such as International (IPC), European (ECLA) or United States (USPC) patent classification codes.  相似文献   

18.
基于稀疏重构的分类方法具有较好的识别效果,但计算复杂度高。为此,提出基于压缩感知的人脸识别方法COMP,将L1范数最小化重构算法替换成正交匹配追踪(OMP)算法,以降低复杂度,并在OMP中引入模式类别信息,使该方法具有更强的分类能力。基于YaleB人脸库的实验结果表明,COMP在低维度时识别率高于OMP。  相似文献   

19.
专利检索与普通的文本检索有着极大的不同,专利文本包括权利声明、摘要、全文等不同部分,自然不能简单地将普通文本的检索方法应用到专利检索当中来。专利检索通常面临着召回率低下的问题,首先,由于专利文本具有极强的专业性,有着复杂的术语表达方式,用户输入的关键词通常无法明确捕捉到检索意图,导致检索结果不理想。其次,专利撰写时有意识地制造与众不同的词汇,导致相关专利无法被检索到。目前有很多的研究方法都旨在提高专利检索的召回率,但是仍然有许多问题有待解决,检索效果有待改善。提出了一个基于词向量的专利自动扩展查询方法,在词向量的基础上,构建一个关键词查询网络,通过稠密子图发现算法来寻找扩展词集合,提高扩展词的有效性。在CLEF-IP 2012数据集的基础上进行了充分的实验,实验结果表明,本文提出的算法能够保证扩展词集获取的灵活性和有效性,同时能进一步提高专利检索的召回率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号