首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
[目的/意义] 从专利分类修订角度研究技术演化,为技术演化研究提供新思路。[方法/过程] 首先根据IPC分类表H部2009-2018年的修订情况,总结出新增分类、删除分类、类内转移分类、类间转移分类4种修订类型。其次针对分类修订后产生的过档文献提出基于Word2vec+TextCNN模型的过档文献再分类方法,使新旧版分类表通过再分类专利产生衔接。最后结合H部2009年-2018年被修订分类及再分类专利进行技术演化初步探索。[结果/结论] 专利再分类模型可有效解决过档文献问题,为专利再分类工作提供参考,同时可衔接新旧版专利分类表;结合IPC分类修订及再分类专利可分析分类修订中的主要技术演化方向,为技术演化研究提供新视角。  相似文献   

2.
[目的/意义]专利相似度检测(Similarity Measurement)可从宏观上辅助制定国家创新战略规划,发现国内外的热点及应对其他国家的专利流氓,从微观上为专利发明人、专利审查员、专利权人提供辅助支撑。[方法/过程]提出基于深度学习的Doc2Vec专利相似度分析方法,基于未进行清洗的专利语料库,采用深度学习的Doc2Vec模型,随机挑选了专利,研究了专利相似度检测问题,并和传统的相似度检测模型进行对比研究。[结果/结论]实验结果表明,基于深度学习的Doc2Vec模型和TF-IDF模型对于处理不做数据清洗的专利语料的结果有相近性,该方法对分析人员的专利领域知识要求较低,不需要对专利数据进行基于专利领域知识的数据清洗,同时可为专利侵权、专利查新提供新的智能工具支撑,降低研究门槛和工作量,提升研究效率。  相似文献   

3.
[目的/意义] 旨在对大量的中文专利实现快速分类,满足专利审查以及情报分析等工作的要求。[方法/过程] 结合专利文本的固有格式以及存在多个IPC分类号的实际情况,将多示例多标签学习应用于专利自动分类中,在介绍几种经典的多示例多标签模型的基本原理之后,将这些模型运用于中文专利IPC分类号的确定。[结果/结论] 实验证明,多示例多标签模型适合运用在专利的自动分类中,并且从Average precision、Hamming Loss、Ranking Loss、One Error、Coverage、Training time等指标分析可以发现,MIMLRBF模型能快速、准确地运用在中文专利IPC分类号的确定中,为大规模专利的自动分类提供借鉴。  相似文献   

4.
【目的】文章比较多个基于深度神经网络的中文新闻文本分类模型,旨在找到准确度较高的方法用以实际工作,为中文新闻文本分类提供更加高效的方法。【方法】对文本分类技术和中文新闻分类进行了梳理和归纳,对中文新闻文本的特征和预处理进行了阐述,详细介绍FastText算法、Bert分类算法、TextCNN算法和TextRNN算法。【结果】四种深度神经网络算法均可以应用于中文新闻文本分类,可以有效处理信息紊乱问题以及快速准确进行分类。【结论】通过对四种深度神经网络算法进行试验和效果对比,发现FastText模型在实际工作中的文本分类效果最为优异。  相似文献   

5.
[目的/意义]随着战略型新兴技术产业的迅猛发展,如何识别具有潜在协同效应的技术创新组合、厘清组合中核心的创新关系,是有效规划产业发展路线、提升产业竞争优势的重要前提。[方法/过程]在技术组合进化理论的指导下,结合深度学习、SAO语义挖掘和CFDP算法,提出一种基于专利数据的技术创新组合与演化关系的识别方案。该研究方案共分为3个步骤:首先基于关键词与专利分类号构建领域检索策略,并实现对获取数据的清洗和分词。随后,通过Word2Vec构建领域技术主题的词向量语义网络,并利用CFDP算法识别出潜在创新要素及组合方式。最后,深入挖掘各组合中核心的SAO结构,通过LSTM深度学习算法对其演化关系进行分类,挖掘技术的核心创新方式,进而有效甄别领域潜在的技术机会。[结果/结论]以语音识别领域为例,通过对该领域DII专利文本数据的深入挖掘,识别并追踪5个潜在的技术创新组合及核心创新方式。研究发现,当前我国语音识别领域在智能芯片设计、语音识别算法、新场景和应用等方面有较大的创新潜力。  相似文献   

6.
[目的 /意义]探索融合引用和文本特征的专利技术创新路径识别分析方法,有助于规避技术创新风险、优化选择技术创新路径,对提升创新主体的创新能力,促进现代产业发展,布局科技前沿发展战略等具有重要的意义。[方法 /过程]首先基于Node2Vec模型和Doc2Vec模型将专利引用和文本数据表示学习为可计算的高维向量;然后利用LDA主题模型进行技术主题识别并结合T-SNE算法降维,添加时间维度构建初始技术创新路径;最后,在专利引用和文本特征向量表示结果基础上,开展向量融合拼接从而实现融合引用和文本特征的技术创新路径识别。[结果 /结论 ]通过对超级电容器领域的实证,验证提出的融合引用和文本特征的的技术创新路径识别方法能够从特定领域专利文献中高效、准确地识别专利技术创新路径,证明方法的可行性和有效性。  相似文献   

7.
[目的/意义]以汽车论坛例,提出一种针对专业社交媒体文本的主题知识元抽取方法。[方法/过程]首先,通过LDA模型提取出汽车论坛中文本的主题,并进行去重,形成主题列表;其次,基于融合主题特征的深度学习模型T-LSTM模型构建适于汽车论坛本文的情感分析模型;然后,通过计算各词汇在图模型TextRank中的重要性与各词汇的Word2Vec主题相似度,抽取情感关键词与关键句,用于对文本主题与情感倾向的解释与补充;最后,对上述方法进行集成,输出结构化的主题知识元。[结果/结论]实验结果中,抽取得到的主题知识元合格率达到69.1%,表明本文提出的主题知识元抽取方法,能够围绕知识主题较为准确地抽取知识元,实现知识的结构化转换。  相似文献   

8.
运用图示法自动提取中文专利文本的语义信息   总被引:1,自引:0,他引:1  
姜春涛 《图书情报工作》2015,59(21):115-122
[目的/意义]提出利用图结构的表示法自动挖掘中文专利文本的语义信息,以为基于文本内容的专利智能分析提供语义支持。[方法/过程] 设计两种运用图结构的模型:①基于关键词的文本图模型;②基于依存关系树的文本图模型。第一种图模型通过计算关键词之间的相似性关系来定义;第二种图模型则由句中所提取的语法关系来定义。在案例研究中,借助频繁子图挖掘算法,对所建图模型进行子图挖掘, 并构建以子图为特征的文本分类器,用来检测所建图模型的表达性和有效性。[结果/结论]将所建的基于图模型的文本分类器应用于4个不同技术领域的专利文本数据集,并与经典文本分类器的测试结果相比较而知:前者在使用明显较少的特征数的基础上,分类性能较后者提升2.1%-10.5%。由此而推断,使用图结构的表达法并结合图挖掘技术从专利文本中所提取的语义信息是有效的,有助于进一步的专利文本分析。  相似文献   

9.
[目的/意义]"睡美人"文献是对科学论文中存在的迟滞认可现象的描述,而延迟发现与延迟关注的现象也同样存在于技术文献中。在梳理文献中的睡美人、专利沉睡现象及专利引文分析的相关研究后,将此概念引入到专利信息分析中,揭示专利文献中存在的睡美人现象。[方法/过程]以美国专利商标局和美国国家经济研究局发布的专利及其引证信息为基础,使用睡美人文献经典识别方法识别出睡美人专利,对其进行特征分布分析,并选取典型案例进行研究。[结果/结论]结果证明专利文献中也存在睡美人现象,且拥有专利文献特有的特征,为后续睡美人专利的识别与唤醒奠定基础,进而为及早发现并利用此类有价值的专利文献提供解决方案,促进知识流动和技术迭代,提高科研效率,加速科学发现。  相似文献   

10.
学术文献引文上下文自动识别研究   总被引:2,自引:2,他引:0  
[目的/意义] 引文内容分析能够帮助揭示文献引用关系的深层语义内涵,而引文上下文识别作为引文内容分析的基础显得尤为重要。[方法/过程] 梳理已有引文上下文研究的现状,总结当前引文上下文识别的不足,在此基础上归纳引文上下文识别的5类特征,并采用文本分类和序列标注两种方法开展引文上下文自动识别实验。[结果/结论] 实验结果表明,本文提出的特征能够很好地提升引文上下文识别效果,且基于文本分类的SVM分类效果要优于基于序列标注的CRF。  相似文献   

11.
[目的/意义] 现有研究进行技术融合差异度测度时仅在分类号层面开展、尚未涉及到分类号背后的技术语义内涵层面,且未对测度方法的效果进行对比,对此,本研究从揭示技术语义的角度进行技术融合差异度测度方法研究和效果比较研究,助力其方法论的完善。[方法/过程] 表示学习技术能够利用海量先验知识计算研究对象的语义差异,因此,提出基于Word2vec和Bert的技术融合差异度测度方法,可以利用专利分类号释义文本和关联专利文本来度量技术融合的差异度,共形成6种测度方法。采用这6种测度方法对2019-2020年申请的四方专利进行技术融合差异度的测度,与现有基于分类号共现频次和共现关系的差异度测度方法进行效果对比。[结果/结论] 研究发现,同时利用专利分类号释义文本和关联专利文本,采用Word2vec进行MC分类号向量化,较之其他方案能够更为有效地测算技术融合差异度,可以在未来技术融合的研究工作中推广应用。  相似文献   

12.
[目的/意义] 在科学研究中,从不同来源的科技文献中识别挖掘科研热点对于开展科研工作具有指导意义。旨在通过本研究提出的模型方法,快速准确地识别蕴含在多源文本中的热点主题,为科研创新提供支撑服务。[方法/过程] 提出一种基于LDA2vec模型的多源文本下科研热点识别的方法并针对科研热点识别构建模型,该方法融合LDA主题模型对隐含语义挖掘的优势和Word2Vec词向量模型对于上下文关系把握的优势。以机器学习领域的科技文献为例,利用模型困惑度和主题一致性两个指标对LDA2vec的在本领域应用的可行性和有效性进行验证,并与LDA的主题提取效果进行对比。[结果/结论] 实验结果表明,提出的方法在面对多源数据情况下,进行科研热点识别挖掘是可行的,且在一定程度上有效果的提升,对利用单一数据源进行主题分析的不足进行补充,对多数据源融合的实践应用进行丰富。  相似文献   

13.
[目的/意义] 对比文件是用以判断专利能否授权或无效的重要文件,针对传统信息检索方法的不足且鲜有利用机器学习方法研究对比文件检索的问题,在引入对比文件信息的基础上,构建专利相关性判定模型。[方法/过程] 以专利无效判决书中的目标专利与对比文件为数据集进行实验,提取文本相似度、共现词汇和共词数量特征信息,利用GBDT模型将对比文件的检索问题转化为判断其是否相关的分类问题。[结果/结论] 研究结果表明,不同字段数据对分类效果的贡献不同,其中说明书字段的准确率、召回率和F1值分别为79%、48%和59%,并且多特征集成后的分类效果显著优于单一文本相似度的结果,最后对实验错分情况进行分析,指出本研究下一步的研究方向。  相似文献   

14.
[目的/意义] 专利技术相关性研究对专利分析、专利管理等意义重大。综述专利技术相关性研究的典型方法,并进行客观分析和评价,以期为进一步研究提供新的思路。[方法/过程] 在界定专利技术相关性概念的基础上,对专利技术相似性和专利技术互补性的研究方法进行调研、归纳与分析,评述该领域的研究现状,提出未来可能的研究方向。[结果/结论] 专利技术相似性的研究方法可分为基于专利分类、专利引证和文本挖掘3种,且各自有其优势和局限;当前专利技术互补性研究比较薄弱,研究方法有待丰富;专利技术相似性和互补性的协同研究不足;专利技术相关性的应用范围有待进一步扩展。  相似文献   

15.
为了高效分析中美在美国商业管制清单(Commerce Control List,CCL)记录的管制技术上的差距,针对CCL清单数据非结构化程度高的问题,提出了一种管制清单数据和专利数据的自动映射方法,实现了从专利视角自动揭示中美技术差距。基于文本挖掘的思想,研究制定了管制清单文本规范化流程,提出了基于TF-IDF (term frequency-inverse document frequency)和Word2Vec的管制清单数据与专利数据自动映射方法和效果评价指标。以2019年美国商业管制清单和2018年全球PCT (Patent Cooperation Treaty)专利申请数据为例进行实证研究,通过评估模型效果,最终发现当文本相似度阈值为0.87时,Word2Vec模型的自动映射结果最优,并以此开展技术差距分析。本研究提出的方法能够自动化映射管制清单数据和专利数据并开展情报分析,分析结果具有较高的可解释性,是提升情报分析时效性的有力手段,具有较高的实际应用价值。  相似文献   

16.
��[Purpose/significance] In scientific research, identifying mining scientific research hotspots from different sources of scientific literature is of guiding significance for carrying out the next scientific research work. It aims to quickly and accurately identify hot topics contained in multi-source texts through the model method proposed in this study, and provide support services for scientific research innovation.[Method/process] This paper proposed a method based on LDA2vec model for multi-source text research hotspot identification and built a model for scientific research hotspot identification. This method combined the advantages of LDA topic model on implicit semantic mining and the context of Word2Vec word vector model. Taking the scientific literature in the field of machine learning as an example, the model extraction degree (perplexity) and topic coherence (topic coherence) were used to compare the topic extraction effects of LDA2vec and LDA in the context of multi-source text.[Result/conclusion] After experiments, the results show that the method proposed in this paper is feasible and can be improved to some extent in the face of multi-source data. The method can relatively quickly and accurately identify the hot content in the multi-data source text, make up for the shortcoming of the single analysis data source for subject detection, and enrich the practical application of the multi-data source fusion theory system.  相似文献   

17.
[目的/意义]学术文本结构功能是对学术文献的结构和章节功能的概括,针对当前研究较少从学术文本多层次结构出发进行融合和传统方法依赖人工经验构建规则或特征的问题,本文在对学术文本层次结构进行解析的基础上,构建了多层次融合的学术文本结构功能识别模型。[方法/过程]以ScienceDirect数据集为例进行实验,该模型首先通过深度学习方法对不同层次学术文本进行结构功能识别,接着采用投票方法对不同层次和不同模型的识别结果进行融合。[结果/结论]研究结果表明各层次集成后的整体效果较单一模型均有不同程度提升,综合结果的整体准确率、召回率和F1值分别达到86%、84%和84%,并且深度学习算法在学术文本分类任务中的性能较传统机器学习算法SVM更优,最后对学术文本结构功能错分情况进行了分析,指出本研究潜在的应用领域和下一步的研究方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号