共查询到10条相似文献,搜索用时 46 毫秒
1.
基于本体的专利摘要知识抽取* 总被引:4,自引:0,他引:4
采用知识工程的方法,对“新能源汽车”中文专利摘要进行研究分析,提出了一个基于本体的中文专利摘要抽取模型。通过构建相应的本体、收集相关的词表、撰写相应的规则,并利用这些规则对专利摘要进行知识抽取结果,抽取结果辅助完成专利知识库的自动构建。即就如何组织非结构化信息以及如何自动构建知识库的进行尝试,验证了基于本体对专利摘要进行知识抽取的可行性。 相似文献
2.
3.
4.
基于深度标引的专利文本挖掘框架研究 总被引:1,自引:1,他引:0
专利文献中的文摘、权利要求项、全文等文本信息蕴涵了重要技术细节和技术保护等内容,从这些专利文本内容中挖掘具有技术价值、商业价值的潜在信息是当前专利信息应用领域的研究热点.文章研究将面向分析目标的专利文本深度标引应用到专利文本挖掘中,在数据预处理阶段就将分析目标作为知识抽取的基础,专利分析人员可依据分析需求,在文本挖掘时只提取标引结果的某一部分进行分析和处理,这不仅可提高专利文本挖掘的数据预处理质量,也可提高后期文本分析的效率.该文为<数字图书馆论坛>2008年第11期本期话题"科技创新中的专利应用研究"的文章之一. 相似文献
5.
专利术语抽取是专利文献信息抽取领域的一项重要任务,有助于专利领域词表的构建,有利于中文分词、句法分析、语法分析等工作的进行。文章通过分析专利术语的特点并制定相应的语料标注规则进行人工标注,采用条件随机场(conditional random fields,CRFs)对标注后的数据进行训练和测试,实现了通信领域的术语抽取。标注方法采用基于字的序列标注,精确率、召回率和F值分别达到80.9%、75.6%、78.2%,优于将词和词性等信息作为特征的方法,表明所提出的专利术语抽取方法是有效的。 相似文献
6.
[目的/意义]针对中文专利候选术语选取方法存在需要对不同的数据集分别制定不同的模式匹配规则、专利术语抽取准确性不高等问题,本文提出基于依存句法分析的中文专利术语选取方法,以提高中文专利术语抽取准确性。[方法/过程]主要包括依存句法分析、剪枝、生成依存子树等三个主要步骤。首先对中文专利进行依存句法分析,得到依存树,对依存树进行剪枝,去除不符合要求的依存关系,生成依存子树,从中选取连续词串作为候选术语,以抽取中文专利术语。[结果/结论]实验结果表明,与已有的中文专利候选术语选取方法相比,本文提出的基于依存句法分析的中文候选术语选取方法能够有效地提高中文专利术语抽取的准确性。 相似文献
7.
[目的/意义]面对海量专利文献,如何使用户快速、精准地掌握知识,是优化专利服务的关键课题.中文专利文献中大量存在的零形回指现象,严重影响了知识的自动识别与提取,但由于专利文献零形回指识别与消解涉及到众多文本分析技术及特定资源建设,因此,目前尚未发现针对性研究.[方法/过程]在物性结构理论、语义角色及修辞结构关系理论的指导下,展开相关规则的研究,开发句法及语义角色标注工具和篇章标注工具两种工具,并构建了4个资源库:①"专利动词物性角色库",将专利的动词归纳为4类;②"专利知识论元结构库",用于自动标注专利动词物性角色及其论元结构;③"专利动词论元结构规则库",用于分析零形回指的先行语;④"零形回指修辞结构类型库",用于分析当零形回指搭配"功能角色"和"部件角色"的情况.[结果/结论]通过资源库的建设,得出5条消解规则.初步成果已成功应用于机械领域专利文献的自动处理工作. 相似文献
8.
近年来,知识抽取技术在非结构化文本的处理中起到很重要的作用.文章在对当前知识抽取的相关文献、系统和项目分析研究的基础之上,提出了当前知识抽取研究中的主要抽取内容对象的分类,并对这些主要内容对象抽取的相关技术方法进行综述.主要总结了Web对象识别和集成、术语识别和抽取、主题发现和识别、概念层次关系的抽取、非概念层次关系的抽取、事实抽取、观点抽取和倾向识别等7种内容对象抽取的技术方法.并在此基础之上,对未来知识抽取的发展趋势进行了分析.该文为2008年第9期本期话题"知识抽取"的文章之一. 相似文献
9.