共查询到17条相似文献,搜索用时 984 毫秒
1.
自动术语识别——对科技文献进行文本挖掘的重要技术方法* 总被引:3,自引:0,他引:3
自动术语识别是知识抽取和文本挖掘等信息技术中的关键步骤。研究现有自动术语识别的主要思路,明确其中的关键问题,研究已有的相关项目和系统的术语识别方法,并分析现有的一些术语资源。借此丰富基于术语识别的文本挖掘理论和方法,为进一步构建相关试验系统提供良好借鉴。 相似文献
2.
本文基于术语共现理论,利用形式概念分析中概念格的自动生成来推理作为属性的领域专业术语的层次结构并进行可视化展示,进而提出了一整套用于实现领域本体概念层次关系构建的解决方案,具体包括文档/词汇与术语语义关联的识别、领域形式化背景的建立、基于形式概念分析的主题概念的生成、基于主题概念格的术语层次关系抽取、术语层次体系的OWL描述和图形展示等.笔者以“白血病”领域为例,详细论证了无知识库支持环境下中文文本到医学学科术语层次结构的衍化过程,并对以文档术语矩阵(DTM)和词汇术语矩阵(WTM)为形式化背景生成的术语层次体系进行了比较分析. 相似文献
3.
4.
5.
6.
提出一种新的政务本体术语自动抽取的方法。首先通过中文分词技术和单字合并法提取政务文本中的词作为候选术语;通过C-value求解法和TF-IDF算法对候选术语进行过滤抽取,从而实现政务领域术语的自动抽取。通过实验比较,发现该方法在不影响领域术语抽取召回率的同时可以提高抽取术语的正确率。 相似文献
7.
文章通过学习扩展的机器学习和深度学习,提出针对非物质文化遗产项目语料的术语抽取及新词发现方法,形成领域术语库并探讨在数字人文领域的应用。首先使用自然语言处理方法对非遗陶瓷语料进行预处理,结合领域术语词表对语料进行标注;然后针对Random-CRFs模型,研究词表特征(DICT)、词性特征(POS)、部首特征(Radical)、拼音特征(Pinyin)对术语抽取效果的影响,再对比Random-CRFs、Random-BiLSTM、Random-BiLSTM-CRFs、BERT-BiLSTMCRFs等4个模型对术语抽取效果的影响;最后使用训练完成的模型对测试集语料进行新词识别,对抽取出的候选词进行人工判断,构建包含1,173个术语的非物质文化遗产陶瓷工艺领域术语库,将其应用于非遗项目画像、非遗陶瓷工艺知识图谱和非遗陶瓷工艺术语检索。 相似文献
8.
术语的抽取是领域本体构建的基础工作,决定了本体构建的质量.获取的术语除了要求有准确的短语识别率,还要求有较高的术语领域度.本文试图研究一种不依赖于背景语料的术语领域度筛选方法.本文的主要工作集中在两个方面:一是通过统计和规则相结合的方法从领域语料中抽取候选术语(短语),二是提出了通过候选术语的分布度、活跃度以及主题度进行计算的多策略术语抽取方法,并通过实验进行了验证和分析.实验结果表明,在小规模航空航天领域语料库上进行验证性实验后发现,在不大量增加计算时间复杂度的情况下,能够有效提高领域术语抽取的质量,获得令人较满意的结果. 相似文献
9.
基于隐马尔科夫模型的中文术语识别研究 总被引:3,自引:1,他引:2
基于对中文文本信息语法构成尤其是词性搭配的概率特征的分析,提出一种基于双层隐马尔科夫模型的中文泛术语识别和提取的思路和系统框架,并实现相关系统,基于训练语料对多个领域的文本信息进行术语提取测试。实验结果表明,所提出的基于隐马尔科夫模型的中文泛术语识别和提取思想具有较好的实践参考意义。 相似文献
10.
基于REST架构的术语注册与服务研究实现 总被引:1,自引:0,他引:1
通过分析信息组织领域中术语访问存取的方式及其标准,提出基于REST架构的术语注册与服务体系结构,并使用相关工具构建一个实际的术语注册与服务平台。该平台提供术语批量转储、术语注册与访问、术语可视化以及面向用户的Web服务API。最后阐述该体系架构的特点及该平台的优势,并总结该领域的发展趋势。 相似文献
11.
从信息分析的实际需求出发,对与电动汽车相关的5 405条专利数据进行术语抽取、生僻术语识别和字段比较研究。结果显示关键短语抽取的方法可行,互信息抽取的术语所在文档的平均文档长度更接近集合的平均文档长度;摘要和First Claim字段的术语存在一定差别,但对分类或聚类同等重要;生僻术语识别算法能够发现生僻词和高频词的对应关系。研究结论可以为专利文本挖掘和专利信息分析提供结果和方法,并为信息分析工作提供所需的参考术语。 相似文献
12.
Web资源保存面临的挑战及其对策 总被引:1,自引:0,他引:1
Web资源作为人类文化遗产的重要组成部分,日益受到各国的重视。本文概述了国内外几个主要的Web资源保存项目,同时在对保存项目所面临的五大挑战进行分析的基础上,提出了相应的对策。 相似文献
13.
在对科技政策领域术语的特点分析基础上,提出一种适用于科技政策领域的术语识别方法,即结合科技政
策术语的语言特点,采用统计计算的方法进行两次术语过滤过程,实现科技政策术语的自动识别。实验结果表明,本
文提出的基于科技政策术语语言特点和统计计算相结合的科技政策术语自动识别的方法具有一定的可行性,将用于科
技政策词典的构建和科技政策文本内容的深层次语义分析。 相似文献
14.
15.
最大词重降维算法与模拟退火算法相结合的文本聚类方法研究 总被引:1,自引:0,他引:1
提出一种基于最大词重的文本特征提取与降维算法。其基本思想是利用词在文档库的重要性,通过搜索算法将最大重要性的词从高维文档库中提取出来构成低维文档库,达到特征提取与降维的目的。在此基础上,提出利用模拟退火算法改进的K-means聚类算法对降维得到的文本进行聚类分析,实验结果表明该方法可以有效地提高聚类精度。 相似文献
16.
[目的/意义]针对中文专利候选术语选取方法存在需要对不同的数据集分别制定不同的模式匹配规则、专利术语抽取准确性不高等问题,本文提出基于依存句法分析的中文专利术语选取方法,以提高中文专利术语抽取准确性。[方法/过程]主要包括依存句法分析、剪枝、生成依存子树等三个主要步骤。首先对中文专利进行依存句法分析,得到依存树,对依存树进行剪枝,去除不符合要求的依存关系,生成依存子树,从中选取连续词串作为候选术语,以抽取中文专利术语。[结果/结论]实验结果表明,与已有的中文专利候选术语选取方法相比,本文提出的基于依存句法分析的中文候选术语选取方法能够有效地提高中文专利术语抽取的准确性。 相似文献
17.
一种用于主题提取的非线性加权方法 总被引:15,自引:0,他引:15
主题提取是文本处理的一项重要工作。本文首先分析了主题抽取中加权方法形成时的一些定量问题,然后提出了主题相关词一种非线性加权处理方法,对比实验结果显示它不仅是一种比较稳健的方法,而且能在一定程度上提高主题提取的正确率。 相似文献