首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
为了让用户从海量知识信息中精确、快速地获取到感兴趣的信息内容,综合考虑文档的头部信息(标题、摘要、关键词)和重点主体内容,采用基于主题词迭代提取的信息检索算法,使得主题词的提取在兼顾效率的同时准确率达到83%以上,主题信息检索的性能也随之增加.实验结果表明,在文档查询词频和倒排文档频率(TF-IDF)的基础上对候选主题词相关度权值的计算进行合理化调整,并利用所提出的主题词迭代提取算法,主题信息检索的有效性将显著增加.  相似文献   

2.
基于同义词词林的中文文本主题词提取   总被引:3,自引:0,他引:3  
中文文本主题词的提取可以浓缩一篇文章,可以提炼一个中文网页,还可以帮助实现网上广告与网页的精确匹配。提出了一种基于同义词词林的中文文本主题词提取方法,不仅考虑了传统的影响主题词语权重的因素,还考虑到了同义词、相关词以及下位词的出现对于词语权重的影响。实验表明,用该方法对中文文本  相似文献   

3.
基于词联接的语义分析原理及其算法   总被引:2,自引:0,他引:2  
现有自然语言处理方法主要采取自下而上的由词到句、由句到篇的语言分析过程,而且语义分析能力有限,因此难以对大规模真实文本进行语义处理.笔者提出了一种基于词联接的语义分析方法.该方法以词联接的语义知识为基础,采取整句切入、先下后上的语义分析过程,核心算法是句子最优树搜索和词联接语义符合度计算.目前该方法已应用于国家自然科学基金资助的计算机辅助诗词创作研究项目.  相似文献   

4.
开放语义网络是对格语义网络和概念语义网络扩充,它是针对现实世界的开放属于 而提出的一种语义网络模型,本文对其实现机制进行了探讨,通过赋予网络中节点以主动协商能力,让其适应语境,同时指出自然语言知识表示系统中,应将一个语言成分看作是向外辐射的,而不仅仅是内凝的。  相似文献   

5.
为解决基于非结构化文本的中文领域本体概念提取效率和准确率不理想的问题, 提出了一种基于关联规则和语义规则的领域本体概念提取方法。利用领域一致性和相关性检查以及关联规则分别获取候选概念和关系集合, 计算候选概念在领域术语关系中的深度和广度, 利用深度和广度信息反馈概念隶属度的思想, 定量分析术语与领域的隶属程度, 进行本体概念的领域隶属度检查, 完成领域本体概念的提取。实验结果表明, 该方法提高了领域本体概念的提取效率和准确率, 具有可行性和合理性, 领域本体概念的提取准确率提高了12%左右。  相似文献   

6.
基于语义的自动文摘研究综述   总被引:1,自引:0,他引:1  
基于语义的自动文摘方法能解决自动文摘处理中语言复杂性问题,在克服领域局限性的同时从本质上提高文摘的质量.常用语义模型包括统计主题模型和语义知识模型.基于语义的自动文摘是对传统文摘技术基于语义模型的扩充,在自动文摘的预处理、文档转换、文档候选片段提取和文摘生成4个基本过程中使用各种语义分析方法.  相似文献   

7.
目的探讨自然语言处理中的语义研究的必要性和概念图的优势及特点。方法阐述基于概念图进行语义研究的步骤及关键技术。结果基于概念图进行语义研究能进一步提高自然语言理解的水平,改善现有语义分析技术对句子的理解程度,具有一定的理论和应用价值。结论概念图的研究与应用必将对语义研究起到积极的作用。  相似文献   

8.
一种基于词共现图的文档主题词自动抽取方法   总被引:11,自引:0,他引:11  
主题词抽取是文本自动处理的基础性工作.在对现有主题词抽取方法深入研究的基础上,提出了一种基于词共现图的文档主题词自动抽取方法;该方法以基于词频统计方法为基础,利用在词共现图形成的主题信息以及不同主题间的连接特征信息自动地提取文档中的主题词,旨在找出一些非高频词且又对主题贡献大的词.实验表明了该抽取方法抽取出的主题词更能准确地符合了作者的主题.  相似文献   

9.
针对在文本分类和信息检索中,由于句子之间的同义、近义引起的信息冗余、计算复杂等问题,给出句子语义相似度计算模型.从词和词组语义相似出发,对句子进行语法分析,结果表明,句子的语法与语义是不可分割的,不能完全孤立语法去研究语义,要综合考虑.  相似文献   

10.
语义标注所用标签数目众多,训练数据更为稀疏,用HMM作语义标注面临参数估计不准的难题。不同于传统的解决数据稀疏方法,以《同义词词林》的层次式结构为依据,提出了利用语义层次的提升来改善HMM(hidden Markov model)中参数的估计质量;在算法实现中,采用选择受限策略来解决因语义提升而引起的模型辨别力下降问题。测试表明,在训练数据相对稀疏的情况下,适度调整模型的语义层次可大幅提高语义标注的精度,该方法表现出较好的可塑性。  相似文献   

11.
随着计算机网络与信息技术的迅速发展 ,广大用户对网上资源信息检索的质量提出更高要求 ,其关键因素是信息的自动处理和控制能力 ,电子叙词表建构及其计算机管理是提高信息检索质量的重要保证 .文中建立了叙词表、叙词关系表、停用词表以及范畴索引、词族索引 ,并给出了具体实现的数据结构与算法 .实践表明 ,以词表知识概念控制的自动处理技术极大地提高了信息检索的质量  相似文献   

12.
基于相邻词的中文关键词自动抽取   总被引:2,自引:0,他引:2  
文档关键词概括了文档的主题和内容,在信息检索、文本分类、文本聚类等领域有着重要应用.在总结前人研究成果的基础上,提出了一种基于相邻词的中文关键词自动抽取算法.在对50篇学术论文自动抽取关键词的实验中,采用精确匹配的评价获得了38.9%的精度和34.9%的召回率,采用近似匹配的评价获得了70.7%的精度和68.8%的召回率,能够为进一步的研究提供帮助.  相似文献   

13.
选择50个词法和句法特征,进行了大量特征筛选实验,并基于筛选后的特征组合提出了一种融合C4.5和SVM的句义类型识别方法.该方法充分利用C4.5对多重句义的高精度识别和SVM对简单句义、复杂句义的高精度识别的特点,将C4.5与SVM分别识别的结果进行融合处理.给出最终的句义类型识别结果.识别结果表明,在BFS-CTC汉语标注语料库中,选取了4 500个句子,经十折交叉验证,句义类型的识别准确率达到92.1%.  相似文献   

14.
语言是人进行思维的主要工具,词是语言处理的基本单位。在计算机信息处理中,目前是按字设计编码。随着计算机信息处理技术的发展,这种完全按字编码的不足也日益显示出来。从信息处理的基本需求以及词的基本特性出发,提出字词综合考虑且以词为本的统一编码方案。该方案以现行的主要编码标准UTF-16为基础,维持现有的字编码,增加词编码;词编码以包括一定语义信息及语义关系的概念空间树进行逻辑组织,以适应聚类检索及语种间代码转换的原则进行空间组织。最后指出了需要进一步深入研究的几个疑难问题。  相似文献   

15.
基于知网的语义相关度计算   总被引:24,自引:0,他引:24  
为解决句法分析中的结构性歧义,引入了语义相关度计算.基于语义相似度计算及知网的语义信息,提出了语义相关度计算方法;利用知网的义原纵向与横向关系及实例信息计算不同词性的相关度.在计算义原距离时,考虑了义原之间的解释关系,对义原的距离进行修正.根据相似度的对称性,计算实例的影响因素提高了相关度的准确率.实验结果表明,使用该计算方法得出的语义相关度结果更加合理.  相似文献   

16.
关键词在自然语言处理的各个领域有着十分重要的意义.对于中文自然语言处理,一词多义和多词一义问题始终是困扰研究人员的一个重大难题.传统的一些基于统计的方法,诸如KEA只是机械地统计了词频,而没有考虑词之间的关系.文中提出了一种基于同义词的中文关键词提取方法SKEA,并建立一阶隐马尔可夫模型进行词义消歧,将文本从稀疏的词空间映射到语义空间,从而实现了文本的降维.同时改进了KEA的位置权重公式,并提出新的关键词特征选取项.最后对SKEA方法和KEA方法进行比较实验,证明SKEA是一种更优秀的中文关键词提取方法.  相似文献   

17.
汉语句义结构模型及其验证   总被引:1,自引:1,他引:1  
为解决计算机理解和表达汉语句义的问题,以现代汉语语义学理论为基础,探索和创建了一种计算机可计算、可扩展的汉语句义结构模型,该模型从句义层次上描述构成句子的词、子句、分句在句义中承担的句义任务,句子描述对象的时空特征、谓词的时态以及不同句义成分之间的组合关系等,形成了一种抽象句义的结构化表达形式;同时,提出了一种基于反向提问的句义结构模型验证方法,用疑问词替换语义格迭代构成问句,再对问句进行评价.实验结果表明,对简单句义、复杂句义和多重句义的反向提问正确率达到92.07%,充分说明句义结构模型的合理性.   相似文献   

18.
探讨了一种适合于汉语理解的、面向语义的、新的语言分析方法。该方法是以知识图这种新的知识表示方法为语义模型,模拟人的语言感知过程,先对整个句子进行语义片段的划分,再对每个片段进行分析。  相似文献   

19.
基于《现代汉语语义词典》,首先建立不同语义层次的词典,根据词典分别构建模型并进行语义预测,然后将各个模型进行集成,通过集成模型再对未登录词进行语义预测,得到较好的预测性能。利用预测模型对2000年《人民日报》语料进行未登录词语义预测和标注,最终得到带有未登录词语义义项标注的语料资源。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号