首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 59 毫秒
1.
法文本语义接受度(SAS)研究属于基于语料库的SAS研究分支。以等距离系统随机抽样方法进行对比实验。抽取公式为A+BX≤C,A为起始页码,B为抽取间距,C为文本总页码,X为可取页数集。当以L’Assommoir(1953版)为语料,B∈(10;5;4;3;2;1)时,词句抽取率(SR)为9.55%,20.29%,25.13%,33.13%,50.36%和100%,SAS为0.089 7,0.084 1,0.085 4,0.084 7,0.084 8和0.085 4。依次攀升SR没有带来SAS显著变化。说明基于英日语料的SAS评价体系也适用于法文本,便于文学评论家对法文本进行量化评析。  相似文献   

2.
日语文本语义接受度评价研究   总被引:1,自引:1,他引:0       下载免费PDF全文
基于日语料库的粘着语文本语义接受度(SAS)研究分三步展开。首先提取『ゆきぐに』为分析文本,以等距离系统随机抽样方法取得6对比组。然后在屈折语SAS研究基础上提出适用于粘着语文本的词长定义,即百词所含5音拍及以上词数为超常用词量。最后得出结论:抽取间距由大变小引发抽取率(SR)由小变大的曲线变化;依次攀升的SR与围绕均值波动的SAS组图证明两者的非关联性,以实例验证了屈折语SAS评价公式对粘着语文本研究的可适用性。  相似文献   

3.
语义接受度(SAS)是衡量自然语言文本可理解程度的标尺。通过结合自动文摘系统评价方法和文体学分析方法,提出了可用于在线分析英语文学文本SAS的系统评价公式,并通过诺贝尔文学获奖作品《老人与海》的语料分析验证了公式的可适用性:不同的抽取率不会引起评价值的显著差异。尽管存在域的有限性、域的单一性和在线评价相对性等不足,此公式为文学评论者借助网络进行英语文本SAS在线评价提供了便利。  相似文献   

4.
林泽琦  邹艳珍  赵俊峰  曹英魁  谢冰 《软件学报》2019,30(12):3714-3729
自然语言文本形式的文档是软件项目的重要组成部分.如何帮助开发者在大量文档中进行高效、准确的信息定位,是软件复用领域中的一个重要研究问题.提出了一种基于代码结构知识的软件文档语义搜索方法.该方法从软件项目的源代码中解析出代码结构图,并以此作为领域特定的知识来帮助机器理解自然语言文本的语义.这一语义信息与信息检索技术相结合,从而实现了对软件文档的语义检索.在StackOverflow问答文档数据集上的实验表明,与多种文本检索方法相比,该方法在平均准确率(mean average precision,简称MAP)上可以取得至少13.77%的提升.  相似文献   

5.
本文从如何利用语义来构建理想信息检索系统的角度出发,以HNC自然语言理解体系为基础,给出了一种在这一体系下分步构建信息检索系统的实施方案.结合HNC在信息检索方面新近取得的研究成果,从理论和工程两个角度介绍了这一体系服务于信息检索的相关内容,讨论了其中几个重要模型的实现方法.最后沿着方案思路给出了在目前成果基础上进一步发展检索系统的展望.  相似文献   

6.
该文从研究背景、设计思路、标注体系和方法、加工步骤等方面介绍了汉语语义倾向语料库的建设过程。该语料库是一个以研究语言主观性表达为目的的共时、非平衡、单语标注语料库,依据语言主观性多维度描述体系而设计,规模为100万字,配备有集检索与统计、结果检查与可视化于一体的专用语料库工具箱系统,具有可用性大、标注质量高、语言学理据强等特点。  相似文献   

7.
对汉语表层语义关系进行了初步的分析,并引入协商机制来保证神经元之间有序地进行自主连接,定义了协商模型和协商语言,给出了相应的分析算法.  相似文献   

8.
基于语义神经网络的汉语表层语义分析   总被引:1,自引:0,他引:1       下载免费PDF全文
本文提出一种基于语义神经网络的汉语表层语义分析方法。该方法将符号主义和连接主义结合在一起。文中给出了语义神经网络的定义、构造,以及应用于汉语表层语义分析的算法。  相似文献   

9.
在统一框架下对双语语料库的平行文档进行分析建模,提取语言之间的潜在语义对应关系,在潜在中间语义空间中进行检索,从而实现跨语言信息检索.作者在自建的中英平行语料库和蒙特利尔大学提供的英法平行语料库基础上,对平行文档进行分析建模,在TREC5&9和SDA数据集上进行了中、英、法三种语言的跨语言信息检索实验,且与单语言的信息检索模型进行了比较,实验结果显示本文的模型表现了较好的性能.  相似文献   

10.
语义搜索研究综述   总被引:2,自引:0,他引:2  
语义搜索将语义Web技术引入搜索引擎,改善当前搜索引擎的搜索效果,近年来得到广泛关注.文章介绍了语义搜索领域的研究基础,包括研究现状和常用的研究方法,对语义搜索进行了分类研究和深入分析,语义搜索主要可分为基于传统搜索的增强型语义搜索和基于本体推理的知识型语义搜索;文章指出了语义搜索研究中存在的问题,并对未来开展语义搜索研究进行了总结和展望.  相似文献   

11.
A detailed analysis of semantic accessibility scale (SAS) based on Japanese corpus has been performed in this paper. Firstly, the method of systematic random sampling is devised for quicker comparison among six groups in きくに . Secondly, according to the direct result of comparison, different sampling ratios (SR) in groups show regular deviation. The more pages are extracted, the higher SR is involved. Thirdly, the values of SAS in groups are calculated and then contrasted with SR. The regular deviation of SR fails to bring fundamental variation of SAS even though minor difference of SAS in groups may be reflected. The irrelevance to SAS establishes the fact that SR can be used for literary critics to extract and analyze SAS in corpus-involved texts from semantic perspective.  相似文献   

12.
By means of analysis of artificial intervention in ready-retrieved text, training set used to compare with new texts from large-scale real texts corpus is provided. It is based on the data-originated presentation of training set that a special formula to calculate semantic cohesion between new texts and training set is devised. The semantic cohesion of new text is the average value of semantic evaluation of all elements involved, and semantic evaluation of an element depends on its semantic relevance with the training set and on the semantic ratio of its domain to synonymous domain. In terms of empirical verification a conclusion is drawn that semantic cohesion is the key measurement standard of textual retrieval. Despite the advantages of textual retrieval, limitations of formula-raised condition and analyst's accomplishments make the analysis involved in this paper imperfect.  相似文献   

13.
The information retrieval based on ontology is a hotspot in the domain of information retrieval. According to the study on the existed retrieval model, this paper proposes a new kind of ontology-based semantic retrieval model, which grants semantic to the retrieval entry, the process of retrieval and the organization of data, and consequently improves the precision and recall of information retrieval.  相似文献   

14.
李岩  张博文  郝红卫 《计算机应用》2016,36(9):2526-2530
针对传统查询扩展方法在专业领域中扩展词与原始查询之间缺乏语义关联的问题,提出一种基于语义向量表示的查询扩展方法。首先,构建了一个语义向量表示模型,通过对语料库中词的上下文语义进行学习,得到词的语义向量表示;其次,根据词语义向量表示,计算词之间的语义相似度;然后,选取与查询中词汇的语义最相似的词作为查询的扩展词,扩展原始查询语句;最后,基于提出的查询扩展方法构建了生物医学文档检索系统,针对基于维基百科或WordNet的传统查询扩展方法和BioASQ 2014—2015参加竞赛的系统进行对比实验和显著性差异指标分析。实验结果表明,基于语义向量表示查询扩展的检索方法所得到结果优于传统查询扩展方法的结果,平均准确率至少提高了1个百分点,在与竞赛系统的对比中,系统的效果均有显著性提高。  相似文献   

15.
为保护数字文本的知识产权,提出一种利用语义角色嵌入水印信息的文本水印算法。采用Unicode编码和Huffman编码对水印进行预处理形成特定形式的水印信息串,借助自然语言处理技术标注文本中的语义角色,将水印信息映射为语义角色的位置,实现水印的嵌入与提取。算法对文本的格式和内容不做任何修改,具有很强的隐蔽性和鲁棒性,能有效抵抗常见的格式变换和攻击,同时能提供较大的水印容量,与其它文本水印算法相比具有一定的优越性。  相似文献   

16.
Based on English literary corpus this paper devises, to calculate SAS, a verifiable formula which comprises the average word-length in a sentence (L), multi-syllable word-number in every 100 words (H), sentence-number extracted from the text (S 1), the sum total of text sentences (S), word-number extracted from the text (W1) and the sum total of text words (W). This formula bears much relationship to the intersection between them and draws a conclusion that different sampling ratios will not result in significant deviation of SAS and correspondingly provides strong evidence of controllability of SAS. Despite the existence of domain limitation, domain simplicity and relativity of evaluation on line, it is helpful for the literary critics who have access to English literary corpus to correctly and effectively analyze texts by extracting some pages or passages from corpus even though no whole-text-extraction is involved.  相似文献   

17.
隐含语义索引模型的分析与研究   总被引:4,自引:0,他引:4  
王春红  张敏 《计算机应用》2007,27(5):1283-1285
在深入分析向量空间模型基础上,对其进行扩展,设计了一种隐含语义索引模型——LSI。LSI通过奇异值分解,将词向量和文档向量投影到一个低维空间,消减了词和文档之间的语义模糊度。理论分析证明,隐含语义索引模型具有更准确的文档语义内容的表达能力,能够取得更好的检索效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号