首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
组合范畴语法(CCG)是一种类型驱动的语法,可以高度词例化(lexicalized)并兼顾句法和一定程度上语义的表达,可为深层次的文本分析提供有效支持。将CCG应用于真实文本分析需要编制大规模的词库,为了避免为此付出的昂贵人力和资源,一个经济有效的解决方案是利用现有短语句法树库来自动生成CCG树库。该文提出在清华中文树库的基础上自动生成CCG树库的方法,在预定义的中文句型和基于清华树库的动词子范畴框架的支持下,通过标准转换算法,得到一个包含32 737句、超过35万词次的中文CCG树库。该树库通过手工和自动评价验证,又与已有文献所报告的多语种CCG树库构建工作比较,均证明该文所述方法的有效性。  相似文献   

2.
在蒙太鸠语法理论的基础上,利用范畴语法对汉语进行句法分析,并针对汉语范畴动态标注的不确定性进行跨层次松弛关联的计算研究,需要相应地构造范畴化机器词库。本文采用基本词库加扩展生成的思想构建生成的面向范畴语法分析的汉语词库,除具有一般词库的特点外,还对词语的范畴归属、词谓、词用等相关信息给出说明,以供范畴句法分析时选用。实验结果表明,在假设完备的前提下,测试该词库取得了较好的效果。  相似文献   

3.
树库是自然语言处理中一项重要的基础资源,现有树库基本上都是单视图树,支持短语结构语法或者依存语法。该文提出一套基于依存语法的多视图汉语树库标注体系,仅需标注中心语和语法角色两类信息,之后可以自动地推导出描述句法结构所需的短语结构功能和层次信息,从而可以在不增加标注工作量的前提下获得更多语法信息。基于该体系,构建了北京大学多视图汉语树库(PMT)1.0版,含有64000句、140万词,支持短语结构语法和依存语法两个视图。  相似文献   

4.
BFS-CTC汉语句义结构标注语料库   总被引:3,自引:0,他引:3  
句义结构分析是汉语语义分析中不可逾越的重要环节,为了满足汉语句义结构分析的需要,基于现代汉语语义学理论构建了一种层次化的汉语句义结构模型,定义了标注规范和标记形式,建设了一个汉语句义结构标注语料库BFS-CTC(Beijing Forest Studio-Chinese Tagged Corpus)。标注内容方面,基于句义结构模型的定义标注了句义结构句型层、描述层、对象层和细节层中所包含的各个要素及其组合关系,包括句义类型、谓词及其时态、语义格类型等信息,并且提供了词法和短语结构句法信息,便于词法、句法、句义的对照分析研究;语料库组织结构方面,该语料库包括四个部分,即原始句子库、词法标注库、句法标注库和句义结构标注库,可根据研究的需要,在词法、句法、句义结构标注的基础上进行深加工,在核心标注库的基础上添加更多具有针对性的扩展标注库,利用句子的唯一ID号进行识别和使用;语料来源和规模方面,语料全部来自新闻语料,经过人工收集、整理,合理覆盖了主谓句、非主谓句、把字句等六种主要句式类型,规模已达到10 000句。同其他语义标注库相比,BFS-CTC基于现代汉语语义学,提供了多层次的句义结构标注信息,兼容进行了词法和语法标注,各类标注既可以单独使用也可综合使用进行横向分析,可用于自然语言处理多方面的研究,进一步推动汉语语义分析的研究和发展。  相似文献   

5.
汉语树库的构建   总被引:11,自引:7,他引:11  
本文讨论了汉语树库构建的若干基础问题, 包括一个适合于自动分析和人工标注的汉语句法标记集、汉语树库加工处理规范和人机互助的树库加工模型, 介绍了一个已经实现的汉语自动句法标注系统, 和在此基础上进行的一些树库构建实验, 最后提出了构建大规模汉语树库的设想。  相似文献   

6.
汉语组块分析是将汉语句子中的词首先组合成基本块,进一步组合形成句子的功能块,最终形成一个具有层次组合结构的汉语句法描述结构.将汉语功能块的自动标注问题看作序列标注任务,并使用词和基本块作为标注单元分别建立标注模型.针对不同的标注模型,分别构建基本块层面的特征集合,并使用条件随机场模型进行汉语功能块的自动标注.实验数据来自清华大学TCT语料库,并且按照8∶2的比例切分形成训练集和测试集.实验结果表明,与仅使用词层面信息的标注模型相比,基本块特征信息的适当加入可以显著提高功能块标注性能.当使用人工标注的基本块信息时,汉语功能块自动标注的准确率达到88.47%,召回率达到89.93%,F值达到89.19%.当使用自动标注的基本块信息时,汉语功能块的标注的准确率为84.27%,召回率为85.57%,F值为84.92%.  相似文献   

7.
语义知识库是自然语言处理的基础性工程,但现阶段语义知识库的构建,大部分工作基于人工.基于英语框架网络FrameNet,采用FrameNet的现有框架库作为汉语框架网络的框架库,通过FrameNet中现有标注英文例句训练一语义角色标注器,利用英汉双语平行语料,对英文语料进行语义角色标注并将其映射到中文句子上,从标注好的汉语句子中提取汉语词元和例句填充汉语框架,构建汉语词汇库和例句库,从而实现汉语语义框架网络的自动构造.  相似文献   

8.
复合名词分析一直是语言研究和自然语言信息处理中的一个重要问题,涉及未登录词的识别、自动释义以及词典编纂等。生成词库理论是目前较新的一种语义学理论,我们拟利用该理论对汉语复合名词进行语义信息标注,建立一个词库。该文首先介绍了这一词库的标注框架,然后通过对“纸”、“石”构成的复合词的对比分析,展示了这一词库在复合名词构词、语义研究中的应用。研究结果显示,物性角色、自然类和人造类是非常重要的语义信息,能揭示复合名词构词和语义的一些模式和规律。  相似文献   

9.
构式作为组成成分与实际意义不能完全对应的结构,与常规句子差异较大,对句法和语义分析器的影响较大,构式的自动分析则更是困难。因此,亟需研究构式的结构标注方法及构建相应语料库。由于构式的语义结构与句法结构有较大差异,该文使用中文抽象语义表示(CAMR)来直接标注构式的语义结构。目前收录最全的构式库是北京大学现代汉语构式知识库,通过对该构式库1 057条构式进行人工标注并统计后,发现CAMR可以表示出61.2%的基本符合组合原则的构式;而38.8%不符合组合原则的构式需要修改或添加概念,存在缺少概念、组成成分难以拆分、修辞意义难以表示等情况。该文给出的策略是将其整体作为一个谓词标注或只标注其表层义。汉语构式库的标注可以为构式语义的自动分析提供理论与数据基础。  相似文献   

10.
句式结构树库是以句本位语法为理论基础构建的句法资源,对汉语教学以及句式结构自动句法分析等研究具有重要意义。目前已有的句式结构树库语料主要来源于教材领域,其他领域的标注数据较为缺乏,如何高效地扩充高质量的句法树库是值得研究的问题。人工标注句法树库费时费力,树库质量也难以保证,为此,该文尝试通过规则的方法,将宾州中文树库(CTB)转换为句式结构树库,从而扩大现有句式结构树库的规模。实验结果表明,该文提出的基于树库转换规则的方法是有效的。  相似文献   

11.
基于与状态无关的激活集的包含派生谓词的规划问题求解   总被引:1,自引:0,他引:1  
派生谓词是PDDL2.2语言的新特性之一。在2004年的规划大赛IPC-4上,许多规划系统都无法求解包含派生谓词的两个标准竞赛问题。在经典规划中,派生谓词是指不受领域动作直接影响的谓词,它们在当前状态下的真值是在封闭世界假设中由某些基本谓词通过领域公理推导出来的。本文提出一种新的方法来求解包含派生谓词的规划问题,即用与状态无关的激活集来取代派生谓词用于放宽式规划中。  相似文献   

12.
近年来,众包查询优化得到了数据库领域的广泛关注。主要研究了众包多谓词选择查询问题--借助于人力找到满足多谓词查询条件的对象。一种简单的方法是枚举数据集中的对象,对于每个对象判断是否满足每条谓词。它产生的代价是[|R|?n],其中[|R|]为数据集中对象的数量,[n]为谓词的数量。很显然,当处理大数据集或者查询包含较多谓词的时候,简单方法的代价是非常昂贵的。由于不同的谓词具有不同的选择性,如果首先验证高选择性的谓词,那么在验证剩余谓词的时候,就可以避免验证不满足高选择性谓词的对象。因此,采用一个好的谓词顺序实现众包选择查询可以显著减少人工代价。然而,实际中很难获得最佳的谓词序列。针对该问题,提出了一种基于采样的框架来获得高质量的查询序列。为了控制查询序列生成的成本,设计了基于随机序列的最优选择方法,该方法通过随机选择序列获得最终的谓词顺序。由于基于随机序列的选择方法可能产生较大的代价,为了减少开销,提出了一种基于过滤的序列选择方法。通过在众包平台上使用真实数据集评测了提出的方法,实验结果表明,该方法能够显著减少查询序列生成的代价,同时获得高质量的查询序列。  相似文献   

13.
不透明谓词是一类轻量级的代码混淆方法,能以单向的执行复杂度对抗程序的逆向分析。广义不透明谓词扩展狭义不透明谓词的值恒定属性至逻辑恒定属性,已经应用于部分恶意代码中以提升抗查杀能力。为消除不透明谓词对程序恶意性判定的影响,以广义不透明谓词后趋依赖的属性为依据,结合逻辑恒定判定,提出了基于逻辑一致性的广义不透明谓词检测方法。通过静态分析提取谓词前置条件约束、后趋逻辑约束和谓词判定表达式,以相交基本块搜寻初筛谓词,并依据约束求解方法判定广义不透明谓词。构造原型系统并进行测试,结果表明该方法能精准高效地检测出恶意代码中的不透明谓词。  相似文献   

14.
目前BWDSP104X编译器对程序中条件分支的处理是采用传统的谓词优化方法,及每条指令和一个谓词相关,只有当谓词为真时指令才被执行,但它存在的局限性是当涉及到多条件谓词时,并不能消除跳转分支,且多条件谓词之间可能存在控制依赖关系,不利于指令并行和指令流水. 因此在现有编译器框架下,针对传统谓词优化方法的不足之处,本文提出一种基于BWDSP104X体系结构下多条件谓词编译优化方法. 实验结果表明,与传统谓词优化方法相比,该优化算法在BWDSP104X编译器上能够取得平均5.62的加速比.  相似文献   

15.
Predicate Abstraction of ANSI-C Programs Using SAT   总被引:1,自引:0,他引:1  
Predicate abstraction is a major method for verification of software. However, the generation of the abstract Boolean program from the set of predicates and the original program suffers from an exponential number of theorem prover calls as well as from soundness issues. This paper presents a novel technique that uses an efficient SAT solver for generating the abstract transition relations of ANSI-C programs. The SAT-based approach computes a more precise and safe abstraction compared to existing predicate abstraction techniques.  相似文献   

16.
Detection of weak unstable predicates in distributed programs   总被引:1,自引:0,他引:1  
This paper discusses detection of global predicates in a distributed program. Earlier algorithms for detection of global predicates proposed by Chandy and Lamport (1985) work only for stable predicates. A predicate is stable if it does not turn false once it becomes true. Our algorithms detect even unstable predicates, without excessive overhead. In the past, such predicates have been regarded as too difficult to detect. The predicates are specified by using a logic described formally in this paper. We discuss detection of weak conjunctive predicates that are formed by conjunction of predicates local to processes in the system. Our detection methods will detect whether such a predicate is true for any interleaving of events in the system, regardless of whether the predicate is stable. Also, any predicate that can be reduced to a set of weak conjunctive predicates is detectable. This class of predicates captures many global predicates that are of interest to a programmer. The message complexity of our algorithm is bounded by the number of messages used by the program. The main applications of our results are in debugging and testing of distributed programs. Our algorithms have been incorporated in a distributed debugger that runs on a network of Sun workstations in UNIX  相似文献   

17.
The predicate control problem involves synchronizing a distributed computation to maintain a given global predicate. In contrast with many popular distributed synchronization problems such as mutual exclusion, readers writers, and dining philosophers, predicate control assumes a look-ahead, so that the computation is an off-line rather than an on-line input. Predicate control is targeted towards applications such as rollback recovery, debugging, and optimistic computing, in which such computation look-ahead is natural.We define predicate control formally and show that, in its full generality, the problem is NP-complete. We find efficient solutions for some important classes of predicates including “disjunctive predicates”, “mutual exclusion predicates”, and “readers writers predicates”. For each class of predicates, we determine the necessary and sufficient conditions for solving predicate control and describe an efficient algorithm for determining a synchronization strategy. In the case of “independent mutual exclusion predicates”, we determine that predicate control is NP-complete and describe an efficient algorithm that finds a solution under certain constraints.  相似文献   

18.
This paper presents a decidable order-sorted query system for reasoning between ontologies and rules. We describe order-sorted logic programming with sort, predicate, and meta-predicate hierarchies (OSL3h), which derives predicate and meta-predicate assertions. Meta-level predicates (predicates of predicates) are useful for representing relationships between predicate formulas, and further, they conceptually yield a hierarchy similar to the hierarchies of sorts and predicates. By extending the order-sorted Horn-clause calculus, we develop a query-answering system in OSL3h that can answer queries such as atoms and meta-atoms generalized by containing predicate variables. We show that the expressive query-answering system computes every generalized query in single exponential time, that is, the complexity of our query system is equal to that of DATALOG.  相似文献   

19.
现阶段的语义解析方法大部分都基于组合语义,这类方法的核心就是词典。词典是词汇的集合,词汇定义了自然语言句子中词语到知识库本体中谓词的映射。语义解析一直面临着词典中词汇覆盖度不够的问题。针对此问题,该文在现有工作的基础上,提出了基于桥连接的词典学习方法,该方法能够在训练中自动引入新的词汇并加以学习,为了进一步提高新学习到的词汇的准确度,该文设计了新的词语—二元谓词的特征模板,并使用基于投票机制的核心词典获取方法。该文在两个公开数据集(WebQuestions和Free917)上进行了对比实验,实验结果表明,该文方法能够学习到新的词汇,提高词汇的覆盖度,进而提升语义解析系统的性能,特别是召回率。  相似文献   

20.
基于谓词切片的字符串测试数据自动生成   总被引:3,自引:0,他引:3  
字符串谓词使用相当普遍,如何实现字符串测试数据的自动生成是一个有待解决的问题,针对字符串谓词,讨论了路径Path上给定谓词的谓词切片的动态生成算法,以及基于谓词切片的字符串测试数据自动生成方法,并给出了字符串间距离的定义,利用程序DUC(Definithon-Use-Control)表达式,构造谓词的谓词切片,对任意的输入,通过执行谓词切片,获取谓词中变量的当前值,进而对谓词中变量的每一字符进行分支函数极小化,动态生成给定字符串谓词边界的ON-OFF测试点,实验表明,该方法是行之有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号