首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
面向数据的句法分析技术   总被引:7,自引:1,他引:7  
面向数据的分析技术(Data-Oriented Parsing ,DOP) 首先由Scha (1990) 年提出。该处理技术具体表达了这样的假设:人类对语言的领悟和创造依赖于以往具体的语言经验,而不是依赖于抽象的语法规则。DOP 技术框架可以分为: (1) 建立包括以往成功分析的语言经验的标注语料库; (2) 从语料库中抽取片段单元来构造新语言的分析过程;(3) 计算分析过程的概率。DOP 模型建立在包含大量语言现象的语料库基础上,把经过标注的语料库看作一个语法( Grammar) 。当输入一个新的语言现象时,系统通过对语料库中片段单元的组合运算来组合分析过程。根据所有片段单元的共现频率来评估最有可能性的分析结果。本文详细论述了语料库的标注,片段单元的定义,组合分析和概率计算。  相似文献   

2.
本文以DOP理论作为语言现象的描述基础,以英汉机译为背景,对面向数据的英汉机译方法进行深入研究.其中,不仅提出一种基于DOP技术的源语组合分析模式,而且建立了相对应的目标语生成机制.前者以DOP技术作为基本框架,通过源语语句片段组合形式的获取以及基于相似的概率评估,完成整个分析过程.而后者基于传统上主要应用于分析过程的DOP技术,通过对分析结果进行线性化操作,最终生成目标语译文.实验表明,目标语译文质量比较令人满意,可成功实现英汉机译.  相似文献   

3.
汉语共时语料库与追踪语料库语料库语言学的新方向   总被引:1,自引:0,他引:1  
随着信息技术的不断提升、互联网的普及,汉语自然语言处理的难题不断得到解决,汉语语料库的发展和语料库语言学的应用也面临着新的契机。如何持续充分应用庞大的多种语料库,并协同与配合语言学和人文、社会科学多个领域,来追踪了解各种语言现象及其背后的社会文化深层含义,是语料库语言学可以承担的新任务。LIVAC汉语共时语料库持续处理和分析泛华语七个地区十七年四亿字的语料,可真正起到“时间锦囊”的作用,为紧密追踪、科学观察泛华地区语言现象及有关社会文化演变,提供了坚实的基础和科学依据。该文介绍LIVAC如何由汉语“共时语料库”演变为“追踪语料库”。  相似文献   

4.
中国中文信息学会与国际中文计算机学会于2003年8月3日~6日在沈阳市召开第20届东方语言计算机处理国际学术会议(The 20th International Conference on Computer Processing of Oriental Languages),会议由东北大学承办。 一、征文范围 计算语言学的理论研究;汉语的词汇、句法和语义;语料库建设、语料加工技术及基于语料库的语言分析技术;汉语的文本分析与生成;机器翻译系统、技术及评测方法;文本智能检索、文本自动分类、文本过滤及自动文摘、文本挖掘、面向WWW服务及应用的语言处理技术、语义Web;面向数字图书馆的语言处理…  相似文献   

5.
语料库语言学是借助大规模语料库对语言现象进行发现、挖掘的学科,目前已经存在很多在线语料库辅助语言学的研究。该文提供了一个按时间分片进行管理的语料库,并基于此提出了一个由社区维护的在线词典编纂系统,该系统将语料库查询结果动态结合在被编辑的词条中。该文还介绍了一个多义词词义发现和层次化聚类算法,用以自动生成一个默认的词条框架。该文概述了词典编纂系统的总体情况,重点介绍系统的设计和使用方法。  相似文献   

6.
综合型语言知识库的建设与利用   总被引:15,自引:4,他引:15  
语言知识库的规模和质量决定了自然语言处理系统的成败。经过18年的努力,北京大学计算语言学研究所已经积累了一系列颇具规模、质量上乘的语言数据资源:现代汉语语法信息词典,大规模基本标注语料库,现代汉语语义词典,中文概念词典,不同单位对齐的双语语料库,多个专业领域的术语库,现代汉语短语结构规则库,中国古代诗词语料库等等。本项研究将把这些语言数据资源集成为一个综合型的语言知识库。集成不同的语言数据资源时,必须克服它们之间的“缝隙”。规划中的综合型语言知识库除了有统一的友好的使用界面和方便的应用程序接口外,还将提供支持知识挖掘的工具软件,促使现有的语言数据资源从初级产品形式向深加工产品形式不断发展;提供多种形式的知识传播和信息服务机制,让综合型语言知识库为语言信息处理研究、语言学本体研究和语言教学提供全方位的、多层次的支持。  相似文献   

7.
提出在面向数据的英汉机译系统中,一种以面向数据的语言分析技术作为基本框架的目标语生成机制。该机制通过对源语语句的句法分析树进行线性化操作,生成目标语译文。其中包括从源语语句句法分析树的所有片段组合形式中选择一个适合生成操作的生成片段组合形式、对生成片段组合形式中的所有片段进行线性化操作以及对所有片段已经线性化的生成片段组合形式进行线性操作,从而获取最终的目标语译文。为论证方法有效性,基于包含1,000个语句的真实英语语料构建知识源,并采用包含100个语句的真实英语语料作为测试集。实验表明,目标语译文质量比较令人满意,可成功地实现英汉机译。  相似文献   

8.
与通常语言学和心理学书([1]-[14])上的一种语言两种言语的观点不同,本文提出两种语言的新观点。本文建立了一个以感觉表象和概念多层递归综合而成的知觉表象为基本元素,形象与逻辑统一的内部语言模型,并且系统地讨论了外部语言概念。最后,讨论了内部语言,外部语言与思维的关系,灵感现象,以及知识及自然语言理解与内部语言及外部语言的关系。  相似文献   

9.
现有攻击行为分析技术大致可以分为“面向网络”和“面向攻击者”两类。与传统的“面向网络”的分析方法相比,“面向攻击者”的分析方法更多地考虑了主体相关性等因素,因此分析结果更为准确、可靠。基于以往在攻击行为分析技术领域的相关研究成果,设计并实现了一种面向攻击者的入侵告警分析原型系统CABAS。基于Darpa2000数据集的离线测试结果表明,该系统能够实现对多方合作的复杂攻击进行准确分析,大大提高安全管理工作的有效性。  相似文献   

10.
语料库语言学的兴起使得语言学专业的研究生也有必要掌握一种程序设计语言。分析影响语言学专业研究生程序设计课程教学质量和教学效果的3个因素:学校、学生与教师,提出几种具有针对性的教学改革措施,如情境引入、DIY、节目化教学、因材施教、强化上机练习等方法。实践证明,这些改革措施具有较好的教学效果。  相似文献   

11.
蒋志鹏  关毅 《自动化学报》2019,45(2):276-288
完全句法分析是自然语言处理(Natural language processing,NLP)中重要的结构化过程,由于中文电子病历(Chinese electronic medical record,CEMR)句法标注语料匮乏,目前还没有面向中文电子病历的完全句法分析研究.本文针对中文电子病历模式化强的子语言特征,首次以树片段形式化中文电子病历复用的模式,提出了面向数据句法分析(Data-oriented parsing,DOP)和层次句法分析融合模型.在树片段抽取阶段,提出效率更高的标准树片段和局部树片段抽取算法,分别解决了标准树片段的重复比对问题,以及二次树核(Quadratic tree kernel,QTK)的效率低下问题,获得了标准树片段集和局部树片段集.基于上述两个树片段集,提出词汇和词性混合匹配策略和最大化树片段组合算法改进面向数据句法分析模型,缓解了无效树片段带来的噪声.实验结果表明,该融合模型能够有效改善中文电子病历句法分析效果,基于少量标注语料F1值能够达到目前最高的80.87%,并且在跨科室句法分析上超过Stanford parser和Berkeley parser 2%以上.  相似文献   

12.
提出一种基于人类计算的语音语料库标注方法.该标注方法的主要思路是通过一个基于Web的语言学习系统来收集由大量学习者(用户)输入的词汇标注和音标标注,并从中选择出现概率最大的用户输入作为语料的正确标注.为了保证通过这种人类计算方法获得的标注文本的质量,使用了一些计算机辅助机制来校验收集到的标注的可靠性.采用这种方法实现语音语料库标注的主要优点在于将语料库标注和语言学习相结合,无需专门投入大量的人力来进行枯燥乏味的语料库标注工作,从而节省了语料库标注的成本.对这种基于人类计算的语音语料库标注技术进行了探讨,说明了用于收集用户输入的语言学习系统的设计以及标注生成系统的设计.系统的应用表明,该标注方法能够有效、低成本地生成语音语料库的词汇标注和音标标注.  相似文献   

13.
中文网络聊天语言的奇异性与动态性研究   总被引:1,自引:0,他引:1  
随着互联网走入社会生活,网络聊天逐渐成为一种新的沟通渠道,网络聊天语言便应运而生。这类语言的日益丰富,给语言信息处理带来了新的挑战。研究发现,困难主要来自网络聊天语言的奇异性和动态性。本文借助真实网络聊天语言文本,对网络聊天语言的奇异性和动态性进行详细分析和归纳,并设计了面向解决奇异性和动态性问题的网络聊天语言文本识别与转换方法。我们先以网络聊天语言语料库为基础建立网络聊天语言模型和语言转换模型,通过信源–信道模型实现网络聊天语言向标准语言的转换。但该方法过于依赖网络聊天语言语料库,虽然能较好解决奇异性问题,但不能处理动态性问题。因此,我们进而以标准汉语语料库为基础建立文字语音映射模型,对信源–信道模型进行改进,最终有效解决了网络聊天语言的动态性问题。  相似文献   

14.
张海军  陈映辉 《计算机工程》2020,46(3):129-137,143
通过类图像处理与向量化方法对访问流量语料库大数据进行词向量化处理,实现面向大数据跨站脚本攻击的智能检测。利用类图像处理方法进行数据获取、数据清洗、数据抽样和特征提取,设计一种基于神经网络的词向量化算法,得到词向量化大数据。在此基础上,提出多种不同深度的DCNNs智能检测算法。设置不同的超参数进行实验得到算法的识别率均值、方差和标准差,结果表明,该算法具有较高的识别率和稳定性。  相似文献   

15.
为了避免普通粒子群算法(PSO)可能出现的局部收敛及精度不高现象,围绕影响PSO算法性能的两个重要参数[w]和[pgd],提出了一种面向全局优化的参数自适应变异PSO改进算法。算法定义了粒子熵集概念,可以精确反映粒子群数据的全局聚集特性,由粒子群各维数据的熵值大小决定是否对各维数据的惯性权重[w]进行回归变异,对全局变量[pgd]进行随机变异,并采取引入变异次数因子等方法来避免寻优发散。仿真研究表明该算法比常用算法在寻优精度、摆脱局部陷阱、稳定性等方面均有明显提高,在求解复杂多峰问题上有着良好的表现。  相似文献   

16.
中国中文信息学会、中国计算机学会、中国人工智能学会和北京市语言学会于2003年8月8日~11日在哈尔滨市与哈尔滨工业大学联合举办“全国第7届计算语言学联合学术会议(JSCL 2003)”。 一、征文范围 (1) 计算语言学的理论基础:知识表示、语义学、语用学、语料库语言学、记忆模型、机器学习、知识获取和推理技术; (2) 现代汉语的句法分析和语义分析:汉语分析的策略、句法分析和语义分析中的计算问题、汉语分析的展望; (3) 汉语语料库技术及系统; (4) 汉语人机接口技术及系统; (5) 机器翻译技术、系统及评测方法; (6) 话语和篇章的分析…  相似文献   

17.
基于Web的跨语言信息检索研究综述   总被引:1,自引:0,他引:1  
回顾了近年来基于Web的跨语言信息检索技术的理论研究和发展现状,针对跨语言信息检索中基于语料库的方法,就其中语料库的构建和使用问题进行了阐述.比较分析和总结了两方面的技术:一是利用互联网上丰富的双语资源来建立大规模双语语料库的技术,二是目前运用较多的几种查询翻译模型构建技术.最后,展望了该领域的研究前景和发展方向.  相似文献   

18.
该文从研究背景、设计思路、标注体系和方法、加工步骤等方面介绍了汉语语义倾向语料库的建设过程。该语料库是一个以研究语言主观性表达为目的的共时、非平衡、单语标注语料库,依据语言主观性多维度描述体系而设计,规模为100万字,配备有集检索与统计、结果检查与可视化于一体的专用语料库工具箱系统,具有可用性大、标注质量高、语言学理据强等特点。  相似文献   

19.
建设高质量的大规模语料库是中文信息处理领域的基础性工程,保证语料库分词结果的一致性是衡量语料库分词质量的重要标准之一.在分析了大量的语料库切分不一致现象后,提出了规则与统计相结合的分词一致性检验的新方法.与以往单一的处理方法相比,该方法更具针对性的对语料库中存在的各种不同的分词不一致现象分别进行处理,能够更加有效的解决分词不一致问题,进一步保证语料库的质量.  相似文献   

20.
《计算机与网络》2007,(17):71-71
在数据爆炸的今天,各大企业的CIO们比以往面临更多棘手的问题。如何花更少的钱,用更少的资源.处理更多的数据,获得更高的性能?“绿化”商务智能骤然间从“起点”成为“焦点”。[第一段]  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号