期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

论汉语自动分词方法 总被引：39，自引：2，他引：37

揭春雨刘源梁南元《中文信息学报》1989,3(1):3-11

文章简单考查了目前中文信息处理领域中已有的几种主要的汉语自动分词方法, 提出自动分词方法的结构模型ASM(d,a,m)，对各种分词方法的时间复杂度进行计算, 对于时间复杂度对分词速度的影响, 以及分词方法对分词精度的影响也进行了分析；同时指出并论证在自动分词中设立“ 切分标志”是没有意义的。相似文献

2.

汉语自动分词实用系统CASS的设计和实现 总被引：9，自引：1，他引：8

揭春雨刘源《中文信息学报》1991,5(4):31-38

近年来, 汉语自动分词成力中文信息处理的一大热门课题, 其研究进展令人关注。本文主旨, 是通过介绍CASS系统的设计和实现, 阐述汉语自动分词实用系统的一般性原理, 包括系统的总体结构、自动分词算法和分词词典的实现、各种多义切分字段的识别和处理, 等等。CASS系统由总控程序、自动分词程序、设施管理程序、分词词典和知识库等五大部分组成。自动分词算法程序选用正向增字最大匹配法ASM(+1,+1,+1)实现, 该算法的嵌套调用, 可以识别出各种多义切分字段, 包括任意多重的交集型多义字段。这个算法经过相应的运行控制, 可以实现其它各种分词方法。相似文献

3.

基于双语URL匹配模式可信度的平行网页识别研究

章成志马舒天揭春雨姚旭晨《中文信息学报》2018,32(3):91-100

平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法: 即利用全局可信度,救回因低于局部可信度阈值而被初始算法滤掉的匹配模式;通过全局可信度和网页检测方法,挖出深层网页。进一步,结合网站双语可信度、链接关系,侦测出种子网站周边更多较具可信度的双语网站。除了双语URL匹配模式自动识别,还利用搜索引擎,依据少数高可信度的匹配模式快速识别双语网页。为了提高以上五种方法识别候选双语网页对的准确率,计算了候选双语网页对的双语相似度,并设置阈值过滤非双语网页对。通过实验验证了所提方法的有效性。相似文献

4.

基于知识本体的术语定义（下）

揭春雨冯志伟《术语标准化与信息技术》2009,(3):14-23

本文全面回顾传统术语定义的历史背景和理论基础,充分肯定它在术语学奠基和发展中尤其在已有的术语标准化等工作中的积极作用。但通过实例,我们指出传统术语定义的局限性,提出崭新的基于知识本体的术语定义,旨在抛砖引玉,把长期囿于名词术语的传统术语学扩展成一种面向各种专业知识的更广泛的语言表达的术语学理论。相似文献

5.

基于知识本体的术语定义（上）

揭春雨冯志伟《术语标准化与信息技术》2009,(2):4-8,43

本文分析了传统术语定义的理论背景和它在术语标准化工作中的积极作用,指出了传统术语定义的局限性,提出了基于知识本体的术语定义。相似文献

6.

香港“双语法例资料系统”法律术语的统计分析

那日松揭春雨冯志伟《术语标准化与信息技术》2008,(2):32-35

本文使用计算机对于香港汉英双语法例资料系统的文本语料和法律词汇进行了用字和用词的统计分析,并且还对文本语料中的标点符号进行了统计分析,指出了香港法律术语中也存在着“术语形成的经济律”,并且遵守“Zipf定律”,同时也指出了香港法律术语在结构上的某些特点。相似文献

7.

香港"双语法例资料系统"法律术语的统计分折

那日松揭春雨冯志伟《术语标准化与信息技术》2008,(2)

本文使用计算机对于香港汉英双语法例资料系统的文本语料和法律词汇进行了用字和用词的统计分析,并且还对文本语料中的标点符号进行了统计分析,指出了香港法律术语中也存在着"术语形成的经济律",并且遵守"Zipf定律",同时也指出了香港法律术语在结构上的某些特点。相似文献

8.

基于有效子串标注的中文分词 总被引：7，自引：0，他引：7

赵海揭春雨《中文信息学报》2007,21(5):8-13

由于基于已切分语料的学习方法和体系的兴起,中文分词在本世纪的头几年取得了显著的突破。尤其是2003年国际中文分词评测活动Bakeoff开展以来,基于字标注的统计学习方法引起了广泛关注。本文探讨这一学习框架的推广问题,以一种更为可靠的算法寻找更长的标注单元来实现中文分词的大规模语料学习,同时改进已有工作的不足。我们提出子串标注的一般化框架,包括两个步骤,一是确定有效子串词典的迭代最大匹配过滤算法,二是在给定文本上实现子串单元识别的双词典最大匹配算法。该方法的有效性在Bakeoff-2005评测语料上获得了验证。相似文献

9.

“信息处理用现代汉语分词规范”的若干问题探讨 总被引：6，自引：1，他引：5

揭春雨《中文信息学报》1989,3(4):35-43

汉语信息处理技术的重点已由单个字符处理过渡到词处理和句子处理, 过渡的基点是分词, 一个统一的分词规范国家标准对于众多信息处理系统之间的兼容性具有不言而喻的重要意义。目前, “信息处理用现代汉语分词规范（国家标准）”正在制订和审定。本文讨论了几个与此相关的问题, 分析了汉语信息处理用词的特点, 对“分词规范”和汉语拼音正词法作了比较, 对“分词规范”和民族语用心理习惯的关系也进行了探讨, 在此基础上, 作者对“分词规范”提出了一些个人意见和建议。相似文献

10.

中文CCG树库的构建

宋彦黄昌宁揭春雨《中文信息学报》2012,26(3):3-9

组合范畴语法(CCG)是一种类型驱动的语法,可以高度词例化(lexicalized)并兼顾句法和一定程度上语义的表达,可为深层次的文本分析提供有效支持。将CCG应用于真实文本分析需要编制大规模的词库,为了避免为此付出的昂贵人力和资源,一个经济有效的解决方案是利用现有短语句法树库来自动生成CCG树库。该文提出在清华中文树库的基础上自动生成CCG树库的方法,在预定义的中文句型和基于清华树库的动词子范畴框架的支持下,通过标准转换算法,得到一个包含32 737句、超过35万词次的中文CCG树库。该树库通过手工和自动评价验证,又与已有文献所报告的多语种CCG树库构建工作比较,均证明该文所述方法的有效性。相似文献