共查询到20条相似文献,搜索用时 46 毫秒
1.
汉语自动分词技术的现状及发展趋势 总被引:11,自引:0,他引:11
一、汉语自动分词的提出与困难 汉语自动分词是80年代初期中文信息处理领域提出的重大课题,分为书面汉语分词和口词分词,前者指对键盘输入或以光电识别输入计算机的汉语进行处 相似文献
2.
汉语计算机自动分词知识 总被引:20,自引:3,他引:17
汉语分词是汉语言计算机处理的一项不可缺少的工作。使用自动分词知识可以进一步提高自动切分精度, 满足高标准的需求。本文在[1][2][3]的研究基础上, 介绍了一些行之有效的自动分词知识。根据对48092 个汉字的语言材料统计结果表明统计材料分社会科学和自然科学两部分, 这些自动分词知识可以处理左右的歧义切分字段。 相似文献
3.
书面汉语自动分词是目前中文信息处理的一个公认难题,利用人工智能技术构造汉语自动分词专家系统可以说是一个方向。本文分析了歧义字段的产生根源,提出了将深部知识结构(DKS)技术用于自动分词专家系统的设想,并叙述了Aspect的分类及DKS推理,目的是试图探讨出一种新的书面汉语自动分词专家系统的实现方法。 相似文献
4.
汉语处理的基础工程——现代汉语词频统计 总被引:10,自引:1,他引:9
汉语词领统计是汉语言处理的一项基础工程。汉语词汇量巨大, 人工统计精度上难以保证。由于存在编码输入、分词等方面的困难, 直到八十年代初期, 我国才开始利用计算机进行汉语分词、统计的研究。“ 现代汉语词预统计” 是由北京航空学院等个单位研制成功的、规模巨大的汉语基础工程。它选取汉语材料约三亿字, 从中抽样输入了二千余万汉字, 并对之进行了计算机自动分词和频度统计。它首次实现了一个汉语自动分词系统一CDWS, 建立了一个有十三余万词条的计算机词典, 研制了一个有五十二个属性的汉字信息库。 相似文献
5.
应用神经网络进行汉语自动分词研究是文中信息领域的重要课题。文中阐述了神经网络输入/输出模块的设计原则,并给出了这两个模块的设计方法。 相似文献
6.
中文信息处理中自动分词技术的研究与展望 总被引:22,自引:0,他引:22
汉语自动分词是中文信息处理的关键技术,已经成为中文信息处理发展的瓶颈。文章介绍了当前自动分词技术的研究状况,对各种分词算法进行了介绍,并对各种算法进行了比较和讨论。最后,对汉语自动分词技术的发展进行了展望。 相似文献
7.
《中国科学:信息科学》2012,(5):663
简介:《中国科学:信息科学》(英文名称:SCIENTIA SINICA Informationis)是中国科学院和国家自然科学基金委员会共同主办、《中国科学》杂志社出版的学术刊物.本刊力求刊载信息科学领域最高学术水平的中文文章,及时报道计算机科学与技术、控制科学与控制工程、通信与信息系统、电子科学与技术等领域基础与应用研究方面的原创性成果,推动信息科学技术发展,搭建理论与技术应用的桥梁, 相似文献
8.
语句拼音-汉字转换的智能处理机制分析 总被引:4,自引:4,他引:4
语句拼音- 汉字转换是中文信息处理研究的一个重要方面,是键盘汉字输入和语音输入的核心技术,其主要特征是对动态输入的拼音串进行词法分析,给出所有可能的汉语句子,然后对这些汉语句子根据上下文环境进行句法分析和语义分析,动态调整句子中的字词,输出最佳结果。近年来,语句拼音- 汉字转换系统大量应用了人工智能技术和机器翻译的理论,以期提高系统转换的准确率和增强系统的智能处理功能。本文分析了语句拼音- 汉字转换系统所采用的核心技术,即知识支持、自动分词和动态调整等,讨论了语句拼音- 汉字转换的处理方法和过程,知识库的组成结构,用于拼音串自动分词的算法和实现,音字转换中动态调整的概率模型等,本文还分析了现有语句拼音- 汉字转换系统在拼音串自动分词和音字转换的动态调整中发生错误的原因,并提出了改进方法。 相似文献
9.
交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉语通用词表、一个规模约为9亿字的通用语料库和两个涵盖55个专业领域、总规模约为1.4亿字的专业领域语料库,对从通用语料库中抽取的高频交集型歧义切分字段在专业领域语料库中的统计特性,以及从专业领域语料库中抽取的交集型歧义切分字段关于专业领域的统计特性进行了穷尽式、多角度的考察。给出的观察结果对设计面向专业领域的汉语自动分词算法具有一定的参考价值。 相似文献
10.
该文介绍了以《淮南子》为文本的上古汉语分词及词性标注语料库及其构建过程。该文采取了自动分词与词性标注并结合人工校正的方法构建该语料库,其中自动过程使用领域适应方法优化标注模型,在分词和词性标注上均显著提升了标注性能。分析了上古汉语的词汇特点,并以此为基础描述了一些显式的词汇形态特征,将其运用于我们的自动分词及词性标注中,特别对词性标注系统带来了有效帮助。总结并分析了自动分词和词性标注中出现的错误,最后描述了整个语料库的词汇和词性分布特点。提出的方法在《淮南子》的标注过程中得到了验证,为日后扩展到其他古汉语资源提供了参考。同时,基于该文工作得到的《淮南子》语料库也为日后的古汉语研究提供了有益的资源。 相似文献
11.
议当代人工智能的应用领域和发展状况 总被引:1,自引:0,他引:1
本文介绍了人工智能的发展状况和一些新型技术,这些人工智能技术在人们生活当中的一些领域已经得以使用。例如专家系统、模糊控制和神经网络等等。通过这篇文章我们要了解人工智能的几种类型和应用以及在未来的发展。 相似文献
12.
13.
14.
1引言 计算机自动分词是现代汉语处理的重要组成部分,也是最基础的工作.汉语处理的后续工作,如词性标注、句法分析、语义分析、篇章理解以及机器翻译等,都以自动分词后的文本作为处理的起点.要想最终实现高质量的篇章理解和机器翻译系统,自动分词质量的高低至关重要. 相似文献
15.
《中国科学:信息科学》2011,(7):903
简介:《中国科学:信息科学》与其英文版SCIENCE CHINA Information Sciences是中国科学院和国家自然科学基金委员会共同主办、《中国科学》杂志社出版的学术刊物,本刊力求及时报道计算机科学与技术、控制科学与控制工程、通信与信息系统、电子科学与技术等领域基础与应用研究方面的原创性成果;月刊,中文版每月20日出版,英文版每月1日出版.收录情况:《中国科学:信息科学》与其英文版SCIENCE CHINA Information Sciences是两个相对独立的刊物.前者被《中文核心期刊要目总览》、《中国科学引文数据库》、《中国期刊全文数据库》、《中国科技论文与引文数据库》等收录;后者被SCI,Math Reviews等收录.栏目:《中国科学:信息科学》设有以下4个栏目.评述:综述信息科学领域的代表性研究成果和最新进展,提出作者的独到见解和未来的研究方向.长度在20页左右.一般由编委邀请,有意撰写评述的专家也可向有关编委提议. 相似文献
16.
17.
《中国科学:信息科学》2011,(12):1549
简介:《中国科学:信息科学》与其英文版SCIENCE CHINA Information Sciences是中国科学院和国家自然科学基金委员会共同主办、《中国科学》杂志社出版的学术刊物,本刊力求及时报道计算机科学与技术、控制科学与控制工程、通信与信息系统、电子科学与技术等领域基础与应用研究方面的原创性成果;月 相似文献
18.
《中国科学:信息科学》2011,(12)
简介:《中国科学:信息科学》与其英文版SCIENCE CHINA Information Sciences是中国科学院和国家自然科学基金委员会共同主办、《中国科学》杂志社出版的学术刊物,本刊力求及时报道计算机科学与技术、控制科学与控制工程、通信与信息系统、电子科学与技术等领域基础与应用研究方面的原创性成果;月 相似文献
19.
近年来,基于神经网络的分词模型在封闭领域文本上取得了很高的性能。然而,在领域移植场景下,即测试数据与训练数据的领域差异较大时,分词的性能会显著下降。该文尝试利用自动获取的弱标注数据来提升领域移植场景下的分词性能。首先,对目前性能最好的BiLSTM-CRF分词模型进行扩展,引入适用于弱标注数据的损失函数;进而提出一种简单有效的数据筛选方法,从海量弱标注数据中筛选和目前领域更相关的数据;最后,该文发现数据预处理和在神经网络中引入传统特征均可以有效提高分词性能。在SIGHAN Bakeoff 2010和ZhuXian标注测试集上的实验结果表明,该文所提方法可有效提升汉语分词领域移植性能,平均F值提高了3.6%。 相似文献
20.
汉语自动分词技术研究 总被引:1,自引:0,他引:1
汉语自动分词是中文信息处理的基本问题.从分词的基本理论出发,对近年来中文分词研究的现状进行介绍,指出了能够大幅度提高未登录词识别性能的分词方法将是未来汉语自动分词技术的发展趋势,分析了分词中存在的两个困难及其解决方法. 相似文献