排序方式: 共有8条查询结果,搜索用时 15 毫秒
1
1.
2.
书面汉语自动分词综述 总被引:9,自引:0,他引:9
梁南元 《计算机应用与软件》1987,(3)
汉语分词是汉语言处理有别于拼音文字语言处理的特点之一。本文回顾了汉语自动分词的研究历史;对现有的四种计算机自动分词方法进行了评介;介绍了当前的研究现状和存在的困难。 相似文献
3.
本文讨论了《信息处理用现代汉语常用词表》(以下简称《常用词表》)的制订方法。提出按照《信息处理用现代汉语分词规范》, 以定量原则为主,定性原则为辅的原则进行选词, 《常用词表》首次提出选词函数的术语, 并创造性地使用两个不同选词函数共同选词, 使所选词条均匀分布性更好:以定量为原则的收词方法客观真实地反映了社会实际用词的规律, 尽可能地避免了传统主观方法建立词典时的不足;采用联想的定性方法做为定量标准的补充, 使《常用词表》中词条更加完整避免和减小了在词频统计中由于分类、选材、抽样、分词等引起的背景干扰。《常用词表》收词规范、收词频率高、覆盖率高, 为“现代”各个时期、各个专业所通用。经验证, 覆盖率在98.5%以上。 相似文献
4.
汉语计算机自动分词知识 总被引:20,自引:3,他引:17
汉语分词是汉语言计算机处理的一项不可缺少的工作。使用自动分词知识可以进一步提高自动切分精度, 满足高标准的需求。本文在[1][2][3]的研究基础上, 介绍了一些行之有效的自动分词知识。根据对48092 个汉字的语言材料统计结果表明统计材料分社会科学和自然科学两部分, 这些自动分词知识可以处理左右的歧义切分字段。 相似文献
5.
6.
汉语处理的基础工程——现代汉语词频统计 总被引:10,自引:1,他引:9
汉语词领统计是汉语言处理的一项基础工程。汉语词汇量巨大, 人工统计精度上难以保证。由于存在编码输入、分词等方面的困难, 直到八十年代初期, 我国才开始利用计算机进行汉语分词、统计的研究。“ 现代汉语词预统计” 是由北京航空学院等个单位研制成功的、规模巨大的汉语基础工程。它选取汉语材料约三亿字, 从中抽样输入了二千余万汉字, 并对之进行了计算机自动分词和频度统计。它首次实现了一个汉语自动分词系统一CDWS, 建立了一个有十三余万词条的计算机词典, 研制了一个有五十二个属性的汉字信息库。 相似文献
7.
8.
书面汉语自动分词系统—CDWS 总被引:53,自引:7,他引:46
本文在大量统计的基础上, 论证了计算机自动分词是可行的。CDWS The Mordern Printed Chinese Distinguishing Word System)是作者设计的一个有较高切分精度、可实用的现代书面汉语自动分词系统, 它采用了词尾字构词检错技术及若干有效的纠错知识, 配置了知识库和临时词典, 显著的降低了错误切分率。 相似文献
1