期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

基于整体特征的快速手写体数字字符识别 总被引：11，自引：0，他引：11

龚才春刘荣兴《计算机工程与应用》2004,40(19):82-83,122

该文通过模拟人眼识别数字字符的过程,提出了一种基于字符整体特征(凹凸特征)的快速手写体数字字符识别方法。该方法不需要对字符图像做复杂的细化处理,减少了细化形变可能带来的误识和拒识;也不需要进行复杂的笔道特征分析,因此速度非常快。同时,由于不同人书写的数字字符的整体特征都相同,因此该方法的识别率也非常高。相似文献

2.

大规模语料的频繁模式快速发现算法

龚才春贺敏陈海强许洪波程学旗《通信学报》2007,28(12):161-166

提出了一种大规模语料频繁模式快速发现算法，通过采用合适的策略将语料划分为若干子语料，对每个子语料单独进行处理，即可获得原始语料的频繁模式；同时该算法能够避免处理频次在设定阈值以下的模式，进一步减少了内存占用，提高了处理速度。实验表明，对3．6G互联网新闻语料发现频次大于100的所有频繁模式中最高消耗内存为1．6GB，单机平均每秒处理文本语料3．28M。相似文献

3.

基于多重索引模型的大规模词典近似匹配算法 总被引：1，自引：0，他引：1

龚才春黄玉兰许洪波白硕《计算机研究与发展》2008,45(10)

编辑器的拼写校正、搜索引擎的查询纠正、光学字符识别的结果检查等领域都用到词典近似匹配算法.传统单索引模式很难在高性能的前提下保证高召回率.词典越大问题越严重.提出了大规模词典近似匹配的多重索引模型,首先将背景词典根据单词长度划分为若干子词典,对各子词典按照一定策略建立unigram,bigram,trigram,quadgram中的一种或若干种索引,当查找用户模式P的近似匹配时,根据模式P检索特定N-gram索引链,从而得到候选近似匹配集合C,对C中每一个单词W,计算P与W的编辑距离即可输出P的所有最终匹配结果R.实验表明,基于多重索引模型的词典近似匹配算法能够大幅度减少候选近似匹配结果的数量,从而提高词典近似匹配的速度. 相似文献

4.

Kad网络节点资源探测分析 总被引：1，自引：0，他引：1

刘祥涛龚才春刘悦白硕《中文信息学报》2010,24(6):85-92

Kad网络中存在数以亿计的共享资源,而其中有相当一部分可被评定为敏感资源。为深入了解Kad网络上资源尤其是敏感资源的特征,运用Kad网络采集器 Rainbow对节点拥有的文件资源进行探测分析。该文发现 1)文件流行度和文件所对应的文件名数量都近似符合Zipf分布;2)利用同一个“文件内容哈希”(即file-content-hash)的多个文件名的共现词可以更准确地进行敏感判别;3)敏感资源占随机样本的6.34%,且敏感资源中74.8%为video文件。相似文献

5.

一种基于大规模语料的新词识别方法 总被引：1，自引：0，他引：1

下载免费PDF全文

贺敏龚才春张华平程学旗《计算机工程与应用》2007,43(21):157-159

提出了一种基于大规模语料的新词识别方法,在重复串统计的基础上,结合分析不同串的外部环境和内部构成,依次判断上下文邻接种类,首尾单字位置成词概率以及双字耦合度等语言特征,分别过滤得到新词。通过在不同规模的语料上实验发现,此方法可行有效,能够应用到词典编撰,术语提取等领域。相似文献

6.

面向字符识别的快速小形变细化算法

龚才春刘荣兴《计算机应用与软件》2005,22(2):88-89

本文描述了现有字符细化算法的思想及其缺陷，并且在分析细化形变根源的基础上给出了一种面向字符识别的快速细化算法。该算法不仅速度非常快，而且不会产生毛刺和伪分支点，细化后字符骨架形变很小。相似文献

7.

基于伪相关反馈模型的领域词典生成算法

黄玉兰龚才春许洪波程学旗《中文信息学报》2008,22(1):111-115

本文提出了一种基于伪相关反馈模型的领域词典自动生成算法。将领域词典生成过程视为领域术语的检索过程假设初始检索出来的前若干个字符串与领域相关,将这些字符串加到领域词典中,重新检索,如此迭代,直到生成的领域词典达到预先设定的规模。实验表明,本算法经过若干次迭代后生成的领域词典准确率高于已有领域词典生成算法。相似文献