共查询到19条相似文献,搜索用时 78 毫秒
1.
2.
3.
基于词频统计的中文分词的研究 总被引:21,自引:1,他引:20
论文介绍了一个基于词频统计的中文分词系统的设计和实现。通过这个系统,可以将输入的连续汉字串进行分词处理,输出分割后的汉语词串,一般是二字词串,并得到一个词典。词典中不重复地存储了每次处理中得到的词语,以及这些词语出现的频率。这个系统选用了三种统计原理分别进行统计:互信息,N元统计模型和t-测试。文中还对这三种原理的处理结果进行了比较,以分析各种统计原理的统计特点,以及各自所适合的应用场合。 相似文献
4.
本文详细介绍SVM(支持向量机)在词频统计中文分词中的应用。可将输入的连续字串进行分词处理,输出分割后的汉语词串,一般为二字词串,并得到一个词典。词典中不重复地存储了每次处理中得到的词语,以及这些词语出现的频率。选用了互信息原理进行统计。并采用SVM算法,分词的准确性与传统相比有了很大的提高,并具有一定的稳定性。 相似文献
5.
6.
7.
单链表由于其存储结构的局限性,通常采用插入算法实现排序,速度很慢,满足不了大规模问题的速度要求。在分析了单链表结构特征及快速排序算法思想的基础之上,作者提出并实现了在单链表中基于多个条件的快速排序算法,从而极大提高了排序的效率。 相似文献
8.
孔瑞平 《电脑编程技巧与维护》2024,(2):15-17
在大数据背景下,词频统计是被频繁提及的一个需求。一个词在文档中出现的频率越高就越重要,通过对每个词出现频率的统计而得出质的评价,从而为用户提供大量相关行业的数据信息,最终助力用户简便、快速地找到所需信息,为其做出精确、明智、及时的决策保驾护航。因此,将在Hadoop集群环境下,运用MapReduce计算框架来实现英文单词的统计与排序功能。 相似文献
9.
由单片机构成的应用系统中,经常要用到查找算法。对静态查找表进行查找,实现起来较为容易,而对于动态查找表的查找,在单片机系统非常有限的资源内则不太好实现。针对这一情况,提出一种基于散列表的单片机快速查找算法,并结合其在IC卜计时收费系统中的应用,详细描述算法的具体实现;阐述散列表数据结构、哈希函数和存储空间管理的设计思想,提供可在单片机上实现的算法源代码。 相似文献
10.
11.
ZHANG Hong-ke 《数字社区&智能家居》2008,(26)
迪杰斯特拉算法是图论中计算最短路径的经典算法,但在实际使用中该算法耗费大量的计算时间和存储空间。通过对传统迪杰斯特拉算法的深入分析,在计算时间和存储空间上对该算法提出了一种新的优化方案,并给出了优化后的详细算法。改进算法从消除冗余计算和冗余存储入手,采用链表数组作为存储结构。经算法复杂度分析,优化后的迪杰斯特拉算法在求解最短路径问题时在时间和空间复杂度上都有明显的提高。该优化算法操作性强,具有一定的实用价值。 相似文献
12.
藏文字频统计是藏文信息处理的基础性工作,通过对藏文字的部件、音节、结构和字的频度与通用度等定量统计与定性分析,为藏文信息处理提供基础数据。藏文字是一种由藏文字构件横向和纵向组合而成的拼音文字,在藏文字频统计中不仅要从整字角度统计分析藏文字频度属性,还要统计分析构成其构件的频度及位置属性。因此,在藏文字频统计系统中要分解构成藏文字的各部件。本文通过开发藏文字频统计系统,利用组合构件库结合藏文文法提出了一种藏文字构件分解算法。经测试,该算法不仅简单易行,而且可以有效地确定出各基本构件的位置特征,已应用于项目藏文字频统计系统。 相似文献
13.
防火墙通过URL过滤控制对因特网信息资源的访问.为了在高速防火墙上实现URL过滤,本文提出了位图法以改进URL过滤器的哈希表数据结构,提高哈希表查找速度;提出了快速压缩法,降低过滤器的空间占用.经过位图法和快速压缩法改进,并应用高速缓存优化后,采用实验对URL过滤器进行性能评价,发现URL过滤的平均时间下降了253.7%。空间下降了25.7%. 相似文献
14.
基于Hash结构的机械统计分词系统研究 总被引:3,自引:1,他引:3
在综合比较了常用的机械分词方法和统计分词方法基础上,论文设计并实现了一种基于Hash结构的机械统计分词系统。系统突破了传统的机械分词方法和统计分词方法,结合了两者的优势,并对其做了一系列的改进。从对测试结果的分析可以看出,系统的分词速度达到了每秒一万两千个汉字以上,且具有较强的未登陆词识别能力。 相似文献
15.
在互联网码号资源公钥证书体系(Resource Public Key Infrastructure,RPKI)中,依赖方(Relying Party,RP)负责从资料库同步并验证资源证书和签名对象(ROAs,Manifests,Ghostbusters),而后将有效的ROA处理成用于指导BGP路由的IP地址块和AS号的真实授权关系. 在当前的实现方式中,验证证书模块主要通过数据库查询递归查找待验证证书的父证书从而构建完整的证书链并由OpenSSL完成最终验证. 由于RPKI体系中证书量较大,导致基于数据库查询的方法效率不足. 结合RPKI运行机制中将计算代价由BGP路由器(用户)迁移到RP服务器(服务器)的特点和“空间换时间”的思想,可以将证书信息读取到内存中从而减少I/O的时间消耗. 本文基于上述思想基础,结合哈希表中条目查询的时间复杂度最优为O(1)的特点,设计并实现了基于哈希表的RPKI证书验证优化方法. 实验结果表明,在设计的3种实验场景中,平均时间加速比分别为99.03%、98.45%和97.48%,有效的减少了时间的消耗. 相似文献
16.
董万归 《数字社区&智能家居》2010,(4):859-860
该文结合哈希表提出一种多关键字的排序算法,该算法根据数据元素的关键字转换,利用哈希表的地址映射实现数据元素在有序序列中的位置,从而通过减少关键字比较及移动使排序算法得到优化。算法基于哈希表改进而来,在特殊多关键字排序中具有一定的应用。 相似文献
17.
18.
挖掘关联规别是数据挖掘研究的一个重要方面,而如何快速有效地挖掘出关联规则是当前研究的热点.本文提出了一种前缀广义链表,并应用此结构进行关联规则的挖掘,得到了一种快速的关联规则发现算法、该算法不仅方便、效率高,而且避免了产生组合爆炸问题. 相似文献