首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
基于柔性匹配的中文文本特征提取方法   总被引:2,自引:0,他引:2       下载免费PDF全文
针对含有变形关键词的不良信息过滤问题,提出一种基于柔性匹配的中文文本特征信息提取方法。该方法采用柔性匹配技术识别和提取变形关键词,改进向量空间模型中特征项权重的计算方法,对具有变形形式的关键词赋予较高权重,从而提高特征信息的提取效率。实验结果表明,该方法可在保证过滤准确率的前提下,获得较高的召回率。  相似文献   

2.
信息安全中的变形关键词的识别   总被引:1,自引:0,他引:1       下载免费PDF全文
李钝  曹元大  万月亮 《计算机工程》2007,33(21):155-156
互联网中的不法分子为了逃避安全过滤,将不良信息中的文本进行变形,并在在网络中散布。为了识别和过滤这些不良文本,该文分析了其变形的特征,根据词同现和字符编码规则的不同对文本进行预处理,从文本中抽出包含有变形特征的有害词串。针对这些有害词串中各字符相邻、有序频繁出现的特点,提出采用基于关联规则自学习算法提取具有安全特色的关键词。实验表明,该方法可以改善传统方法在安全过滤过程中无法识别变形关键词的现状,对主题过滤提供补充,提高基于内容的安全过滤的效率。  相似文献   

3.
针对网络信息的实时过滤问题,提出了一种基于代理服务器的网络信息实时过滤机制。为了提高信息过滤的性能。还提出了一种高效的关键词集合匹配方法(KPSMM)。KPSMM可以实现关键词集合的高效过滤,其性能比传统的字符串过滤方式有较大提高。  相似文献   

4.
5.
基于内容的协同过滤器利用用户关于误判和漏判信息的反馈,对电子邮件进行过滤,可以提高过滤器跟踪垃圾邮件中概念漂移的能力,但这类方法都对集中式的垃圾邮件过滤做出了隐含假设.为了解决集中式协同邮件过滤的问题,提出了一种基于P2P网络的个性化协同垃圾邮件过滤模型,描述了其系统结构和基于签名的系统设计与实现方法.实现了一个原型系统,收集使用其作为垃圾邮件过滤器的用户的数据进行分析.实验结果分析表明,这种个性化协同垃圾邮件过滤是准确和有效的.  相似文献   

6.
序列数据一类重要的数据类型,在文本、Web访问日志文件、生物数据库等应用中普遍存在,对其进行相似性查询是一种获取有用信息的重要手段.在大型序列数据库中进行高效相似性查询的关键因素之一就是查询算法的过滤能力,即设计能快速过滤与查询序列不相关序列集的过滤器十分重要.提出了结合序列距离的度量性质和序列自身特征的多重过滤算法SSQ_MF,SSQ_MF使用了长度过滤器、前缀过滤器和基于参考集的过滤器,使得算法过滤能力较基于单一过滤器算法进一步增强.此外,设计了有关数据结构对查询数据库的一些统计信息进行了预计算和保存,有效估计了各过滤器的过滤集大小,并构建了一个由过滤集大小确定的最优过滤顺序模型,使得算法的过滤代价最低.实验结果表明,算法SSQ_MF的查询性能优于单一过滤器算法和随机过滤顺序的多过滤器算法.  相似文献   

7.
刘威  郭渊博  黄鹏 《计算机应用》2011,31(1):107-109
针对传统的模式匹配引擎不具备完整报文检测功能的问题和出现的速度瓶颈,提出了基于FPGA实现的多维布隆过滤器解决方案,设计了能够同时检测报头和有效负载的多模式匹配引擎。引擎使用多维布隆过滤器过滤出可疑报文,由位拆分状态机进行精确匹配。分析和试验结果表明:与传统方法相比,基于多维布隆过滤器的模式匹配引擎可以并行检测报头和报文内容,在降低过滤器误判率的同时,有效提高了引擎的吞吐量。  相似文献   

8.
曾鸣  赵荣彩 《计算机工程》2007,33(12):43-45,4
BSD包过滤器(BSD Packet Filter,BPF)是BSD Unix操作系统提供的网络数据包捕获及过滤机制的内核组件。该文描述了BPF的组成及工作过程,分析了BPF采用的无环控制流图过滤模式,介绍了此模式基于虚拟机的实现。为了提高过滤器性能,必须解决BPF虚拟机指令生成器处理多个过滤条件组合时存在的指令冗余问题,通过引入静态单赋值(SSA),结合冗余谓词消除和窥孔优化等技术,可以有效缩短CFG图的平均路径长度,从而实现对过滤器性能的优化。  相似文献   

9.
为了避免感染计算机病毒或者包含恶意代码等不良信息的电子标签对RFID应用系统运行效率的影响,采用人工免疫系统的多层过滤机制建立了面向RFID数据中不良信息的过滤模型,模型的实施包括数据预处理、多层过滤器的生成与衰亡、过滤器的应用及进化。实验结果表明,该模型有较高的召回率和正确率,这说明了基于人工免疫系统的RFID数据过滤模型具有动态性和自适应强的优点,并为特定领域的信息分类问题解决提供了参考。  相似文献   

10.
防火墙通过URL过滤控制对因特网信息资源的访问.为了在高速防火墙上实现URL过滤,本文提出了位图法以改进URL过滤器的哈希表数据结构,提高哈希表查找速度;提出了快速压缩法,降低过滤器的空间占用.经过位图法和快速压缩法改进,并应用高速缓存优化后,采用实验对URL过滤器进行性能评价,发现URL过滤的平均时间下降了253.7%。空间下降了25.7%.  相似文献   

11.
唐坚刚  熊国萍 《微计算机信息》2007,23(27):261-262,109
在关键词权重统计算法的基础上,从语义角度出发,通过关键词对主题的表征强度并考虑关键词在文档中的位置等其他因素来计算关键词权重,为此创造性地提出了基于语义的矩阵词典和权重策略,使过滤更高效且权重取值更合理。实验表明,其对不良网页的过滤准确率也更高。  相似文献   

12.
基于权重均值的不良网页过滤算法研究   总被引:2,自引:0,他引:2  
传统的网页权重过滤算法中的权重大都根据词频统计方法来确定,该方法不能很好地表达关键词对主题的表征程度,且易被某些网站利用反关键字过滤策略逃避检测.在传统方法的基础上,设置加权的关键字矩阵词典,从关联规则出发,应用汉语语料库里的同类词定义,提出基于同类词权重均值的关联过滤算法.试验结果表明,该算法过滤更为高效,并且能够很好地应对色情网站的反关键字过滤策略,尤其在色情与医学网页的分离上有明显的效果.  相似文献   

13.
为增强校园网的信息安全,研究基于文本的自适应的智能型不良网页过滤关键技术,提出一种创新模式并开发设计了实验系统。该模式是通过自适应样本库构建不良类类别特征字库,并以此为基础构建智能化的不良类类别模式,用以实现不良网页的过滤。实验表明,该模式能以较快的速度和较高的准确率过滤测试文档集中的不良网页。  相似文献   

14.
基于抽样的垃圾短信过滤方法*   总被引:2,自引:0,他引:2  
现有垃圾短信过滤系统主要采用对短信进行逐条分析判断的技术,因此处理的效率比较低。针对这一过滤技术的不足,提出了一个基于抽样的垃圾短信过滤方法,该方法引入用户信任度的概念,根据用户的信任度对用户发送的短信进行抽样过滤,极大地提高了处理效率。同时该方法整合了多项垃圾短信过滤技术(黑白名单、关键词及内容过滤技术),较之单一的过滤方法在准确率和效率上有很大的提高。  相似文献   

15.
设计并实现了一种高效率、高性能的网页文本过滤系统,该系统采用分层过滤策略,包括实时过滤和事后分析。实时过滤模块是基于Linux下的IP Queue机制实现的,采用高效的过滤策略,在保证过滤实时性的同时也保证了过滤的准确性;事后分析模块研究过滤系统经过协议还原后备份的网页文本,通过网页预处理、非法关键词抽取、特征选择等步骤,实现了基于二元模型的文本过滤方法,该方法在一定大小的词语距离窗口内,采用包含非法关键词的二元词串作为特征,解决了使用二元词串带来数据稀疏的问题,同时保留了二元词串的强类别分辨能力的特征。实验表明,文章实现的过滤系统有较高的效率和准确率,用于事后分析的基于二元模型的文本过滤方法达到了较高的性能,其准确率、召唤率和F1的值分别为:96.98%,85.75%和91.02%。  相似文献   

16.
自适应不良网页过滤模式的研究与实践   总被引:2,自引:0,他引:2  
基于语义的文本过滤方法往往具有较大的时空开销,为了设计实用快捷而有效的过滤系统,创造性地提出了一个基于字频统计和数据挖掘技术的自适应不良网页过滤模式.以校园网作为研究环境,利用自适应语料库构建智能化的分类模式,通过模式识别过滤校园网中的不良网页.实验结果表明,该模式能以较快的速度和较为满意的准确率过滤测试文档集中的不良网页,具有较强的实用性.  相似文献   

17.
研究了基于关键词倒排表的中文网页快速检索方法。在建立大量网页语料库的前提下,利用关键词词典和优化后的前向最大切词算法脱机生成网页关键词特征向量,然后对网页特征向量作维数压缩生成压缩格式的网页特征表,最后利用网页特征表根据关键词在所有网页中出现的频率统计生成关键词倒排文件。实验中,通过对比访问网页库、特征表和倒排文件三种不同的数据来源,分别实现了中文网页的关键词检索,比较了三种数据源检索的实时性。实验表明,基于关键词的倒排表检索算法大大优于其他两种方法,具有很好的实时性。  相似文献   

18.
一种基于内容的混合模式过滤模型   总被引:1,自引:0,他引:1       下载免费PDF全文
目前的文本内容过滤系统大多是基于关键词的,在对准确性过滤要求不高的情况下可以完成过滤任务。为进一步提高过滤效率,该文提出一种基于内容的混合模式过滤模型,引入语义分析技术,在关键词匹配技术的基础上进行语义框架的匹配,从而保证信息过滤的速度,改善信息过滤的准确度。通过实例对其有效性进行了验证。  相似文献   

19.
基于自动机的多模式匹配算法是网络内容过滤与业务监管的核心技术之一,但随着模式集合的扩大,对存储资源消耗过大。为降低当前匹配算法的空间复杂度,同时保持较低的时间复杂度,提出了一种基于关键字预处理和状态编码的优化方法。关键字预处理用于过滤冗杂内容,大大降低了处理复杂度;而采用状态编码消除了NFA中的大量failure转移,可有效降低其开销。理论分析和实验仿真表明,相对于传统的基于TCAM的匹配算法,该算法在大大减少内存需求的情况下,实现了模式的高效匹配。  相似文献   

20.
敏感信息识别是净化互联网环境的关键,在当今信息爆炸的时代,人们每天都要从互联网中获得大量信息,如何过滤大量信息中的敏感信息对整个社会安定和谐有着重要的意义.现有的方法主要是基于敏感关键词的方法进行过滤,需要不断更新迭代敏感关键词,泛化性弱,本文中使用基于预训练模型的深度学习方法可以学习到互联网新闻文本中更深层的语义信息,进而更有效的识别和过滤敏感信息,泛化性强,但是只使用深度学习方法会一定程度上的损失敏感关键词特征.本文首次将传统的敏感关键词方法与深度学习方法相结合应用于互联网敏感信息识别,提出了一种融合敏感关键词特征的模型Mer-HiBert.实验结果表明,与之前的敏感关键词方法以及深度学习模型相比,模型的性能有进一步提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号