共查询到20条相似文献,搜索用时 234 毫秒
1.
2.
3.
校园网边界不良信息屏蔽系统设计 总被引:1,自引:0,他引:1
文章所描述的边界不良信息屏蔽系统是校园网络信息安全的重要部分,主要功能是屏蔽网上不良信息,跟踪用户的上网行为。系统共分三部分:防火墙不良信息屏蔽部分主要根据过滤规则库对内、外网数据,基于已知的网址(IP)、端口、协议和关键字等进行屏蔽;检测和封堵部分主要针对路由器和核心交换机对内、外网数据,基于内容进行深度旁路检测,发现不良信息进行封堵;数据处理中心部分主要是维护特征关键词信息表,为防火墙规则库的升级服务。文章对系统中所涉及的关键技术,如数据获取、内容识别、内容过滤、匹配技术、动态跟踪技术等进行了详细分析。 相似文献
4.
5.
本文主要针对不良内容的敏感信息出现的特征变化,提出一种基于文本内容的不良信息过滤的文本预处理方案,并着重探讨了其结构变化的敏感信息的识别及解决的方法。研究表明在文本的分词处理方面,对不良信息形式的变化进行预处理,能够提高过滤的效率。 相似文献
6.
7.
《计算机应用与软件》2013,(6)
在深入研究语音识别和文本挖掘的基础上提出一种数字视频内容安全检测系统的模型。该模型依据我国法律法规和道德规范建立一个不良信息特征库,采用自动语音识别技术将数字视频中的音频转化为文本,以LTC权重计算法来提取文本中的关键词并与特征库进行比对,实现不良信息的甄别与检测。实验结果表明,与传统的技术方法相比,该系统的准确率与响应时间有所提高。 相似文献
8.
李艳玲 《计算机与信息技术》2007,(5)
本文对信息过滤中的关键技术不良信息识别方法进行了研究,提出了一个基于内容的不良信息过滤模型,并结合现有的分类方法,给出了几种适用于不良信息文本实时识别的方法,对各算法用于不良信息识别的原理进行了描述. 相似文献
9.
许琦 《计算机与数字工程》2014,(10)
论文提出了一种基于向量空间模型的用户个性化需求建模方法。对关键词权重算法作出改进,将网页分为四类逻辑段,通过计算关键词在各类逻辑段中的权重而加权得到综合权重。采用基于内容的构建原则和反馈原则,将用户模型构建分为训练阶段和自适应学习阶段。在训练阶段由用户给出的样本文档与关键词采用类重心分类算法训练得到初始用户模型;在自适应学习阶段,提出了基于 Rocchio 算法的周期性自适应学习机制,根据用户对过滤结果的评价,调整用户模型,以提高对用户个性化需求的动态追踪能力。开发了个性化信息过滤原型系统。以中国服装网为实验数据源,对比百度搜索引擎,测试系统的信息过滤性能。实验结果表明,系统索引更新及时,响应速度快,返回的信息更精确,更合理,更加符合用户的实际需求。 相似文献
10.
11.
信息的特征码与关键词是信息搜索及内容过滤的核心。特征码的变异或隐蔽来自病毒与杀毒对抗机制,非法信息文件为逃避以内容过滤为主的检测,也可能采用类似方法对特征关键词进行变异处理。该文主要探讨了如何在特征关键词变异的情形下,检测并发现对应的特征文本关键词的一种方法,并基于字符特殊标点集的统计特性建立了一个简单有效的模型及检测变异特征的算法。在此基础上,用VC6.0语言实现了异常文本的检测程序SDG。在对目标文本的测试中,以上算法的识别率可以达到预期目标。 相似文献
12.
互联网中的不法分子为了逃避安全过滤,将不良信息中的文本进行变形,并在在网络中散布。为了识别和过滤这些不良文本,该文分析了其变形的特征,根据词同现和字符编码规则的不同对文本进行预处理,从文本中抽出包含有变形特征的有害词串。针对这些有害词串中各字符相邻、有序频繁出现的特点,提出采用基于关联规则自学习算法提取具有安全特色的关键词。实验表明,该方法可以改善传统方法在安全过滤过程中无法识别变形关键词的现状,对主题过滤提供补充,提高基于内容的安全过滤的效率。 相似文献
13.
为防范终端从网络中获取不良信息,分析了常见的网络访问控制和信息过滤方法,建立了基于终端信息过滤的网络访问控制模型。该模型通过综合分析URL地址/关键字I、P地址和协议等信息来识别不良网站,通过分析网页文本关键词识别不良网页。基于Windows网络过滤驱动技术,开发了一款Windows终端网络信息过滤和访问控制软件。该软件拦截Win-dows终端的网络访问数据流,应用建立的网络访问控制模型,实现了对不良网站和网页的访问控制。 相似文献
14.
关键词语义敏感影响短文本选择关键词赋予合适权重.针对仅关注关键词是否完备没有考虑到混淆关键词会对分类造成消极影响的问题,提出一种降低混淆关键词权重实现关键词权重优化的模型.首先,基于词频?逆文件频率(TF-IDF)和混淆矩阵的原理选择文本中被定义的混淆关键词.然后,基于注意力机制构建文本表征,通过全连接层降维重构表征;训练重构的表征尽可能相似于原表征,从而选出能保留句子信息的关键词;将混淆关键词从提取的关键词里排除出去,将筛选后的关键词称为强关键词.最后,使用双向长短记忆网络?注意力机制(BiLSTM-Attention)经典模型作短文本多分类的基础模型.在此基础模型之上把强关键词整体做嵌入表示加入到BiLSTM-Attention模型中的注意力部分激活函数计算当中.与BiLSTM-Attention基础模型进行的实验结果表明,所提模型在Snippets公开数据集上,分类准确率提高0.41个百分点. 相似文献
15.
16.
信息过滤是海量信息检索的重要手段之一,中文网络文本过滤系统在我国更具有明显的应用价值。该文介绍实现的一个中文网络文本过滤系统;该系统包括中文预处理、特征项选择、权重计算和分类等功能模块,可以方便地实现对中文网络文本的过滤功能。同时对系统采用的文本过滤算法的性能进行了测试。该系统具有一定的可扩充性和通用性。 相似文献
17.
文章提出了一种基于聚类的微博关键词提取方法。实验过程分三个步骤进行。第一步,对微博文本进行预处理和分词处理,再运用TF-IDF算法与TextRank算法计算词语权重,针对微博短文本的特性在计算词语权重时运用加权计算的方法,在得到词语权重后使用聚类算法提取候选关键词;第二步,根据n-gram语言模型的理论,取n的值为2定义最大左邻概率和最大右邻概率,据此对候选关键词进行扩展;第三步,根据语义扩展模型中邻接变化数和语义单元数的概念,对扩展后的关键词进行筛选,得到最终的提取结果。实验结果表明在处理短文本时Text Ramk算法比TF-IDF算法表现更佳,同时该方法能够有效地提取出微博中的关键词。 相似文献
18.
该文设计了一种面向信息内容安全的不良文本信息过滤模型。该模型采用主题信息过滤和倾向性过滤两级过滤模式,以语句为基本处理单元,采用依存句法获取语句的语义框架,结合基于知网的词汇褒贬倾向性判别,识别文本中的不良信息并予以过滤。实验表明,该模型能够较好地提高文本过滤效率和准确率。 相似文献
19.