首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
基于柔性匹配的中文文本特征提取方法   总被引:2,自引:0,他引:2       下载免费PDF全文
针对含有变形关键词的不良信息过滤问题,提出一种基于柔性匹配的中文文本特征信息提取方法。该方法采用柔性匹配技术识别和提取变形关键词,改进向量空间模型中特征项权重的计算方法,对具有变形形式的关键词赋予较高权重,从而提高特征信息的提取效率。实验结果表明,该方法可在保证过滤准确率的前提下,获得较高的召回率。  相似文献   

2.
《信息与电脑》2022,(1):62-64
为有效过滤不良信息,笔者提出基于遗传算法的网络信息安全过滤系统。首先,组建数据过滤整体框架,集中解析信息参数;其次,设计防火墙控制电路,匹配规则接口;最后,定向接收网络信息数据流,基于遗传算法获取传输时延,多层次过滤信息内容。测试结果表明:该系统均能够有效过滤网络中出现的黑名单地址、非法关键词以及文本内容,保证用户的网络运行安全。  相似文献   

3.
校园网边界不良信息屏蔽系统设计   总被引:1,自引:0,他引:1  
文章所描述的边界不良信息屏蔽系统是校园网络信息安全的重要部分,主要功能是屏蔽网上不良信息,跟踪用户的上网行为。系统共分三部分:防火墙不良信息屏蔽部分主要根据过滤规则库对内、外网数据,基于已知的网址(IP)、端口、协议和关键字等进行屏蔽;检测和封堵部分主要针对路由器和核心交换机对内、外网数据,基于内容进行深度旁路检测,发现不良信息进行封堵;数据处理中心部分主要是维护特征关键词信息表,为防火墙规则库的升级服务。文章对系统中所涉及的关键技术,如数据获取、内容识别、内容过滤、匹配技术、动态跟踪技术等进行了详细分析。  相似文献   

4.
一种不良信息过滤的文本预处理方法研究   总被引:1,自引:0,他引:1  
目前互联网上含有不良内容的文本信息形式多变,本文主要针对不良内容的敏感信息出现的特征变化,提出一种基于文本内容的不良信息过滤的文本预处理方案,并着重探讨了其结构变化的敏感信息的识别及解决的方法。研究表明在文本的分词处理前,对不良信息形式的变化进行预处理,能够提高过滤的效率。  相似文献   

5.
本文主要针对不良内容的敏感信息出现的特征变化,提出一种基于文本内容的不良信息过滤的文本预处理方案,并着重探讨了其结构变化的敏感信息的识别及解决的方法。研究表明在文本的分词处理方面,对不良信息形式的变化进行预处理,能够提高过滤的效率。  相似文献   

6.
目前的研究大多把向量空间模型中特征项的选取与权重的计算分开,掩盖中文分词时产生的语义缺失,导致特征项区分度下降。为此,提出一种基于统计与规则的关键词抽取方法。利用句法规则提取出基本短语,以取代词袋模型中的词,考虑特征项位置、分布及语法角色等信息,综合加权计算特征项权重。实验结果表明,与现有方法相比,该方法能够更有效地进行文本信息过滤。  相似文献   

7.
在深入研究语音识别和文本挖掘的基础上提出一种数字视频内容安全检测系统的模型。该模型依据我国法律法规和道德规范建立一个不良信息特征库,采用自动语音识别技术将数字视频中的音频转化为文本,以LTC权重计算法来提取文本中的关键词并与特征库进行比对,实现不良信息的甄别与检测。实验结果表明,与传统的技术方法相比,该系统的准确率与响应时间有所提高。  相似文献   

8.
本文对信息过滤中的关键技术不良信息识别方法进行了研究,提出了一个基于内容的不良信息过滤模型,并结合现有的分类方法,给出了几种适用于不良信息文本实时识别的方法,对各算法用于不良信息识别的原理进行了描述.  相似文献   

9.
论文提出了一种基于向量空间模型的用户个性化需求建模方法。对关键词权重算法作出改进,将网页分为四类逻辑段,通过计算关键词在各类逻辑段中的权重而加权得到综合权重。采用基于内容的构建原则和反馈原则,将用户模型构建分为训练阶段和自适应学习阶段。在训练阶段由用户给出的样本文档与关键词采用类重心分类算法训练得到初始用户模型;在自适应学习阶段,提出了基于 Rocchio 算法的周期性自适应学习机制,根据用户对过滤结果的评价,调整用户模型,以提高对用户个性化需求的动态追踪能力。开发了个性化信息过滤原型系统。以中国服装网为实验数据源,对比百度搜索引擎,测试系统的信息过滤性能。实验结果表明,系统索引更新及时,响应速度快,返回的信息更精确,更合理,更加符合用户的实际需求。  相似文献   

10.
一种基于内容的混合模式过滤模型   总被引:1,自引:0,他引:1       下载免费PDF全文
目前的文本内容过滤系统大多是基于关键词的,在对准确性过滤要求不高的情况下可以完成过滤任务。为进一步提高过滤效率,该文提出一种基于内容的混合模式过滤模型,引入语义分析技术,在关键词匹配技术的基础上进行语义框架的匹配,从而保证信息过滤的速度,改善信息过滤的准确度。通过实例对其有效性进行了验证。  相似文献   

11.
吴晓刚  唐屹 《计算机安全》2006,14(11):18-19,27
信息的特征码与关键词是信息搜索及内容过滤的核心。特征码的变异或隐蔽来自病毒与杀毒对抗机制,非法信息文件为逃避以内容过滤为主的检测,也可能采用类似方法对特征关键词进行变异处理。该文主要探讨了如何在特征关键词变异的情形下,检测并发现对应的特征文本关键词的一种方法,并基于字符特殊标点集的统计特性建立了一个简单有效的模型及检测变异特征的算法。在此基础上,用VC6.0语言实现了异常文本的检测程序SDG。在对目标文本的测试中,以上算法的识别率可以达到预期目标。  相似文献   

12.
信息安全中的变形关键词的识别   总被引:1,自引:0,他引:1       下载免费PDF全文
李钝  曹元大  万月亮 《计算机工程》2007,33(21):155-156
互联网中的不法分子为了逃避安全过滤,将不良信息中的文本进行变形,并在在网络中散布。为了识别和过滤这些不良文本,该文分析了其变形的特征,根据词同现和字符编码规则的不同对文本进行预处理,从文本中抽出包含有变形特征的有害词串。针对这些有害词串中各字符相邻、有序频繁出现的特点,提出采用基于关联规则自学习算法提取具有安全特色的关键词。实验表明,该方法可以改善传统方法在安全过滤过程中无法识别变形关键词的现状,对主题过滤提供补充,提高基于内容的安全过滤的效率。  相似文献   

13.
为防范终端从网络中获取不良信息,分析了常见的网络访问控制和信息过滤方法,建立了基于终端信息过滤的网络访问控制模型。该模型通过综合分析URL地址/关键字I、P地址和协议等信息来识别不良网站,通过分析网页文本关键词识别不良网页。基于Windows网络过滤驱动技术,开发了一款Windows终端网络信息过滤和访问控制软件。该软件拦截Win-dows终端的网络访问数据流,应用建立的网络访问控制模型,实现了对不良网站和网页的访问控制。  相似文献   

14.
彭伟乐  武浩  徐立 《计算机应用》2021,41(z2):19-24
关键词语义敏感影响短文本选择关键词赋予合适权重.针对仅关注关键词是否完备没有考虑到混淆关键词会对分类造成消极影响的问题,提出一种降低混淆关键词权重实现关键词权重优化的模型.首先,基于词频?逆文件频率(TF-IDF)和混淆矩阵的原理选择文本中被定义的混淆关键词.然后,基于注意力机制构建文本表征,通过全连接层降维重构表征;训练重构的表征尽可能相似于原表征,从而选出能保留句子信息的关键词;将混淆关键词从提取的关键词里排除出去,将筛选后的关键词称为强关键词.最后,使用双向长短记忆网络?注意力机制(BiLSTM-Attention)经典模型作短文本多分类的基础模型.在此基础模型之上把强关键词整体做嵌入表示加入到BiLSTM-Attention模型中的注意力部分激活函数计算当中.与BiLSTM-Attention基础模型进行的实验结果表明,所提模型在Snippets公开数据集上,分类准确率提高0.41个百分点.  相似文献   

15.
基于内容理解的不良信息过滤技术研究*   总被引:2,自引:0,他引:2  
针对当前基于内容理解的网络不良信息过滤国内外研究现状,简要介绍了基于内容理解的不良信息过滤技术的相关概念和特点,并对基于内容理解的不良信息过滤关键工作中的主要算法和技术的基本原理及优缺点进行了系统的探讨和分析。最后讨论了当前基于内容的不良信息过滤技术存在的困难和发展趋势。  相似文献   

16.
信息过滤是海量信息检索的重要手段之一,中文网络文本过滤系统在我国更具有明显的应用价值。该文介绍实现的一个中文网络文本过滤系统;该系统包括中文预处理、特征项选择、权重计算和分类等功能模块,可以方便地实现对中文网络文本的过滤功能。同时对系统采用的文本过滤算法的性能进行了测试。该系统具有一定的可扩充性和通用性。  相似文献   

17.
文章提出了一种基于聚类的微博关键词提取方法。实验过程分三个步骤进行。第一步,对微博文本进行预处理和分词处理,再运用TF-IDF算法与TextRank算法计算词语权重,针对微博短文本的特性在计算词语权重时运用加权计算的方法,在得到词语权重后使用聚类算法提取候选关键词;第二步,根据n-gram语言模型的理论,取n的值为2定义最大左邻概率和最大右邻概率,据此对候选关键词进行扩展;第三步,根据语义扩展模型中邻接变化数和语义单元数的概念,对扩展后的关键词进行筛选,得到最终的提取结果。实验结果表明在处理短文本时Text Ramk算法比TF-IDF算法表现更佳,同时该方法能够有效地提取出微博中的关键词。  相似文献   

18.
该文设计了一种面向信息内容安全的不良文本信息过滤模型。该模型采用主题信息过滤和倾向性过滤两级过滤模式,以语句为基本处理单元,采用依存句法获取语句的语义框架,结合基于知网的词汇褒贬倾向性判别,识别文本中的不良信息并予以过滤。实验表明,该模型能够较好地提高文本过滤效率和准确率。  相似文献   

19.
为了避免感染计算机病毒或者包含恶意代码等不良信息的电子标签对RFID应用系统运行效率的影响,采用人工免疫系统的多层过滤机制建立了面向RFID数据中不良信息的过滤模型,模型的实施包括数据预处理、多层过滤器的生成与衰亡、过滤器的应用及进化。实验结果表明,该模型有较高的召回率和正确率,这说明了基于人工免疫系统的RFID数据过滤模型具有动态性和自适应强的优点,并为特定领域的信息分类问题解决提供了参考。  相似文献   

20.
《计算机工程》2017,(8):219-224
为了在大量的新闻中快速找到自己感兴趣的内容,提出在单文档中基于加权TextRank算法提取主题句的方法,以得到新闻关键事件信息。通过计算新闻文本句子关键词的互信息值,对新闻报道进行事件句和非事件句的分类,过滤出非事件句。基于TextRank算法的思想,构建一个事件句有向图,引入句子位置、句子相似度和关键词覆盖频率3个影响因子,以此计算句子之间的影响权重,利用TextRank模型对图中的每个点计算权重,并选取排序最靠前的句子作为关键事件的主题句。实验结果表明,该方法的抽取效果优于基于词频-逆文档概率和新闻标题的主题句抽取方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号