首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 109 毫秒
1.
基于合作模式的文本过滤模型   总被引:4,自引:0,他引:4  
文本过滤为因特网上用户提供信息服务,旨在帮助用户选择和处理自己感兴趣的文本。本文提出了基于合作模式的文本过滤模型。其基本思想是根据用户评注将用户分成若干类别,综合类别内外用户评注影响,给出了文本推荐机制,将相关文本推荐给用户。此外,利用相关反馈进行类别和参数重新调整,可以有效地改善过滤的效率。该方法不仅适用于单纯文本介质,而且还可以应用到其他非文本介质。  相似文献   

2.
文本结构分析与基于示例的文本过滤   总被引:13,自引:0,他引:13  
本文简要介绍了文本过滤的背景和发展,提出了基于示例的中文文本过滤模型.其基本思想是首先对于用户提出的示例文本进行文本结构分析,采用本文提出的文本层次分析方法,提取文本特征,形成主题词表示的用户模版(user profile),然后进行了文本过滤,同时引进段落匹配机制,提高过滤效率.通过用户反馈,改进用户模版.  相似文献   

3.
随着互联网信息的快速剧增,文本过滤技术成为互联网内容处理的关键技术,对海量信息处理具有很重要的意义.目前研究热点是基于语义的过滤方法,但是这些方法一般都需要大量规则和领域知识的支持,可用性不是很好.为了使机器更好地理解用户需求和文本内容,使过滤结果更能反映用户的真正需求,提高文本过滤的准确率和召回率,提出了基于用户本体模型UOM的文本信息过滤方法.该方法主要包括UOM构建、文本结构分析、文本概念提取和语义相关度计算等.基于UOM(User Ontology Model)的过滤方法,不仅可以表示复杂的用户需求,而且还避免了领域本体的构建,因而其有效性和实用性得到了很大的提高.通过在网络教学资源的智能按需服务系统中的实际运用,表明此方法能更有效地为用户提供过滤服务.  相似文献   

4.
基于内容的文本过滤关键在于建立有效的过滤模板。一种高效的过滤模板可以降低整个文本过滤系统对机器学习机制的要求,提高系统的过滤效率。提出了一种基于概念学习的过滤模板获取方法。该方法结合处理文本特征项的需要改进了概念学习方法中的寻找极大特殊假设算法,并应用新的算法从给定的少量训练文本中提取用户过滤模板。实验结果表明,与直接使用主题描述作为过滤模板的方法相比,较大地提高了过滤精度,可以达到比较令人满意的过滤效果。  相似文献   

5.
基于内容的文本过滤关键在于建立有效的过滤模板。一种高效的过滤模板可以降低整个文本过滤系统对机器学习机制的要求,提高系统的过滤效率。提出了一种基于概念学习的过滤模板获取方法。该方法结合处理文本特征项的需要改进了概念学习方法中的寻找极大特殊假设算法,并应用新的算法从给定的少量训练文本中提取用户过滤模板。实验结果表明,与直接使用主题描述作为过滤模板的方法相比,较大地提高了过滤精度,可以达到比较令人满意的过滤效果。  相似文献   

6.
文本特征区域与文本过滤的匹配机制   总被引:3,自引:0,他引:3  
为了根据用户的信息需求,在因特网上搜索相关文本,该文提出了一种文本过滤的匹配机制,其基本思想是:利用基于词典的概念扩张方法,改进用户模板。计算扩张的用户模板与文本的全局相似度,获取初步的过滤结果;在文本特征区域,进行标题、摘要段、首段和尾段等片断的局部相似度计算,以综合评价文本与用户模板的匹配情况。该方法可操作性强,效果明显。  相似文献   

7.
基于主题和态度分类的文本过滤系统   总被引:3,自引:0,他引:3       下载免费PDF全文
闵锦  黄萱菁 《计算机工程》2007,33(2):163-164
文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程。该文介绍了一种文本过滤算法,该算法把基于空间向量模型的主题分类算法与基于支持向量机文本态度分类结合起来。实验结果表明该方法具有较高的精度和召回率。  相似文献   

8.
该文设计了一种面向信息内容安全的不良文本信息过滤模型。该模型采用主题信息过滤和倾向性过滤两级过滤模式,以语句为基本处理单元,采用依存句法获取语句的语义框架,结合基于知网的词汇褒贬倾向性判别,识别文本中的不良信息并予以过滤。实验表明,该模型能够较好地提高文本过滤效率和准确率。  相似文献   

9.
中文文本过滤的信息分流机制   总被引:17,自引:2,他引:15  
在文本过滤中信息分流是提高过滤效率的有力的手段,为此,提出了一种新的中文文本过滤的信息分流机制.其基本思路是在概念扩充基础上,将不同用户的信息需求组织为树状结构,使其共同的部分成为共享分支,依据提出的侧面相似度和侧面匹配率来实现文本与模板的定量匹配,减弱传统的布尔模型对文本与模板匹配的严格限制,也弥补向量空间模型单纯数量化的不足,更加全面地反映用户的信息需求,试验表明该机制能够明显地提高过滤效率。  相似文献   

10.
基于语义空间的支持向量机的文本过滤   总被引:2,自引:0,他引:2  
传统的基于支持向量机的文本过滤,用向量空间模型来表示文本和用户模板,向量空间模型假设特征项之间是线性无关的,该假设引入了许多因具体用词变化不定而带来的词汇噪音信息,影响了基于支持向量机的文本过滤的过滤性能。提出基于语义空间的支持向量机的文本过滤,用语义来表示文本和用户模板。该方法主要通过奇异值分解提取文本的潜在语义空间,在语义空间上训练支持向量机得到用户模板和过滤阈值,文本流上的文本映射到语义空间上,在语义空间上计算用户模板和新文本的相似度。实验表明:该方法的过滤性能可以达到 98. 67%。  相似文献   

11.
文本过滤是指从大量的文本中寻找满足用户需求的文本的过程。以互联网上下载的突发事件新闻文本为研究背景,提出了基于新闻标题的文本过滤模型,根据示例文本构建标题过滤模板,采用基于关键字的过滤方法对突发事件新闻文本进行过滤。其特点是实现简单,过滤速度快,有一定的实际作用。  相似文献   

12.
基于KNN的不良文本过滤方法   总被引:3,自引:2,他引:1       下载免费PDF全文
不良文本过滤是当前的一个研究热点。通过对χ2统计量的具体分析,证明χ2统计量在2类文本特征项提取过程中特有的优势。提出正面文本阈值δ,并从理论上推断出该值的大小。在此基础上改进KNN算法,消除了KNN算法中N的不确定性,彻底实现了无参性,大幅减少了分类所用的时间。实验证明,该算法符合Web实时在线分类的要求。  相似文献   

13.
用户在互联网发布信息的自由性对Web信息内容过滤提出新的挑战。为此,给出一种自学习的两级内容过滤算法SAFE(self-study algorithm of filtering Chinese text content)。SAFE以数据流的方式处理文本,并根据Apriori性质,在不依赖词典的情况下,通过挖掘关键字和关键词实现对文档的两级内容过滤。利用真实世界Web文档验证了SAFE的有效性,实验表明对给定的主题进行文本内容过滤,SAFE的查全率达到93.75%以上,查准率达到100%,执行时间能够满足Web应用的实时性要求。  相似文献   

14.
基于领域本体的文本过滤模型   总被引:2,自引:0,他引:2  
目前广为应用的文本过滤技术是利用关键字检索,没有考虑概念之间的关联,因此其过滤性能在达到一定程度后,很难有突破.介绍了一种基于领域本体的文本过滤模型DOTFM,探讨了领域本体在文本过滤中的应用.DOTFM在文本向量的表示和用户模板建立中引入概念关联度,并提出局部型和全局型的文本向量和用户模板.实验结果表明,DOTFM的召回率比之传统的基于关键字的过滤模型有较大提高,而其准确率在合适的阀值时,也有较大提高.  相似文献   

15.
一种高性能的两类中文文本分类方法   总被引:35,自引:0,他引:35  
提出了一种高性能的两类中文文本分类方法.该方法采用两步分类策略:第1步以词性为动词、名词、形容词或副词的词语作为特征,以改进的互信息公式来选择特征,以朴素贝叶斯分类器进行分类.利用文本特征估算文本属于两种类型的测度X和Y,构造二维文本空间,将文本映射为二维空间中的一个点,将分类器看作是在二维空间中寻求一条分割直线.根据文本点到分割直线的距离将二维空间分为可靠和不可靠两部分,以此评估第1步分类结果,若第1步分类可靠,做出分类决策;否则进行第2步.第2步将文本看作由词性为动词或名词的词语构成的序列,以该序列中相邻两个词语构成的二元词语串作为特征,以改进互信息公式来选择特征,以朴素贝叶斯分类器进行分类.在由12600篇文本构成的数据集上运行的实验表明,两步文本分类方法达到了较高的分类性能,精确率、召回率和F1值分别为97.19%,93.94%和95.54%.  相似文献   

16.
网络直播的兴起,促使直播弹幕成为一种新型的交流方式。随之而来的还有各类非法弹幕。在识别非法弹幕方面,人工筛选过于低效,传统关键词过滤方法和统计机器学习方法识别率较低,且无法应对变异短文本。如何让机器更高效、更准确地识别非法弹幕以营造更好的网络环境是一个很有意义的问题。提出了基于文本卷积神经网络(TextCNN)的带噪非法短文本识别方法。通过对带噪短文本的预处理以及利用文本卷积神经网络挖掘字符间的相关特征,极大地提高了直播弹幕中非法短文本的识别率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号