首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
信息过滤的模糊聚类模型   总被引:6,自引:2,他引:6  
针对Internet信息过滤问题,运用模糊聚类方法建立了一个用于信息过滤的聚类模型。该模型不仅考虑了文档间的语义联系,而且,又对文档集进行了进一步的分类,增强了类内的耦和性,减少了类间的关联性。最后,给出了一个模糊聚类算法。  相似文献   

2.
使用KNN(K Nearest Neighbor)分类算法进行不良文本信息过滤时,由于包含不良信息的样本不易获取,导致分类器预测结果严重倾向于多数类。为改善少数类过滤效果,从数据层的角度改进了传统的KNN算法:先将少数类样本聚类分组,再在每个聚类内部使用遗传交叉生成新样本,并验证其有效性,最终获取到各类别样本数量基本均衡的训练样本集合并训练KNN分类器。实验结果表明,本文的方法可有效识别不良文本。此方法同时适用于其他关注少数类分类精度的不均衡数据集分类问题。  相似文献   

3.
因特网文本智能挖掘的模糊聚类算法研究   总被引:3,自引:3,他引:0  
随着Internet的深入发展及普及应用,网络中可获取的大部分文本信息由来自各种数据源的文档组成.由于电子形式的文本信息飞速增涨,可以获知的文本信息已成海量之势,文本挖掘已经成为信息领域的研究热点,快速得到目标文本成为互联网发展的瓶颈.在动态聚类方法和基于特征属性分类法的基础上提出基于混合模糊聚类理论的文本数据分类系统新模型,在模型基础上探究了一种模糊聚类仿真算法,通过实验验证算法能有效提高文本分类效率及文本分类准确率,从而在实际网络文本挖掘应用中快速得到目标文本,实现因特网文本智能挖掘.  相似文献   

4.
在基于遗传算法的信息过滤系统中引入模糊聚类思想,对种群中的每个个体进行模糊相似矩阵直接聚类,然后根据聚类的结果采用所提出的适应度函数来评估种群的适应度,通过迭代训练得出更准确的用户兴趣模板,从而提高了信息过滤的准确率。并且将该方法应用到了所设计的网络信息过滤系统中,进行了验证。  相似文献   

5.
随着用户对推荐的准确性和实时性需求的不断提高,从海量用户历史数据中挖掘出用户需要的准确信息是一个极有价值的研究方向.基于模糊聚类的协同过滤算法首先要解决数据稀疏问题,对原始的用户评分数据进行预处理,采用SMOTE过采样技术填充数据有效解决了数据稀疏问题;然后利用模糊聚类实现评分数据的分类,结合艾宾浩斯遗忘曲线,将用户评价的时间戳作为因子对聚类后的数据进行评分预测,以此改善用户爱好随时间变化对推荐效果的影响,解决实时性问题.在M ovieLens-100k数据集上的实验结果表明,伴随时间的模糊协同过滤推荐可以明显提高推荐算法的准确性.  相似文献   

6.
基于模糊聚类的协同过滤推荐方法   总被引:9,自引:0,他引:9  
推荐系统是利用用户的历史偏好信息实现个性化服务的系统,它已经成为电子商务和信息获取领域中的重要应用。文中提出了一种通过模糊聚类的方法将项目属性特征的相似性与基于项目的协同过滤推荐技术相结合的推荐方法,首先应用模糊聚类技术对项目聚类,得到项目在属性特征上的相似关系群,然后与用户一项目评分矩阵中的协同相似关系群组合得到综合相似关系群,最后,利用综合相似关系群为目标用户推荐项目。实验结果表明,该方法不仅可有效改善基于项目的协同过滤推荐算法面临的“冷启动”问题,而且确实提高了推荐系统的推荐精度。  相似文献   

7.
基于用户模糊聚类的协同过滤推荐研究   总被引:1,自引:1,他引:0  
李华  张宇  孙俊华 《计算机科学》2012,39(12):83-86
传统的协同过滤算法没有考虑用户的自身信息对评分的影响,存在的数据稀疏性、扩展性差等弊端直接影响了推荐系统的推荐质量。对此提出了一种基于用户情景模糊聚类的协同过滤推荐算法。首先根据用户情景信息利用模糊聚类算法得到情景相似的用户群分类,然后在进行协同过滤前预先通过Slope One算法填充用户一项目评分矩阵,以有效改善数据稀疏性和实时性。实验结果表明,改进后的算法在推荐精度上有较大提高。  相似文献   

8.
原媛  孙敏 《电脑开发与应用》2007,20(10):19-21,24
针对传统包过滤防火墙解决不了的基于内容的网络攻击,提出了一个基于Windows系统下的文本过滤防火墙的设计,包括三部分:数据采集模块;文本内容分析模块;过滤控制模块。其中文本内容分析模块是核心,首先采用CLARA聚类方法从海量的网页中选取对分类最具有代表性页的网页作为训练集,然后再利用KNN文本分类算法实现分类过程。实验结果证明:这种方法应用在防火墙上比单纯地用KNN算法在准确率与召回率上均有提高,在性能方面可以接受。  相似文献   

9.
由于已有集成模型分类过滤能力较差,因此提出一种基于大数据的数字化系统一体化调度信息集成模型。通过小波多窗谱特征提取数字化系统一体化调度信息并进行预处理。在二维空间中对最近邻点进行模糊搜索,获取数字化系统一体化调度信息模糊聚类中心,对信息聚类目标函数进行优化,完成调度信息分类过滤。结合大数据技术对调度信息结构层次进行分析,构建调度信息集成模型。实验结果表明,所提模型不仅能够提升调度信息分类过滤能力,同时还能够加强集成效率和容错性。  相似文献   

10.
推荐系统中,随着用户数目和商品数目的日益增加,传统的协同过滤技术在生成推荐时的速度已经成为一种瓶颈。针对此问题,本文提出了一种基于用户模糊聚类的两阶段协同过滤推荐。两阶段分为离线和在线两个阶段。离线时,应用模糊聚类技术,对基本用户进行模糊聚类;在线时,利用已有的用户模糊聚类寻找目标用户的最近邻居,并产生推荐。实验表明,基于用户模糊聚类的两阶段协同过滤推荐不仅加快了推荐生成速度,还提高了推荐质量。  相似文献   

11.
信息过滤中基于二元近似关系分布的噪声屏蔽算法   总被引:3,自引:0,他引:3  
洪宇  张宇  郑伟  刘挺  李生 《软件学报》2008,19(11):2887-2898
针对信息过滤反馈中充斥噪声的缺陷,提出一种基于二元近似关系分布(distribution of two-dimension similarity,简称DTS)的过滤策略.DTS根据噪声和用户模型的相悖关系,为信息流建立二元近似关系模型.同时,根据信息在二维近似关系空间中的分布,采用基于LMS(least mean square)分类器的AdaBoost算法建立噪声和相关信息的分类曲线,从而辅助信息过滤系统识别和屏蔽反馈中的噪声.通过实验验证,该算法显著提高了过滤系统屏蔽噪声的能力.  相似文献   

12.
中文文本过滤的信息分流机制   总被引:17,自引:2,他引:15  
在文本过滤中信息分流是提高过滤效率的有力的手段,为此,提出了一种新的中文文本过滤的信息分流机制.其基本思路是在概念扩充基础上,将不同用户的信息需求组织为树状结构,使其共同的部分成为共享分支,依据提出的侧面相似度和侧面匹配率来实现文本与模板的定量匹配,减弱传统的布尔模型对文本与模板匹配的严格限制,也弥补向量空间模型单纯数量化的不足,更加全面地反映用户的信息需求,试验表明该机制能够明显地提高过滤效率。  相似文献   

13.
为了避免彩色图像滤波时排序的难题,在探究矢量相似性的基础上提出一种针对彩色图像的多元滤波方法。首先,在RGB彩色空间中,利用彩色矢量间距离和角度定义其相似性测度,以刻画与人类视觉感知相一致的彩色相似性;其次,以上述彩色相似性为准则设计并构建一种彩色多元滤波方法,并就其相关参数对滤波性能的影响进行了深入分析和研究;最后,为了验证提出方法的有效性,将其应用于标准彩色影像和彩色遥感影像滤波。提出的方法不仅有效解决了传统滤波方法的排序难题,而且克服了因滤波使图像模糊、边缘不清等问题;另外,将提出的多元滤波与传统方法进行实验对比,结果表明其不仅能有效滤除多种类型噪声,而且较好地保持了原始图像信息,使图像信息保真清晰,其视觉效果优于传统,客观评价指标也有较大幅度的改善和提升。  相似文献   

14.
过滤模板的生成是网络信息过滤中一个至关重要的问题。针对模板生成中的非线性特征,借鉴遗传算法可以在全局范围内寻找最优解的特性,引入遗传算法解决文本信息过滤问题,并应用基于集合论的方法证明其理论可行性。在实际应用中,应用遗传算法生成模板进行了文本分类和文本过滤试验,并根据应用过程中存在的问题提出了遗传算子的自适应策略。理论证明以及实验结果都表明,该方法具有可行性,能够在信息过滤中取得较好的结果。  相似文献   

15.
文本过滤是指从大量的文本中寻找满足用户需求的文本的过程。以互联网上下载的突发事件新闻文本为研究背景,提出了基于新闻标题的文本过滤模型,根据示例文本构建标题过滤模板,采用基于关键字的过滤方法对突发事件新闻文本进行过滤。其特点是实现简单,过滤速度快,有一定的实际作用。  相似文献   

16.
协同过滤算法是经典的个性化推荐算法,其中相似度度量方法直接影响推荐系统的准确率。针对用户评分极端稀疏情况下传统相似度度量方法均存在各自的弊端,导致推荐系统的推荐精度不高问题,提出了一种基于互信息的项目协同过滤推荐算法。该算法将互信息作为相似度度量方法,不仅考虑了变量之间的线性或非线性相关性,而且还能挖掘变量之间的相关性强弱。另外,由于共同评分的项目用户数很少,在互信息方法基础上引入了一个平滑系数因子,来缓解共同评分过少项目之间相似性度量不准确问题。最后,在公开的MovieLens、Jester两个数据集上进行了大量对比实验。实验结果表明,新算法能在一定程度上提高推荐系统的预测准确率,并能缓解数据稀疏性问题。  相似文献   

17.
一种不良信息过滤的文本预处理方法研究   总被引:1,自引:0,他引:1  
目前互联网上含有不良内容的文本信息形式多变,本文主要针对不良内容的敏感信息出现的特征变化,提出一种基于文本内容的不良信息过滤的文本预处理方案,并着重探讨了其结构变化的敏感信息的识别及解决的方法。研究表明在文本的分词处理前,对不良信息形式的变化进行预处理,能够提高过滤的效率。  相似文献   

18.
The State of the Art in Text Filtering   总被引:1,自引:0,他引:1  
This paper develops a conceptual framework for text filtering practice and research, and reviews present practice in the field. Text filtering is an information seeking process in which documents are selected from a dynamic text stream to satisfy a relatively stable and specific information need. A model of the information seeking process is introduced and specialized to define text filtering. The historical development of text filtering is then reviewed and case studies of recent work are used to highlight important design characteristics of modern text filtering systems. User modeling techniques drawn from information retrieval, recommender systems, machine learning and other fields are described. The paper concludes with observations on the present state of the art and implications for future research on text filtering. This revised version was published online in July 2006 with corrections to the Cover Date.  相似文献   

19.
基于语义空间的支持向量机的文本过滤   总被引:2,自引:0,他引:2  
传统的基于支持向量机的文本过滤,用向量空间模型来表示文本和用户模板,向量空间模型假设特征项之间是线性无关的,该假设引入了许多因具体用词变化不定而带来的词汇噪音信息,影响了基于支持向量机的文本过滤的过滤性能。提出基于语义空间的支持向量机的文本过滤,用语义来表示文本和用户模板。该方法主要通过奇异值分解提取文本的潜在语义空间,在语义空间上训练支持向量机得到用户模板和过滤阈值,文本流上的文本映射到语义空间上,在语义空间上计算用户模板和新文本的相似度。实验表明:该方法的过滤性能可以达到 98. 67%。  相似文献   

20.
场景文字包含了重要的场景图像的语义信息。因此将场景图像中出现的文字抽取出来,将会对场景图像的内容分析、检索和浏览提供有益的帮助。提出的场景文字提取方法,是在边缘检测的基础上,使用分层块过滤的方法在不同尺度上过滤背景,产生场景文字区域,然后对聚合出来的文字区域根据笔划颜色和笔划宽度方面的特征进行二值化分割得到二值化文字图像,这些二值化后的文字区域图像可以作为OCR引擎的输入进行识别,从而达到提取场景图像语义信息的目的。分层块过滤的方法能较好地过滤背景聚合产生文字区域,利用文字的笔划特征也能有效地分割出文字笔划像素。实验结果也证明了方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号