首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 432 毫秒
1.
互联网的迅猛发展,越来越迫切地需要全面准确对网上信息进行分类及统计,Web挖掘技术的兴起,尤其是该技术中的文本挖掘,使这种统计成为可能。本文研究了互联网信息统计的现状,介绍了Web挖掘技术并分析了Web文本挖掘的关键技术。继而结合文本挖掘技术设计了网站分类系统的模型,同时对其开发步骤进行了说明。最后展望了此技术方案在相关领域的应用前景。  相似文献   

2.
本文主要讨论了聚类算法在Web文本挖掘中的应用研究情况.着重总结了Web文本挖掘的特点、一般过程和适用于Web文本聚类的算法条件,总结了当前的研究热点,并提出了Web文本聚类算法的发展方向.  相似文献   

3.
本文以Web挖掘为基础。首先,从定义、功能、过程3方面介绍了Web内容挖掘中的文本挖掘;其次,重点探讨了Web文本挖掘的两种重要功能——分类及其它们常用的算法,并分别对算法做了比较;最后,得出结论并进行了展望。  相似文献   

4.
本文主要讨论了聚类算法在Web文本挖掘中的应用研究情况。着重总结了Web文本挖掘的特点、一般过程和适用于Web文本聚类的算法条件,总结了当前的研究热点,并提出了Web文本聚类算法的发展方向。  相似文献   

5.
Web文本挖掘系统及聚类算法的研究   总被引:1,自引:0,他引:1  
唐菁 《电信建设》2004,(2):24-28
本文提出了一种新的Web文本挖掘系统总体结构模型DFSSM及文本聚类算法TLDFSSM,并结合电信行业应用背景实现了Web文本挖掘原型系统(WTMS).该系统能对具有不同价值的用户群特征进行文本聚类分析.最终实现客户的保持率和价值的提升.  相似文献   

6.
网络提供了海量的共享资源,人们需要从网络上搜索出自己感兴趣的信息,由此产生了Web挖掘的问题。Web挖掘就是借用数据挖掘技术来实现的。Web挖掘主要是文本信息的挖掘,本文主要研究了实现文本挖掘的层次凝聚类算法,对于传统的算法存在的问题,提出了改进的算法,研究了相似度值对整个算法过程的影响,设计了一个动态改变相似度值的计算公式。  相似文献   

7.
Web文本内容过滤方法的研究   总被引:7,自引:0,他引:7  
文章研究了Web文本内容过滤的方法,分析了向量空间模型、关键词匹配算法等关键技术.并详细讨论了Web网页中文本内容过滤方法的实现过程。重点分析了该方法中的修正值选取、关键词权重函数以及过虑策略等方面的不足,提出了一个改进的Web文本内容过滤方法,能够有效降低算法的复杂性,提高性能。  相似文献   

8.
李健  马力  武波 《现代电子技术》2004,27(23):10-11,14
研究了一种基于Web文本聚类的用户兴趣发现方法.他通过Web文档信息获取,文本的形式表示,以及Web文本聚类方法最终提取用户兴趣知识,并给出了一个设计模型。  相似文献   

9.
基于支持向量机的Web文本分类方法   总被引:15,自引:8,他引:7  
Web文本分类技术是数据挖掘中一个研究热点领域,而支持向量机又是一种高效的分类识别方法,在解决高维模式识别问题中表现出许多特有的优势。文章通过分析Web文本的特点,研究了向量空间模型(VSM)的分类方法和核函数的选取,在此基础上结合决策树方法提出了一种基于决策树支持向量机的Web文本分类模型。并给出具体的算法。通过实验测试表明,该方法训练数据规模大大减少,训练效率较高,同时具有较好的精确率(90.11%)和召回率(89.38%)。  相似文献   

10.
作为当前信息技术的研究热点,Web文本挖掘能够从储存有庞大信息量的Web网页中高效挖掘出具有潜在应用价值的信息、知识与数据,具有广阔的应用前景。本文对Web文本挖掘的方法进行了简单介绍,并对其应用展开了简要探究,以供同仁参考。  相似文献   

11.
Cyberbullying is a major problem in society, and the damage it causes is becoming increasingly significant. Previous studies on cyberbullying focused on detecting and classifying malicious comments. However, our study focuses on a substantive alternative to block malicious comments via identifying key offenders through the application of methods of text mining and social network analysis (SNA). Thus, we propose a practical method of identifying social network users who make high rates of insulting comments and analyzing their resultant influence on the community. We select the Korean online community of Daum Agora to validate our proposed method. We collect over 650,000 posts and comments via web crawling. By applying a text mining method, we calculate the Losada ratio, a ratio of positive-to-negative comments. We then propose a cyberbullying index and calculate it based on text mining. By applying the SNA method, we analyze relationships among users so as to ascertain the influence that the core users have on the community. We validate the proposed method of identifying key cyberbullies through a real-world application and evaluations. The proposed method has implications for managing online communities and reducing cyberbullying.  相似文献   

12.
Web挖掘的敏感信息过滤模型   总被引:1,自引:0,他引:1  
论文分析了敏感信息过滤的重要性和常见的信息过滤手段,提出了一种基于Web挖掘的敏感信息过滤模型。该模型的主要思想是:采用Web挖掘技术对页面文字与图像内容以及用户访问行为特征进行分析,采用在线与离线分析相结合、并行处理等技术建立综合过滤体系,为建设文明、健康的网络环境提供技术保障。  相似文献   

13.
A new method for text detection and recognition in natural scene images is presented in this paper. In the detection process, color, texture, and OCR statistic features are combined in a coarse-to-fine framework to discriminate texts from non-text patterns. In this approach, color feature is used to group text pixels into candidate text lines. Texture feature is used to capture the “dense intensity variance” property of text pattern. Statistic features from OCR (Optical Character Reader) results are employed to further reduce detection false alarms empirically. After the detection process, a restoration process is used. This process is based on plane-to-plane homography. It is carried out to refine the background plane of text when an affine transformation is detected on a located text and independent of camera parameters. Experimental results tested from a large dataset have demonstrated that the proposed method is effective and practical.  相似文献   

14.
随着互联网的飞速发展,互联网和人们日常的生活、工作、学习等各方面的结合越来越紧密,为使互联网更好的服务于用户(通过Web个性化服务等方式),首先需要了解用户使用互联网的规律性特点,基于Web日志的Web用户行为模式挖掘能解决此问题.目前,Web用户行为模式挖掘仍然是一个新兴的研究领域,其中包含若干需要解决的问题.针对这些问题,在该领域已开展了大量的研究工作.从模式挖掘合理性、模式挖掘结构体系、模式挖掘过程三个方面对Web用户行为模式挖掘中关键问题的研究现状进行了介绍:Web日志中包含了用户访问互联网的一些规律性特征,这些特征可通过Web用户行为模式挖掘的方法得到;为改进模式挖掘、应用的效果,可以采用改进的挖掘结构比如结合内容、结构挖掘的整合结构;Web用户行为模式挖掘过程分为数据预处理、模式挖掘、模式应用三个阶段,这是一个正在发展的研究领域.  相似文献   

15.
史玉珍  单冬红 《电信科学》2016,32(5):96-104
针对用户和查询之间的意图差距导致的查询模糊宽泛和数据稀疏问题,根据流行性和多样性返回可能子主题的排名列表,利用子主题选择与排序的分层结构进行Web 文本挖掘。首先,在名词性短语和可替代部分查询的基础上,使用简单模式提取各种相关的短语作为候选子主题;然后,使用网页文档集合中的相关文档构建候选子主题的三级层次结构;最后,综合考虑流行性和多样性,利用该结构和估计的流行度进行排序。实验使用了NTCIR-9库的100个日文查询和来自TREC 2009库的100个英文查询以及网络跟踪多样性任务,实验结果验证了本文方法可有效应用于各种搜索,对于高排名的子主题挖掘优于外部资源。  相似文献   

16.
具有文本生成功能的智能语音生成系统   总被引:1,自引:0,他引:1  
陈芳  袁保宗 《电子学报》1997,25(10):5-8
智能语音生成系统不仅研究通常的文语转换过程,而且研究文转转换所需文本的生成过程,本文将介绍具有文本生成功能的智能语音生成系统,该系统通过主题选择、文本规划、文本组织、语法实现、文本形成等步骤得到正确的文本,根据怕生成的文本和文语转换实现高自然度及可懂度的语音输出。  相似文献   

17.
方德坚 《电子世界》2013,(23):178-178,F0003
本文提出了基于文本分类的主观题自动评分模型。模型采用文本词性相似度和文本浅层相似度作为分类器的条件属性,在一定程度上提高了文本的语义理解。通过对已有文本的学习,使用考生分数作为分类类别构建决策树分类器。将待测文本输入决策树分类器从而实现答案的分类,即完成自动评分。通过与人工阅卷过程对比,验证了系统是有效可行的,符合人工阅卷的过程。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号